ソフトを開発しようと思った動機、背景
PDFやOfficeなどの文書が日々、多くの人に利用されています。PDFファイルは自由自在に編集できないため、使い勝手がよいとはいえません。でも、Officeやテキストなどの文書は簡単に編集できます。PDFからWord、Excel、PPTなどの形式に変換するソフトがあれば、PDFの中身をWordやExcelで編集できるようになります。また、スキャナで作成したPDFは簡単に変換できないため、OCR(光学文字認識)機能も必要されると思い、追加しました。開発中苦労した点
PDF内の書式はOffice文書の書式とは全然違うので、変換する際は、まずPDF内の書式を変換する必要があります。特に文書に図形、文字、表などが混在する場合、これらの要素をどのように処理したら正しく変換できるのかは非常に困難で、苦労しました。さらに、OCR機能での精度の高い文字認識の実現も容易ではありません。デジタル画像やスキャンしたPDFは品質が異なるため、より多くのテキストを識別できるようにするには、OCRのパラメータを調整し続けなければなりませんでした。
お勧めのご利用方法
OCR機能を利用して、書類をPDF化する際、位置ずれのスキャンや回転してからのスキャンを避けてください。文字認識の精度に影響します。
今後のバージョンアップ予定
今後はより多くの文書レイアウトを維持できるように機能アップを図り、繁体字と日本語への識別精度向上を目指してゆきます。なるべく書類のレイアウトを保つとともに、変換精度を保証できるように努めます。
((株)レニーラボラトリソフトウェア)