日本語認識エンジンを強化し、全体的な認識精度を向上させた“定番”OCRソフト「e.Typist」の新バージョン。「e.Typist」は、印刷物や手描きの文書から文字を読み取って、デジタルデータ化できるOCR(光学文字読み取り)ソフト。多段組みや表組み、図版入りの文書などを正しく認識するための豊富なオプションに加え、誤認識を解析して正しいと思われる候補を表示してくれるなど、文字認識を効率化するためのさまざまな機能を搭載。文書の内容に適した使い方を簡単にマスターできるよう、8種類のサンプル文書によるトレーニング機能も用意されている。新バージョン「13.0」では、認識エンジンが強化されたほか、画像補整機能の強化、高圧縮透明テキスト付きPDFファイル出力機能の追加なども行われた。認識結果のMicrosoft Office 2010への転送にも対応した。
読み取り用文書は、既存の画像ファイルを利用できるほか、スキャナやデジタルカメラ、リムーバブルメディアから読み込んだり、「e.Typist」自身が持つスクリーンキャプチャ機能を利用して、取り込んだりすることが可能。認識作業は、(1)レイアウトの指定→(2)文字の認識→(3)テキストデータの保存という流れで進めてゆく。メイン画面のツールバーには「レイアウト」「認識」「保存」の大きなボタンが配置され、ユーザはこの順番に従って操作してゆけばよい。
認識精度を向上させるため、「レイアウト」の段階では文書の種類を「文章領域」「表領域」「図領域」「文章+図領域」から選択・指定できるようになっている(そのほかに「自動判定」もある)。対象言語を「日本語」「英語」「日本語(欧文混在)」などで指定したり、段組や縦書き/横書きなどを指定したりすることも可能。画像を修整することもでき、傾きの修整やごみの除去、ゆがみ補正や手ぶれ/ピンボケの補整などを行える。
「レイアウト」指定の完了後、「認識」を実行して実際に文字の読み取りを行う。「認識」が終わると、読み取られたテキストが表示され、正しく認識できているかを目視で確認できる。解析機能を利用して、誤認識の可能性がある部分をチェックしたり、コンテキスト(右クリック)メニューからその他の文字候補を選択できたりなど、修正作業を効率化するための機能が揃っている(テキストエディタやワープロ同様の文字列検索・置換機能もある)。
認識された文字は、テキストファイルのほか、Wordや一太郎、RTFなどの文書形式、Excel/PowerPoint/HTML/PDF形式など、さまざまな形式で保存することが可能。Word/Excel/PowerPointなどのインストール済みアプリケーションを起動して直接、文書を開ける「ワンタッチ転送」ボタンも用意されている。「ワンタッチ転送」では、テキスト情報のみを転送するか、レイアウトを保ったまま転送するかを選ぶことも可能だ。
そのほかにも、
- 取り込んだ画像ファイルの保存
- 画像とテキストをセットにしたOCR作業ファイルとしての保存
- 文字パターンの学習
- 読み込みから認識結果の保存までを自動で行う「連続自動処理」