多言語向けのTesseract Open Source OCR EngineをフレームワークとするフリーのOCRツール
TessOCRの概略仕様
認識可能な言語:日本語,英語,仏語など。文字認識辞書の追加で対応。
レイアウトの認識:横組み・縦組みを自動検出。表組みは内容のみ。
認識可能な画像データの形式:JPEG,PNG,GIF,BMP,TIFF,PDF。
認識可能な画像の寸法:とくに制限はない。
認識可能な文字の寸法:(調査中)
画像上のノイズ(ゴミ)の除去:手動。
画像の傾きの補正:手動。
画像のトリミング:手動。見開きページの指定が可能。
画像の閾値による二値化:手動。
文字認識辞書の学習:半自動。ボックス編集が可能。
テキスト・エディター:テキストの入力・編集・保存。文字列の検索・置換,異体字の検索が可能。