人が話す言葉をコンピュータが直接認識できる──SF映画やアニメの世界ではごく当たり前に使われているのが音声認識技術だ。現実の世界においても、最近になってようやく実用的になってきた。例えば、iPhoneなどで使われる音声認識機能「Siri」や、AndroidスマートフォンなどではGoogleの音声認識検索、さらにはNTTドコモの「しゃべってコンシェル」など、音声認識技術が使われる範囲は、短期間の間にかなり広がってきているといってよい。「Voice Rep Pro」も、こうした音声認識を応用した製品だが、その核ともいえる音声認識エンジンは、Googleが提供するものを採用しているとのこと。音声認識を行うたびに、音声データをGoogleのサーバに送信し、その認識結果を受けて、ワープロとして動作するという原理だそうだ。このため、認識作業実行時にはインターネット接続が必須となるが、そのおかげといえるのかどうか、「Voice Rep Pro」の認識精度は、使う前に想像していたよりはかなり高かった。
もちろんこれには、録音された音声の音質や話者の癖なども影響するだろう。いくつか試みた感じでは、マイクからの音声認識で音量に気をつけてやると、あとからの修正はほとんど必要としないほどだった。つまり「条件のよい音声データであれば、日本語の自然言語の音声認識もまんざらではないな」と思わせるほどの結果が得られる。「特定話者」が長時間にわたる事前の「学習」を行わせなければ、そもそも基本的な単語の認識さえできなかった数年前の状況から考えると、十分に実用圏だ。
会話文をデータとして記録する、いわゆる「文字起こし」作業は、キーボード操作に熟練した人に限っていえば、普通に話す程度の速度に追いつくことが可能だという。しかし、誰しもそれほどのタイピング速度を習得しているわけではないし、長時間のキーボード操作では疲れも出る。そう考えると、仮にあとからの編集が欠かせないとしても、話すだけでそれなりに実用的なテキストデータが得られるのはうれしい。大量の文章を入力する必要があるのなら、まずは試してみていただきたいソフトだ。
(天野 司)