全3930文字

 データの規模がモデルの性能を決めると前編で述べた。だが、莫大なデータを集めるのは非常に困難である。100時間程度までであれば、研究開発費を投じて何とか収集できた。1時間のデータの収集・書き起こしに要するコストはおおむね数万~十万円ほどで、数百時間では1000万円規模になり、それ以上データを増やそうとすればコストの点で現実的ではなくなる。ビッグデータと呼ばれる規模のデータを集めるには、この単純な枠組みでは難しい。

 もう1つの問題は、人為的に被験者を集めて収集したデータが、実際のユーザーの発話する音声と必ずしも合致しないという点である。話者の年齢や地域のバランスを取って読み上げ音声を収録する目的であればこの方法でいいが、話し言葉を対象にする場合には必ずしも適さない。

 このため、現実の発話データを自然かつ大規模に集積できる枠組みが必要になる。実際、米グーグル(Google)や米ニュアンス・コミュニケーションズ(Nuance Communications)などは既にそのような仕組みを持っている。音声検索などのアプリケーションを無償で提供して世界中の人々に利用してもらい、そのデータをクラウド上のサーバーに蓄積するといった方法である。

 スマートフォンなど携帯端末向けの音声認識システムでは端末の処理能力が低いため、そのままでは大規模なモデルや処理の重い認識エンジンは使えない。上記の方法では、音声データをサーバーに送り、サーバーで認識処理を実行することで、この問題を解決している(図1)。これを可能にしたのは携帯電話網の広帯域化・高速化で、音声をほぼ圧縮せずにパケット送信できるようになったことが大きく寄与した。

図1 携帯端末用クラウドサーバー型音声認識の仕組み
図1 携帯端末用クラウドサーバー型音声認識の仕組み
(作成:筆者)
[画像のクリックで拡大表示]

 携帯端末によるデータ収集の大きな利点は、リアルなユーザーの音声データを、大規模に集積できることである。日本でもNTTドコモの音声対話サービス「しゃべってコンシェル」は、対応アプリのダウンロード数が数百万規模であり、数億もの発話が集積されているとみられる。