全4169文字

 今回は、ユーザーの発話の内容を理解して適切に応答する音声対話システムを取り上げる。ここでは、音声で発したコマンドで機器を操作する「コマンド&コントロール」や、音声検索のように認識結果を検索エンジンにそのまま渡すだけのシステムは、音声対話システムとは呼ばない。

 音声対話システムの典型例は米アップル(Apple)の「Siri」やNTTドコモの「しゃべってコンシェル」などである。ここに至るまでには非常に多くの研究があった。まずはその歴史を紹介する。

 図1は音声対話システムの研究の歴史をまとめたものである。現在の対話システムには2つの源流がある。「ELIZA(イライザ)」と「SHRDLU(シャードルー)」だ。共に50年ほど前に作られた非常に有名なシステムであるが、全く対極的なアプローチを採っていた。ELIZAは入力文から特徴的な単語を検出し、表層的なパターンマッチングによって反応を返す。基本的には発話内容の理解はせずに、どんな入力にも何らかの応答をする。これに対してSHRDLUは人工知能的なアプローチにより、発話の内容を深く理解した上で、きちんと返答しようとする。

図1●音声対話システムの歴史
図1●音声対話システムの歴史
実線の矢印は技術の継承関係(部分的な場合を含む)を示す。点線の矢印は、影響を及ぼしたとみられることを表している。(作成:筆者)
[画像のクリックで拡大表示]