PR

音声インタフェースの可能性を拓いた「Amazon Echo」

 チャットボットへの流れを作ったもう一つの成功は、米アマゾンが2015年6月に一般販売を始めた音声アシスタント内蔵スピーカー「Amazon Echo」だ。「Hey, Alexa」と語りかけて命令すれば、音楽の再生からピザの注文までこなせる。米アマゾンのジェフ・ベソスは2016年5月31日、Echoおよび音声認識ソフト「Alexa」の開発に1000人以上の従業員が関わっていることを明らかにした。

 Amazon Echoは、家庭における音声インタフェースの可能性を見せつけた。音声インタフェースをめぐっては「スマホやPCといった無機物に話しかけるのは、やはり抵抗が大きい」「人型のロボットなら、少しは話しかけやすいのでは…」といった議論がなされていたが、実際には黒いモノリスのごときAmazon Echoを米国の消費者は受け入れ、抵抗感なく語りかけている。

 米グーグルが2016年5月18日に発表した「Google Home」は、明らかにAmazon Echoを模倣だった。マイクロソフトが「Windows 10」の半強制アップデートに乗り出したのも、同社の音声認識アシスタント「Cortana」の普及を最優先したため、かもしれない。

チャットボットは期待と現実に大きなギャップ

 企業とユーザーの接点になる次世代インタフェースとして、急速に期待が高まるチャットボット。

 だが、実際の自然言語処理の研究が、この期待に見合った進歩を遂げているとは言いがたい(図1)。Memory Networksのような要素技術も、少なくともデモや論文を見る限り、まだ単純な課題(トイタスク)しかこなせていない。

(出所:日経コンピュータ2016年4月28日号)
(出所:日経コンピュータ2016年4月28日号)
[画像のクリックで拡大表示]

 2013年ごろに始まった第3次AIブームの牽引役であるディープラーニング(多層のニューラルネットワークによる機械学習)は、画像中の物体認識や音声認識で絶大な威力を発揮した。

 その一方、自然言語の分野では、ディープラーニングはいくつかの成果を挙げ、潜在力の高さを示してはいるが、ブレークスルーと呼ぶほどの成果には至っていない。

 これは、画像や音声といった特徴量の抽出が難しいタスクと異なり、自然言語では既に「単語」という形で特徴量の抽出が済んでおり、ディープラーニングが活躍できる余地が狭いためだ。

 人間の脳の神経細胞が言語を扱えている以上、神経細胞と似た構造を持つ多層ニューラルネットで扱えない理由はないが、現状では「ELIZA」以来の50年の蓄積を打ち破るほどには至っていない。