全2479文字
PR

 機器連携を軸にしてスマートスピーカー分野で攻勢をかける米Apple(アップル)。同分野でシェアトップの米Amazon.com(アマゾン・ドット・コム)は、音声対話機能「Alexa(アレクサ)」に磨きをかけて、はねのけられるか。

20年9月発表の新しいEcho
20年9月発表の新しいEcho
(出所:Amazon.com)
[画像のクリックで拡大表示]

 20年10月に発売したスマートスピーカー「Amazon Echo」は、AI処理(機械学習の推論処理)を向上させるために、「AZ1 Neural Edge processor」(以下、AZ1)と呼ぶ独自プロセッサーを新しく搭載した。このプロセッサーによって、Alexaの応答にかかる時間を短縮したという。AZ1は台湾MediaTek(メディアテック)との共同開発品で、同社はこれまで、Echoシリーズにプロセッサー製品を納入した実績がある。従来は標準品だったが、今回、Amazonの要望を存分に反映したカスタム品にした。

独自プロセッサーを搭載
独自プロセッサーを搭載
(出所:Amazon.com)
[画像のクリックで拡大表示]

 Alexaの進化は応答時間の短縮にとどまらない。人の会話になるべく自然な形で参加したり、人の指示内容から学習したりと、大幅な機能向上を図った。前者の機能を「ナチュラルターンテーキング」と呼ぶ。例えば、友人と2人で話している最中に、「Alexa Join the conversation(アレクサ、会話に参加して)」と発声すると、Alexaが会話に加わる。いったん会話に入った後は、「アレクサ」と呼びかける必要はなく、Alexaへの指示であることを自動で理解する。

 20年9月に実施したオンライン発表会では、会話していた2人が宅配ピザを頼むとき、Alexaが会話に参加し、どんな種類のピザやサイズなどがあるかを質問しながら注文したり、注文内容を訂正したりする様子を見せた。続けて映画を視聴するために、Alexaに推薦する映画をたずね、Alexaが提案してきた映画の評価を質問したり、トレーラー映像の再生を依頼したりした。

ナチュラルターンテーキング機能のデモの様子。テーブルの左側にある白色の物体が、Alexa対応の機器である
ナチュラルターンテーキング機能のデモの様子。テーブルの左側にある白色の物体が、Alexa対応の機器である
(出所:Amazon.com)
[画像のクリックで拡大表示]

 ナチュラルターンテーキング機能では、Alexaは話者が誰かを明確に認識していないという。会話内で出てくる「要望」をくみ取ることが目的だからである。家族のような4~6人ほどが参加する小規模な会話であれば、話者を特定することなく、その会話を通じて、食べたい料理や見たい映画、聴きたい音楽などを推定できるという。

 Alexaとの自然な会話を実現するために、カメラと組み合わせる構想もある。例えば、話し手がカメラ越しにAlexa対応機器を向いていると検知できれば、Alexaに話しかけていると明確に分かる。Echoシリーズのうちカメラ機能を備えた品種では、音声と画像の統合認識処理が可能になるだろう。Amazonは、この統合処理と推論処理の高速化などのために、AZ1を開発・搭載したという。Alexaの音声認識や自然言語理解などの研究開発を統括するRohit Prasad氏(Amazon Alexa, VP & Head Scientist)によれば、具体的な製品を明かさないものの、AZ1のような専用半導体を今後さまざまな機器に搭載する可能性が高いとみている。