PR

 「アレクサ、リビングの電気を消して」。こんな具合に自宅で声を発すれば、AI(人工知能)スピーカーを通じて家電や住宅設備を操作できる。声による操作なら数秒で済む。リモコンを探したり、スマートフォンを手にしてアプリを立ち上げたりするよりも断然早い。

 この利便性こそが、AIスピーカーがIoT住宅をけん引する、本命のユーザーインタフェースとして注目される最大の理由である。

 声による操作は、先端技術によって実現されている。AIスピーカーというハードウエアに組み込まれた機能は全体のごく一部。大半の機能はクラウド上にある。

 今回は米アマゾン・ドット・コムのAIスピーカー「Amazon Echo」を例に取り、声で家電を操作するというシナリオに基づいて、その流れを解説する。

マイクを7個搭載して、利用者の声だけを抽出する

 家電の操作に入る前に、まずはEchoの基本的な仕組みを説明しよう。

Alexaの機能の構成
Alexaの機能の構成
[画像のクリックで拡大表示]

 Echoの基本的なソフトウエア構成は大きく三つに分けられる。Echo端末の組み込みソフト、アマゾンのIT基盤にあるAIの心臓部「Alexa」、クラウドサービスであるAWS(Amazon Web Services)上で動作する「Alexaスキル(Echo用アプリケーション本体)」である。

 Echo端末の組み込みソフトは、起動命令検知や音声抽出を行う。起動命令検知とは、Echoが声の聞き取りを開始するウェイクワードを認識することだ。初期設定のウェイクワードは「アレクサ」。利用者は「エコー」「アマゾン」「コンピュータ」にもワードを変更できる。

 Echo端末は常に音声を拾うが、ウェイクワードを検知しない限り、何もしない。ウェイクワードを検知して初めて、アマゾンのIT基盤にあるAlexaに音声データを送り始める。

 Alexaに音声データを送るため、Echo端末の組み込みソフトは音声抽出を行う。Echo端末に内蔵された七つのマイクで拾った音を重ね合わせ、利用者の声だけを抽出する。そのために、利用者の方向にあるマイクの感度を上げる(ビームフォーミング)、周囲の雑音を消す(ノイズキャンセル)、Echo端末が発した音を消す(エコーキャンセル)といった処理をする。そうして抽出した音声を、Echo端末はAIの心臓部であるAlexaに送る。

 AIスピーカーに詳しい、TISの小西啓介 サービス事業統括本部 AIサービス事業部 AIサービス企画開発部上級主任は「マイクを複数搭載して利用者の声を抽出できるという点で、AIスピーカーはスマートフォンより優れている」と話す。利用者の声を聞くという性能が高い端末ということになる。

AIの心臓部Alexa

 アマゾンのIT基盤上で稼働するAlexaは、音声-テキスト変換(Echo端末からの入力用)、意図解釈、テキスト-音声変換(Echo端末への出力用)という機能を持つ。

 このうち意図解釈とは、利用者が発した声のテキストを単語レベルでバラバラにする(形態素解析)などをしたうえで、命令内容を認識することを指す。後続処理で、認識した命令内容に基づき、該当するアプリケーションを呼び出す。例えば「小川の音を流す」という命令内容であれば、Echoのスピーカーで小川の音を再生させるアプリケーションを起動させて、処理を実行する。