PR

 「今日は雨が降りますか」「明日11時に斎藤さんと会議」「ここから渋谷駅に行きたい」。言葉で用件を伝えると、あたかも秘書か執事のように質問に回答し、入力の作業を自動的にこなしてくれる。まるでSF小説のような「言葉で命令するコンピューター」が、現実のものとして登場した。スマートフォンが搭載し始めた音声エージェント機能である。

 米アップルは2011年10月、iPhone 4S向けに音声エージェント機能「Siri(シリ)」を発表。当初は海外のみで提供していたが、2012年3月からは日本語にも対応した。また、NTTドコモは2012年2月にAndroid端末向け無料アプリ「しゃべってコンシェル」を発表した。

 いずれもユーザーの声をネット上のサーバーに送信し、サーバー上で高精度に言葉を解析。ユーザーが必要とする情報をスマートフォンに戻して通知するという仕組みになっている(図1)。

●サーバーで音声を解析して適切な情報を表示
図1 ユーザーがスマートフォンに音声で話しかけると、音声データをサーバーに送って音声の内容を解析。スマホの画面上に適切な情報を表示する
図1 ユーザーがスマートフォンに音声で話しかけると、音声データをサーバーに送って音声の内容を解析。スマホの画面上に適切な情報を表示する
[画像のクリックで拡大表示]

 実は、従来からユーザーの声をサーバー経由で認識してテキスト変換する機能は提供されており、Web検索などで利用されていた。音声エージェント機能のポイントは「ユーザーが話した言葉の内容から、求めている情報を解釈すること」(NTTドコモの先進技術研究所コミュニケーションメディア研究グループの飯塚真也氏)。例えば「今日は傘が必要ですか」と聞くとユーザーが天気情報を求めていると解釈し、予報の画面を表示するといった具合。音声エージェントは人間のような柔軟性を持ち、的確な受け答えをし
てくれるというわけだ。

音声を発して案内

 使い方はとても簡単。Siriの場合は、iPhone 4Sの下部にあるボタンを長押しする。すると画面の下部にマイクのボタンが現れるので、その状態で用件を話す。しばらく待つと、音声によるガイドが流れ、画面には結果が表示される。しゃべってコンシェルでも利用方法はほぼ同じ。アプリを起動して、マイクのボタンを押して話せば結果が現れる。マナーモードをオフにすれば音声のガイドもしてくれる(図2)。いずれも音声認識の精度は高く、はっきりした発音で話すように心がければ、問題なく認識してくれる。ただ、ネットに接続できない状態ではサービスを利用できないので注意が必要だ。

●スマホに向かって話しかけるだけで簡単に使える
図2 利用方法は簡単で、音声エージェントの機能を起動した状態で、スマートフォンに向かって用件を話すだけ。図は「明日の天気は?」と天気の情報を問い合わせた例。音声で質問してから数秒待つと画面に結果が現れる
図2 利用方法は簡単で、音声エージェントの機能を起動した状態で、スマートフォンに向かって用件を話すだけ。図は「明日の天気は?」と天気の情報を問い合わせた例。音声で質問してから数秒待つと画面に結果が現れる
[画像のクリックで拡大表示]

 スマートフォンを顔の前に持ってきて用件を話す際、周囲に人がいると気恥ずかしく感じることがある。そうした場合には、あたかも電話で話をするように端末を耳に当てた状態で用件を伝える方法もある。本体を耳に当てた後、チャイム音や振動を合図として用件を話す。Siri、しゃべってコンシェルともに、この機能を使うには設定画面で耳当て機能をオンにしておく必要がある。