PR
音声認識を分散処理する
音声認識を分散処理する
[画像のクリックで拡大表示]
サーバ側で処理中の端末画面
サーバ側で処理中の端末画面
[画像のクリックで拡大表示]

 KDDIと沖縄セルラーは,音声認識機能「声 de 入力」を使った歩行者ナビゲーション・サービスを2006年2月上旬から始める(発表資料)。従来は,電話機の数字・記号などのテンキーを使っていた入力操作を,音声入力に置き換えたものだ。当初の対応端末は,2006年1月12日に発表した3機種だが,今後発売するほとんどの端末で利用できるようにする。

 声de入力はKDDI研究所が開発した音声認識技術を応用したもので,端末とサーバが協調して音声を認識処理する。具体的には,端末側で音声の特徴情報を抽出し,遠隔地のサーバ側が音声の認識および該当する単語を検索する。端末とサーバ間の通信は,回線交換ではなくパケット通信を利用する。

 音声処理などで生じがちな誤認識への対策として,認識開始前に周辺雑音を測定し,利用環境に応じた音響分析処理する工夫を施した。さらに,誤認識結果である可能性がある場合に「周囲の雑音が多い」など原因を通知する点など,使いやすさにも配慮した。

他のサービス展開も視野に

 2月から始める歩行者ナビゲーション・サービスでは,音声を使った乗り換え検索と,目的地検索を提供する。例えば,端末に向かって「横浜から原宿まで,1月12日午前10時に到着」と発声すると,最適な電車の乗り換え経路を回答してくれる。情報の順番や内容が不定形にならないように,画面には「出発地」「到着駅」「月日」など,発声してほしい内容を表示する。1回の検索時の料金の目安は,割引料金を利用した場合に3円~4円程度になる。

 同サービスの開発には,歩行者ナビゲーション・サービスを提供するナビタイムジャパンが協力した。駅名や目的地など,検索に必要なキーワードを提供する。キーワードは検索頻度が多い1万件を抽出したもので,2カ月ごとに更新する。

 KDDIは,ほかのコンテンツ開発者も音声認識機能を利用できるようにすることを視野に入れている。コンテンツ開発者は,同機能に対応するソフトウエアを開発する必要があるほか,検索候補となる単語データベースを用意する必要がある。