米インテルの研究部門は米国時間で4月28日,ユーザーが話すときの口の動きなどを読み取り,その情報も使って精度の高い音声認識を可能にするソフトウエア「Audio-Visual Speech Recognition(AVSR)」を開発中であると発表した。人込みなどの騒音環境下で音声認識機能を使う場合に向いた技術である。現在のところ認識できるのは英語だけ。

 AVSRは,ビデオ・カメラでコンピュータに取り込んだ映像からユーザーの口の動きを追跡。その情報を,マイクから入力された音声情報と組み合わせて音声を認識する。“口の動き”という付加情報を利用して,人込みなどの騒音環境下でも,高い精度で音声認識できる。インテルが実施した実験によれば,空港や商店街など雑音レベルが50%以上の環境下で,55%の認識率の向上が見られたという。

 インテルはこれまでも,カメラで取得した資格情報をコンピュータで解析/解釈するためのオープン・ソース・ライブラリ「OpenCV(Open Source Computer Vision Library)」を開発してきた。今回発表したACSRは,その一部と位置づけられており,同ライブラリの開発サイトでWindows OS用の初期評価版を入手できる。(H.J.)