PR
日経エレクトロニクス2014年5月26日号のpp.88-95「実用化進む音声認識、システムの構成要素を概観」を分割転載した中編です。前編はこちら

本連載では、実用化が急速に進んでいる音声認識技術の基礎から課題、最新動向を、実装・開発例を交えて解説していく。今回は、音声認識の原理を説明する。

発話された単語列を確率的に推定する

 ここからは、音声認識の原理を説明していく。あらゆる教科書に書かれているように、音声認識は確率的な枠組みに基づいている(図3)。すなわち、入力音声を分析して得られる特徴量Xに対して、事後確率pWX)が最大となる単語列Wを見つける問題として定式化できる。直感的に言えば、聞き取った音(X)に対して一番もっともらしい単語列(W)を求める問題と言える。つまり事後確率pWX)とは、Xを観測したときにWと言える確率のことである。

図3 音声認識の原理
図3 音声認識の原理
音声認識は、音声の特徴量Xから、pWX)を最大にする単語列Wを求める問題とい える。
[画像のクリックで拡大表示]

 pWX)は次式のように、Wが生じる確率(先験確率)pW)と、Wと発した時にXが生じる条件付き確率pXW)の積で表せる。

 このとき右辺の分母pX)は、すべてのWに対して、分子の数式の値を求めて合計したものである。

 pX)は分子のWが何であるかにかかわらず一定になる。このため、Wを推定する際には無視しても構わない。従って、pWX)を最大にするWを求める問題は、pW)とpXW)の2項を求める問題とみなせる。

 なお、pX)による除算は、すべてのWに対するpWX)の合計が1になるように正規化する操作といえる。このため、認識結果にどのぐらい信頼度・確信度があるのかを調べるときには、近似的に求める。