全4587文字

 今回は、音声認識の原理を取り上げる。

 あらゆる教科書に書かれているように、音声認識は確率的な枠組みに基づいている(図1)。すなわち、入力音声を分析して得られる特徴量Xに対して、事後確率pWX)が最大となる単語列Wを見つける問題として定式化できる。直感的に言えば、聞き取った音(X)に対して一番もっともらしい単語列(W)を求める問題と言える。つまり、事後確率pWX)とは、Xを観測したときにWといえる確率のことである。

図1 音声認識の原理
図1 音声認識の原理
音声認識は、音声の特徴量Xから、pWX)を最大にする単語列Wを求める問題といえる。(作成:筆者)
[画像のクリックで拡大表示]

 pWX)は次式のように、Wが生じる確率(先験確率)pW)と、Wと発した時にXが生じる条件付き確率pXW)の積で表せる。

 このとき右辺の分母pX)は、全てのWに対して、分子の数式の値を求めて合計したものである。

 pX)は分子のWが何であるかにかかわらず一定になる。このため、Wを推定する際には無視しても構わない。従って、pWX)を最大にするWを求める問題は、pW)とpXW)の2項を求める問題とみなせる。

 なお、pX)による除算は、全てのWに対するpWX)の合計が1になるように正規化する操作と言える。このため、認識結果にどのぐらい信頼度・確信度があるのかを調べるときには、近似的に求める。