全2192文字

 実用化が急速に進んでいる音声認識技術。本講座では、その基礎について実装・開発例を交えて解説していく。

 音声認識の研究は古く、筆者自身も研究を始めて間もなく25年がたつ。もっとも、その応用が急激に広がり出したのは最近である。2010年頃から音声による検索やコンシェルジュサービスが携帯機器に搭載されるようになってきた。例えばNTTドコモの「しゃべってコンシェル」やiPhone向けの「Siri」などがある。マスメディアに取り上げられるなど社会の関心も高まっており、今後も発展が期待される分野である。

複雑なシステムだが単純な原理

 音声認識は、非常に複雑なシステムだ。音声の周波数分析、つまり人間の耳が捉える音の特徴の解析から、パターン認識や言語処理、人工知能的な知識表現や解の探索といった処理も必要になる。

 同じ認識技術でも画像認識は基本的にはほとんど信号処理によるパターン認識である。そもそも画像は記号化されない場合が多く、文法などの記号レベルの処理はほとんど含まれない。これに対して音声には信号レベルと記号レベルの両方の処理があり、そこが非常に難しく、かつ面白いところである。

 それにもかかわらず、現在の音声認識システムは非常に単純な原理で動いている。簡単に言えば確率的なモデルを統計的に学習する技術が基本で、大規模なコーパス*1を用意することが鍵になる。