筆者らは、国会審議の会議録を作成する音声認識システムを構築した。衆議院の全ての本会議・委員会の審議で使われている。我が国の国会は明治23年(1890年)に設立されて以来、100年以上にわたり手書き速記により会議録が作成されてきた。それが、2011年から音声認識に変わったのである。世界でも国会で発言者の音声を直接認識するシステムが導入されたのは初めての事例だ。認識結果の精度は9割程度で、その後で速記者が誤りを直し、編集や内容のチェックをして会議録が作られていく(図1)。

図1●国会の会議録作成システムの概要
筆者らが開発した会議録作成システムは2011年から衆議院の全ての本会議・委員会の審議で使われている。国会で音声認識システムが利用されるのは世界初である。(作成:筆者)
[画像のクリックで拡大表示]

 当初はオーソドックスに音声データベースを作ろうと試み、実際に約200時間を収集した。これを分析すると、会議特有の言い回しが多いことが分かった。また、実際の発言と速記者が作成した会議録が、かなり異なっていることも判明した。

 図2に実際の発言と会議録のテキストの違いを示す。文中の{ }内の文字は、実際に発言されたが会議録では削除された部分である。約半分が「えー」「まあ」「そのー」などのフィラーであるが、「ですね」「ですが」といった冗長な文末表現も削られている。{ }内に/がある部分は、会議録で修正された部分である。実際の発言は/の前の言葉で、会議録では/の後の言葉に置き換えられている。「なるんで」を「なるので」、「けど」を「けれども」、「~てる」は「~ている」のように編集されている。( )内の文字は会議録で追加された言葉だ。

 以上のように、実際の発言は言葉の削除・置換・挿入を経て、会議録として整えられる。実際の発言と書き起こしたテキストを比べると、平均13%程度の単語で修正がある。少ない場合は10%、多い場合には20%も違う。これだけ異なると、会議録のテキストをそのままモデルの学習に使うのは困難である。そこで、会議録のテキスト(文書体)から、発言の書き起こし(発言体)を推定・復元することを考えた(図2)。

図2●会議録から元の発言を推定
(作成:筆者)
[画像のクリックで拡大表示]

 200時間程度の音声の書き起こしと会議録テキストから、削除・置換・挿入の大半のパターンを予測する統計モデルを定式化・学習することができた。これにより、音声を書き起こすことなく、会議録テキストからのモデル学習が可能になった。この結果、実際に2000時間分の音声データを音響モデル学習に活用できた。

 これは、話し言葉の音声認識システムとして世界的にもトップレベルで、それを基にした認識の精度も最高水準にあると言える。ただし実際の会議録の作成には、認識誤りの修正や口語的表現の編集が必要で、文章全体の2割程度に手を加える必要がある。それでも音声認識を使うことによって、作業の効率化が可能になった。

この先は有料会員の登録が必要です。「日経SYSTEMS」定期購読者もログインしてお読みいただけます。有料会員(月額プラン)は初月無料!

日経クロステック ラーニング/日経クロステックには有料記事(有料会員向けまたは定期購読者向け)、無料記事(登録会員向け)、フリー記事(誰でも閲覧可能)があります。有料記事でも、登録会員向け配信期間は登録会員への登録が必要な場合があります。有料会員と登録会員に関するFAQはこちら