全6052文字
PR
本記事はロボットとAI技術の専門誌『日経Robotics』のデジタル版です
本記事はロボットとAI技術の専門誌『日経Robotics』のデジタル版です

 音声データから雑音を取り除く技術の開発の歴史に一石を投じる成果をソフトバンクが達成した。米Columbia Universityと共同で、ディープニューラルネットワーク(DNN)を用いる新方式を2020年12月開催の「NeurIPS(Neural Information Processing Systems)2020」で報告1)。単一のマイクから得られる音声データを対象とする技術で、応用先として顧客への電話対応やロボットとのユーザー・インタフェースなどを挙げる。

 注目すべきは雑音の除去性能の高さである。同社は開発した技術と古典的な技術やDNNを用いた最新手法を、同じデータセットを使って比較。信号対雑音比(SNR)が-10~10dBと広い範囲において、複数の指標の全てで他の方式を凌ぐ性能を実証した。直接性能を確かめられなかった方式でも、論文で報告された数字で比べる限り、今回の手法で同等以上の性能を達成できるとしている(図1)。

 ソフトバンクは、開発した技術は既に実用に堪える水準にあると見る。今回の方式で学習させたDNNは、日本語を含む複数の言語の音声で高い効果があることを確認済みである注1)。開発したソフトウエアは、録音済みの音声を入力してノートパソコン上で推論を実行する形式だが、組み込み機器でのオンライン処理向けに改変することは十分可能という。開発を担当した同社IT本部アドバンスドテクノロジー推進室は研究に携わる部署であり、社内外から要望があれば事業面でのメリットを考慮した上で実用化に協力したいとする注2)

注1)学習に使った音声の言語は英語だが、日本語、中国語、韓国語などの音声にも対応できる。Columbia UniversityのWebサイトで、これらの言語のサンプルや他の方式の結果も含めて、雑音除去後の音声データを聞くことができる。URLはhttp://www.cs.columbia.edu/cg/listen_to_the_silence/
注2)開発したソフトウエアのソースコードは学術用途向けに限定して公開しており、企業で使う場合はソフトバンクにコンタクトを取ってほしいという。

沈黙部分から雑音を推定

 今回の技術の鍵は、発話中に頻繁に現れる沈黙の部分に注目したことである。