全2530文字
PR

 米NVIDIA(エヌビディア)が、表現力豊かな音声を合成する技術を開発した。特定の個人の音声に基づいて学習させると、任意のテキストデータをその人の声で音声化できる。あるいは、ある人の音声を、学習させておいた別の人の声に変えられる。女優みたいな声のヒューマン・マシン・インターフェース(HMI)をつくることもできる。車載の対話型HMIに適用すれば、顧客体験(DX)をより豊かなものにできる可能性がある。

 これまでの技術で合成された音声は、単調なもので人間のような複雑なリズムや抑揚を加えたものではなく、自然な音声とは隔たりが大きかった。同社Vice President of Applied Deep Learning Research(ディープラーニング応用研究担当バイスプレジデント)のBryan Catanzaro(ブライアン・カタンザロ)氏によると、「(音声合成モデルの学習の際に使う音声認識モデルに)自然な音声を認識できるモデルがなかった」ことが一因だ(図1)。

図1 NVIDIAディープラーニング応用研究担当バイスプレジデントのブライアン・カタンザロ氏
図1 NVIDIAディープラーニング応用研究担当バイスプレジデントのブライアン・カタンザロ氏
(出所:NVIDIA)
[画像のクリックで拡大表示]

 「音声にリズムやピッチ、強弱が存在すると多様性が増え、音声認識モデルが言葉を理解しにくくなる。そのため、従来はモノトーンの音声を学習に利用していた」(同氏)。近年、自然な音声を認識できるモデルが登場してきたことで、学習データも高度化できるようになった。「多様性に富んだ学習データで教育することで、感情を理解した上で音声合成を行うことに踏み込めるようになった」(同氏)という。

 同社が表現力豊かな音声を合成できるようになったのは、そうした音声認識モデルの進化に加え、2つのブレークスルーを可能にしたからだ。1つは、音声データとテキストデータの間でどの文字とどの音素を時間的に一致させるかというアライメントの作業を、音声合成モデルの学習と同時に実行できる新しいフレームワーク(アライメントフレームワーク)を開発したことである。

 従来は、音声合成モデルの学習の前に、アライナーという外部のツールを用いて学習に使う音声データとテキストデータのアライメントを実行しなければならなかった。そのため、学習に使う音声データは、アライナーが混乱しない程度に複雑さを抑える必要があった。また、アライナーの不具合による信頼性の低下や、言語ごとにアライナーを用意しなければならないといったマイナス面もあった。

 新しいアライメントフレームワークでは、事前にアライメントを実施する必要がなく、音声データとテキストデータを音声合成モデルに直接投入できる*1。しかも、複雑な音声データの入力や多言語への対応も可能な上、信頼性も向上するという。

*1 音声信号をある時間長で切り出し、その切り出す区間を時間的にずらしながらフーリエ変換を行うと、時間的に変化する音声の周波数成分を把握できる。この手法を短時間フーリエ変換(STFT)と呼ぶが、さらにその変換結果を、低周波の音ほどよく知覚できるという人間の特性に合わせて変換したものがメルスペクトログラムという時間軸と周波数軸を持つ音声表現。アライメントフレームワークでは、特定の音素を表すメルスペクトログラムが他の音素よりもその音素に近い空間に投影されるように学習することでアライメントを実行する。