全1883文字
PR

 人工知能(AI)の発展は、人類にさまざまな恩恵をもたらしている。一方で脅威にもなっている。その一例がディープフェイクだ。ディープフェイクとは本物の映像や音声をそっくりにまねた、偽の映像や音声のこと。

 現在では、政治家などの有名人をまねたディープフェイクの映像が多数出回っている。2019年には、ディープフェイクの音声を使った電話による詐欺が報告された。

 米Wall Street Journal(ウォール・ストリート・ジャーナル)などによれば、被害に遭ったのは英国に本拠を置くエネルギー会社の最高経営責任者(CEO)。親会社のCEOの声で、22万ユーロ(当時のレートでおよそ2800万円)を1時間以内に送金するよう依頼されたという。

 音声は動画に比べて情報量が少ないため本物との違い(矛盾点)を見つけるのが難しく、偽物であることを見破りにくい。

 そこで米フロリダ大学の研究者グループは、ディープフェイク音声であることを見破る手法を開発した。論文によれば、精度(適合率)は実に99.9%。「恐竜の鳴き声を再現する手法」を応用したという。一体、どんな手法なのだろうか。

なぜ恐竜の鳴き声を再現できるのか

 テレビや映画、科学館などで恐竜の鳴き声を聞いたことのある人は多いだろう。もちろん本物の鳴き声ではない。化石などを基に恐竜の声帯(音の発生器)や声道(声帯から口や鼻までの空洞)の形状を推測し、どのような鳴き声だったのかを推定する。

 今回発表された手法では、逆の手順を踏む。音声を基に、それが発せられたときの声道の形状を計算する。そして計算結果が、人間としてあり得ない形状だった場合、ディープフェイク音声だと判定する。

発せられる音声は声道の形状に依存する
発せられる音声は声道の形状に依存する
(出所:論文「Who Are You (I Really Wanna Know)? Detecting Audio DeepFakes Through Vocal Tract Reconstruction」)
[画像のクリックで拡大表示]

 今回の手法では、音声に含まれる特定の周波数の振幅から、話し手の声道の形状(断面積)を算出する数学的モデルをつくり使用する。モデルでは、声道を15本の半径が異なるパイプで近似。流体力学や過去の研究などに基づいて、声道の形状と音声を関係づけるモデルを導出した。

声道をパイプで近似するイメージ
声道をパイプで近似するイメージ
(出所:論文「Who Are You (I Really Wanna Know)? Detecting Audio DeepFakes Through Vocal Tract Reconstruction」)
[画像のクリックで拡大表示]

 次に、人間が発した音声(以下「オーガニック音声」とする)のサンプルを使って、人間が可能な声道の形状の範囲を計算する。具体的には、声道の各地点の断面積の最大値および最小値を算出。これらを逸脱する場合、人間には発せられない音声、すなわちディープフェイク音声だと判断する。

 そして最後に、構築したモデルを評価した。評価には4966個の音声ファイルを使った。このうち2476個はディープフェイク音声で、2490個はオーガニック音声だった。