人工知能(AI)の発展は、人類にさまざまな恩恵をもたらしている。一方で脅威にもなっている。その一例がディープフェイクだ。ディープフェイクとは本物の映像や音声をそっくりにまねた、偽の映像や音声のこと。
現在では、政治家などの有名人をまねたディープフェイクの映像が多数出回っている。2019年には、ディープフェイクの音声を使った電話による詐欺が報告された。
米Wall Street Journal(ウォール・ストリート・ジャーナル)などによれば、被害に遭ったのは英国に本拠を置くエネルギー会社の最高経営責任者(CEO)。親会社のCEOの声で、22万ユーロ(当時のレートでおよそ2800万円)を1時間以内に送金するよう依頼されたという。
音声は動画に比べて情報量が少ないため本物との違い(矛盾点)を見つけるのが難しく、偽物であることを見破りにくい。
そこで米フロリダ大学の研究者グループは、ディープフェイク音声であることを見破る手法を開発した。論文によれば、精度(適合率)は実に99.9%。「恐竜の鳴き声を再現する手法」を応用したという。一体、どんな手法なのだろうか。
なぜ恐竜の鳴き声を再現できるのか
テレビや映画、科学館などで恐竜の鳴き声を聞いたことのある人は多いだろう。もちろん本物の鳴き声ではない。化石などを基に恐竜の声帯(音の発生器)や声道(声帯から口や鼻までの空洞)の形状を推測し、どのような鳴き声だったのかを推定する。
今回発表された手法では、逆の手順を踏む。音声を基に、それが発せられたときの声道の形状を計算する。そして計算結果が、人間としてあり得ない形状だった場合、ディープフェイク音声だと判定する。
今回の手法では、音声に含まれる特定の周波数の振幅から、話し手の声道の形状(断面積)を算出する数学的モデルをつくり使用する。モデルでは、声道を15本の半径が異なるパイプで近似。流体力学や過去の研究などに基づいて、声道の形状と音声を関係づけるモデルを導出した。
次に、人間が発した音声(以下「オーガニック音声」とする)のサンプルを使って、人間が可能な声道の形状の範囲を計算する。具体的には、声道の各地点の断面積の最大値および最小値を算出。これらを逸脱する場合、人間には発せられない音声、すなわちディープフェイク音声だと判断する。
そして最後に、構築したモデルを評価した。評価には4966個の音声ファイルを使った。このうち2476個はディープフェイク音声で、2490個はオーガニック音声だった。