PR

GANの派生技術は1000以上?

 もう1つのGANは最近特に注目を浴びている生成AIだ。

 VAEの課題は出力データの精度が低い点。これは、利用する確率が本来の確率の粗い近似でしかなく、しかもデータの検査は人間が考えたルールベースであるためだ。

 GANはこの課題の対処策の1つとして登場した。具体的には、近似的な確率を使わず、しかも符号化器を出力データの“検査官”にコンバートして、生成方法と検査方法を同時に深層学習させるようにした

 結果、実写映像と区別が付かないほど精度が高い画像データを得ることが可能になった。それが知られるにつれて、派生技術が大量に登場している(図4)。現在は1000種類前後に増えている可能性がある。

図4 研究開発例は今もうなぎ登りに増加中
図4 研究開発例は今もうなぎ登りに増加中
GAN Zoo(GAN動物園)調べによる、2014年から2018年9月末までのGAN関連の論文数の推移。赤字は企業による研究例。国内企業や組織の研究例は本誌が追加した。
[画像のクリックで拡大表示]

 ただし、その多くはVAEとGANのハイブリッド型だ。それが組み合わせの多様さにつながっている。脚光を浴びているのはGANだが、VAEも同様に発展している。

「連想」も可能

 当初のGANは、出力画像を制御できなかったが、以降に登場してきたGANには、大きな可能性を感じさせる技術が多い。

 その1つがスタイル変換だ(図1(f)など)。GANに乱数だけでなくヒントとなる情報も併せて入力することで、そのヒントに応じて出力データを変えられるようになった。あたかも、AIが異なる2つの情報から第3のアイデアを連想するような技術といえる。

“遺伝子操作”で好みの顔に

 出力画像の制御性をさらに高めたGANもある。これは、「潜在空間」と呼ぶ、特徴量ベクトルの空間でベクトルを連続的に動かすと、出力データも連続的に変化することを利用する(図5)。例えば、実在する人物A、B、Cの写真を正解データとして学習した後、3人の特徴量ベクトルの間のベクトルを選ぶと、3人の顔をある比率で合成したような顔画像が出力される。

図5 潜在空間でのベクトル操作で生成データを制御
図5 潜在空間でのベクトル操作で生成データを制御
潜在空間の特徴量ベクトルを操作、演算することで生成データを制御する例を示した。データグリッドは、特徴量ベクトルを連続的に動かすことで、アイドル風の顔データを連続的に変化させるデモを同社のWebサイトで披露している(a)。潜在空間で眼鏡ありの男性の特徴量群から、眼鏡なしの男性の特徴量群を引くと、“眼鏡ベクトル”が残る。これに眼鏡なしの女性の特徴量群を合わせると、眼鏡をかけた女性の画像データが出力される。(画像:データグリッド)
[画像のクリックで拡大表示]

 京都大学発のベンチャー企業であるデータグリッドは、このデモをWebサイト上で披露している。そしてこの特徴量を「人工遺伝子」と呼び、それを組み合わせることで例えば「好みのアイドルを作り出せる」ことをアピールする注4)

注4)データグリッドは2019年4月19日に、パートナー企業数社と新会社「ジーンアイドル」を設立。同5月には人工遺伝子から自分だけのアイドルを自動生成するゲーム「Gene A.I.dols」のベータ版を発表した。

Microsoftは「脚本からアニメ」想定

 こうした生成AIの想定用途には既に実現、あるいは比較的すぐに実現しそうなものも多い(図6図7)。例えば、写真風画像の量産、識別AI向けの教師データの量産、異常検知などだ。

図6 将来は、映画をオーダーメード可能に?
図6 将来は、映画をオーダーメード可能に?
GANやVAEの想定用途を、実現時期順に示した。既に実用化水準に近いのが、医療の画像診断向け教師データの量産や病気診断、不良品検知、モデル代替の写真素材の生成、解像度の低い画像の高解像度化(超解像化)技術など。これらを動画でも可能にする技術や、動画のキャプションやナレーションを生成する技術の開発も進んでいる。将来的には、放送局が脚本をテキストで放送し、それを受信したテレビやVR端末で、視聴者の好きな俳優の映像や声を使ってドラマや映画をリアルタイムに生成するサービスなどがあり得る。
図7 もはや写真と区別がつかない
図7 もはや写真と区別がつかない
GANに基づくサービスまたはサービスイメージの例。ACワークスは2019年5月、画像提供サイト「写真AC」で、GANで生成した顔画像素材を提供するサービス「AI人物素材(ベータ版)」を開始した(a)。利用者は1日50回まで、無料で独自の顔画像を生成できる。ベータ版なのは現状ではまだ、顔がゆがんでいたり、服装や背景が不自然になったりすることが少なくないため。データグリッドは2019年4月、それまで難しいとされていたファッションモデルの全身画像をGANで生成できるようになったと発表した(b)。(画像:(a)はACワークス、(b)はデータグリッド)
[画像のクリックで拡大表示]

 少し先の用途だが、自動運転向けの教師データ量産や、動画のズームした部分の超解像化、動画のキャプション自動生成、3次元(3D)映像生成技術も研究開発が進む。

 Microsoftはその1社。「脚本をテキストのまま放送または配信して、受信したテレビやパソコンでアニメーションを生成する」未来を描く。もちろん、そのリアル画像版もあり得る注5)

注5)こうした生成AIの課題の1つは、本物の人の写真や声と見分けがつかない画像や音声が量産できることで、例えばモデルや俳優、声優などの職業が成り立たなくなる可能性があることだ。
 生成した人物画像のリアルさを追及するデータグリッド 代表取締役社長の岡田侑貴氏は「その流れはもはや止められない」とする。ただ、「名前が知られていない普段着のモデルなどは代替されるとしても、その個性で評価されている俳優やモデルはずっと残る」(同氏)とも指摘する。
 もう1つの課題はやはり、なりすましによる詐欺やフェイクニュースだ。近い将来、実写映像と区別が付かない動画も生成される可能性が高い。京都大学 情報学研究科 准教授の馬強氏の研究室は、フェイクニュースをGANの技術で検出する手法を研究している。まさに矛と盾の敵対的競争といえる。「最終的には、ニュースの真偽は出典や情報ソースを明らかにしているかどうかまで確かめないと分からない時代になる」(馬氏)という。