PR

GAN(敵対的生成ネットワーク)が誕生してから4年余りたつが、その派生技術は既に数百以上も開発された。短期間にこれだけ増えたのは、GANの構成がシンプルで、しかもその構成要素の組み合わせで新しいGANを作り出せることが理由の1つになっている。当初に山積していた課題も次々に解決、改善しており、「脚本からドラマ生成」も現実味を帯びつつある。

 今でこそ実写の高精細写真と見まがう水準の画像や、テキストからの画像生成が可能になっているGANだが、2014年に最初に発表されたものは、いびつな数字を生成するのがやっとだった。そこから急激に性能向上と適用範囲の拡大が進み、「○○GAN」と名前が付けられた派生技術は数百種類を超える。

 これはGANへの期待の高さを背景に、課題を1つ解決すると実現したいことが増え、その結果、次の課題が出てくるという連鎖の結果だ。最初の基本構成が極めて明快で応用しやすかったことも理由の1つといえる(図1)。言い換えれば、いくつかの基本構成を把握するだけで、GANの今後の応用もある程度見通せるといえる。

図1 生成器(G)や識別器(D)を回路部品のように組み合わせて新機能を実現
図1 生成器(G)や識別器(D)を回路部品のように組み合わせて新機能を実現
生成器(G)と識別器(D)を用いた生成AIの主な基本構成を示した。それぞれは密接に関係している。G→Dという順に用いればGAN(a)、D(図ではE)→Gという順で用いればオートエンコーダー(b)、オートエンコーダーの潜在空間に乱数などを加えればVAE(Variational AutoEncoder)となるが、その応用としてGANのGやDにデータの分類情報や条件データを加えたものがcGANで、出力をさまざまに制御できる(c)。Cycle GANも、オートエンコーダーを変形してDを組み合わせたものと言える(d)。
[画像のクリックで拡大表示]