写真と見まがう画像や本人そっくりの音声などを作り出す「生成AI」は、これまでの分類や識別に用いていた人工知能(AI)に対して、次世代AIとも呼ばれる。識別用AI向け教師データを量産できるほか、アニメの描画、商業デザイン、VR(Virtual Reality)用映像の制作コストを大幅に引き下げそうだ。既存のAIとは何が違うのか、どのような用途があるかを紹介する。
深層ニューラルネットワーク(DNN)に基づく人工知能(AI)が大きく変わり始めた。より正確には、できることが急激に増え始めた。これまでのDNNといえば、画像中の物体認識、音声認識など分類や識別が主な機能。自動運転やロボットの目・耳の実現につながるなど社会へのインパクトは極めて大きいが、実はAIが持つ本来の潜在力のごく一部にすぎなかった。
現代版“打ち出の小槌”が登場
最近、開発例が急激に増え始め一部で商業利用も始まったのが、「生成AI」だ。文字通り、新しい画像やデザイン、音声などを大量に生み出すAIである(図1)。学習が一度済めば、実写画像と見まがうほどの人や風景の画像を容易に量産できる。その際、入力するのは乱数や、生成のヒントとなる短い文章など。情報量は極めて少ないが、そこから高精細画像がいとも簡単に出力される。
これだけが生成AIではない。それとは逆に、画像からその内容を説明するテキストを出力したり、写真を画家のモネやゴッホ風に変換したり、といった既存のデータのメディアや表現スタイルを変換する機能もある。こうしたメディア変換やスタイル変換は、これまでは多くの人手を要する作業だったが、生成AIなら人手を介さず、一瞬でできる。
主な生成AIの論文発表は2014年だが、ある程度の高精細画像が出力可能になったのは2017年末。現在は実用化が一部で始まった段階だ。企業の開発競争は激しさを増しており、2019年3月には、米Apple(アップル)がGAN(敵対的生成ネットワーク)†と呼ばれる生成AIの開発者であるIan Goodfellow†氏を米Google(グーグル)から引き抜いた。米Microsoft(マイクロソフト)や米NVIDIA(エヌビディア)、中国Baidu(百度)も開発競争に参戦済み。これをPreferred Networks(PFN)やデータグリッド、三菱電機やNTTなど日本の企業が追う格好になっている。
†GAN(敵対的生成ネットワーク)=深層学習に基づく代表的な生成AIの1つ。一歩先に開発されていたVAE(変分オートエンコーダー)の課題に対処する形で登場した。特徴は、(1)「Generator:G」と呼ばれるデータの生成器を乱数で駆動する、(2)データを検査する識別器(Discriminator:D)の改善にも深層学習を利用する、といった点。GとDが競合するように学習し、精度を高めていくことから、敵対的学習とも呼ばれる。読み方は「ガン」あるいは「ギャン」だが、後者を使う研究者が多い。
†Ian Goodfellow=2014年にGANを発表した深層学習の研究者。米Stanford Universityを卒業後、カナダUniversity of Montrealの院生時代に論文を発表した。2013年にGoogleにインターンとして参加。その後、同社で機械学習のライブラリー「TensorFlow」の開発に携わる。2016年3月には同社を出てAIの研究所であるOpenAIに参加後、再びGoogleを経て、2019年3月からApple のDirector of Machine Learning in the Special Projects Group。