全4075文字
PR

 AI(人工知能)が今や、クリエイティブの領域にも進出している。写真や絵画を大量に学習したAIが、新しい画像を生成できるようになったのだ。しかもその腕前は人間に匹敵するか上回るほどであり、本物の写真と見間違えるほどリアルな画像も生成できる。

テキストから画像を生成するAIが、誰でも使えるように

 現在、画像生成AIはかつてないほど注目されている。人間が記述したテキストに基づいて画像を生成するAIが、商用サービスとして一般ユーザー向けに公開されたり、学習済み機械学習モデルを含めたソフトウエア一式がオープンソースソフトウエア(OSS)として公開されたりしたためだ。

 2022年6月にはテキストから画像を生成するAIのサービス「Midjourney」を、米国のスタートアップである米Midjourney(ミッドジャーニー)が公開した。またイギリスのスタートアップであるStability AI(スタビリティーAI)は2022年8月、画像生成AIである「Stable Diffusion」のプログラムや学習済み機械学習モデルをOSSとして公開した。

「Isaac Newton drops an apple in his right hand from the Leaning Tower of Pisa to the ground.(アイザック・ニュートンがピサの斜塔から地面にリンゴを落とした)」との文章からMidjourneyが生成したイラスト
「Isaac Newton drops an apple in his right hand from the Leaning Tower of Pisa to the ground.(アイザック・ニュートンがピサの斜塔から地面にリンゴを落とした)」との文章からMidjourneyが生成したイラスト
(出所:Midjorneyを使って日経クロステックが生成)
[画像のクリックで拡大表示]

 これまでも米OpenAI(オープンAI)が2022年4月に発表した「DALL-E 2」や、米Google(グーグル)が2022年5月に発表した「Imagen」などの画像生成AIの論文によって、これらのAIが非常に高度な能力を備えていることが示されていた。しかし画像生成AIは一般ユーザーにとって、自ら試せない縁遠い存在だった。

Stable Diffusionのトレーニング費用は約8000万円

 特に深刻だったのは費用の問題だ。機械学習モデルのトレーニングなどには、一般ユーザーではとても支払えないほど巨額の費用が必要となる。つまり最先端の画像生成AIを使用するには、単に技術が論文として公開されたり、プログラムがOSSとして公開されるだけでは不十分だったのだ。

 スタビリティーAIの創業者であるEmad Mostaque(エマド・モスク)氏は2022年8月28日に「Twitter」で、同社がStable Diffusionの機械学習モデルを学習(トレーニング)するのに60万ドル(約8000万円)を投じたことを明らかにしている。また同社はStable Diffusionで画像を生成する推論処理を実行する際には、GPUのメモリーが6.9GB(ギガバイト)必要だと説明する。

 スタビリティーAIは巨費を投じてトレーニングした学習済み機械学習モデルを一般に公開した。またMidjourneyは月額10ドルから利用できる。これらの施策によってテキストから画像を生成するAIを一般ユーザーが気軽に試せるようになり、認知度が一気に高まった。

これまでも高かったAIの画像生成能力

 もっともAIが画像を生成する能力自体は、これまでもかなり高かった。その例の1つがPreferred Networks(PFN)が提供するアニメ風キャラクター生成サービスの「Crypko(クリプコ)」だ。深層学習(ディープラーニング)を応用した画像生成モデルの1つである「敵対的生成ネットワーク(GAN)」を使ったサービスで、2019年4月にテスト版の提供を開始し、2022年4月から正式サービスを開始した。2022年8月からは、生成した画像をゲームなどで商用利用できるサービスも始めている。

 Crypkoを使ったキャラクターの生成は至極簡単だ。Webのユーザーインターフェース(UI)で生成ボタンをクリックするだけで、顔や上半身のアニメキャラクター風のイラストが10種類自動生成される。イラストは作風や表情、髪形、髪色、服装などが全て異なり、どれも人間が描いたような仕上がりだ。

ワンクリックで人間が描いたようなキャラクターのイラストを生成するCrypko
ワンクリックで人間が描いたようなキャラクターのイラストを生成するCrypko
(出所:Preferred Networks)
[画像のクリックで拡大表示]

 Crypkoが採用するGANは、「生成器」と「判別器」の2つのディープ・ニューラル・ネットワークから成り立つ。生成器は実在の画像データと見分けがつかないような新たな画像データを生成し、判別器はそのデータが本物ではなく生成されたものであると見抜けるよう、互いが競い合って学習する。

 GANは2014年、Ian J. Goodfellow(イアン・J・グッドフェロー)氏らが提唱した手法で、それまでは困難だったAIによる自然で鮮明な画像の生成を可能とした。近年では実在しない人物の写真のようなデータも生成できるようになっている。