全4277文字
PR

2022年夏は「Midjourney」や「Stable Diffusion」が大いに注目された。文章から画像を生成するAI(人工知能)が、誰でも使えるようになったからだ。文章と画像の意味を同じように扱える「視覚言語モデル」が大きな役割を果たした。

(イラストレーション:Hyaku)
(イラストレーション:Hyaku)
[画像のクリックで拡大表示]

 2022年夏は画像生成AIが大いに注目された。人間が記述したテキストに基づいて画像を生成するAIが、商用サービスとして一般公開されたり、学習済み機械学習モデルを含めた画像生成AI一式がオープンソースとして公開されたりしたためだ。

 2022年6月にはテキストから画像を生成するAIのサービス「Midjourney」を、米国のスタートアップである米ミッドジャーニーが公開した。イギリスのスタートアップのスタビリティーAIは2022年8月、画像生成AI「Stable Diffusion」のプログラムや学習済み機械学習モデルをOSSとして公開した。

 2022年9月には、チャットボット「りんな」を開発するrinnaが、日本語に特化した画像生成モデル「Japanese Stable Diffusion」をオープンソースとして公開した。1億枚の日本語のキャプション付き画像でStable Diffusionを追加学習した。ユーザーが日本語の文章をJapanese Stable Diffusionに与えると、その内容に基づいた画像を出力する。日本語のキャプション付き画像を追加学習させることで、日本語の固有名詞や「キラキラ」といったオノマトペ(擬態語や擬音語)を含む文章から画像を生成できるようになった。

 これまでも米オープンAIが2022年4月に発表した「DALL-E 2」や米グーグルが同年5月に発表した「Imagen」など、文章から画像を生成できるAIは論文で発表されていた。しかし一般ユーザーにとっては、自ら試せない縁遠い存在だった。

トレーニング費用は約8000万円

 特に深刻だったのは費用の問題だ。機械学習モデルのトレーニングなどに、一般ユーザーではとても支払えないほど巨額の費用が必要だったのだ。

 スタビリティーAIの創業者であるエマド・モスク氏は2022年8月28日にTwitterで、同社がStable Diffusionの機械学習モデルを訓練(トレーニング)するのに60万ドル(約8000万円)を投じたことを明らかにしている。また同社はStable Diffusionで画像を生成する推論処理を実行する際には、GPUのメモリーが6.9GB(ギガバイト)必要だと説明する。

 スタビリティーAIは巨費を投じてトレーニングしたモデルをオープンソース化した。Midjourneyは月額10ドルから利用できる。これらの施策によってユーザーは、テキストから画像を生成するAIを気軽に試せるようになり、認知度が一気に高まった。