全5205文字

画像生成AIの最新技術を盛り込んだ「Stable Diffusion」がオープンソースで公開されている。個人のPCでも動かせるので、使い方を紹介する。

 今、世界中で話題になっている「画像生成AI」――。プロが描いたと思えるような絵を自動で生成してくれる技術です。

 特に「Stable Diffusion」という画像生成AIのオープンソースソフトは、クラウド上でも個人の(ある程度高速な)PC上でもすぐ試せます。PC上では、コンテナー技術の「Docker」で動かす方法を紹介するので、LinuxでもWindowsでもOSを問わずに遊べます。最先端のAIをぜひ味わってみましょう。

世界で注目されている理由

 最初に、そもそも画像生成AIがなぜここまで世界で、そして日本でも話題になっているのか、その背景から紹介していきます。

 画像を自動生成する技術は、昔から研究されてきた分野になりますが、近年の深層学習(ディープラーニング)技術の発展により飛躍的に性能が向上しました。

 特に、ここ数年で話題になっていたのが「Generative Adversarial Network」(GAN)という方式です。GANは、贋作者と鑑定士の役割を持つ二つのAIが競い合うことにより、画像を生成します。特に「StyleGAN」という技術は、高品質な画像を生成できるということで、一部の漫画作品やアート作品に使われ話題を呼びました。

 ただ、この時点での画像生成AI技術は、使いこなすのに高い技術力が必要であり、特定用途に限定された、あくまで専門家のみが扱えるものでした。その後も、画像生成AI技術は発展を続けており、特に言語(画像生成AIではプロンプトと呼ばれます)を基に、画像を生成する技術が一部の巨大企業のクローズドな研究成果として発表されてきました。具体的には、米OpenAI社の「DALL·E」、米Google社の「Imagen」などです。ただ、これらも、あくまで研究者や企業の開発者といった、一部の人しか使用できないクローズドなものでした。

 そんな中、一つの風穴を開けたのが「Midjourney」というチームでした。Midjourneyは2022年7月、「Discord」と呼ばれるWebのコミュニケーションサービスを用いて、言葉(プロンプト)の入力によりAIで画像を生成してくれるというサービス(https://www.midjourney.com/)をいち早く一般ユーザー向けに低価格で提供したのです。

 そんな画像生成AIの“民主化”をさらに加速させたのが「Stable Diffusion」です。Stable Diffusionは、Midjourneyのブームが冷めやらない、そのサービス開始から約1カ月後(2022年8月)に発表されて、画像生成AIに爆発的なブームを引き起こしました。

 「Stable Diffusion」は、巨大企業の潤沢な資産を背景にしたクローズドな研究に対するフラストレーションから、研究者がオープンなコミュニティーで開発してきた画像生成AIモデルです。Stable Diffusionは、学習に15万時間、60万ドルという膨大な時間とお金をかけているのにも関わらず、学習したAIモデルと画像生成に使うコードは、すべてオープンソースとして公開されています。そのモデルやコードは、誰でも無料で使用できます。

 Stable Diffusionの登場により、オープンなコミュニティーベースで、多くの人が画像生成AIの開発に参加するようになりました。利用しやすいWebサービスが数多く立ち上がり、ゲーミングPCでのセットアップ方法を公開する人や、無料のWebサービスであるPython開発環境「Google Colaboratory」(Google Colab)でStable Diffusionを活用するノウハウを共有する人が出てきて、Stable Diffusionは爆発的な盛り上がりを見せています。