全2551文字
PR

 この数週間ほど、人間が与えた文章に基づいて画像を生成するAI(人工知能)のサービス「Midjourney(ミッドジャーニー)」が話題だ。同種のAIとしては米OpenAI(オープンAI)のDALL-Eや米Google(グーグル)のImagenなどが先行していたが、一般ユーザーはなかなか試せなかった。それに対してMidjourneyは、誰でも画像生成を試せるのが魅力だ。

 Midjourneyは写真や絵画などの説明文(キャプション)を与えると、それに基づいたイラストを生成するAIサービスである。例えば筆者が「本を読む犬」という文章を与えたところ、Midjourneyは書籍のページを開いた犬のイラストを生成してくれた。

Midjourneyによる「本を読む犬」の入力に対する出力
Midjourneyによる「本を読む犬」の入力に対する出力
イラスト:Midjourneyの有償版を使って日経クロステックが出力
[画像のクリックで拡大表示]

 このコラムではGAFA各社のAI開発の最新動向を多数取り上げてきたが、論文段階の最新技術についてはその能力を実際に体験してみることはできなかった。画像生成AIはその際たるもので、グーグルもImagenについては論文や生成画像のサンプルを公開するだけだ。

 ところが、VRゴーグルのメーカーである米Leap Motion(リープモーション)の共同創業者であるDavid Holz(デイビッド・ホルツ)氏が米サンフランシスコで起業した米Midjourney(ミッドジャーニー)が、最新の画像生成AIのすごさを誰でも体験できるサービスを始めた。そこで今回は番外編として、Midjourneyを今すぐに試してみるべき理由を3つ紹介しよう。

 Midjourneyを試すべき第1の理由は、最新の画像生成AIの実力を自ら体験できる点である。画像生成AIに関しては2017~18年ごろから、架空の人物の顔写真やアニメ風のキャラクター画像、風景画といった特定の種類の画像を生成できるAIが登場していた。それに対してMidjourneyは、与えた文章に応じて様々な種類の画像を生成できる。非常に自由度が高い。

 従来の画像生成AIは、顔写真生成AIであれば実在の人物の顔写真を多数学習することで、架空の顔写真を生成していた。それに対してMidjourneyなど最新の画像生成AIは、BERTやGPT-3で知られる巨大言語モデルを内部で使用しており、Web上などに存在する画像と文章の組み合わせを大量に学習している。だからこそ与えられた文章の意味を解釈したうえで、その意味に適合する画像を生成できるのだ。

 文章から画像を生成するAIの代表格はオープンAIのDALL-Eであり、同社はDALL-Eの公開も始めている。しかし現時点でDALL-Eを利用できるのは招待された先行ユーザーだけだ。筆者も2022年7月に利用の申し込みをしたが、1カ月近くがたっても、まだ利用できる状態になっていない。

 それに対してMidjourneyは、誰でも25枚までの画像生成を無料で試せるほか、月額10ドルまたは月額30ドルの有料プランも用意されている。筆者もMidjourneyで初めて、文章から画像を生成するAIを体験できた。

プロンプトエンジニアリングを体験できる

 Midjourneyを試すべき第2の理由は、本連載でも過去に何度か取り上げた「プロンプトエンジニアリング」と呼ばれる新しい技術に挑戦できる点である。プロンプトエンジニアリングとは、AIに与える入力(プロンプト)を工夫することで、AIからの出力をより良くする工夫である。

 Midjourneyの場合であれば、AIに対して入力するキャプションの情報量を増やしたり、表現を工夫したりすることによって、より興味深い画像をAIが出力するようになる。