全6374文字
2022年夏、「Midjourney」や「Stable Diffusion」といった画像生成AIが世間の話題をさらった。言葉で内容を指定すると自動的に絵を描いてくれるサービスで、誰でも高品質の画像を手軽に入手できることから人気を集めている。その背後にあるのが、深層学習を応用したデータの生成モデルの進歩である。上記のサービスが利用する「拡散モデル」をはじめ、VAEやGANなど各種の方式が、より高い性能を目指してしのぎを削っている。
関連する研究開発が過熱する中、生成モデルの自社開発に注力するのがソニーグループだ。他社のサービスに依存せず、最先端の技術を自社内で理解し保有する必要があると考えて、約3年前に生成モデルの研究に着手した。その最新の成果を、2022年7月に開催された機械学習のトップ会議「International Conference on Machine Learning(ICML)」で発表した。高品質のコンテンツ生成やデータの圧縮に利用できる「VQ-VAE」の使い勝手を大きく改善する技術で、「SQ-VAE」と呼んでいる(図1)1)。
図1 高品質なコンテンツ生成を容易に
DNNを用いたコンテンツの生成モデルの各種方式と、ソニーグループが開発した「SQ-VAE」の位置付けを示した。[ ]内はarXivの番号を示す。SQ-VAEは、高品質のコンテンツを生成できる「VQ-VAE」を基に、潜在変数のベクトル量子化に用いるコードブックの学習を容易にした方式である。VQ-VAEと同様に、コンテンツの生成に用いる潜在変数の事前分布を表現するために、生成モデルの一種である自己回帰モデルの「PixelCNN」[1606.05328]などを別途学習させて利用する。VQ-VAEは画像などを少ないビット数で表現する圧縮方式とみなせ、VQ-VAEの潜在変数を生成の対象とすることで生成を高速化できる拡散モデル(図中のVQ-Diffusion)や、VQ-VAEをGANと組み合わせて高解像度の画像を生成できる「VQGAN」[2012.09841]などもある。なお、○や△で示した特徴は開発初期のもので、現在では様々な方式により当初の弱点の改善が進んでいる(各方式の比較論文は例えば[2103.04922])。
[画像のクリックで拡大表示]