全5408文字
PR
本記事はロボットとAI技術の専門誌『日経Robotics』のデジタル版です
本記事はロボットとAI技術の専門誌『日経Robotics』のデジタル版です

 深層生成モデルの1つである拡散モデル(Diffusion Model)の利用が急速に広がっている。2015年に米Stanford UniversityのSohl-Dickstein氏らによって最初のモデルが提案されてから1)しばらく注目されていなかったが、2020年に米University of California BerkeleyのJonathan Ho氏ら2)によってネットワークアーキテクチャや学習手法を工夫すれば他の深層生成モデルと同じ、もしくは上回る品質を達成できること、またデノイジングスコアマッチングなどとつながりがあることが示され(本コラム 2020年9月号も参照)、再注目された。

著者の岡野原大輔氏
著者の岡野原大輔氏

 拡散モデルは生成品質が高く、最尤推定によって学習するので多様なデータを生成でき、かつ安定して学習させることができる。また部分情報から残りを復元したり、条件付けで生成を制御したりすることもできる。超解像3)、着色、修復、JPEG圧縮後修正4)などのタスクで最高精度を達成している。特に2022年4月に米OpenAIから発表されたDALL-E 25)は拡散モデルを使ってテキストからの画像生成をこれまでにない品質と多様性で実現した。DALL-E 2は内部で2つの拡散モデル(テキストからCLIP画像埋め込みベクトル、CLIP画像埋め込みベクトルから画像)を組み合わせて使っている。これについてはまた詳しく紹介したい。また、これまで難しかった動画生成も拡散モデルを使うことで実現できたと報告されている6)。本稿では拡散モデルとは何か、なぜ優れているのか、どのような改良がなされてきたのかについて解説する。