全4587文字
PR

生成により成り立つべき乗則

 彼らは、近年GPT-3などで成功しているTransformerのデコーダのみを使った自己回帰モデルを使って、クロスエントロピー損失を最小化するようにして生成モデルを学習する問題について扱った。元々このモデルは自然言語の事前学習として利用されていたが、今回は画像(各画素を順番に並べた場合と、ベクトル量子化で符号化した場合)、ビデオ、画像と言語間の相互変換、数学の問題(問題文と回答が自然文と記号列で書かれており、問題で条件付けして回答を生成できるかという問題)などについて扱った。

 いずれの問題も与えられた系列データは$\mathbf{x} = x_1, x_2, \ldots,x_n$と表され、各文字をこれまでに生成した文字に条件付けして生成するようにして学習する。

 この実験では投入する計算リソース$C$、データサイズ$D$、モデルサイズ$N$を変えた場合にクロスエントロピー損失がどのように変わるのかを調べた。その結果、損失と$C$、$D$、$N$間に次のようなべき乗則が成り立つことがわかった。

\[ L(x) = L_{\infty} + \left ( \frac{x_0}{x} \right ) ^{\alpha_x} \]

ここで$x$には$C$、$D$、$N$のいずれかが入る。例えば、32x32の画像の場合、モデルサイズ$N$に対して$L(N)= 2.2 + (N/1.9\times 10^4)^{-0.14}$という式で損失が予測できる。

 このことから、$C$、$D$、$N$を大きくするだけで損失を小さくすることができ、またどれだけ大きくすればどの程度の性能が達成できるのかを学習する前から予測することができる。

また、クロスエントロピー損失$L$はデータ確率分布$P$とモデルが表す確率分布$Q$を使って

\[ L = H(P) + KL(P||Q) \]

と表される。$H(P)$は$P$のエントロピーであり、$KL(P||Q)$は$P$から$Q$へのKLダイバージェンスである。通常のクロスエントロピーの説明では最尤推定としての$L = \sum_{x \sim P} \log Q(x)$がでてくるがそれに$H(P)$、$-H(P)$を加えると上の式が出てくる。このように分解した場合、第一項のエントロピーが$L_{\infty}$に対応し、KLダイバージェンスが$\left( \frac{x_0}{x} \right )^{\alpha_x}$に対応すると考えられる。そして、エントロピーは削減不能な損失であり、KLダイバージェンスは削減可能な損失である。

削減可能損失を減らすことが後続タスクの性能向上に重要

 クロスエントロピー損失は生成モデルとしての性能だが、これで学習したモデルを事前学習として使うと他の後続のタスク性能が変わるかについて、OpenAIはImageNetの分類タスクで調べた。すると、削減可能損失が小さくなるほど、後続タスクのテスト損失が小さくなり、汎化性能が改善されることが確認された。

 削減不能損失のスケールに比べて削減可能損失のスケールは小さいため、学習の後半では損失の減り方が非常に停滞しているようにみえるが、実際は削減可能損失が下がっていく。そして、この部分が後続タスクの汎化性能の向上にとても重要であることがわかった。事前学習したGPT-3が様々な後続タスクに驚くほどうまく適用できているということをサポートする結果となった。

最適な計算リソース、モデルサイズ、データサイズ間の関係

 また、計算リソース$C$が決まっている場合の最適なモデルサイズ$N_{opt}(C)$は$N_{opt} \propto C^\beta$の関係が成り立ち、$\beta$は驚くことに問題毎に変わらず$0.7$付近であることがわかった(図1)。

図1 最適モデルサイズと計算リソースの関係
図1 最適モデルサイズと計算リソースの関係
言語や画像などモデルのドメインが異なっていても、モデルサイズと計算リソースの間の関係は非常に似ていた。(図:OpenAIの文献1)より引用)
[画像のクリックで拡大表示]

 同様に、その固定の計算資源の中での最適なモデルサイズ$N$とデータサイズ$D$の関係にも

\[ D \propto N^{0.4} \]

という関係が成り立つこともわかった。ここから、計算資源が増やせる場合はイテレーションを増やして計算時間を増やすより、モデルを大きくする方がよい。またデータを大きくする割合よりも、モデルを大きくする割合を大きくすべきだという、今の常識とは違う結論が導かれる。

 これらの数字がどのような意味を持つかについて、表を作った(表1)。例えば、2倍の計算リソースが使える場合、最適なモデルサイズは1.6倍、データは1.2倍となる。同様に100倍の計算リソースが使える場合はモデルを25倍、データを3.6倍にするのが最適である。データが増える速度に比べてモデル、計算の方が急速に増えていくことがわかる。

表1 計算リソースとモデルサイズ・データサイズとの関係
表1 計算リソースとモデルサイズ・データサイズとの関係
[画像のクリックで拡大表示]

 従来の機械学習ではオッカムの剃刀などであるように、モデルのパラメータ数(複雑度)は必要最低限にする方が汎化性能を高くできるというのが理論的にも説明されていたし、実験的にもそうだった。教科書でも最初の方に書かれている基本的な考えである。それが深層学習の場合はモデルが大きい方が汎化性能がむしろ高いということがわかってきており、それを説明する理論もいくつか登場してきている。今回の結果もそれを支持する。

 さらに、今回の結果から予想される最適なモデルサイズは、現在使われているモデルサイズよりも圧倒的に大きい。例えば、8x8という低解像度の画像の生成モデルの最適なモデルサイズは10億パラメータ付近と考えられる。さらに解像度が大きくなった場合(画像の本質的な次元は元の次元よりずっと少ないが)、最適なモデルサイズは指数的に大きくなり、この100倍から1万倍近くになるとみられる。また、言語モデルの学習においては既存の最大サイズのモデルでも学習が収束できず、これより大きなサイズが必要だと予想されており、検討はついていない。

 もう1つの意外な事実として、モデルサイズが大きい方がサンプル効率が良い、つまり同じ学習データしかない場合に、より効率的に学習できるということも示された。

 他に興味深い実験として画像とそれを説明するキャプションのデータを同時に学習し、画像と言語間の相互情報量についてもモデルサイズに対するべき乗則が成り立つことがわかっている。ここで予想されるテキストから画像を生成するモデルの最適なパラメータ数は約3兆と予想される。また、1枚の絵は千の語に匹敵するという言葉があるが、この実験結果からは32x32の画像は2、3単語分の情報を持っていることがわかった。

 今回の知見などに基づき、OpenAIは2021年1月にテキストから画像を生成するDALL-E2)、画像からそれに紐づくテキストを予測するCLIP3)を発表した。これらは大きなデータセットと大きなモデルを使って学習し、これまでのシステムと比べてはるかに高い柔軟性と汎化性能を達成したシステムである。現時点で一番汎用的なAIシステムといえよう。これらについては論文など詳細が公開されたらまた紹介しようと思う。

残された課題

 今回の発見は様々な問題を投げかけた。まず、今回の発見はあまりに現在の知見とは異なるものであるので、追試を行いどこまでが事実なのかを確かめる必要がある。今回はTransformer+自己回帰モデル+クロスエントロピー損失の場合の結果であるが、他のモデル、タスク、損失の場合にも同様に成り立つかはわからない。

 さらに実験的にこれが事実だとするならば、なぜこのようなべき乗則が成り立つのかについての理論的な理解が必要となる。なぜ異なるドメイン、問題で同じべき乗則が成り立ち、さらに最適モデルサイズについては係数まで一致するのか。なぜモデルを大きくすると汎化性能も改善されるのかといった部分はまだ現在の理解とのギャップが大きい。

 実用的な観点でも問題を投げかける。今回の結果は、データ、モデル、計算リソースを大きくしさえすればどこまでも性能を上げられるということを示しており、しかも投資効果が予測可能な形で示されている。こうなると、大きな投資をする企業なども出てくるだろう。しかし今回予想された最適サイズのモデルは現在の技術の延長線上で実現するのは困難で、新しい技術やハードウエア開発が必要になると思われる(既にパラメータ数が兆のオーダーのモデルは登場してきているが4))。

 また、一度大きなモデルを事前学習して作っておき、それを使ってZero-shotやFew-shotで様々なタスクに使うという考え方は自然言語処理以外にも広がるだろう。様々な分野で大きな学習済みモデルが使われるような時代が来る前夜の状態なのかもしれない。

本記事はロボットとAI技術の専門誌『日経Robotics』のデジタル版です
本記事はロボットとAI技術の専門誌『日経Robotics』のデジタル版です
1)T. Henighan et al.,“Scaling Laws for Autoregressive Generative Modeling,” https://arxiv.org/abs/2010.14701
2)https://openai.com/blog/dall-e/
3)https://openai.com/blog/clip/
4)W. Fedus et al.,“Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity,” https://arxiv.org/abs/2101.03961
岡野原 大輔(おかのはら・だいすけ)
Preferred Networks 代表取締役 最高執行責任者
岡野原 大輔(おかのはら・だいすけ) 2006年にPreferred Infrastructureを共同創業。2010年、東京大学大学院博士課程修了。博士(情報理工学)。未踏ソフト創造事業スーパークリエータ認定。東京大学総長賞。