『日経Robotics デジタル版(電子版)』のサービス開始を記念して、特別に誰でも閲覧できるようにしています。
世の中の現象の多くがべき乗則で説明できる。例えばジップの法則は出現頻度が$x$番目に大きい単語の頻度は、1位の単語と比較して$1/x$の頻度であるというものである。パレートの法則(全体の数字の8割が2割の構成要素で実現されている)、友人の数や地震の大きさの分布などについてもそうだ。
式で書けば、ある変数$x$とその結果において$f(x)= ax^k + c$という関係が成り立つというものである。ここで$a, k, c$は定数である。

昨年、米OpenAIの研究者らによって発表された論文1)が、投入する計算リソース、データサイズ、モデルサイズと深層学習の達成可能な性能(損失)間でべき乗則が成り立つと報告した。そもそも成り立つということが驚きであるとともに、そこから導かれる「大きなモデルを使った方が汎化性能も良く、学習効率も良い」という事実がこれまでの機械学習の常識とは大きく異なるものであったため、研究者の間で大きな話題となった。
さらに、予想される最適なモデルが今使われているモデルよりはるかに大きいため、今後の深層学習を使ったシステム開発に大きく影響を与えうる可能性がある。まだテクニカルレポートであり追試による確認が必要だが、これが事実だとすれば、深層学習(ディープラーニング)の秘密を解き明かし、今後高性能なシステムを作る道筋を立てた金字塔的な研究成果だと著者は考える。このべき乗則について解説していく。