全4502文字
本記事はロボットとAI技術の専門誌『日経Robotics』のデジタル版です
本記事はロボットとAI技術の専門誌『日経Robotics』のデジタル版です

 世の中の現象の多くがべき乗則で説明できる。例えばジップの法則は出現頻度が$x$番目に大きい単語の頻度は、1位の単語と比較して$1/x$の頻度であるというものである。パレートの法則(全体の数字の8割が2割の構成要素で実現されている)、友人の数や地震の大きさの分布などについてもそうだ。

 式で書けば、ある変数$x$とその結果において$f(x)= ax^k + c$という関係が成り立つというものである。ここで$a, k, c$は定数である。

著者の岡野原大輔氏
著者の岡野原大輔氏

 昨年、米OpenAIの研究者らによって発表された論文1)が、投入する計算リソース、データサイズ、モデルサイズと深層学習の達成可能な性能(損失)間でべき乗則が成り立つと報告した。そもそも成り立つということが驚きであるとともに、そこから導かれる「大きなモデルを使った方が汎化性能も良く、学習効率も良い」という事実がこれまでの機械学習の常識とは大きく異なるものであったため、研究者の間で大きな話題となった。