『日経Robotics デジタル版(電子版)』のサービス開始を記念して、特別に誰でも閲覧できるようにしています。

ディープラーニングが画像認識、音声認識、強化学習などさまざまな分野で大きな成果を上げてはいるが、なぜディープラーニングがこれほどうまくいくのかについては、実はまだよく分かっていない。確かにディープラーニングは従来のモデルに比べてパラメータ数が多く、強力であり、あらゆる関数を近似できる能力を持っているが、それだけでは説明できない。
最適化の問題についてはノーフリーランチ定理というのが知られている。これは機械学習の学習問題についてもあてはまり、その用語で言い直すと「あらゆる問題で性能の良い機械学習モデルは理論上不可能であり、あるモデルが他のモデルより性能が良いのは、解こうとしている特定の問題に対して専門化または特化されている場合のみである」ことを意味する。
ディープラーニングも含めた機械学習手法は、学習データからパラメータそして関数を獲得する。一方で、学習データ以外に最初からもっている知識または仮説を、帰納的バイアスと呼ぶ。先程のノーフリーランチ定理と組み合わせていうと、ディープラーニングは、何らかの帰納的バイアスを持った上で特定の問題に特化することで他の手法と比べて優れた性能を達成しているといえる。
現実世界の問題に特化
それではディープラーニングはどのような問題に特化しているといえるのだろうか。この問題に対して、20歳の若い物理学者であるHenry W. Lin氏が次のような仮説を立てている(図1)1)。世の中にみられる(カオスになっていない実用上興味のある)問題は次のような特徴を持っており、ディープラーニングはそうした問題に特化しているので成功しているのではないかというものである。

(1)低次の多項式
世の中の問題の多くは低い次数の多項式モデルで説明することができる。例えば、重力を支配するニュートン方程式、電磁気学を支配するマクスウェル方程式、流体力学を支配するナビエ・ストークス方程式などの最大次数はたかだか4である。また、画像において意味を変えないような回転や並行移動などの変換は線形変換であり、次数を増やすことはない。
ニューラルネットワークは低次の多項式を近似することが得意である。例えば、4つのニューロンからなるニューラルネットワークで乗算1つをシミュレートすることができ、任意の多項式はその計算に必要な乗算回数の4倍程度の数のニューロンからなるニューラルネットワークで近似することができる。
(2)局所性
世の中の多くの現象として、近くの物体同士しか影響しないという局所性がみられる。N個の物体が存在するシステムを考えた場合、本当は物体同士の相互作用はNの多項式個の関係で表されるが、実際には近くの定数個の物体同士にしか影響を及ぼさないため、Nに対して線形にしか複雑度は上がらない。
実際、局所性を持つマルコフネットワークはノード数に比例する数のニューロンからなるニューラルネットワークを使って近似することができる。
(3)対称性
世の中の問題には対称性が多くみられ、これも見かけ上の複雑さを下げることに大きく役に立つ。代表的な対称性として、時間普遍性や移動普遍性などがある。移動普遍性や時間普遍性を明示的にモデルに組み込んだ畳み込みニューラルネットワーク(CNN)やRNNは、学習に必要なパラメータ数を大きく減らすことができる。
これらの特徴は一見は複雑にみえるような世の中の問題が、実は単純で現実的なサイズのニューラルネットワークで十分近似できるということを意味する。
階層性をうまくモデル化
それではニューラルネットワークの階層的な構造はどのような役割を果たしているのだろうか。
世の中で観察されるデータの生成過程にはマルコフ性、つまり直前の状態のみに依存して次のデータが生成されることがみられる。ある画像が観察されるに当たっては、物体の位置や形状、光源との位置関係、カメラとの位置関係が決まれば、最終的に観察される画像が決定される。これらの過程はマルコフ的であり、順番に複雑なデータが生成される。
データの生成過程がマルコフ性を持っているとすれば、ニューラルネットワークはそれを逆向きに辿ることで、そのデータ生成の因子を推定することができると考えられている2)。
また、世の中の現象は階層性がみられる。こうした階層性を持った現象は多層のニューラルネットワークでうまく近似することができる。人の顔というものが、目や鼻といった部位の集合から成り立ち、目や鼻が画像上はエッジやコントラストで表現されているといった階層性はニューラルネットワークの各層でうまくモデル化できることがわかっている。
一方で、人や動物が非常に少ない経験から学習できることは、まだ見つかっていない帰納的バイアスがあることを示唆している。人や動物はこうした帰納的バイアスを進化の過程で脳の構造として獲得してきたが、そこに工学的に参考になる部分はまだ多いにあると考えられる。
2)A. Patel et al.,“A Probabilistic Framework for Deep Learning,” https://arxiv.org/pdf/1612.01936v1.pdf
Preferred Networks 取締役副社長
