全3531文字
PR
本記事はロボットとAI技術の専門誌『日経Robotics』のデジタル版です
本記事はロボットとAI技術の専門誌『日経Robotics』のデジタル版です

 現在のディープラーニングで使われるモデルは過剰パラメータ(Over Parameterized)表現、つまり訓練データ数よりもずっと多くのパラメータ数を持つモデルが使われている。例えば100万枚からなるImageNetを学習データに使い、数億のパラメータからなるモデルを使うことは一般的である。過剰パラメータ表現は効率が悪いだけでなく、従来の機械学習の理論からすれば、過学習しやすいと思われていた。

著者の岡野原大輔氏
著者の岡野原大輔氏

 一般に$n$個の方程式が与えられた時、$n$個の未知数を決定すれば良い。同様に$n$個の訓練データが与えられた時、$n$個のパラメータを持つモデルを使えば訓練データを完全に予測できるようなモデルを作ることができる。そのため、パラメータ数が訓練データ数よりはるかに多いモデルは冗長なようにみえる。

 一方で、最近の実験結果や機械学習の新べき乗則(2021年3月号の本欄で紹介)が示すように、教師情報が豊富である(自己回帰問題など)などいくつかの条件を満たせば、パラメータ数が多いモデルであるほど学習効率が高く、汎化性能が高いことが分かっている。これはパラメータ数が多ければ多いほど、初期値から汎化性能が高いフラットな解に到達しやすいためと考えられている。

 機械学習モデルの重要な性能要件として、汎化性能のほかに頑健性がある。これは入力に多少摂動を加えたとしても予測結果が大きく変わらないというものである。しかし、特に工夫をせず学習したモデルは、入力にほんのわずかな、狙って設計された摂動(敵対的摂動)を加えただけで予測結果が大きく変わってしまう。例えば、パンダの画像に対し、人には気づかれないようなノイズを加えて、任意の予測結果に変えることができる。