全4265文字
PR
この記事は日経Robotics 有料購読者向けの記事ですが
日経Robotics デジタル版(電子版)』のサービス開始を記念して、特別に誰でも閲覧できるようにしています。
本記事はロボットとAI技術の専門誌『日経Robotics』のデジタル版です
本記事はロボットとAI技術の専門誌『日経Robotics』のデジタル版です

 機械学習の大きな目標は、訓練データと異なるテストデータでもうまく動くような汎化するモデルを獲得することである。訓練データだけうまくいくのでよければ訓練データを丸暗記すればよく、コンピュータは容易に実現できる。しかし、見たことがないテストデータでもうまくいくためにはデータの背後に隠された法則を見つける必要がある。

 一般に機械学習の問題設定では訓練データとテストデータは同じ分布から互いに独立にサンプルされているという、いわゆるiid(独立同分布)を仮定している。このiidの下では訓練データを十分な数集め、訓練データでうまくいくようなモデルさえ作ることができれば、テストデータでうまくいくことも期待できる。これに基づいて訓練データの誤りを最小化する経験誤差最小化(ERM:Empirical Risk Minimization)に基づく学習が、学習のデファクトスタンダードとなっている。モデルが各サンプルでうまくいっているかを測る損失関数を用意し、訓練データ上で損失関数の合計値が小さくなるようなパラメータを探すというものだ。

 しかし、世の中の多くの問題ではiidが成り立たない。訓練データを選ぶ際に偏りがあったり、分布が変わるような共変量が存在するなどするためだ。このような場合、ERMを使った学習では誤った相関を学習してしまい訓練データとは異なる環境で性能が落ちる、ひどい場合は全くでたらめな結果となってしまうことが起きてしまう。

著者の岡野原大輔氏
著者の岡野原大輔氏

 例えば、画像の中に写っているのが牛かラクダかを当てる問題を考えてみよう1)。訓練用のデータでは、大抵の牛は牧草と一緒に写っており、ラクダは砂漠と一緒に写っている。そのため、牧草が写っていれば牛の可能性が高い、砂漠が写っていればラクダの可能性が高いと分類するモデルが得られるだろう。

 それではたまたま海辺の砂浜に来ていた牛を撮った画像に対して、これは砂漠(のような砂浜)が写っているからラクダと判断するのが正しいだろうか。これはもちろん誤りである。分布が変わりうる環境ではこのようなことが起きうる。このようにiidではない問題設定においては、訓練データに普遍的にみられる相関を見つけたとしても、それはテストデータの環境でも常に成り立つ相関とは限らない。汎化するモデルは、未来にわたっても安定して成り立つような相関を見つける必要がある。先の例では牛やラクダの形状、物体から推定するべきであり、背景から推定するのは誤りである。未来にわたって安定ではない相関(先程の例の背景、環境など)をいかに排除できるかが重要となる。そのような安定した相関は一般に分類結果に関係する因果関係に基づく。因果関係に基づいて分類できていれば結果に関係の無い環境部分が変わっても分類結果は変わらないことが期待される。ここまでの話をまとめると、iid時には相関を使ったモデルはうまく動くが、そうでない場合は未来にわたって安定した相関、一般には因果関係を見出さなければうまく動かない。

 一般に機械学習は相関を求める手法だと思われているが、正確ではなく、因果関係を求められる手法も多く提案されている。しかし集められたデータだけから、そのデータの生成過程の仮定なしに因果関係を求めることは一般に不可能であることが知られている(例えば文献2)を参照)。それに対し生成過程について何かしらの事前知識、仮定があればデータから、どの変数間に因果関係があるかを推定することができる。また強化学習のような、環境に対して直接作用ができるような問題設定でも試行錯誤することで因果関係を求めることができる。例えば治験などでも用いられているような因果推論をする上で最も強力なランダム化比較試験をすることができる。しかし世の中の多くの問題では生成過程もわからなく、何回も自由に試行可能な環境も存在しない。そのため、既に取得したデータだけからでもこのような因果推論ができ汎化するモデルを作ることが求められていた。

 こうした中、New York UniversityのMartin Arjovsky氏とFacebook AI ResearchのLeon Bottou氏らはERMに置き換わるような汎化する学習手法として不変誤差最小法(IRM:Invariant Risk Minimization)を提案した1)。このIRMは安定的な相関を見つけることで、訓練データとは異なる分布に対しても汎化することを目標としている。キーとなるアイディアは様々な環境からの学習データを集めた後に、それらを混ぜずに別々に扱い、全ての環境で最適な分類器を獲得することで汎化するモデルを獲得するというものである。これについて説明しよう。

 データ$x$が与えられたとき、それをNNなどを使って変換して得られたデータ表現を$\Phi(x)$とし、また、それを入力として分類結果を返す分類器を$w$とする。この2つをあわせた、入力から分類結果を返す関数$w(\Phi(x))$を合成関数の記号を使って$w\circ \phi$と表す。また、環境$e$におけるこの分類器による期待損失$l$を損失関数としたとき、$R^e(w \circ \Phi) :=\mathbb{E}_{X^e, Y^e}[ l(f(X^e), Y^e)] $とおく。このとき、全ての環境$\mathcal{E}$で損失を最小にできるような分類器が同じである場合、そのデータ表現$\Phi$は環境にわたって不変な分類器$w\circ \Phi$を導出できていると考えられる。

\[w \in \arg \min_{\bar{w}} R^e (\bar{w} \circ \Phi) \quad \text{for all} \quad e \in \mathcal{E}\]

しかし、全ての環境を列挙することは不可能なので、代わりに訓練データとして集めた環境上$\mathcal{E}_{tr}$でこれを達成できるものを考えるとする。

\[\min_{\Phi, w} \sum_{e \in \mathcal{E}_{tr}} R^e(w \circ \Phi)\]

\[\text{subject to}\quad w \in \arg \min_{\bar{w}} R^e (\bar{w} \circ\Phi) \quad \text{for all} \quad e \in \mathcal{E}_{tr}\]

これをIRMとよぶ。この最適化では全ての環境上で最適となる線形分類器が同じとなるようなデータ表現を獲得することが目標となる。ERMにおいても全ての環境から集めたデータに対する損失を$0$にできるのであれば、各環境の損失も$0$にできている(一般に仮定する損失が非負であるならば)ので同じことができるが、IRMではこの分類器を線形分類器という表現力が小さいモデルに制約していることが重要である。ERMはニューラルネットワークのように過剰パラメータモデルを使う場合、訓練誤差が最少となった場合でも誤った相関を捉えてしまうことが知られている。さらに学習に使うモデルが、訓練誤差やテスト誤差を$0$にできるモデルを含んでいない場合でも誤った相関を見つけてしまう。IRMはこうした場合にERMよりも汎化するモデルが獲得できると主張されている。

 このIRMの最適化はそのままでは各環境で最適化が必要であり、内側と外側の二重の最適化が必要なため実用的ではない。そこで次のような変更を考える。まずデータ表現が任意の非線形変換を使うのであれば線形分類器は任意のモデルを仮定して使ってもよいことを利用し、最適な分類器を単にデータ表現の最初の成分をそのまま返すモデルに固定する。次に損失関数として凸関数を利用する場合、最適性を勾配が$0$に近いかで評価できることを利用する。

 これらを利用して、先程の最適化問題の代わりに次の最適化問題を解くことを考える。

\[\min_{\Phi} \sum_{e \in \mathcal{E}_{tr}} R^e(w \circ \Phi) + \lambda ||\nabla_{w\|w=1.0} R^e(w \circ \Phi)||^2\]

ここで$w$はスカラー値であるダミーの線形分類器であり、$w=1$、つまりデータ表現$\Phi(x)$の第一成分をそのまま使うという分類器である。この最適化を行うことでオリジナルのIRMと同じ結果が得られる。さらに、第二項のノルムの不変推定量として環境から非復元抽出でサンプルを2つ$(x_1,y_1), (x_2, y_2)$をとり、それらの$w$についての勾配の内積を使うことができる。

\[ ||\nabla_{w\|w=1.0} R^e(w \circ \Phi)||^2 = \mathbb{E}_{(x_1, y_1),(x_2, y_2)} [\langle \nabla_{w\|w=1.0} l(w \circ\Phi(x_1), y_1), \nabla_{w\|w=1.0} l(w \circ \Phi(x_2), y_2) \rangle]\]

このIRMを使って学習して得られた分類器はERMと比較し、新しい環境に汎化しやすいことが簡単な実験では確かめられている2)

本記事はロボットとAI技術の専門誌『日経Robotics』のデジタル版です
本記事はロボットとAI技術の専門誌『日経Robotics』のデジタル版です

 今の多くの統計的推論、機械学習は相関関係だけを捉え、因果関係は捉えていないため多くの誤った結論を導いていることが昨今指摘されている。一方で、因果関係を捉えるには相関を見つけるよりも多くの条件や仮定が必要となり、まだ汎用的に使える因果推論は登場していない。今後、推論技術が発展すると共にデータも能動的に取得することが進むにつれ様々な因果推論ができ、真に汎化するモデルが獲得できるようになることが期待される。

1)M. Arjovsky et al.,“Invariant Risk Minimization,” https://arxiv.org/abs/1907.02893
2)J. Pearl, “The Book of Why,” Basic Books.
岡野原 大輔(おかのはら・だいすけ)
Preferred Networks 取締役副社長
岡野原 大輔(おかのはら・だいすけ) 2006年にPreferred Infrastructureを共同創業。2010年、東京大学大学院博士課程修了。博士(情報理工学)。未踏ソフト創造事業スーパークリエータ認定。東京大学総長賞。