『日経Robotics デジタル版(電子版)』のサービス開始を記念して、特別に誰でも閲覧できるようにしています。

世の中の多くの現象には対称性がみられる。
ある対象$M$が対称性$S$を持つとは、$S$で指定された操作$g \in S$を$M$に適用しても$M$が変わらないことを言う。
例えば、球体は任意の回転操作を適用しても球体のままだし、左右対称な図形は左右反転操作を適用しても図形は変わらない。この対称性は幾何的な対象だけでなく物理現象の多くにみられる。
この対称性は学習する際の強力な帰納バイアス、つまり学習結果に大きく貢献できる学習データ以外の事前知識として利用することができる。
例えば画像認識タスクにおいて、認識対象の物体が少し上下左右に平行移動したとしてもその画像の分類結果が変わることはない。この場合、分類結果は平行移動操作に対して対称性があるといえる。また多くの場合、画像に回転操作や左右の鏡面反射操作を適用しても分類結果が変わることはない。一方で、画像を上下に反転させると意味が変わる場合もある。
このような対称性が最もみられるのは点群データやメッシュデータ、CTスキャンや顕微鏡データ、地理データ、およびその解析結果である。こうしたデータは座標や基準となる軸の選び方は恣意的であり、座標を変換したり軸を変えたとしても結果は変わらない。例えば点群データから、それらの各点が物体の何に対応しているのか(頭、足など)は、もちろん点群データが回転したとしても関係ない。顕微鏡で与えられた画像中のがんに対応する細胞は、画像が回転したとしてもがんであることには変わらない。
一方、機械学習のモデルやニューラルネットワークは必ずしもこのような入力や問題が持つ対称性を考慮できない。例えば、総結合層からなる多層パーセプトロンで画像を分類する場合、入力画像を平行移動や回転させると、その結果は全く違うものになってしまう。モデルからすれば、どの部分に対称性があり入力のどの変化は考慮して、どの変化は無視するかは自明でないためだ。そのため、データオーグメンテーションとよばれる訓練データに対して様々な変換を適用し(画像の場合は平行移動、回転、鏡面反射など)、データや問題が備える対称性を全て別々な現象としてモデルに覚えさせることが一般的だ。この場合、モデルは、本来であれば同じモデルが使える場合も別々のモデルで表現する必要があり、(水増しした)訓練データ数、パラメータ数も大きくなってしまう。
対称性をうまく利用し成功したCNN
このような対称性をモデルに直接組み込むことが多くされてきた。最も成功したモデルがCNN(畳み込みニューラルネットワーク)である。CNNは全ての位置で同じパラメータを持った線形変換、つまり畳み込み操作を適用するため、入力が平行移動してもその出力も同様に平行移動するだけである。
CNNはもし最後に全ての位置の結果を(位置の順序に依存せず)まとめあげる操作、例えばグローバルプーリングなどを適用すれば、入力に対する平行移動操作に対して、結果は不変となる。一方で、プーリング操作を適用しなければこの入力に対する変換は、出力でもそのまま残っており、使うことができる。この概念は不変と同変という言葉で説明できる。
不変と同変
入力$x$に対してある操作$g$を適用して得られた結果$x' =g(x)$に対し変換$\Phi$を適用した結果$\Phi(x')$が、元の入力を変換した結果$\Phi(x)$と常に一致する場合、つまり$\Phi(x)= \Phi(x') = \Phi(g(x))$である場合、変換$\Phi$は操作$g$に対し不変(Invariant)であると呼ぶ。
これに対し、入力$x$に対してある操作$g$を適用して得られた結果$x' =g(x)$を変換した結果$\Phi(x')$と、元の入力を変換した結果$\Phi(x)$の後に、$g$に対応する操作$\pi(g)$を適用した結果とが常に一致する場合、つまり$\pi(g)(\Phi(x))= \Phi(g(x))$である場合、変換$\Phi$は操作$g$に対し同変(Equivariant)であると呼ぶ(図1)。このとき、$g$が群の元、$x$がベクトル空間$V$の元、各$g$に対して$\pi(g)$が$V$上の線形変換で、操作$g$は、$\pi(gh) = \pi(g) \pi(h)$を満たすとする。このような操作を扱う分野は表現論とよばれ、数学や物理などで広く扱われている。
不変というのは同変の特殊例で$\pi(g)$が恒等変換(入力をそのまま返す変換)である場合である。不変は入力に対する操作情報をつぶしているともいえる。CNNで最後にプーリング操作を使った場合は、入力に対する平行移動情報は消されている。また、(プーリングを使わない)CNNは平行移動操作に対して同変であり、入力を平行移動して変換した結果は、そのままの入力を変換した結果を平行移動した結果と一致する。この場合たまたま$\pi(g)= g$である。
同変は、情報の“もつれを解く(Disentanglement)”上で重要な概念である。ある操作に対して同変である変換は、後からでもその操作が可能(Steerable)1)であり、その変換に必要な情報が壊れず失われていないことを意味する。例えば移動、回転に対し同変であるような変換は対象の一種の姿勢情報を内部で保っており、変換後も、その姿勢情報を使うことができる。
同変なネットワークは学習データ効率が良い
同変であるニューラルネットワークは操作間で同じパラメータを共有できるので学習データ効率が良い。例えば回転操作に対し同変であるニューラルネットワークの場合は、学習データで回転しているようなサンプルがあったとしても同じパラメータを使って処理することができる。一般の画像データは向きが揃えられておりメリットは少ないかもしれないが、点群データやCTスキャンデータでは向きを揃えるということが難しく、向きに依存せず同じ学習モデルが使えることは非常に大きな利点となる。
様々な操作に対しDNNを同変にする研究
これまでにニューラルネットワークを様々な操作に対し同変にするにはどうすればよいかが考えられてきた。その中でも代表的な回転操作、鏡面反転操作に対して同変な変換をどのように実現できるかが研究されてきた。
2016年に最初に提案されたGroup Equivariant Convolution Network(G-CNN)は、少数の離散的な回転操作、平行移動、鏡映変換に対し同変であるようなニューラルネットワークである2)。この場合、畳み込み操作だけでなくプーリング操作や非線形な活性化関数に対する工夫も提案された。一方で、G-CNNは操作数に比例する計算量、メモリ使用量が必要であり、操作数を増やすことが難しかった。
G-CNNの翌年に発表されたSteerable CNN1)は、同変である変換の計算量は操作数に比例する必要はなく、その操作群で定義される既約表現の組み合わせのみに制限した形で線形変換(畳み込みの場合はカーネル)を表現すればよいことが示された。これによって、同変である場合はむしろ少ない計算量で処理でき、実際少ないパラメータで表現できることが示された。この平行移動、回転、鏡面反射操作一般に対して、同変とする場合にはどのような既約表現を使えばよいかは既に求められている3)。
また、球面4)(ICLR 2018のベストペーパー)やグラフなどユークリッド空間以外の空間の場合に同変とする手法の研究も進んでいる。これらを一般化した等質空間(homogeneous space)上で同変とできるCNN5)も進んでいる。
これら同変なネットワークは理論的に興味深いだけでなく、実用的にも大きな成果を上げている。代表的なものとして、メッシュを入力とし、どの頂点が参照のどの部位に対応するのかを求めるレジストレーションタスクがある。
このレジストレーションタスクは対称性があるため従来手法は様々な工夫をする必要があったが、同変なCNNを使った場合、特別な工夫をせずほぼ100%に近い精度を達成することができた6)の7章。また、細胞組織などを顕微鏡で調べた結果に対しても同変なCNNを使った手法7)が少ないサンプル数から効率的に学習でき、従来手法を上回る最も高い精度を達成したと報告されている。
この同変や既約表現といった概念の理解には高度な数学の知識が必要だが、使うだけであれば、代表的な操作に対して同変な変換を、従来モジュールを置き換えるだけですぐ使うことができる8)。現実世界の問題にはまだ考慮できていない対称性も多く存在し、今後、同変な変換を通じてこれらの対称性をモデルに組み込んでいくことが考えられるだろう。
2)T. Cohen et al.,“Group Equivariant Convolution Networks,” ICML 2016,
3)M. Weiler et al.,“General E(2)-Equivariant Steerable CNNs,” NeurIPS 2019,
4)T. Cohen et al.,“Spherical CNNs,” ICLR 2018,
5)T. Cohen et al.,“A General Theory of Equivariant CNNs on Homogeneous Spaces,” NeurIPS 2019,
6)P. d. Haan et al.,“Gauge Equivariant Mesh CNNs: Anisotropic convolutions on geometric graphs,”
7)S. Graham et al.,“Dense Steerable Filter CNNs for Exploiting Rotational Symmetry in Histology Images,”
8)https://github.com/QUVA-Lab/e2cnn
Preferred Networks 代表取締役副社長
