全4499文字
PR
この記事は日経Robotics 有料購読者向けの記事ですが
日経Robotics デジタル版(電子版)』のサービス開始を記念して、特別に誰でも閲覧できるようにしています。
本記事はロボットとAI技術の専門誌『日経Robotics』のデジタル版です
本記事はロボットとAI技術の専門誌『日経Robotics』のデジタル版です

 人や動物が空間をどのように理解し処理しているかについてある程度わかってきている。例えば、ネズミを使った実験では、脳内には特定の位置にいるときだけ反応する場所細胞、特定のグリッド上に存在する時に反応するグリッド細胞が存在し、これらを組み合わせて空間中のどこにいるのかを表現したり、ナビゲーションできることがわかっている。

著者の岡野原大輔氏
著者の岡野原大輔氏
[画像のクリックで拡大表示]

 これらを発見した研究者らには2014年、ノーベル生理学・医学賞が与えられている。さらに、頭がどの方向を向いているのかを表す頭方位細胞、特定の距離と方向に壁などの境界が存在する時に反応する境界細胞もある。余談だがグリッド細胞は異なる周波数の三角関数を使った位置符号化手法(NeRFなど)、境界細胞は符号化付き距離関数とよく似ている。さらには、速度情報から現在の位置を予測するようにRNNを学習させた場合、RNNの各ユニットはグリッド細胞と同じような役割を果たすようになることもわかっている1)

 一方で大きな謎として残っているのは人や動物は視覚や加速度などを自己中心表現(egocentric representation:カメラ座標系といってよい)で得るのに対し、これらの位置情報やナビゲーションは他者中心表現(allocentric repre-sentation:世界座標系といってもよい)で実現されており、自己中心表現を他者中心表現にどのように変換できるかが解明されていない。

 これは本連載で前回解説した3次元シーン理解とも関連する。観測から自分がどのような位置、姿勢であるかを推定したりナビゲーションを解く問題である。人は初めて入った建物や施設でも頑健に自己位置を推定し、入り口から出口までスムーズにナビゲーションすることができる。異なる視点からの情報も容易に統合できることから、自己中心の観測の相対的な情報だけでなく絶対的な空間表現を得ることができている。また、狭い場所でものを運ぶ際にも周辺にぶつからずに移動計画を立てることができる。現在のロボットプランニングでも同じようなことはできつつあるが、人のような頑健性や汎用性はまだ実現できていない。そのため、人や動物の空間理解や処理方法はどのように実現されているかという科学的な興味だけでなく実用的に役立つシステムを作る上でも活かせる部分があるのではないかと考えられる。

視覚情報による想起を速度情報のみから予測

 この自己中心表現から他者中心表現への変換が、他者中心表現の教師データを使わずにNN(ニューラルネットワーク)で自己移動情報(加速度)から視覚で得られた情報を予測することで創発されることがわかってきた。人や動物でも実現可能な仕組みであり、かつ現在の脳の研究でわかっている機構と類似しているため、人や動物の機構と似ている可能性が高い。これについて詳しく説明する。

 英DeepMind社のBenigno Uria氏らは、現在わかっている脳の記憶の仕組みを参考に次のようなNNアーキテクチャを考えた2)。このモデルでは速度情報から、視覚情報によってどの記憶が想起されるのかを予測する。視覚情報自身を予測するものではないことに注意してほしい。なお、以降の説明では簡略化のため論文中にある時刻を示す添字$t$は省略する。

 まず、視覚情報(画像)をCNNで圧縮し符号$\mathbf{y}$を得る。この圧縮は自己符号化器をあらかじめ学習しておきその符号化器を使って行う。次に$R$個のRNN$\{ F_r \}_{r \in 1 \ldots R}$を用意する。これらのRNNはそれぞれ異なる種類の入力情報(角加速度のみ、角加速度と速度、入力なし)を元に時刻毎に内部状態$\mathbf{x}_r$を更新する。そして、次のような$S$個のスロットから構成される記憶領域を用意する。

\[ \mathcal{M} = \{ (\mathbf{m}_s^{(\mathbf{y})}, \mathbf{m}_{1,s}^{(\mathbf{x})} \ldots \mathbf{m}_{R, }^{(\mathbf{x})}\}_{s \in 1\ldots S} \]

各スロットは視覚情報を符号化した$\mathbf{y}$に関する記憶(上付き添字が${(\mathbf{y})}$)とRNNからの内部状態に関する記憶(上付き添字が$(\mathbf{x})$)の2つから構成される。

 まず、視覚情報を圧縮して得た符号$\mathbf{y}$からどのスロットを思い出すか、発火させるかの確率を次のように定義する。

\[ P_{react}(s | \mathbf{y}, \mathcal{M}) \propto \exp(\beta\mathbf{y}^T \mathbf{m}_s^{(\mathbf{y})}) \]

$\beta>0$は発火するスロットをどの程度疎にするのかを調整するパラメータである。また、速度情報からどのスロットが発火するのかの確率を次のように定義する。

\[ P_{pred}(s | \mathbf{x}_1, \ldots, \mathbf{x}_R, \mathcal{M})\propto \prod_{r=1}^R \exp(\pi_r \mathbf{x}_{r}^T \mathbf{m}_{r,s}^{(\mathbf{x})}) \]

$\pi_r > 0$は各RNNが相対的にどの程度重要かを表すパラメータである。$R$個のRNNによるエキスパートを使ったPoE(Product of Expert)モデルともいえ、全エキスパートのスコアが高い時のみ確率が高くなるような分布である。

 そして、$P_{pred}$からの$P_{react}$のクロスエントロピー誤差が小さくなるようにして全てのパラメータを学習する。

\[ L = \sum_{s=1}^S P_{react}(s | \mathbf{y}, \mathcal{M}) \log P_{pred}(s | \mathbf{x}_1, \ldots, \mathbf{x}_R, \mathcal{M}) \]

このようにして、速度情報だけしか使っていない$P_{pred}$が視覚情報によってどのスロットを想起するのかを予測できるように学習する。

 この学習の際、RNNの記憶$\mathbf{m}_{r,s}^{(\mathbf{x})}$は更新されるが、$\mathbf{m}^{(\mathbf{y})}$だけは学習目標であるため最適化対象から除いておく。代わりに一定の確率でランダムにスロット$s$を選択し、現在の状態をスロット$s$に次のようにアサインする。

\[ (\mathbf{m}_s^{(\mathbf{y})},\mathbf{m}_{1, s}^{(\mathbf{x})} \ldots \mathbf{m}_{R,s}^{(\mathbf{x})}) := (\mathbf{y}_t, \mathbf{x}_{1, t}, \ldots,\mathbf{x}_{R, t}) \]

また、RNNは視覚情報を使わないように設計されているが、視覚情報由来の情報を使って位置や方向を利用できるようにし、また累積誤差を解消できるようにしなければいけない。そこで、一定の確率$P=0.1$で内部状態の修正符号を次のように計算する。

\[ \tilde{\mathbf{x}}_{r, t} = \sum_{s=1}^S w_{s, t} \mathbf{m}_{r,s}^{(\mathbf{x})} \quad$ $ w_{s, t} \propto \exp(\gamma \mathbf{y}_t^T \mathbf{m}_s^{(\mathbf{y})}) \]

 つまり、現在の視覚情報により想起されたスロットを想起できるような内部状態を計算する。そしてこの修正符号と現在の内部状態から、次の内部状態をRNNで計算する。ここでも意図的に、視覚情報が内部状態にどのスロットを想起するかという情報のみに限定して渡すようにしている。

NNによる自己中心表現から他者中心表現への変換の創発

 このように設計したNNを異なる種類の入力を受け取るRNNグループを使って実験した結果、RNNは他者中心表現を計算するのに必要な情報を自然と獲得することがわかった。具体的には角速度情報のみを受け取って学習させたRNNは、位置に依存せず方向のみに依存して発火するようになり、頭方位細胞と良く似た機能を持つようになった。角速度情報と速度情報を受け取ったRNNは自己中心的境界細胞(egoBVC)と良く似た役割を持つことがわかった。例えばある方向の50cm先に壁がある時に発火するといったような細胞である。egoBVCは自己中心情報を他者中心情報へ変換する中心的役割を果たすとみられている。一切速度情報を受け取らず、視覚情報由来の修正のみで学習したRNNは他者中心BVCと良く似た役割を果たすことがわかった。BVCは場所細胞の活性に大きな役割を果たしていることが予測されている。これらRNNはそれぞれお互いが苦手としている部分を補いあって視覚がどの記憶を想起するかを予測できるよう学習し、その結果自己中心表現から他者中心表現に必要な情報を計算できるようになることがわかった。

 このほかにも、作られたRNNは環境操作に対しても頑健であったり、新しい環境に対しても大きな学習率による更新可能な記憶領域のおかげですぐ適用できるなど優れた性能を持つことも確認された。

 現在人が設計した空間表現やナビゲーション手法に加えて、これらの人や動物の空間理解から得られた知見をうまく組み合わせてより(人を超えるような)頑健で正確な空間理解やその上での処理が実現できるのではないかと期待している。

1)C. Cueva et al.,“Emergence of grid-like representaions by training recurrent neural networks to perform spatial localization, ”ICLR 2018,https://openreview.net/pdf?id=B17JTOe0-
2)B. Uria et al.,“The Spatial Memory Pipeline: a model of egocentric to allocentric understanding in mammalian brains,”https://doi.org/10.1101/2020.11.11.378141
岡野原 大輔(おかのはら・だいすけ)
Preferred Networks 代表取締役 最高執行責任者
岡野原 大輔(おかのはら・だいすけ) 2006年にPreferred Infrastructureを共同創業。2010年、東京大学大学院博士課程修了。博士(情報理工学)。未踏ソフト創造事業スーパークリエータ認定。東京大学総長賞。