『日経Robotics デジタル版(電子版)』のサービス開始を記念して、特別に誰でも閲覧できるようにしています。
人間は画像認識を行う際、対象をパース木として認識していると考えられる1)。パース木の根(計算科学で扱う木のように根を一番上、葉を一番下と逆さまで表された木構造である)は対象の全体の概念を表し、各節点の子は節点が表す概念の部分を表す。
例えば、猫を認識したパース木は猫全体を表す根があり、その子に、頭、胴、足を表す節点があり、さらに頭を表す節点の子に口や眉毛を表す節点、足を表す節点の子に爪に対応する子が対応する。各節点はその部位で局所座標系を持ち、親や子間の枝には座標系を変換する行列が付随している。

親の座標系を移動、回転した場合は、対応する子孫の座標系も自然に変換される(CGではこうしたモデル化は一般的である)。猫を概念上回転させれば、頭や胴、それに付随する口や爪も違和感なく回転するだろうが、その実現には上のような座標変換が必須である。また、認識の際に部分がわかれば親の認識に役立ち(耳や爪を見れば猫か犬だろうと予測でき)、逆に親が分かれば子の認識に役立つ(車だとわかっていれば目のように見える部分はフロントライトだというように)。
このように認識結果としてパース木を得ることで、人間のように汎化する画像認識システムを作れると考えられてきた。特に深層学習の産みの親の一人であるカナダUniversity of Toronto名誉教授のHinton氏は1980年頃から心理学的な実験結果から人間はこのように認識していると考え、CNNだけではその実現が難しいとして、様々な方法を提案している1)。
そんな中、Hinton氏は2021年2月に画像認識結果をパース木で表現できるシステムGLOMの構想を発表した2)、注1)。GLOMはTransformer(自己注意機構)、NeRFなどで注目されるニューラル場、自己教師あり学習で成功している対比学習、学習済みモデルを他のモデルに転移させる蒸留、そしてカプセルのアイデアを組み合わせた、野心的なシステムである。また画像だけでなく言語も対象としており、現在の自然言語処理でTransformerを使った自己教師ありモデルがなぜ成功しているのかも説明することを試みている。このGLOMについて今回説明していく。