ディープニューラルネットワーク(DNN)と人間の知能の大きな違いの1つは、DNNは基本的に事物の異なる属性を分離して学習・認識できないことである。例えば様々な色の自動車を認識する場合、人は車の種類と色を別々のものとして判断できるため、初めて見る色であっても「ピンクのプリウス」「緑のN-BOX」などとわかる。
ところがDNNに色と車種をキーにして画像を検索させたりする場合、学習データにない属性の組み合わせでは性能が大きく劣化することがわかっている。実際には「プリウス」の画像であっても見たことのない色であれば、その色の別の車種と誤認識しかねない。色と車種といった2つの属性ならまだしも、大きさや他のものとの位置関係など多様な属性をDNNに認識させようとすると、網羅すべき範囲は一挙に膨らみ、学習に必要なデータの量が爆発的に増えてしまう。
この難点を解決する手段として、人のように個別の属性を他とは独立に学習し、それぞれの属性の認識結果を組み合わせて推論できる能力をDNNに持たせる方法がある。この能力は、系統的汎化(systematic generalization)などと呼ばれる。DNNの系統的汎化能力を高める技術は、学習用データとは異なる確率分布(OOD:out-of-distribution)に従うデータを、DNNに認識させる技術の一種ともいえる注1)。開発段階には想定外だった事象が往々にして生じる現実世界で利用する上で、DNNに望まれる能力であることは間違いない。
この技術を研究する1社が富士通である。同社は画像に関する質疑応答(VQA)システムを題材に、米MITのCenter for Brains, Minds and Machinesと共同で開発を進めている(図1)。