全3939文字
PR
本記事はロボットとAI技術の専門誌『日経Robotics』のデジタル版です
本記事はロボットとAI技術の専門誌『日経Robotics』のデジタル版です

 生物は視覚、聴覚、触覚など様々なモダリティを持つ高次元データを同時に感知することができる。一方でニューラルネットワークでこうしたデータを扱う場合は、それぞれのモダリティ毎に専用の感知モデルを設計し利用する必要がある。

 例えば画像であればデータは2次元のグリッド上の信号だとし、その上で畳み込み層で変換する。また複数のモダリティを処理する必要がある場合はそれらを統合するネットワークを用意し、問題の出力形式に合わせた専用のネットワークを設計する必要がある。こうした事前知識の利用は帰納バイアスとして有効である一方、複数のモダリティをどのように扱うか、それらをどのように統合するのかは自明ではない。

著者の岡野原大輔氏
著者の岡野原大輔氏

 Perceiver1)はあらゆるモダリティのデータを扱えるように設計されたニューラルネットワークである。入力がどのような構造を持つのかは仮定せず、必要な情報が付与されたバイト列として扱う。そして非対称の交差注意機構を利用し、入力全体を固定サイズの潜在変数列に変換して並列に読み込んだ上で、潜在変数列上で自己注意機構を使った変換を繰り返し適用した上で出力結果を求める。

 さらにPerceiver IO2)はあらゆる種類の出力を扱うように拡張された。例えば出力として、分類のようなスカラー値だけではなく、入力と同じような構造を持ったようなベクトルやテンソル、集合を扱えるようにした。これによりあらゆるタスクを1つのニューラルネットワークアーキテクチャで扱うことができる。さらに単に扱うことができるだけでなく、それぞれの問題に専用で設計されたモデルに匹敵または超える性能を達成できると報告された。例えば、自然言語理解、画像分類、オプティカルフロー(隣接フレーム間での対応画素の移動予測)、音声、動画の自己符号化器、複数エージェントの強化学習などのタスクにおいてである。本稿ではこれらPerceiver、Perceiver IOについて紹介していく。