全10323文字
本記事はロボットとAI技術の専門誌『日経Robotics』のデジタル版です
本記事はロボットとAI技術の専門誌『日経Robotics』のデジタル版です

 機械翻訳や質問応答など自然言語処理(NLP)の領域で発祥した、とあるディープラーニング技術が今、画像認識の領域に本格流入し、大きな成果を生み出し始めた。

 自然言語処理と画像認識、2つの領域に深く精通し、米グーグルとディープラーニング技術の先端開発で常にしのぎを削る米IT大手、Facebook社が開発した「DETR(detection transformer)」である1)

 ロボットや自動運転車などで必須となる、特定の物体領域を見つけて切り出す処理「オブジェクト検出」において、このDETRはこのタスクの代表的な既存手法「Faster R-CNN」に匹敵する性能を実現しつつ、必要な演算量を1/2以下と大幅に減らすことに成功した(図1)。

 しかも、DETRはネットワーク構造も非常にシンプルになっており、ディープニューラルネット部以外に複雑な後処理が必要だったFaster R-CNNなどの既存手法と比べると、実用的で使いやすい手法に進化している。

図1 Facebook社のオブジェクト検出技術「DETR」による認識結果
[画像のクリックで拡大表示]
図1 Facebook社のオブジェクト検出技術「DETR」による認識結果
[画像のクリックで拡大表示]
図1 Facebook社のオブジェクト検出技術「DETR」による認識結果
self-attention(SA)という仕組みをフル活用している。左の写真のbounding box内でboxと同じ色のヒートマップはSAが注目している場所を示す。右の写真は同じ技術をsegmentaionに応用した例。(写真:Facebook AIの論文1)N. Carion et al.より)

 これだけであれば、「なんだ、肩を並べただけか」「オブジェクト検出は自分には関係ない」と思われるかもしれない。しかし、DETRが登場したことのインパクトは、単にオブジェクト検出という1タスクのみに留まらない。