全10323文字
機械翻訳や質問応答など自然言語処理(NLP)の領域で発祥した、とあるディープラーニング技術が今、画像認識の領域に本格流入し、大きな成果を生み出し始めた。
自然言語処理と画像認識、2つの領域に深く精通し、米グーグルとディープラーニング技術の先端開発で常にしのぎを削る米IT大手、Facebook社が開発した「DETR(detection transformer)」である1)。
ロボットや自動運転車などで必須となる、特定の物体領域を見つけて切り出す処理「オブジェクト検出」において、このDETRはこのタスクの代表的な既存手法「Faster R-CNN」に匹敵する性能を実現しつつ、必要な演算量を1/2以下と大幅に減らすことに成功した(図1)。
しかも、DETRはネットワーク構造も非常にシンプルになっており、ディープニューラルネット部以外に複雑な後処理が必要だったFaster R-CNNなどの既存手法と比べると、実用的で使いやすい手法に進化している。
これだけであれば、「なんだ、肩を並べただけか」「オブジェクト検出は自分には関係ない」と思われるかもしれない。しかし、DETRが登場したことのインパクトは、単にオブジェクト検出という1タスクのみに留まらない。