全1897文字
PR

 日立製作所が画像に写っている人の動作と物体の関係性を検出するAI(人工知能)で世界最高精度を達成した。自然言語処理で目覚ましい成果をあげている「Transformer」を応用することで、人と物体の領域や関係性を正確に特定できるようになった。防犯カメラなどに搭載すれば、不審な行動の検知や忘れ物の捜索などに役立てられる可能性がある。

 人の動作と物体の関係性を検出する技術は「人間-物体相互作用検出(Human-Object Interaction detection、HOI検出)」と呼ばれる。日立は2021年6月に開催された画像認識技術の国際学会「CVPR 2021」で、自社が開発したHOI検出技術である「QPIC(Query-Based Pairwise Human-Object Interaction Detection with Image-Wide Contextual Information)」を論文発表した。

 日立のQPICは、持つ、蹴る、乗る、投げる、打つといったおよそ30種類の動作の種類を判別するHOI検出用の公開データセット「V-COCO」で、世界最高となる58.8%の精度を達成した(2021年4月7日時点)。別のデータセットでも従来手法よりもおよそ2割高い精度を得られたという。

 QPICが高精度を達成できた理由は、動作に関連する人や物体の領域を抽出する技術に、従来使われているCNN(畳み込みニューラルネットワーク)ではなく自己注意機構(SA、Self Attention)のTransformerを採用したことにある。Transformerは自然言語処理の分野で近年話題となった米Google(グーグル)の「BERT」や米Open AI(オープンAI)の「GPT-3」の基礎となる技術であり、最近は画像認識の分野でも使われ始めている。

 HOI検出においてはまず、画像の中にある人や動作に関係する物体をなるべく正確に特定する必要がある。従来のCNNを使う手法では、人や物体は箱形の領域に切り抜いて特定し、切り抜いた人と物体の関係性から動作を推定しようとしていた。切り抜いた部分以外に重要な情報があったとしても、切り捨てられていた。

人間の手の形やボール、ゴールとの位置関係などに着目

 それに対してQPICでは、Transformerベースの物体検出器を使うことによって、動作に関係する人と物体の組み合わせを動的に、自然な形状で抽出できるようになった。QPICは人と物体を組み合わせた画像領域に基づき、それがどのような動作であるのか推定する。

 例えばバスケットボールをシュートする画像を分析する場合、QPICは人の中でもシュートする手の形やボール、ゴールとの位置関係などに特に注目できるようになり、「投げる」と判断できる可能性が高まる。

人の動作と物体の関係性を高精度に検出する
人の動作と物体の関係性を高精度に検出する
(出所:日立製作所)
[画像のクリックで拡大表示]

 従来手法では、CNNが切り抜いた人と物体の1対1の組み合わせで動作を推定していた。するとバスケットボールの例では人とボールの関係性のみを解析するため、ゴールの存在や位置関係までは着目できず、その動作が「投げる」なのかそれとも「取る」なのかを判断しにくかった。動作に関係ないが人の近くに存在する物体が、正確な判断を妨げるノイズになってしまうのも課題だった。

 QPICにおけるTransformerベースの物体検出器には、米Facebook(フェイスブック)が開発した「DETR」を使用した。人と物体を組み合わせた画像領域から動作を推定する部分は日立が独自に開発している。