全1946文字
PR
グラフ畳み込みニューラルネットワークを用いた代表的手法であるST-GCN。香港中文大学が2018年に発表した。(図:富士通研究所)
グラフ畳み込みニューラルネットワークを用いた代表的手法であるST-GCN。香港中文大学が2018年に発表した。(図:富士通研究所)
[画像のクリックで拡大表示]

 富士通研究所は、箱を開けて物を取り出したり、物を投げたりするような人間の複雑な動作を映像から高精度に認識できるAI(人工知能)技術を開発した。行動認識分野における骨格データを用いた世界標準のベンチマークテストで、従来技術の正解率を大きく上回り、世界最高精度を達成したという。

 同社は、この技術を2021年1月にオンラインで開催された国際会議「25th International Conference on Pattern Recognition(ICPR2020)」で発表した。工場などでの業務改善や、監視カメラの映像からの危険・不審行動の検知などに役立てるという。21年度中の実用化を目指す。

 映像から人の動作を認識するには、動画を解析して直接認識する手法と動画から骨格データを抽出して認識する手法がある。後者は、手や肘、肩など各関節位置の時間変化を特徴量として抽出し、それをディープラーニング(深層学習)で学習して、動作パターンとひも付けて検出する。前者より計算負荷やコストが低く、映像に対するノイズ(暗いなどの品質低下)に強い特徴がある。

 この手法で画期的だったのが、18年に香港中文大学が発表した「ST-GCN」だ。関節位置を「ノード(頂点)」、隣り合う関節を結んだつながりを「エッジ」としてニューラルネットワークで体の動きを再現し、そのつながりから特徴を抽出することで人体を自然にモデル化できる。 

 さらに時間軸上で同じ関節にエッジを追加した「時間グラフ」によって関節位置の時間変化の特徴を抽出する。これによって、立つ、座るといった単純な行動を従来より高精度に認識することを可能にした。