富士通と米マサチューセッツ工科大学(MIT)は2021年12月、当初の想定にはない「未知のデータ」を高精度で認識できるAI(人工知能)の技術を開発したと発表した。色や形状などを手がかりに対象を識別する人の脳の仕組みをヒントにした。未知のデータの認識精度が下がりやすい深層学習の課題を克服できるほか、AIシステム開発の効率化も期待できる。
深層学習で用いられるDNN(ディープ・ニューラル・ネットワーク)を使えば、画像認識などで人間と同等以上の精度を実現する。既に工場における不良品の検出や医療における画像診断など様々なシーンで活用が進む。ただし認識対象の向きや照明の当たり具合といった条件が学習時の教師データと大きく異なると、未知のデータとなって認識精度が低下しやすい課題がある。
この課題は「ショートカット学習」と呼ばれる現象が引き起こしている可能性が高いと考えられている。本来は不正確な根拠である特徴から正解を導けるように学習している状況を指す。
自動車の画像から製品名を当てるAIを考えてみよう。仮に教師データが黒色の自動車に偏っていると、AIは黒色を正解の製品名に対応する重要な特徴と学習してしまう場合がある。そうなると、色が異なる自動車の画像を認識させても未知のデータとなり、精度が下がってしまうわけだ。
これを防ぐには、多くの条件を網羅的に学習させればよい。とはいえ実際の環境では学習用データが限られるなど、網羅的な学習が難しいことが少なくない。未知のデータの認識精度をいかに高めるかが、AIの研究者にとって最近の重要なテーマの1つになっている。
色が違っても形を手かがりに正解を探る
課題を解決するアプローチとして、富士通とMITは人間の脳の認知機能を応用することにした。人間は仮に色が違っても、形状など別の特徴を手かがりに正解を導けることが多い。MITとの研究の中心メンバーである富士通の佐々木智丈研究本部人工知能研究所自律学習プロジェクトシニアリサーチャーは、「人間の脳には形や色、視点などの属性の認識に特化した機能モジュールがあると考えられている」と説明する。
このことをヒントに、形状や色、視点といった属性ごとにDNNを分割。属性ごとにDNNのモジュールを持たせることにした。例えば色が全く異なるデータでも、形状や視点などの別の属性から正解を導けるのではないかと考えたのだ。
データの種類 | 従来通り分割しないDNN | 富士通・MITの属性ごとに分割したDNN |
---|---|---|
未知のデータ | 73.2% | 77.3% |
学習時と同じ傾向のデータ | 98.0% | 94.4% |
仮説は当たり、属性ごとにDNNモジュールを持たせたAIシステムは高い認識精度を実現した。米スタンフォード大学が研究用に開発した画像の内容に関する質問に応答する問題を使って検証したところ、未知のデータの認識精度は13項目の平均で77.3%。従来通りの分割しないDNNを4.1ポイント上回った。「現状は認識精度を平均1%高めるだけでも難しいとされている。4%は大きな差といえる」(佐々木シニアリサーチャー)。最大では約13ポイントも差を付けた。