PR

 東芝は2023年3月13日、工場やプラントの図面や仕様書、点検記録やトラブル記録などの専門的文書を高効率・高精度に認識する文書理解AI(人工知能)を開発したと発表した。必ずしも定型文書にまとまっていない技術情報や保守記録から、熟練者の知識や経験を読み取って活用する目的。2024年に同社グループ内の事業現場で設備トラブル時などの事後保全に応用して設備停止期間の短縮を図るほか、将来は予防保全にも適用する考え。

 開発した設備保全用の文書理解AIは、計算規模を大規模汎用言語モデルの半分に制限し、学習時に使う文書量は従来手法の1/100にした。一般的に入手可能な大規模汎用言語モデルをそのまま利用しなかったのは、保守現場では大規模な計算リソースの確保が難しく、専門的な文書データの蓄積は大規模汎用言語モデルの学習に使えるほど大量ではないためだ。

 そこで大規模汎用言語モデルを「教師モデル」とし、学習のための「穴埋め問題」に対して教師モデルの応答をまねる「モデル蒸留」で一般用語を学習。専門用語についての学習は別カリキュラムとし、専門文書データに存在する正解と同じ回答ができるようにする。これらにより、一般用語と専門用語を両方習得させた()。学習時間は5時間と、大規模汎用言語モデルでは1週間程度かかるのに比べて大幅に短縮できた。

図 専門文書を理解するAIの概要
図 専門文書を理解するAIの概要
「生徒」が専門文書を理解するAIを意味する。(出所:東芝)
[画像のクリックで拡大表示]

 作成した文書理解AIの有効性検証は、電力設備の保守点検記録からトラブルに関する表現を見つける情報抽出タスクにより実施。トラブルが発生した機器の状況を示す「現象」や保守員が実施した「対策」の記載を正解率89%で抽出できると確認した。「実用水準といわれる90%に迫る高い精度」(東芝)を達成できたという。