全4728文字
PR

 近年におけるAI(人工知能)の発展は著しい。しかしその一方で、企業における実際の業務にAIを活用する取り組みは、あまり進んでいないのが実情だ。AIの活用を阻んでいる「壁」と、それを乗り越える方法を解説する本連載。第3回はデータの品質がAIにもたらす影響と、データ品質を保つ方法について解説する。

 近年はAIが、日常生活に近い領域で使われるようになり、誤動作による影響を受ける人も多くなった。そのためAIの動作は使用する前に正しく把握・評価する必要がある。

 しかしAIは様々なタスクに応用できる柔軟さゆえに、未知のデータに対してどのように動作するのか事前に予測することが困難という弱点がある。また、AIの運用を長く続けていると、データの傾向が変わってしまい、AIが提供するサービスの品質が低下してしまうこともある。そのためAIの評価に当たっては、こうしたAI特有のリスクを適切に評価する観点が必要となる。

 そこで今回は、AI特有のリスクと特に関係のある評価観点としてデータの品質を取り上げるとともに、データの品質を定量化する方法も紹介する。

AIの問題が顕在化

 AIの利用が広まる一方で、品質評価が不十分であるために生じる問題が顕在化しつつある。

 例えば米国標準技術研究所(NIST)が2019年12月に公表した調査リポート「Face Recognition Vendor Test (FRVT) Part 3: Demographic Effects」によれば、NISTが189種類の顔認識ソフトウエアアルゴリズムを評価したところ、アジア系やアフリカ系アメリカ人の顔を認識させた際の誤認識率は、白人の誤認識率と比べて10~100倍も高かったという。誤認識率の高さは、システムへの認証に顔認識を使っている場合などに、セキュリティー上の問題をもたらしかねないとNISTは指摘している。

 また米国のニュースサイト「Gizmodo」の報道によれば、スコットランドのサッカーチームがサッカーボールを追跡するAIカメラを導入したところ、試合中に副審のスキンヘッドをボールと誤認識してしまい、ボールではなく副審の動きばかりが中継されるという「事件」が起きたという。

 これらの問題が生じた共通の要因として誤認識した状況をAIが事前に学習できていなかったことが挙げられる。AIは学習時に与えたデータから帰納的に得られた特徴量に基づいて動作する。そのため、学習時に十分与えられなかった状況に対してどのような挙動を示すか予測できない。

 またAIは、入出力の関係を事前に明示的にルールとして与える必要がないため、ルールに基づく処理では対応できないタスクに柔軟に対応することが可能だ。しかしその半面、学習の結果どのような関係性が獲得されたのかが明らかではないため、得られた関係性は、個別の評価データに対する挙動から推測せざるを得ない。

 このようにAIの構成要素の1つであるデータは、AIの動作を決定するとともに、AIの動作確認に使われるなど重要な役割を果たすのだ。ではAIを活用するに当たって、データの品質にはどのように配慮すればよいのか。ポイントを確認していこう。

AIにおけるデータの品質とは?

 データに求められる品質は、データの役割によって異なる。一般にAIに与えられるデータは「 AIを学習させるのに用いる学習データ」「AIの性能を確認するのに用いる評価データ」「実運用時に与えられる運用データ」の3つに大別できる。

 そして産業技術総合研究所が発表した「機械学習品質マネジメントガイドライン」を参考にすると、これらのデータに関連した品質として以下の3つが考えられる。

 第1が学習データに関連した品質だ。ここでは「AIに求める動作範囲内のあらゆる状況に対応するデータが、学習データに漏れなく十分含まれていること」や「データに含まれる様々な状況の割合が、実際の動作環境で想定される状況の割合と一致していること」「欠損値やラベル誤りなど、ノイズが含まれないこと」などが問われる。

 第2が評価データに関連した品質だ。ここでは「AIに求める動作範囲内の高リスクな状況の組み合わせを、評価データが網羅的にカバーしていること」や「学習済みのAIの動作パターンを漏れなく確認できること」などが問われる。