全3550文字
PR

 「このシンポジウムを企画したのは、ある『AI研究者』の差別発言がきっかけだった」。Preferred Networks(PFN)の丸山宏フェローはシンポジウム冒頭でこのように語った。

 日本の人工知能(AI)関連の研究会3団体は2020年1月9日、「機械学習と公平性に関するシンポジウム」を開催した。AI技術やAI倫理の専門家が登壇し、AIの活用が人の差別につながるリスクと回避策について議論を交わした。聴衆の過半は企業からの参加者だった。

「AIの差別」を巡る国内外の事案
「AIの差別」を巡る国内外の事案
[画像のクリックで拡大表示]

 主催したのは人工知能学会 倫理委員会、日本ソフトウェア科学会 機械学習工学研究会、電子情報通信学会の「情報論的学習理論と機械学習研究会」である。

 開催のきっかけになったのは、東京大学大学院情報学環・学際情報学府の特任准教授を務めていたAI研究者の大沢昇平氏が19年11月に投稿したツイートである。

 同氏が経営するAIスタートアップの人材採用方針について「中国人のパフォーマンス低いので営利企業じゃ使えないっすね」「そもそも中国人って時点で面接に呼びません。書類で落とします」「採用時にパフォーマンスと相関する指標を考慮に入れて何が悪いんでしょうか」などとTwitter上で発言した。

 大沢氏は同年12月、一連の「行き過ぎた言動」を陳謝するツイートを投稿したが、その中で「特定国籍の人々の能力に関する当社の判断は、限られたデータにAIが適合し過ぎた結果である『過学習』によるものです」などと釈明した。

 仮に統計処理や機械学習の推論を参照したものであっても、国籍や民族など生来の属性「のみ」で能力を判断するのは不当な差別(いわゆる「統計的差別」)に当たる。東大は一連の投稿を「国籍又は民族を理由とする差別的な投稿」などと認定し、20年1月15日付で同氏を懲戒解雇している。

 そもそも過学習以前に、同氏の言う「限られたデータ」自体に強烈なバイアス(偏り)があった可能性もある。米誌「USニューズ&ワールド・レポート」が2019年に公表したコンピューターサイエンス学部のトップ100ランキングで、中国は米国を抜き24校がランクインしている。トップ校同士を比較する限り、中国のAI人材の質は世界でも上位を争う。

 差別の原因を「AIの過学習」とした一連の発言に、AI/機械学習のコミュニティーも黙ってはいなかった。国内AIスタートアップの代表格であるPFNの若手社員が「我々も何かすべき」とPFNフェローの丸山氏に働きかけ、各研究会と交流がある同氏の呼び掛けで3団体の声明、そして今回のシンポジウム開催につながった。

機械学習モデルは「データ次第」

 同シンポジウムでは、長年にわたりAIの公平性を研究していた産業技術総合研究所 情報数理研究グループの神嶌敏弘氏が登壇し、公平性を巡る学術界での議論のポイントを解説した。

産業技術総合研究所 情報数理研究グループの神嶌敏弘氏
産業技術総合研究所 情報数理研究グループの神嶌敏弘氏
[画像のクリックで拡大表示]

 神嶌氏は「機械学習は道具であり、予測がうまくいくかはデータ次第」と語る。機械学習の予測に誤りが生じる典型的な偏りとして、同氏は「データバイアス」「標本選択バイアス」などを挙げた。

 データバイアスとは、学習データ中の結果や特徴の値に偏りが生じている場合を指す。データ作成者の偏見や認知バイアス、不適切なデータ取得手続きによって生じる。

 データ作成者自身に偏見がなくても、データバイアスは発生し得る。一例として同氏が紹介したのが、逮捕歴情報サイトが出稿したキーワードマッチ広告に関する研究だ。ヨーロッパ系の名前よりアフリカ系の名前で検索したほうが、悪い印象の広告文(「Arrested?」)が頻繁に表示されたという。

キーワードマッチ広告で、アフリカ系の名前を入力すると悪い印象の広告文が表示される
キーワードマッチ広告で、アフリカ系の名前を入力すると悪い印象の広告文が表示される
[画像のクリックで拡大表示]

 この広告文はいくつかのパターンがあり、検索キーワード中の「姓」を基に、最も頻繁にクリックされる広告文を表示する仕組みだった。検索サイトの閲覧者がアフリカ系の姓について「悪い印象の広告文」を頻繁にクリックした結果、悪い印象の広告文が多く表示されるようになった。閲覧者の偏見がデータバイアスを生んだといえる。

 標本選択バイアスとは、収集した学習データが予測対象の集団を適切に代表できていない状況を指す。

 例えばローンを申請した人について「完済できるか」を予測する機械学習モデルを構築する場合、「完済した人」と「完済できなかった人」の2つの集団を基に学習データを作成しても、適切なモデルは構築できない。「ローンを申し込んだが、審査で却下された人」のデータが反映されていないためだ。

予測対象の集団と学習データの集団に不一致があると正しく予測できない
予測対象の集団と学習データの集団に不一致があると正しく予測できない
[画像のクリックで拡大表示]

この記事は有料会員限定です

日経クロステック有料会員になると…

専門雑誌8誌の記事が読み放題
注目テーマのデジタルムックが読める
雑誌PDFを月100pダウンロード

日経電子版セット今なら2カ月無料