全4124文字
PR
セミナー
コロナで炎上、それ本当?~計算社会科学でSNSデマを解き明かす! 6/3 18時

文章読解の分野でもAIが人間の平均レベルを超え始めた。米グーグルの新AI技術「BERT」が壁を突き破った。検索や情報収集などの効率が飛躍的に高まる可能性が出てきた。

 AIに文章読解は不可能――。数年前までこれが常識だった。日本の国立情報学研究所(NII)が2011年に始めた「ロボットは東大に入れるか(東ロボ)」プロジェクトでも、AIは大学入試センター試験の英語試験で長文読解問題や単語の並べ替え問題に全く歯が立たなかった。東ロボのAIが2016年にセンター試験の英語問題を解いた際の偏差値は「45.1」。東大合格はとうてい不可能なレベルだった。

 ところが米グーグルが2018年10月に発表した新技術「BERT」で常識が一変した。BERTが文章読解問題を人間より高い正答率で解いたからだ。

図 言語モデルの進化の系譜
図 言語モデルの進化の系譜
AIが文章の意味を理解可能に
[画像のクリックで拡大表示]

 BERTは文章の「言語らしさ」を予測する「言語モデル」というAI技術だ。言語らしさの予測は、AIが単語や文章を理解したり自然な文章を生成したりするうえで不可欠である。言語らしさを基準に、単語と単語、文章と文章の関係をベクトルによって表現したり、ある単語の次にどの単語が続くべきかを予測したりするためだ。

 グーグルがBERTを使って米スタンフォード大学の文章読解ベンチマーク「SQuAD 1.1」に挑戦したところ、AIとして初めて人間の平均的な精度を超えた。SQuAD 1.1はウィキペディアの中にある140単語ほどの文章をAIに読み解かせて、その文章に関する質問に回答させる。正答は元の文章にフレーズとして存在する。正答の部分を正しく抜き出せるかどうかがポイントとなる。文章・質問・正答の組み合わせは10万通り以上ある。

 スタンフォード大学が人間の被験者にSQuAD 1.1の問題を解かせたところ、元の文章から正答を完全一致で抜き出せたスコア(正答率)は82.304%。部分一致で抜き出せたスコアは91.221%だった。対するBERTのスコアは完全一致が87.433%、部分一致が93.160%とどちらも人間を上回った。

 BERTの偉業は世界のAI研究者を刺激した。グーグルがBERTをオープンソースとして公開したこともあり、BERTの改良版が次々と登場し、さらに難しい言語問題で人間に迫る好成績を叩き出している。

 難しい言語問題とは例えば自然言語処理の総合的なベンチマークである「GLUE」や「SuperGLUE」だ。読解に加えて言い換え(換言)や表現が異なる2つの文章の意味が同じかどうかの判断(含意関係認識)、単語埋め込みなどの問題から成る。GLUEでもグーグル、米マイクロソフト、米フェイスブック、中国アリババなどのAIが人間超えを果たした。