全4164文字
PR

米メタが2022年11月に発表した「AI科学者」が、2日で公開中断に追い込まれた。巨大言語モデルに4800万件の科学論文を学習させた「Galactica」だ。科学的な質問に答えたり、文献調査ができたりするとの触れ込みだった。しかしGalacticaのリポートには、デタラメな内容や人種的偏見が含まれていた。問題がある内容が出力されるのを防ぐ作り込みが不足していたもようだ。

 科学的な質問に答えたり文献調査ができたりする科学者のようなAI(人工知能)である「Galactica」を米メタが公開したのは2022年11月15日(米国時間)のこと。メタは1200億パラメーターの巨大言語モデルに4800万件の科学論文や教科書などを学習させることで、科学に関連する様々な問題が解けるようになったと主張していた。

 しかし、同社はわずか2日後の11月17日(同)にGalacticaのデモの公開を中止した。Webサイトで公開していたデモは、ユーザーが様々な質問を入力するとGalacticaが回答文を生成するものだった。Galacticaが生成する回答文にデタラメな内容や人種差別的な表現が含まれているとして批判が相次ぎ、SNS(交流サイト)で炎上。公開中止に追い込まれた。

 なぜメタのAI科学者は炎上したのか。そこには近年大きな発展を遂げている「言語モデル」と呼ばれるAIの大きな弱点があった。

誰でも試せたことがあだに

 Galacticaの特徴は、4800万件の科学論文や教科書など選別(キュレーション)された文書データを使って機械学習モデルを訓練した点だ。論文は査読前論文公開サイトである「arXiv」や生物医学・生命科学のオンライン論文アーカイブである「PMC」などから集めた。それに対して他の多くの言語モデルは、Webサイトやソーシャルメディアなどから広く収集した文章データを使っている。

 Galacticaが訓練に使用したデータの規模は880億トークン(単語)で、米オープンAIの「GPT-3」が訓練に使用した5000億トークンに比べると小規模だ。メタはデータの量ではなく質によって他の言語モデルとの違いを出そうとしたわけだ。

 論文や教科書を学習したGalacticaは、「数字を認識できるニューラル・ネットワーク・アーキテクチャーを初めて提案した論文は何か」といった質問に対して「Backpropagation Applied to Handwritten Zip Code Recognition(LeCun et al., 1989)」と回答できる。さらには与えられたテーマに関して「Wikipedia形式」や「文献調査リポート形式」「講義ノート形式」など様々な形式で長文を生成することも可能だ。

 メタはGalacticaによる出力例として、Transformerアーキテクチャーで使われる「マルチ・ヘッド・アテンション」という仕組みについて解説したWikipedia形式のリポートや、自己教師あり学習(Self-Supervised Learning)に関する文献調査リポート、ハートリー=フォック方程式についての講義ノートなどを挙げている。