全3384文字
PR

 人間が書いたかのような文章を生成できるAI(人工知能)「巨大言語モデル」の社会実装はまだ難しい。そんな思いが強まる事件が2022年11月に起きた。Facebookの運営元、米Meta(メタ)が公開した「AI科学者」である「Galactica」の炎上事件だ。

 Galacticaはメタが2022年11月15日(米国時間)に公開した、科学的な質問に答えたり文献調査ができたりするAIである。1200億パラメーターの巨大言語モデルに4800万件の科学論文や教科書などを学習させることで、科学に関連する様々な問題が解けるようになったと主張していた。

人種差別的な表現が含まれているとの批判も

 しかし同社はわずか2日後の11月17日(同)に、Galacticaのデモの公開を中止した。Webサイトで公開していたデモは、ユーザーが様々な質問を入力すると、Galacticaが回答文を生成するというもの。公開中止に追い込まれたのは、Galacticaが生成する回答文にデタラメな内容や人種差別的な表現が含まれているとして、批判を集めたためである。

 Galacticaは「数字を認識できるニューラル・ネットワーク・アーキテクチャーを初めて提案した論文は何か」といった短い質問に対して「Backpropagation Applied to Handwritten Zip Code Recognition(LeCun et al., 1989)」と短く答えるといったシンプルな質問応答だけでなく、与えられたテーマに関して「Wikipedia形式」や「文献調査リポート形式」「講義ノート形式」といった様々な形式で長文も生成できた。

 メタが公開した論文ではGalacticaは、Transformerアーキテクチャーで使われる「マルチ・ヘッド・アテンション」という仕組みについて解説したWikipedia形式のリポートや、自己教師あり学習(Self-Supervised Learning)に関する文献調査リポート、ハートリー=フォック方程式についての講義ノートなどを生成できたとする。

 しかし様々なユーザーがGalacticaを試したところ、その限界がすぐに露呈した。例えばあるユーザーが架空の生物についてのリポート作成を依頼したところ、Galacticaはその生物があたかも存在するかのような荒唐無稽な内容のリポートを出力した。それだけでなくGalacticaが出力したリポートには、様々な人種的偏見や倫理的に問題がある内容などが含まれていた。そのためGalacticaは「正しいことと誤ったことの区別がつかない危険なAI」として、激しい批判にさらされ、ソーシャルネットワークで「炎上」した。その結果、メタはデモ公開の停止を余儀なくされた。

トラブルは起こるべくして起こった

 巨大言語モデルに関するメタの動向をウオッチしてきた筆者にとっては、今回のトラブルは起こるべくして起きたように感じられる。メタは以前から、競合が慎重だった巨大言語モデルの一般公開に関して、非常に積極的な姿勢を示していたからだ。

 巨大言語モデルについては米OpenAI(オープンAI)がGPT-2をリリースした2019年当初から、「フェイクニュース作成に悪用されかねない危険な技術」との批判があった。そのためオープンAIや米Google(グーグル)などは巨大言語モデルについて、論文を公開したり文書生成などができるAPI(アプリケーション・プログラミング・インターフェース)を公開したりするにとどめ、学習済みモデルやソースコードそのものの外部公開は控えていた。

 しかしメタは2022年5月にGPT-3に匹敵する1750億パラメーターという規模のOpen Pretrained Transformer(OPT-175B)についてソースコードや学習済みモデルを公開するなど、巨大言語モデルの公開に積極的だった。

 ただしこれまでは、一般ユーザーは巨大言語モデルを気軽に試せなかった。巨大言語モデルの実行には巨大なGPU(画像処理半導体)サーバークラスターが必要となるため、学習済みモデルだけが公開されても、すぐには利用できなかったためだ。APIを使いこなせるのも、ソフトウエア開発者に限られる。しかし今回、メタは質問文を入力するだけでGalacticaの出力結果を確認できるデモをWebサイトで一般に公開した。誰でも試せるようになったが故に、巨大言語モデルが抱える問題が誰の目にも明らかになってしまったわけだ。