全2617文字
PR

 米Google(グーグル)のAI(人工知能)Pathwaysの多芸さが際立ってきた。2022年6月30日(米国時間)にはPathwaysをベースに開発した「Minerva」が、数学や物理の問題を解く正答率でAIによる過去最高の成績を達成したと発表した。画期的な成果だが、AIの興味深い限界もまた明らかになった。

 今回発表されたMinervaは、数学問題や物理問題といった定量的推論(Quantitative reasoning)が解けるAIである。数学や物理の問題はこれまで、AIにとって解くのが非常に難しい分野だった。問題文には文章だけでなく複雑な数式が含まれているため内容の解釈が難しいし、文章と数式が交ざった回答文を生成するのも難しかったためだ。

 実際、グーグルが2022年4月に発表した自然言語処理に関する複数種類のタスクを処理できるAIである「Pathways Language Model(PaLM)」も、数学や物理の問題を苦手にしていた。

 PaLMはWebページや書籍、Wikipedia、ニュース記事、ソースコード、ソーシャルメディア上の会話などから収集した7800億単語(トークン)からなる文章を学習した、パラメーター数が5400億にも達する巨大言語モデルで、社会常識を問うような質問に流ちょうに答えたり、プログラムのソースコードを生成したりできた。

 そんなPaLMであっても、米国における高校レベルの数学問題を集めた「MATHデータセット」の正答率は8.8%にすぎなかった。実は8.8%という成績が悪かったわけではない。過去の論文で発表された、AIによるMATHデータセットの正答率の最高成績(SOTA、State Of The Art)は6.9%だった。それほど数学問題を解くのは難しかったということである。

正答率が1桁から50.3%に改善

 それに対してMinervaによるMATHデータセットの正答率は50.3%にも達する。過去のSOTAを大幅に上回った。グーグルは他の問題データセットでもMinervaの性能を試した。優秀な中学生であれば満点が取れる小学生レベルの算数問題のデータセット「GSM8k」のMinervaによる正答率は78.5%(SOTAは74.4%)で、高校と大学レベルの工学、化学、数学、物理学などの問題からなるデータセット「MMLU-STEM」の正答率は75.0%(SOTAは54.9%)だった。いずれもSOTAを上回った。

 正答率が大幅に向上したMinervaだが、機械学習モデルの構造そのものはPaLMと同一である。PaLMは前述の通り一般常識を中心とする大量の文章を学習した。Minervaはそれに加えて、プレプリント(査読前)論文の公開サイト「arXiv」から入手した科学論文や、LaTex形式で記述された数式が含まれるWebページなどからなる118ギガバイト(GB)の文章を学習した。これによって文章に加えて数式も解釈したり生成したりできるようになった。

 さらにMinervaは「プロンプトエンジニアリング」にも工夫を凝らして、数学や物理の問題が解けるようにした。プロンプトエンジニアリングとは前々回の本コラムでも紹介した通り、AIによる思考を人間が補助する手法である。