PR

 基盤モデルとは、大量の「ラベルなしデータ」を用意して「自己教師あり学習」を実施した大規模かつ汎用的なAI(人工知能)モデルを指す。大量のデータで学習させたためモデルの応用力が高く、用途に応じたカスタマイズが容易である点が特徴だ。米スタンフォード大学などの研究者が2021年8月に公表した論文の中で用いられ、一気に注目を浴びた。米Google(グーグル)の言語処理AI「BERT」や「PaLM」、米OpenAIの言語処理AI「GPT-3」が有名だが、自然言語処理以外にも適用できる。

[画像のクリックで拡大表示]

 自然言語処理を例に取ると、基盤モデルの基になるのは大量の文書データだ。この文書データは人間が正解を設定していないラベルなしデータである。このデータに対して自己教師あり学習を実施し、文章や単語の意味を自ら学習していくことで、言語の構成を捉えた基盤モデルができあがる。具体的には、文章中の一部の単語をランダムに隠し、前後の単語から隠された単語を予測するといった手法が取られる。

 こうして生成した基盤モデルに対し、自動翻訳や文書分類といった用途ごとの「ラベル付きデータ」を適用することで、基盤モデルを各用途に合ったAIモデルとして応用できる。

 従来の手法で開発したAIモデルは、用途ごとに役割が限られていた。例えば自動翻訳向けの学習データを用いた場合は自動翻訳に特化したモデル、文書分類向け学習データを用いた場合は文書分類に特化したモデルといった具合に、モデルの利用範囲が限定的だった。

 これに対し基盤モデルであれば、1つのモデルを複数の用途で使用できる。さらに「少数のデータでカスタマイズできる利点がある」と、日本IBMの倉田岳人東京基礎研究所技術理事は指摘する。「ラベル付きデータの必要量が、従来のAIに対し10分の1、100分の1など大幅に少なくて済む」(倉田技術理事)。