全5607文字
PR
この記事は日経Robotics 有料購読者向けの過去記事ですが
日経Robotics デジタル版(電子版)』のサービス開始を記念して、特別に誰でも閲覧できるようにしています。
本記事はロボットとAI技術の専門誌『日経Robotics』のデジタル版です
本記事はロボットとAI技術の専門誌『日経Robotics』のデジタル版です

 近年、GPT-31)のように、これまでとは桁違いに大きなニューラルネットワークを大きなデータセットを使って長い時間かけて学習して作ったモデルが次々と登場している。このようなモデルは一度作れば非常に多くの様々なタスクに利用することができる。このようなモデルはFoundation Model2)とよばれており、最初は自然言語処理でスタートしたが、画像、音声、制御など他の分野にも進出しつつある。

著者の岡野原大輔氏
著者の岡野原大輔氏

 Foundation Modelは機械学習のべき乗則に沿う形で、モデル、データ、計算リソースをスケールしていくことで予測可能な形で連続的な性能改善を達成している。一方で、それまで全く解けなかった問題が、あるスケールから突然解け始める非連続的な性能改善もみられる。量が質を変えたといえる。なぜこのような非連続性が起きるかの本質的な解明はまだ途上である。

 さらに、これらFoundation Modelは再学習せずにプロンプトと呼ばれる「指示」を使って、無限ともいえる様々なタスクに即時適応できる。

 例えば、タスクの指示といくつかの入力と対応する出力の例を見せた後に、解きたい問題の入力を見せて、後続する出力を予測する形でタスクに適応できる。このやり方で、同じモデルで質問応答、論理推論、プログラミング、数学の問題を解くといったことができる。

 Foundation Modelは事前に別タスクで学習しておいたモデルを再利用するという点で、事前学習済みモデルと同じであり、学習時の目的と異なる目的で使うという点で転移学習と同じだが、スケールの大きなモデルを使ったことで驚くほど高い性能を達成できることと、社会に与えるインパクトの大きさから改めてその名前がつけられた。Foundation Modelは、今後のAI開発のやり方を根本から変えるインパクトがあると同時に、もしFoundation Modelに何らかの脆弱性が見つかれば、それを利用して作られた別のモデル、アプリケーション、サービスも一律に脆弱性が見つかるというリスクも抱えている2)

 また、CLIP3)に代表されるようにFoundation Modelはこれまでの教師あり学習で作ったモデルと比べて分布外汎化性能が高いことが報告されている。実用上、学習時に収集したデータ上で評価する精度以上に分布外汎化性能は重要である。例えば、従来のモデルではCGや特定の撮影環境で学習して別の画像データに適用するのが難しかった問題が、CLIPを使ったモデルでは大幅に解消されている。Foundation Modelの分布外汎化性能が高いのは、訓練データ分布が特定ドメイン向けの学習データと比べて大きいことが貢献していると考えられている4)

 Foundation Modelは2019年に米グーグルから発表されたBERT5)が最初であり、2020年に米Open AIから発表されたGPT-3でスケール化の流れができた。その後、世界中のTech Giantや研究機関から発表されている。今回はそれらの最先端であるPaLMとDALL·E 2について紹介する。

PaLM

 グーグルが2022年4月に発表したPaLM6)はTransformerを使った言語モデルであり、5400億パラメータからなるモデルを使って7800億トークンからなるコーパスを使って学習した。世界最大のモデルではないが(1兆パラメータを超えるモデルが2021年に登場している)性能面では最高精度を達成している。

 学習にはTPU v4 Podを2つ(計6144 TPU)利用し、1200時間かけて学習した。この並列学習にはPathwaysと呼ばれるPodsをまたいで学習できるシステムを利用している。計算リソース全体はbfloat16ベースで2Exa FLOPSであると推定される。スーパーコンピュータ富岳のFP16の (富岳はFP64にも最適化しているため公平な比較ではないが)理論性能も2Exa FLOPSであり、富岳全体と同程度の計算リソースを2カ月弱かけて学習したといえる。

 PaLMはスケールを大きくしただけでなく従来のTransformerモデルと比べて次のような工夫を行った。

  • 1. 活性化関数に、Swishを適用した結果をゲートとして使うSwiGLUを利用する。 \[ h = \text{Swish}(xW) \cdot xV \\ \text{Swish}(x) := x \cdot \text{sigmoid}(\beta x) \]
  • 2. オリジナルのTransformerは注意機構を適用した後にMLPを適用するが、PaLMはこれらを並列に適用した結果を足し合わせ並列度を上げる。
  • 3. 注意機構で複数ヘッドを使う際、クエリのみヘッド毎に異なり、キーと値は共通のものを利用する。精度を保ちつつ効率化できる。
  • 4. 位置符号をシフト移動不変にするため、符号回転として表すRotary Position Embeddingを利用する。
  • 5. 線形変換や層正規化においてバイアスを使わないことで学習を安定化させる。
  • 6. 頻度ベースで文字列を部分文字列に分割して作成した25万種類の語彙を利用する。これにより未知語や複数バイトからなるUTF-8も扱える。

 これらの工夫とスケール化によりPaLMは多くの0-shot、 1-shot、few-shotタスクで最高性能を更新し、論理推論、翻訳、質問応答、数学など150超からなるタスクにおいて、人の平均的なスコアを超える性能を達成した(人の最高スコアには負けている)。デモンストレーションでは、ジョークさえ理解し説明することができた。

 また、論理推論をする際に答えを直接生成させるのではなく、考えている途中の過程も生成させることによって、よりうまく解くことができた。こうした部分も人の考え方に近くなっている印象を感じさせる。

DALL·E 2

 OpenAIが2022年4月に発表したDALL·E 27)は2021年1月に発表したDALL·Eの後継である。DALL·Eは画像とその説明文のペアを使って学習し、テキストを入力とし、それに対応する画像を生成する。DALL·E 2はDALL·Eの画像の品質、解像度と表現力を大幅に向上させることに成功した。この要となっているのは、本連載で前回紹介した拡散モデルと階層的な生成モデルである。

 DALL·E 2はCLIP3)と呼ばれる対比学習によって得られたテキストと画像の埋め込みベクトルを利用する。このCLIPは対応するテキストと画像の埋め込みベクトル(以下埋め込み)は近く、対応しない場合は遠くなるように学習する。

 DALL·E 2は与えられた入力テキストから画像を次のように生成する。まず入力テキストのCLIPテキスト埋め込みをCLIPモデルを使って推定する。次にこのCLIPテキスト埋め込みからCLIP画像埋め込みを拡散モデルを使って推定する。最後に画像埋め込みから高解像度の画像を拡散モデルを使って推定する。

 これらテキスト埋め込み-画像埋め込み間、画像埋め込み-画像間を拡散モデルを使ってモデル化することでそれらの間の多様性を学習できる。例えば特定のテキストに対応する無数の画像埋め込みを生成でき、さらに画像埋め込み毎に対応する無数の画像を生成することができる。

 DALL·Eは、様々なテキストで条件付けして驚くほど多様で高精細な画像を生成できていたが、DALL·E 2はさらにそのレベルを改善し、一般の人が描く絵よりもはるかに多様で表現力の高い画像を生成できるようになっている。例えば写実的な絵、イラストのような絵、特定の画風で描くといったこともテキストにより指示できる(例えば文献8)でDALL·E 2により生成された画像リストを見ることができる)。

 DALL·E 2のようなモデルによって、テキストから画像を生成できる、もしくはその逆ができるようになることで多くのタスクをこなすことができると考えられる。クリエイティブな仕事のみならず、例えば強化学習の報酬関数をテキストを介した画像を使って設定できるといったこれまでにないような自由度を持った生成や指示ができる。

Foundation Modelの可能性とリスク

 現在こうしたFoundation Modelへのアクセスは様々なリスクがあるため制限されているが、将来的にはこれらFoundation ModelのAPIが一般に公開され、それらを介して様々なアプリケーションやサービスを作るような時代になると考えられる。

 今後、企業が独自にモデルを作ることは少なくなっていき代わりにFoundation ModelをAPI経由で使う、もしくはそこから派生して作られたモデルを元に学習するようになるのではと考えられる。

 例えば、最近登場したサービスであるElicit9)はバックエンドにGPT-3を使っており、2億件の論文から、様々な質問応答をすることができる。生物学、社会学、数学などの問題も自由に質問し、その回答を示したり、その回答根拠を示すことができる。筆者も使ってみたが、これまでの文献検索や研究サーベイを大きく変えるポテンシャルがあると感じている。

 Foundation Modelは、公開されているデータを使って学習されており、計算資源を投入すれば誰でも作れる。一方で、学習には大きなコストがかかる。例えばPaLMもクラウド提供価格から計算すると、学習1回に少なくとも数億円はかかるとみられる。また、ソースコードは公開されておらず、論文で公開されていない様々なテクニックやノウハウも多くあるとみられ、再現できた例はまだ少ない。

 こうしたモデルが一部企業に独占されている危険性から、再現性のある形でコードやデータにオープンにアクセス可能なモデルが求められている。例えばOPT10)はGPT-3と同等のモデルサイズや性能を持ちながら、非商用目的に限って自由に利用可能なモデルである。こうしたモデルを使って今後も研究や改善がされていくであろう。

 また、PaLM論文でも、スケール化による性能改善は飽和しておらず、さらに大きなモデルとデータセットで長い学習をかければ性能は伸び続けることが示されている。

本記事はロボットとAI技術の専門誌『日経Robotics』のデジタル版です
本記事はロボットとAI技術の専門誌『日経Robotics』のデジタル版です

 こうした連続的な性能改善の中で、突然いくつかのタスクが解けるようになる質的な変化もみられるのではないかと思われる。こうした傾向はあと数年は少なくとも続くのではないかと考えられる。

 一方、データ量には限界はあり、例えば、今の数百倍の良質なテキストデータセットを集めることは困難になってくると思われる。まだ活用できていない動画など別の種類の情報を活用する必要が出てくると考えられる。

1)T. B. Brown et al.,“Language Models are Few-Shot Learners,”NeurIPS 2020. https://papers.nips.cc/paper/2020/hash/1457c0d6bfcb4967418bfb8ac142f64a-Abstract.html
2)R. Bommansani et al.,“On the Opportunities and Risks of Foundation Models,”https://arxiv.org/abs/2108.07258
3)A. Radford et al.,“Learning transferable visual models from natural language supervision,”ICML 2021. http://proceedings.mlr.press/v139/radford21a/radford21a.pdf
4)A. Fang et al.,“Data Determines Distributional Robustness in Contrastive Language Image Pre-training,”https://arxiv.org/abs/2205.01397
5)J. Devlin et a l.,“BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding,”NAACL 2019. https://aclanthology.org/N19-1423.pdf
6)A. Chowdhery et al.,“PaLM: Scaling Language Modeling with Pathways,”https://arxiv.org/abs/2204.02311
7)A. Ramesh et al.,“Hierarchical Text-Conditional Image Generation with CLIP Latents,”https://arxiv.org/abs/2204.06125
8)https://www.reddit.com/r/dalle2/
9)Elicit: https://elicit.org
10)S. Zhang et al.,“OPT: Open Pre-trained Transformer Language Models,”https://arxiv.org/abs/2205.01068
岡野原 大輔(おかのはら・だいすけ)
Preferred Networks 代表取締役 最高研究責任者
岡野原 大輔(おかのはら・だいすけ) 2006年にPreferred Infrastructureを共同創業。2010年、東京大学大学院博士課程修了。博士(情報理工学)。未踏ソフト創造事業スーパークリエータ認定。東京大学総長賞。