全3987文字
PR

人間の知的能力の拡張にはAIの進化が欠かせない。主力技術の深層学習では、現在の限界の突破を狙った研究が始まった。人間の意識の機能を手掛かりに、新しいアーキテクチャーを模索する。進化したAIと人との連携には、いずれはBMI(Brain Machine Interface)が利用されそうだ。(今井 拓司=フリーランスライター)

 2021年4月。米NVIDIAが開催した開発者会議「GTC 2021」で深層学習(ディープラーニング)の生みの親とされる3人の研究者が登場し、それぞれが自身の考える深層学習のこれからを語った注1)

注1)登壇した3名は深層学習技術への貢献により2018年のチューリング賞を受賞した。

 畳み込みニューラルネット(CNN)の開発で知られ、米FacebookのVP and Chief AI Scientistを務めるYann LeCun氏が取り上げたのは「自己教師あり学習(Self-Supervised Learning)」である。現在主流の教師あり学習では人手による膨大な前処理が必要なのに対し、インターネットにあふれる大量の画像といった未加工のデータをそのまま使って学習できる。実際にFacebookは傘下のサービス「インスタグラム」の約10億枚の画像を用いて自己教師あり学習させたCNNが、様々な画像関連タスクで最高水準の性能を達成したと発表しており、着実に実用化に近づいている1)、注2)

教師あり学習=あらかじめ正解のラベルをつけたデータを学習に使う機械学習手法。例えば画像を分類するニューラルネットワークを学習させる場合には、画像ごとに被写体が何であるかを通常は人が判断し、言葉で表したラベルを追加する。
注2)自己教師あり学習は、画像認識での利用に先立ち、自然言語処理(NLP)で既に実用段階に入っている。米Googleが検索サービスなどに利用する「BERT(Bidirectional Encoder Representations from Transformers)」などはその成果である。NLPや画像認識の分野では、今後はあらかじめ自己教師あり学習をさせたDNNを、少数のデータで再学習(ファインチューニング)して使う方法(転移学習)が広がりそうだ。

 誤差逆伝播法(バックプロパゲーション)やオートエンコーダーなど数々の成果を上げてきたカナダUniversity of TorontoのGeoffrey Hinton教授が紹介したのは、「GLOM」と呼ぶディープニューラルネットワーク(DNN)の新しい構造(アーキテクチャー)である。画像認識用のDNNを人間の視覚系に近づけることを狙い、トランスフォーマー、ニューラル場、対比学習といった最新技術を活用する構想を提案した2)。人のように画像を認識させるために、被写体の構成要素を自動的に階層的な構造に整理することを目指している。

トランスフォーマー=BERTなどが用いるニューラルネットワークの構造。Bengio教授の研究室が開発した注意機構(アテンション)を応用して、Googleの研究者が開発した。
ニューラル場=3次元空間などの場をニューラルネットによって効率的にモデル化する技術。20年発表の「NeRF(Neural Radiance Field)」が視点の位置に応じて写実的に変化するシーンを表現して注目を集めた。
対比学習=自己教師あり学習手法の一種。DNNの出力を正解のデータ(正例)に近づけ、正解からかけ離れたデータ(負例)からは遠ざけるように学習する。対照学習と呼ぶ場合もある。

 深層学習は学習技術の進歩とアーキテクチャーの改善の両輪で発達してきたといえる。両氏の発表は、それぞれの方向における研究の最前線を示した格好だ。

 今後も両面でのブレークスルーがAIの進化をもたらすことは確実である(図1)。その1つの方向性を示したのが、残る1人、カナダUniversité de MontréalのYoshua Bengio教授だった。自然言語処理や敵対的生成ネットワーク(GAN)の研究などで著名な同氏は、現状の深層学習の限界を、人の脳の情報処理に関する認知心理学の理論から説明する。今のDNNが人の知能の「システム1」に当たるのに対し、今後は「システム2」に匹敵するAIの実現を目指すべきだと主張した。

図1 進化する深層学習技術
図1 進化する深層学習技術
2010年代に実用化が始まった深層学習技術は、20年代には画像認識や自然言語処理といった人の認知能力を代替する要素技術としてシステムに組み込まれ、広い範囲で応用されそうだ。研究段階では、さらにその先を目指した技術の開発も進んでいる。「システム2」と呼ばれる、人間の高度な情報処理能力を人工的に再現することを狙う。(図:筆者作成)
[画像のクリックで拡大表示]