全3651文字
PR

 米人工知能学会の年次国際会議「AAAI-20」が2020年2月上旬、米ニューヨークで開催された。「深層学習のゴッドファーザー」と呼ばれるヤン・ルカン氏、ジェフリー・ヒントン氏、ヨシュア・ベンジオ氏の3人が招待講演でそろって登壇し、次に解決すべき「課題」を示してみせた。

 深層学習を含む現在のAIが、人間並みの論理的思考を可能にする「人間級のAI(Human-level AI)」へ進化するために必要なピースとは何か。現地で交わされた議論の中身を明らかにする。

「考えを改めた」というルカン氏の気づき

 「ジェフ(ジェフリー・ヒントン氏)は数十年にわたり『教師なし学習』の重要性について議論していた。私はこれまで気に留めていなかったが、考えを改めた――」

 米フェイスブックのチーフAIサイエンティストを務める米ニューヨーク大学のヤン・ルカン教授は講演でこのように語った。

米フェイスブックのチーフAIサイエンティストを務める米ニューヨーク大学のヤン・ルカン教授
米フェイスブックのチーフAIサイエンティストを務める米ニューヨーク大学のヤン・ルカン教授
[画像のクリックで拡大表示]

 2010年代にいわゆる「第3次AIブーム」が始まって以来、深層学習を巡るイノベーションの多くが「教師あり学習」や「強化学習」を通じてもたらされた、とルカン氏は語る。教師あり学習とは「この画像はネコである」などの正解タグを付与したデータをAIに学習させる手法。強化学習はあらかじめ設定した「報酬」を最大化するようAIを学習させる手法だ。

 だがルカン氏によれば、これらの手法は壁に突き当たっているという。いずれも大量の学習データが必要になるからだ。

 教師あり学習の場合、正解タグの作成(アノテーション)を人手に頼らざるを得ない。強化学習は囲碁や将棋、ビデオゲームのようにコンピューター上で高速に試行を繰り返せる用途なら十分な量の学習データが得られるが、実世界に即した用途ではデータを集めにくい。

 ルカン氏は、深層学習の次なるイノベーションは教師あり学習ではなく、正解タグのないデータから特徴を抽出する「教師なし学習」や、学習データから正解を自ら作り出す「自己教師あり学習(Self-Supervised Learning)」にあるという。「これらは、生まれたばかりの赤ん坊が世界に対して実行しているタスクと同じだ」とルカン氏は説明する。赤ん坊は「正解」を与えなくても自ら学習できる。

 ルカン氏は、自己教師あり学習の本質は「予測=穴埋め」にあるとする。ある部分の情報を基に、穴が開いた別の情報を予測し、穴を埋める。「過去から未来を予測する」「見える情報から隠した(マスクした)情報を予測する」といったタスクをこなす。

自己教師あり学習とは「穴埋め」である
自己教師あり学習とは「穴埋め」である
[画像のクリックで拡大表示]
自己教師あり学習は特に自然言語処理で成功を収め、画像でも一定の成果を上げている
自己教師あり学習は特に自然言語処理で成功を収め、画像でも一定の成果を上げている
[画像のクリックで拡大表示]

 ルカン氏は、こうした自己教師あり学習による予測を、人間の知性(Intelligence)の本質的な要素の1つとみる。「我々の脳は予測マシンだ」(ルカン氏)。現在もビデオ数コマ分の情報から未来のコマを生成する研究が進んでいるが、「まだ完全なソリューションの構築には程遠い」。ここに深層学習のフロンティアがあるとみる。

「CNNの間違いをただす」ヒントン氏の研究

 米グーグルにも所属するカナダ・トロント大学のジェフリー・ヒントン名誉教授は、深層学習における教師なし学習モデル「オートエンコーダ―」の開発などで知られる。ヒントン氏は、深層学習による物体認識の新たな手法として「積層カプセル・オートエンコーダー」の開発動向を紹介した。

米グーグルにも所属するカナダ・トロント大学のジェフリー・ヒントン名誉教授
米グーグルにも所属するカナダ・トロント大学のジェフリー・ヒントン名誉教授
[画像のクリックで拡大表示]

 これまで物体認識といえば「畳み込みニューラルネットワーク(CNN)」と呼ばれるネットワーク構造を使うのが一般的だった。脳の視覚野を模して福島邦彦氏が提唱した「ネオコグニトロン」に起源を持ち、ヒントン氏が率いるトロント大のチームが2012年に物体認識コンテストでCNNを活用して圧勝、その有用性を実証した。

 だがヒントン氏は、CNNは成功したが「人間の認知機能とは多くの点で異なる」と喝破する。人間はだまされないがCNNをだませる画像「敵対的サンプル(Adversarial Example)」が存在するのも、人間とCNNで物体識別のメカニズムに根本的な違いがある証左だという。

CNNの問題は「敵対的サンプル」の画像にだまされるなど、人間の認知メカニズムとかい離がある点
CNNの問題は「敵対的サンプル」の画像にだまされるなど、人間の認知メカニズムとかい離がある点
[画像のクリックで拡大表示]

 CNNは物体を2次元のまま解析するが、人間は物体を3次元的に把握し、異なる角度から見た物体を「同一のもの」と容易に判定できる。CNNは複数の視点から見た画像を大量に集めて学習させないと、同一の物体と判定できない。

 「コンピューターグラフィックスであれば、物体を回転させるのは容易だ。ニューラルネットワークもそうなるべきだ」。そう語るヒントン氏が「CNNの間違いをただす試み」として2017年から取り組むのが、「カプセル」と呼ぶニューラルネットワーク構造の研究だ。認識した物体をいくつかのパーツに分け、形状や角度などの情報をネットワーク内に保持する。

 ヒントン氏は2019年12月に開催されたニューラルネットワーク国際学会「NeurIPS 2019」でカプセルの最新バージョン「積層カプセル・オートエンコーダ―」を披露した。視点の角度など正解タグのない学習データから、教師なし学習で物体の形状や角度などを抽出する。「いわば、2次元から3次元の情報を取り出す逆レンダリングを実施している」(ヒントン氏)。

積層カプセル・オートエンコーダーを使い、0~9の手書き数字を「教師なし学習」、つまり数字の正解データを与えずに分類した
積層カプセル・オートエンコーダーを使い、0~9の手書き数字を「教師なし学習」、つまり数字の正解データを与えずに分類した
[画像のクリックで拡大表示]

この記事は有料会員限定です

日経クロステック有料会員になると…

専門雑誌8誌の記事が読み放題
注目テーマのデジタルムックが読める
雑誌PDFを月100pダウンロード

日経電子版セット今なら2カ月無料