全3856文字
PR

クレイグ・スミス(Craig S. Smith)氏による、ジェフリー・ヒントン(Geoffrey E. Hinton)氏へのインタビュー記事「ヒントン氏が語るAIと脳(1) 進化するカプセルネットワーク」の続きをお届けする(文中の用語説明や訳注はいずれも日経クロステック)。

ジェフリー・ヒントン氏
ジェフリー・ヒントン氏
(写真:クレイグ・スミス氏)
[画像のクリックで拡大表示]

スミス氏:カプセルネットワークで実現したようなこの種の教師なし学習は、より大きなシステムの中でのオブジェクト間の関係、例えば物理法則についての仮説を立てたり推論したりすることもできますか?

ヒントン氏:それらは少々異なる2つの質問ですね。

スミス氏:はい。

ヒントン氏:長期的にはそうしたいのですが、後でSimCLRについて話すときに、物理法則の件にも触れたいと思います。

 ではここから、オブジェクト間の関係について説明します。まず、各オブジェクトはパーツ間の関係を正しく見ることによって認識されています。そして、オブジェクト同士の関係を正しく見ることで1つの情景(シーン)を認識します。あるシーンの中でのオブジェクト間の関係はなんというか自由度が大きいことが多いのですが、やってやれないことはありません。特定の種類のシーンであれば、オブジェクト同士を適切な手法で関連付けていくことで再現できます。

スミス氏:SimCLR は2020年後半に登場しました注1)。 SimCLRとそれがどのように関連しているかについて話していただけますか?

注1)SimCLRが最初に公になったのは2020年2月のプレプリント(学術誌に掲載前の未査読の論文)。同年4月には米Google(グーグル)がAIブログで公表している。スミス氏がいう「2020年後半」は、プレプリントの改訂版が出た2020年7月のことを指しているようだ。

ヒントン氏: SimCLRは、カプセルネットワークとは別の学習アルゴリズムです。多くの点で異なります。例えば、視点等価性を扱う問題に焦点を当てているわけではありません。つまり、視点の変化に応じて変化する表現を容易に得られるようにする、というのがSimCLRの主要な目標ではありません。SimCLRがしていることは、ある画像のパッチの表現が、同じ画像の他のパッチとほぼ同じになるように学習するということです。

 より具体的には、まずある画像の一部を切り取ってから、同じ画像から別の切り抜きをします。そして、それらの切り抜きを1つのベクトル表現、もしくは神経活動のパターンに変換するニューラルネットを構築するのです。その表現は複数の切り抜きが同じ画像からのものである場合は類似し、異なる画像からのものである場合は異なるようにする必要があります。ある意味、ただ似せればよいのですから簡単です。

 つまり、すべてのベクトルを同一にするだけです。ポイントは、同じ画像からのものである場合は類似させ、異なる画像からのものである場合は異なるものにしなければならないことです。これは対照学習と呼ばれます。

対照学習は20年弱の時を経て脚光

 トロントにあるGoogleラボのティン・チェン(Ting Chen)氏は、我々の仲間と共に、それを非常にうまく機能させました。もっとも彼がそのアイデアを最初に考え出したわけではありません。最初は1993年または92年に私がスー・ベッカー(Sue Becker)氏と一緒に進めた仕事、次に私が2002年にした仕事が基になっています。しかし、その際は画像に対してはうまく機能しませんでした。他のグループが2018年にそのアイデアを復活させ、画像の切り抜きについて動作する対照学習を開発しました。そして、ティンはそれを大きく改良したのです。それで周囲が注目するようになりました。

 それができると何がうれしいのか。ある画像の切り抜きからこうした表現、または画像からの切り抜きを表現に変換できるニューラルネットを取得すると、同じ画像から得た2つの切り抜きについてよく似た表現を得られるようになります。するとこれらの表現を用いて、画像内のオブジェクトを認識することができるのです。最後の段階では教師あり学習を使いますが、深い層は必要ありません。

 ポイントをまとめると、まず深層のニューラルネットを使用して教師なし学習をすることで、同じ画像の2つの異なる切り抜きに対して同じ表現または非常に類似した表現を取得しようとする点です。別の画像の切り抜きは、それとは違う表現になります。深層ニューラルネットとして、ティンはResNetを使用しました。

ResNet(Residual Network)=2015年に米Microsoft Research(マイクロソフト・リサーチ)が発表した畳み込みニューラルネットワーク(CNN)の実装例の1つ。「ImageNet」という画像データベースを用いたニューラルネットワークのコンペティション「ImageNet Large Visual Recognition Challenge (ILSVRC) 2015」で圧勝した。層数が非常に多いのが特徴で、ILSVRCでは152層だった。1000層でも学習が可能だとされる。SimCLRでティン・チェン氏は50層のResNet(ResNet-50)を用いた。

 その後、得られた表現を追加の隠れ層なしにクラス分けし、ラベルを付けます。つまり、これは線形分類器です。隠れ層はありません注2)

注2)ここでティン・チェン氏が用いたのは、2層の多層パーセプトロン(MLP)1)である。

 この点で彼は非常にうまかったといえます。ラベルの知識を持たない純粋な教師なし学習によって得られた表現を線形分類器にかけることで、教師あり学習の手法としてImageNetでも利用できます。ただし、私たちはより大きなResNetを使いました注3)

注3)50層のResNet(ResNet-50)のまま、データ入力サイズの幅を最大4倍に広げた1)

 この大きなResNetを完全な教師なし学習でトレーニングしたときに得られる認識エラー率は、ImageNetに標準サイズのResNetを適用したときのエラー率とほぼ同じなのです。そして最後に、その出力に対して線形分類器をトレーニングします。