全2263文字
PR

 米Alphabet(アルファベット)傘下のAI(人工知能)開発企業である英DeepMind(ディープマインド)が、囲碁などゲームの世界で人間を上回る成果をあげた深層強化学習技術を実世界の課題解決に応用している。2022年2月にはYouTubeにおける動画圧縮や、核融合炉におけるプラズマ制御などに深層強化学習を応用して成果をあげたと発表した。

 ディープマインドの深層強化学習技術といえば、囲碁の世界トッププロに勝利したAI、AlphaGoで一躍有名になった。さらに同社はAlphaGoの進化形として、チェスや囲碁、将棋、テレビゲームなどについて事前に一切知識を与えなくても人間のトッププレーヤーを上回る腕前でプレーできる汎用ゲームAI、MuZeroを2020年に開発している。

 MuZeroにおける深層強化学習とは、AIがゲームを何度もプレーして試行錯誤し、その過程を学習することで、ゲームのある局面において次にどの一手を指すのが有利かを判定するアルゴリズムを生成するというもの。試行錯誤の過程からより良い戦略を学ぶ強化学習は以前から存在した。ディープマインドはそこにディープラーニング(深層学習)を組み合わせることで、過去にはない性能を実現した。

同じ画質でビットレートを4%削減

 そしてディープマインドは2022年2月11日(英国時間)、このMuZeroをYouTubeにおける動画圧縮アルゴリズム開発に応用したところ、同じ品質の動画を送信するのに必要となるビットレートを4%削減する成果を出したと発表した。

 YouTubeにおける動画圧縮コーデックには、米Google(グーグル)が開発してオープンソースとして公開したVP9を使用する。ただしVP9の圧縮性能は、動画の各フレームをどの程度圧縮するかという「戦略」によって変動する。

 つまり動画圧縮においては、あるフレームの圧縮率の高低が、そのフレームの画質だけでなくその後に続く数十~数百枚のフレームの画質にも影響を与える。よって動画圧縮アルゴリズムは動画のその後の展開も考慮した上で、各フレームの圧縮率を決める必要がある。

 こうした動画圧縮における戦略の立案が、数十手、数百手先の展開を読んで最善の一手を考える必要がある囲碁などゲームにおける戦略立案と類似する。そう考えてディープマインドは、MuZeroを動画圧縮戦略の立案に応用した「MuZero Rate-Controller(MuZero-RC)」を開発した。

 MuZero-RCは、大量の動画について条件を変えながら圧縮する試行錯誤を何度も繰り返して、最も効率的に動画を圧縮できる戦略、つまりはアルゴリズムを作り出した。ある条件で圧縮をした結果、画質がそれまでの圧縮結果よりも良くなったか悪くなったかを判定して、より圧縮効率が高くて画質が維持できる戦略を探し出していった。ゲームを条件を変えながら何度もプレーして、より勝率が高くなるようアルゴリズムを鍛えていく従来のMuZeroの学習プロセスと同じだ。

 ディープマインドは2022年2月2日(英国時間)に、プログラミングコンテスト(競技プログラミング)で人間の平均点を上回るようなプログラムを生成できるAIである「AlphaCode」を発表している。アルゴリズムを生み出すという点ではMuzero-RCとAlphaCodeは同じだが、そこで使われている手法は大きく異なる。

 Muzero-RCは深層強化学習をベースにするのに対して、AlphaCodeはGPT-3やBERTの基礎技術である自己注意機構(SA、Self Attention)のTransformerを使う巨大言語モデルをベースにしている。