全2141文字

 人工知能(AI)用スーパーコンピューターのランキングが今年も6月に発表された。理化学研究所の富岳が3連覇を達成した「TOP500」の話ではない。機械学習ベンチマーク「MLPerf」のランキングのことだ。米Google(グーグル)と米NVIDIA(エヌビディア)がそれぞれ最も優秀な成績を収めたと主張している。

 MLPerfは非営利団体(NPO)の米MLCommons(MLコモンズ、2020年12月にMLPerfコンソーシアムから改称)が策定する機械学習のベンチマークだ。機械学習の性能を訓練(トレーニング)と推論に分けてそれぞれ計測できるよう複数のベンチマークを用意している。2018年12月にトレーニングのベンチマークの「v0.5」を使った結果が初めて公表され、それ以降毎年夏にトレーニングの結果が、秋に推論の結果が公表されている。

 今回は2021年6月30日に、トレーニングのベンチマーク「v1.0」の結果が公表された。ベンチマークv1.0は、8種類のタスクを実行してそれぞれのトレーニングに要した時間を計測する。8種類のタスクとは、画像分類モデルの「ResNet」、医療用画像セグメンテーションモデルの「3D U-Net」、軽量物体検出モデルの「SSD」、重量物体検出モデルの「Mask R-CNN」、音声認識モデルの「RNN-T」、言語モデルの「BERT」、レコメンデーションモデルの「DLRM」、強化学習モデルの「Minigo」のトレーニングである。

 グーグルは2021年7月1日に公開したブログで、同社の機械学習専用プロセッサーであるTPU v4を搭載したクラスターによる結果が、6種類のタスクのうち4種類でエヌビディアの結果を上回り、2種類のタスクでエヌビディアを下回ったと主張した。

 一方のエヌビディアは2021年6月30日に公開したブログで、8種類のタスクの全てで結果を記録したのは同社の機械学習用GPU、A100を搭載したクラスターだけだったと主張した。実はグーグルは8種類のタスクのうち、音声認識モデルのRNN-Tと強化学習モデルのMinigoについては結果を記録していない。そのため8種類あるタスクの勝敗でいうと、グーグルの4勝とエヌビディアの4勝(うち2勝はグーグルの不戦敗)で引き分けとなった。

BERTのトレーニングが17秒で完了

 MLPerfの良いところは、AIスパコンの性能がAI実務者にとってなじみのある機械学習モデルのトレーニング時間という指標で示される点だ。既存のスパコンランキングであるTOP500では、1秒当たりの浮動小数点演算の回数を示すFlopsが性能の目安となっている。しかしFlopsを示されても、それが実アプリケーションでどの程度の性能を発揮できるか分かりにくい。