全1584文字
PR

 人工知能(AI)用スーパーコンピューターのランキングが2021年6月に発表された。理化学研究所の富岳が3連覇を達成した「TOP500」の話ではない。機械学習ベンチマーク「MLPerf」のランキングだ。米グーグルと米エヌビディアがそれぞれ最も優秀な成績を収めたと主張している。

 MLPerfは非営利団体(NPO)の米MLコモンズ(2020年12月にMLPerfコンソーシアムから改称)が策定する機械学習のベンチマークだ。機械学習の性能を訓練(トレーニング)と推論に分けてそれぞれ計測できるよう複数のベンチマークを用意している。毎年夏にトレーニングの結果が、秋に推論の結果が公表されている。

 今回は2021年6月30日に、トレーニングのベンチマーク「v1.0」の結果が公表された。ベンチマークv1.0は、8種類のタスクを実行してそれぞれのトレーニングに要した時間を計測する。8種類のタスクとは、画像分類モデルの「ResNet」、医療用画像セグメンテーションモデルの「3D U-Net」、軽量物体検出モデルの「SSD」、重量物体検出モデルの「Mask R-CNN」、音声認識モデルの「RNN-T」、言語モデルの「BERT」、レコメンデーションモデルの「DLRM」、強化学習モデルの「Minigo」のトレーニングである。

 グーグルは2021年7月1日に公開したブログで、同社の機械学習専用プロセッサーであるTPU v4を搭載したクラスターによる結果が、6種類のタスクのうち4種類でエヌビディア搭載機の結果を上回り、2種類のタスクで下回ったと主張した。

 一方のエヌビディアは2021年6月30日に公開したブログで、8種類のタスクの全てで結果を記録したのは同社の機械学習用GPU、A100を搭載したクラスターだけだったと主張した。実はグーグルは8種類のタスクのうち、音声認識モデルのRNN-Tと強化学習モデルのMinigoについては結果を記録していない。そのため8種類あるタスクの勝敗でいうと、グーグルの4勝とエヌビディアの4勝(うち2勝はグーグルの不戦敗)で引き分けとなった。

BERTのトレーニングが17秒

 MLPerfの良いところは、AIスパコンの性能がAI実務者にとってなじみのある機械学習モデルのトレーニング時間という指標で示される点だ。

 例えば今回のMLPerfのベンチマーク結果では、グーグルのTPU v4を3456個、米AMD製プロセッサーを1728個搭載したクラスターは、画像分類モデルであるResNetのトレーニングを0.23分(約14秒)で完了した。ResNetは2015年に米マイクロソフトが公開した。当時、マイクロソフトはResNetをトレーニングするのに29時間を必要としていた。それがわずか14秒で完了するようになった。

 BERTは2018年10月にグーグルが発表した際に、ニューラルネットワークのパラメーター数が3億4500万個もある「巨大言語モデル」として話題になった。しかしそのBERTのトレーニング時間も、先ほどのTPU v4を3456個搭載するクラスターなら0.29分(約17秒)で完了する。

 BERTの登場以降、言語モデルの巨大化は加速する一方だ。米オープンAIが2020年6月に公開し、人が書いたようなフェイクニュースの生成で話題になった「GPT-3」のパラメーター数は1750億個で、BERTの500倍以上だ。

 MLPerfは毎年、ベンチマークで使う機械学習モデルを最新のものに置き換えている。近い将来、ベンチマークに使う言語モデルもBERTから、より規模の大きいGPT-3などに置き換えられるだろう。2020年時点ではGPT-3の学習に数日~数週間かかった。これが将来、どれだけ短くなるのか。今後のMLPerfの結果が楽しみである。

中田 敦(なかだ・あつし)
日経クロステック/日経コンピュータ副編集長
中田 敦(なかだ・あつし) 1998年日経BP入社。2015年4月から19年3月までシリコンバレー支局長。著書に「クラウド大全」(共著)や「GE 巨人の復活」がある。