全6566文字
本記事はロボットとAI技術の専門誌『日経Robotics』のデジタル版です
本記事はロボットとAI技術の専門誌『日経Robotics』のデジタル版です

 ディープニューラルネットワーク(DNN)の性能を高める常套手段の1つは、モデルを大規模にすることである。ニューラルネットの層数や1層当たりのノード数の増加はもちろん、入力するデータのサイズ(次元数)を増やすと効果が上がる場合もある。

 実際、最先端のDNNモデルの規模は拡大を続けており、人間顔負けの文章を生成できるとして話題になった米Open AIの言語モデル「GPT-3」は実に1746億個ものパラメータを備える。

 その背後にはDNN(Transformer)の精度(エラーの少なさ)はモデルの規模や学習に使う演算能力のべき乗に従って改善するという仮説があり(今号のAI最前線の記事を参照)、GPT-3自体がその証拠の1つになっている1)

 ここまで大規模でなくても、モデルの開発時により規模の大きいDNNを学習させて性能を確かめたい場合は少なくないだろう。その際に制約になるのが、学習の高速化に使うGPUのメモリ容量不足である。