全3168文字
PR

 人間の脳の消費エネルギーは電力に換算するとわずか20ワットほどであり、消費電力数百ワットのGPUを何百~何千個も学習に使う最先端のAI(人工知能)に比べるとはるかに省エネである。そこで脳の動きに習って、AIの省エネを図ろうとする動きが始まっている。代表例が米Google(グーグル)の言語モデルSwitch Transformerだ。

 言語モデルは最近非常に注目されている自然言語処理用のAIだ。米国のOpenAI(オープンAI)財団が2020年6月に発表した言語モデルであるGPT-3は、あたかも人間が書いたような自然な文章を作ったことから大きな話題になった。しかしGPT-3は膨大なエネルギーを消費する。

 GPT-3が高性能なのは、1750億個ものパラメーターを備えた機械学習モデルに45テラバイト(TB)、4100億単語からなる巨大な文書を学習させたからだ。その学習には米Microsoft(マイクロソフト)が用意した世界でトップ5に入る規模のスーパーコンピューターを使用する。スパコンが搭載するCPUコア数は28万5000個、GPUは1万個であり、GPT-3の学習に要する電力は1287メガワット時(MWh)にも達する。

 菅義偉首相は2021年4月、二酸化炭素など温室効果ガスの排出量を2030年度までに、2013年度に比べて46%削減するとの目標を公表した。日本を含め世界中の国々が二酸化炭素の排出量削減を目指している中で、電気をバカ食いするAIを次々と生み出して乱用することは、背徳的な行為とすら言えるだろう。グーグルやマイクロソフトなど大手IT企業は総じて再生可能エネルギーへの転換に熱心だが、それと並行してAIの省エネも各社にとって大きな課題となっている。

消費電力の少ない巨大言語モデルを開発

 では実際にAIの省エネ努力はどのように進められているのか。これについてグーグルが2021年4月22日(米国時間)に興味深いブログと論文を公開した。書き手はDavid Patterson(デイビッド・パターソン)氏。米カリフォルニア大学バークレー校の教授を長らく務めたパターソン氏は、コンピューター科学の教科書「Computer Organization and Design(邦題は「コンピュータの構成と設計」、通称「パタヘネ」)」の共著者として知られ、2016年からグーグルに勤務する。

 パターソン氏は4月に発表した論文「Carbon Emissions and Large Neural Network Training(炭素排出と巨大ニューラルネットワークの学習)」において、自社が開発した巨大な言語モデルであるSwitch TransformerやGShardをオープンAI財団のGPT-3と比較し、自社の言語モデルの方が消費電力が少なく、二酸化炭素排出量も少ないことを示した。

 グーグルが2020年6月に発表したGShardや2021年1月に発表したSwitch Transformerは、高性能で話題になったGPT-3をさらに上回る巨大な言語モデルである。GPT-3が1750億パラメーターであったのに対して、GShardは6000億パラメーター、Switch Transformerに至っては1兆5000億パラメーターにも達する。

 言語モデルはパラメーターと学習量を大きくするだけで性能が向上する傾向がある。GPT-3は前バージョンで2019年に公開したGPT-2の15億パラメーターと比べて100倍以上の規模になったことで、性能が飛躍的に向上した。GShardやSwitch Transformerの性能をGPT-3と直接比較するのは難しいのだが(理由は後述する)、相当な実力があるのは間違いない。

 それにもかかわらずGShardの学習に要する消費電力は24.1MWh、Switch Transformerの学習に要する消費電力は179MWhであり、GPT-3の1287MWhと比べると大幅に少ない。パラメーター数が大きいのに消費電力が少ない理由を、パターソン氏は大きく2つ挙げている。