PR

冷却とソフトの調整で

 効率向上の鍵の1つが、アクセラレーターに米NVIDIA社製GPU「Tesla P100」を採用したことにあるのは間違いない。今回のGreen500では10位までのスパコンのうち実に9台が用いている。もっとも、同GPUをいち早く使い2016年11月発表の前回のランキングで首位だったNVIDIA社の「DGX Saturn V」が今回は10位であることから、その他の工夫で効率をかなり改善できることが分かる。実際、電力当たりの演算性能はSaturn Vの9.462GFLOPS/Wに対し、TSUBAME3.0では14.11GFLOPS/Wと約1.5倍に高まった。

 改善点の1つは冷却方式である。TSUBAME3.0はプロセッサーに密着させたジャケットを流れる水を使った水冷方式、kukaiは高密度実装したボードを冷却用の液体に浸す液浸方式を採用した(図1)。TSUBAME3.0の開発に携わった東京工業大学 教授の松岡聡氏によれば、水冷と液浸はほぼ同等の効率を実現できるが、保守のしやすさなどを考え今回は水冷を採用したという1)。一方のヤフーは、面積当たりに実装できるプロセッサー数を増やしやすいことなどから液浸を選んだ。

 ソフトウエアのチューニングも効率向上に大きく効いた。スパコン向けソフトウエアの経験が豊富な東京工業大学に対して、スパコン作りに初めて挑んだヤフーは性能計測用ベンチマークソフト(LINPACK)のパラメーターを機械学習で最適化する方法を採った。東京大学 講師の佐藤一誠氏と協力し、ベイズ最適化という手法を用いて、パラメーターを変えながら演算を繰り返し、効率を最大化できる条件を導いた。