PR
アクセラレータLSI「GRAPE-DR」
アクセラレータLSI「GRAPE-DR」
[画像のクリックで拡大表示]
GRAPE-DRのダイ
GRAPE-DRのダイ
[画像のクリックで拡大表示]
基本アーキテクチャ
基本アーキテクチャ
[画像のクリックで拡大表示]
試作ボード
試作ボード
[画像のクリックで拡大表示]

 東京大学と国立天文台は,単精度で512GFLOPS,倍精度で384GFLOPSと,ソニー・グループ,東芝,米IBM Corp.が開発したマイクロプロセサ「Cell」の2倍以上の演算性能を備えるアクセラレータ用LSI「GRAPE-DR」を開発した。汎用のマイクロプロセサと組み合わせて利用し,システムの演算を高速化する役割を果たす。消費電力は1個当たり最大60Wと電力効率が高いのが特徴である。

 GRAPE-DRは,東京大学 情報理工学系研究科 教授の平木敬氏の研究グループと国立天文台 理論研究部 教授で,天文シミュレーションプロジェクト プロジェクト長の牧野淳一郎氏の研究グループが共同開発した。「速くて,安くて,使いやすいスーパーコンピュータの開発が目的」(東大の平木氏)という。

 このため,コンパイラも独自に開発した。現在の試作版とGRAPE-DRの実機で動作を確認済みであるという。東京大学が従来開発してきた特定用途向けアクセラレータの「GRAPE」シリーズと異なり,一般の科学技術計算に利用できる。「(スーパーコンピュータのランキングである「TOP500」で利用する)Linpackベンチマーク・テストでも高い性能を発揮できる」(東大の平木氏)。

512個の演算器を1チップ上に搭載

 

 同LSIは,512個の「PE」と呼ぶ演算ユニットを17mm×17mmのチップ上に搭載する。具体的には,32個のPEから成るサブ・ブロックが16個格子上に並び,1個のLSIを構成する。各PEは「SIMD(single instruction stream-multi data stream)」命令を実行する機能を備えており,Cellが備える8個の演算ユニットと同様な役割を持つ。ただし,Cellと違ってOSを動作させる汎用マイクロプロセサの機能はチップ上には搭載していない。米Intel Corp.などのマイクロプロセサを,メモリ・コントローラとなるFPGAを介してこのアクセラレータLSIに接続することで,初めて演算システムとして動作するようになる。

 設計には90nmルールのCMOS技術を採用。動作周波数は500MHzである。トランジスタ数は約3億個で,例えば米Advanced Micro Devices,Inc.(AMD社)の「AMD Opteron」よりも多い。製造は台湾Taiwan Semiconductor Manufacturing Co.,Ltd.(TSMC)に委託した。

 今後は,2007年度中に演算性能1TFLOPSのアクセラレータ用ボードを協力メーカーを通じて1枚100万円程度で発売する計画。このLSIを用いて小型のスーパーコンピュータを構築すれば「(Linpackベンチマークで約35TFLOPSの)地球シミュレータと同じ性能を1ラック,5000万円前後で実現できる」(東大の平木氏)という。2008年度には40ラック分,同LSIを4000個利用したシステムで,演算性能が2PFLOPSと世界最速クラスを実現する予定である。その場合の消費電力は汎用マイクロプロセサも含んだシステム全体で500kW。制作費は「10億円程度と格安で済む」(同氏)見通しであるという。

 さらに平木氏らは2010年ころに「20~40PFLOPS」の実現を目標としている。「設計ルールとして45nmのCMOS技術を用いれば1チップで3~4TFLOPSのLSIを製造可能。実現は予算次第」(同氏)。2008年~2010年のTOP500の1位を狙う考えだ。