全5623文字

 これまで半導体産業は微細化を軸に発展を遂げてきた。その軸が変わったことを、2022年7月に米国で開催された2つの半導体関連イベントでまざまざと見せつけられた。背景には、デジタルトランスフォーメーション(DX)や、AI(人工知能)/機械学習の導入、IoT(Internet of Things)の普及などによる、処理すべきデータ量の爆発がある。それに対応するための半導体技術として、限界を迎えつつある微細化への期待は急速にしぼみ、それに代わってヘテロジニアスインテグレーションへ熱い視線が注がれるようになった(図1)。従来、微細化競争の終焉(しゅうえん)は技術的な困難によって訪れると考えられていたが、ニーズの低下によって迎えることになりそうだ。

図1 半導体プロセス技術だけでは無理
図1 半導体プロセス技術だけでは無理
米IBMの研究所は、1000億個トランジスタ/パッケージの実現をテーマにした講演において、半導体プロセス技術(図の左と中央)に加えて、ヘテロジニアスインテグレーションに必要なパッケージング技術(図の右)を挙げた。この講演は、SEMICON West 2022のTechTALKS Stageにおける先端製造技術をテーマにしたセッションの最初に基調講演として実施された。同セッションでは、それ以降の大半の講演は半導体プロセスを扱っており、IBMのパッケージング技術への言及は異彩を放っていた。なお、IBMの講演は縦方向(z方向)の製造技術をテーマにしており、この図の左は、立体トランジスタといわれるFinFETの進化系のGAA(Gate All Around)トランジスタ(同社では2nm世代のプロセスで採用)。GAAは基板に対して水平に並ぶが、トランジスタを基板に対して縦方向に積むのが中央である(同社では1nm世代以降で採用)。スタックトトランジスタなどと呼ばれている(出所:IBM)
[画像のクリックで拡大表示]

 ヘテロジニアスインテグレーションは、半導体を低コストで製造するための手法として注目されている。この手法では、回路を複数に分割してそれぞれをチップレットと呼ばれる小さなダイ*1として集積し、複数のチップレットを1つのパッケージに収める(図2)。チップレットはダイが小さく、枯れた技術を使える部分が増えるため、歩留まりが高い。微細なプロセスだけを使って全回路を1つのダイに集積するSoC(System on a Chip)よりも低コスト化が狙える。特に先端プロセスでは露光工程を複数回に分けて行うマルチパターニング処理が必要だったり、EUV(極端紫外線)を使う高価な露光装置が必要だったりして、面積の大きなダイを製造するコストがレガシーなプロセスに比べて大きく上昇してしまう。このため、処理速度が重要な演算回路(CPUなど)は先端プロセスで造るものの、残りの回路は低コストなレガシープロセスで造り、それらを1パッケージにまとめる(すなわち、ヘテロジニアスインテグレーションする)ことで全体としてコストを抑える。

*1:ダイ=パッケージに入っていない「裸」のチップ
図2 ヘテロジニアスインテグレーションの例
図2 ヘテロジニアスインテグレーションの例
インターポーザーと呼ばれる中間基板に、チップレットと呼ばれる小さいダイを並べる。この図ではすべてのダイは水平方向に並べており、2.5次元のヘテロジニアスインテグレーションと呼ばれる。ダイを垂直方向に積む場合もあり、3次元のヘテロジニアスインテグレーションとなる。2.5次元と3次元の両方を1つのパッケージ内で行うケースもある。また、この図ではインターポーザーはSi(シリコン)製だが、最近は、樹脂基板を使う技術も確立されている(出所:米Lawrence Berkeley National Laboratory)
[画像のクリックで拡大表示]

リードするAMD、遅れるIntel

 ヘテロジニアスインテグレーションの先駆者とされているのが、米AMD(Advanced Micro Devices)である。同社は記事冒頭で触れた米国サンフランシスコで開催の2つの半導体関連イベント、設計に焦点を合わせた「59th Design Automation Conference(DAC 2022)」(2022年7月10~14日)と、製造に焦点を合わせた「SEMICON West 2022」(2022年7月12~14日)で目立っていた(図3)。例えば、DAC 2022の最初の基調講演には、同社のCTO(最高技術責任者)が登壇した*2。また、ヘテロジニアスインテグレーションをテーマにしたパネル討論会は両方のイベントで複数が行われ、筆者が聴講したすべての討論会には同社からパネリストが招へいされていた。

図3 ヘテロジニアスインテグレーションを扱ったパネル討論会の例
図3 ヘテロジニアスインテグレーションを扱ったパネル討論会の例
上は、SEMICON West 2022のTechTALKS Stageで行われたパネル討論会「Heterogeneous Integration Paves the Way for the Future of HPC and Hyperscale Computing」。下はDAC 2022のリサーチ・パネル・セッション「Heterogeneous 3D or Monolithic 3D, Which Direction to Go?」である。AMDのGabriel Loh氏(Senior Fellow)は、両方にパネリストとして招へいされている(写真:日経クロステック)
[画像のクリックで拡大表示]

チップ分割でコストを40%削減

 SEMICON West 2022のTechTALKS Stageで行われたパネル討論会「Heterogeneous Integration Paves the Way for the Future of HPC and Hyperscale Computing」に登壇したAMDのGabriel Loh氏(Senior Fellow)は、同社が2017年6月に発売したサーバー向けMPU(マイクロプロセッサー)「第1世代EPYCプロセッサー」*3におけるチップ分割によるコスト削減効果を紹介した(図4)。第1世代EPYCプロセッサーの1ダイで造られたバーション(1ダイバージョン)と4分割バージョンを比べた。1ダイバーションに比べて4分割バージョンはチップ面積(Siの面積)が10%増えるものの、コストは約4割低減したとのことだった。

*3 関連記事 AMD、32個のZenコア搭載のサーバー向けMPU
図4 1つのダイにまとめる(左)より4つのダイに分割したほう(右)が有利
図4 1つのダイにまとめる(左)より4つのダイに分割したほう(右)が有利
(出所:AMD)
[画像のクリックで拡大表示]

 AMDはMPUのCPU(演算回路)を複数のチップレットに分割する手法を、サーバー向けのEPYCに加えて、PC向けの「Ryzenプロセッサー」にも次々と導入し、米Intel(インテル)の市場を奪っていった。さらにAMDはMPUのCPUだけでなく、MPUのL3キャッシュメモリー(SRAM)容量増加にもヘテロジニアスインテグレーションを活用した。「3D V-Cache」と名付けた技術で、MPUダイのL3キャッシュメモリー領域上にSRAMダイを2枚縦積みしてL3キャッシュ容量を3倍にし、MPUの処理性能の向上を図った(図5)。同じ半導体プロセスを使いながらL3キャッシュ容量を3倍にしただけで、アプリケーションによっては50%以上の処理性能向上を確認できたという*4。一方、Intelがサーバー向けMPUにヘテロジニアスインテグレションを採用したのは2022年5月発売の「第4世代 Xeon Scalable Processor(開発コード名:Sapphire Rapids)」から*5。PC向けMPUは2023年に発売予定の「Meteor Lake」(開発コード名)から本格採用と大きく出遅れている。

*4 関連記事 AMD、初の3Dキャッシュ搭載サーバー向けMPUを出荷開始 *5 関連記事 x86プロセッサーへの固執を絶つIntel、NVIDIAに全力で対抗
図5 「3D V-Cacheテクノロジー」を適用したMPUの例
図5 「3D V-Cacheテクノロジー」を適用したMPUの例
AMDは、サーバー向けMPUの「第3世代EPYCプロセッサー」(開発コード名:Milan)に3D V-Cache技術を適用した製品(開発コード名:Milan-X)を開発した。Milan-Xは2022年3月に出荷を始めた(出所:AMD)
[画像のクリックで拡大表示]

 今回の2つの半導体イベントでは見かけなかったが、AMDやIntelといった大手半導体メーカーだけではなく、スタートアップ企業でもヘテロジニアスインテグレーション採用の成功例がある。英Graphcore(グラフコア)は2022年3月3日(現地時間)に発表したDNN(Deep Neural Network)処理に向けた同社独自プロセッサー「Bow IPU(Intelligence Processing Unit)」*6でヘテロジニアスインテグレーションを採用した(図6)。Bow IPUは、1つのダイだった同社の前世代のプロセッサー「Colossus Mk2 GC200(以下、GC200)」を、2つのダイ、すなわち、プロセッサーダイと電源供給ダイに分けた。プロセッサーダイはGC200と同じ台湾TSMC(台湾積体電路製造)の7nm世代プロセス「N7」で造ったが、電源供給ダイは安価な40n~50nmのレガシーなプロセスで造る。Bow IPUとGC200は同じ製造コストながら、Bow IPUはGC200に比べて処理性能が40%、電源効率は16%向上したとする。

図6 DNN(Deep Neural Network)処理向けプロセッサー「Bow IPU(Intelligence Processing Unit)」の構造
図6 DNN(Deep Neural Network)処理向けプロセッサー「Bow IPU(Intelligence Processing Unit)」の構造
(出所:Graphcore)
[画像のクリックで拡大表示]