PR

 Intelは2008年11月中に、次世代CPUのCore i7(コアアイセブン)シリーズを発売する。正式発表に先立ち、日経WinPC編集部はIntelより評価システムを借り、Core i7の性能や消費電力を検証した。

 まず、Core i7シリーズの特徴とラインアップについて触れておこう。Core i7は「Nehalem(ネヘイレム)」の開発コード名で呼ばれていた内部設計(マイクロアーキテクチャー)を採用したCPUで、デスクトップPC向けは「Bloomfield(ブルームフィールド)」という開発コード名だった。コアの設計そのものは現在のCore 2シリーズで採用されている「Coreマイクロアーキテクチャー」のマイナーチェンジだが、4個のコアを1つのダイ(半導体本体)に統合し、メモリーコントローラーも内蔵するなど、形態はCore 2シリーズとは全く異なる。ソケットも新しくなるため、Core i7は既存のマザーボードには取り付けられない。


Hyper-Threadingにより、8コア相当として動作するCore i7

 Nehalemファミリーの設計上の大きな特徴としてIntelがアピールしているのは、CPUを販売する市場に合わせて機能や性能を柔軟に変更できる点だ。コアの数、メモリーの種類とチャンネル数、キャッシュ容量、外部インターフェースの速度と本数、グラフィックス機能を統合するか否かなど、1つのCPUパッケージにどういう要素を盛り込むかで、サーバーやデスクトップ、ノート向けまでのCPUを作り分けられる。当初のCore i7は、ハイエンドデスクトップPC向けとして、4個のコアと8MBの共有3次キャッシュ、DDR3対応のメモリーコントローラー、新インターフェース「QPI(QuickPath Interconnect)」を内蔵している。

 コアは、Core 2シリーズで使われているCoreマイクロアーキテクチャーの設計をベースにした。分岐予測がミスしたときの挙動を改善、アウト・オブ・オーダーに使うバッファーなどを増加、命令を融合させて効率を高める「マクロフュージョン」で対象となる命令を増やして64ビットモードでも使えるようにしたなど、フルモデルチェンジではなく、重要だが地味な改良にとどまっている。

 Core 2世代との大きな違いは「Hyper-Threading(ハイパースレッディング)」を実装したことだ。Hyper-ThreadingはPentium 4で初めて使われた技術で、物理的な1つのコアをソフトウエアからは2個あるように見せかける。4コアのCore i7だと、OSからは8コアCPUとして見える。IntelはHyper-Threadingについて「わずかな消費電力の上昇で2~3割の性能向上が得られる」としている。そのほか拡張命令として新たにSSE4.2を実装した。

 キャッシュはコアごとに1次が命令32KB+データ32KB、2次は256KBを備える。8MBの3次キャッシュは全コアで共有する。AMD製CPUとは異なり、1次や2次に同じデータが存在する「インクルーシブ」タイプだ。Intelはインクルーシブタイプの採用理由として、どのコアのどの階層にデータがあるかを調べるオーバーヘッドが無く、レイテンシー(遅延時間)も減らせるためとしている。メモリーコントローラーは、DDR3-1066のトリプルチャンネルに対応しており、最大転送速度は25.6GB/秒にも達する。1チャンネル当たり、2本のDIMM(Dual In-line Memory Module)を接続可能で、最大24GBを搭載できる。

 チップセットとは、QPIで接続する。これはかつて開発中だったときに「CSI(Common System Interface)」と呼ばれていたIntel独自のインターフェース。初期の仕様上の最大値は、送受信がそれぞれ20ビット(データが16ビット、2ビットがプロトコル、2ビットが誤り検出)、6.4GT/秒(TはTransferの略)で、最大転送速度は25.6GB/秒になる。Core i7の世代ではメモリーコントローラーはCPU側にあるため、直接の比較はあまり意味がないが、現状のFSBは1600MHz時でも12.8GB/秒。最大速度のQPIは十分に速いと言えるだろう。

 接続方式の変更に伴い、チップセットも当然新しくなる。当初出てくるのは「Intel X58」だ。メモリーコントローラーが無くなったことにより、従来のMCH(Memory Controller Hub)ではなく、「IOH(I/O Hub)」と呼ばれるようになった。X58はPCI Expressを36レーン備えており、グラフィックス用にx16×2本や、x8×4本の構成が可能。そのほか4本のPCI Express x1を使える。I/OコントローラーはIntel独自のインターフェース、DMI(Direct Media Interface)でICH10シリーズを接続する。これは現在のCore 2世代と同じだ。

 CPUの内部構成が大幅に変わったため、Core i7では実装形式も変更になった。既存のLGA775とは互換性のない1366ピンの「LGA1366」だ。LGA775のCPUパッケージは37.5×37.5mm。対してLGA1366では42.5×45mmとわずかに長方形。ソケットの留め具自体も大きくなるため、CPUクーラーの互換性も無い。

 表1に2008年11月中に発売になるCore i7の詳細をまとめた。最上位モデルは3.2GHzで動作するCore i7-965 Extreme。その下が2.93GHz動作のCore i7-940。動作周波数以外の性能面での仕様はi7-965と変わらないが、QPIが4.8GT/秒になる。最下位モデルはCore i7-920だ。2.66GHzでQPIは4.8GT/秒になっている。1000個ロット時のIntelの卸価格はそれぞれ999ドル、562ドル、284ドル。インテルは日本のパーツショップ向けの価格を公開していないが、CPUクーラーが付属することと代理店や販売店の利益が上乗せされることを考えると965は11万円台、940は6万円台、920は3万円台半ばから後半になると推測される。


自動で倍率を変えて周波数が上がる「ターボ」を実装

 デスクトップPC向けCore i7の特徴の一つに、「Turbo Boost Technology」(以下ターボ)がある。これは、CPUの温度や消費電力に余裕があるとき、動作倍率を自動で変更して動作周波数を引き上げるという、一種のオーバークロック機能だ。

 ターボの有効、無効はBIOSメニューで設定する。「ターボで動作周波数が上がっても安定性を損なわない」(インテル)とのことで、標準では有効になっている。今回試用したIntel製のマザーボードのBIOSでは、i7-920を装着したときには有効と無効を選べるだけだったが、i7-965を取り付けると設定項目が増え、ターボの挙動を細かく変えられるようになっていた。

 Intelはターボの動作の詳細について、2008年11月3日の時点では明らかにしていないが、BIOS設定項目を見ると、1つのコアが上限として規定倍率の2段階上、残りの3コアが1段階上の倍率に設定されていた。Core i7の基準周波数は133MHzなので、例えばi7-965だと、規定では133MHz×24倍の3.2GHzで動作する。ターボの標準設定では1番目のコアが26倍(3.467GHz)、そのほかのコアは25倍(3.333GHz)で動作することになる。これは負荷時に1個が26倍、残りが25倍で常に動作するわけではなく、あくまでも上限値だ。

 i7-965を取り付けたときのターボに関するBIOS設定には、TDP(熱設計電力、実使用上の最大消費電力)の上限値を変更できる項目があった。試しにi7-965を取り付けたときに、TDPを150W、ターボの上限値を30倍(4GHz)にして動かしたところ、すぐに動作しなくなった。ターボが有効でも安全に使えるのはあくまでも規定の上限値(1コアだけ2段階、残りは1段階)であって、i7-965を使って上限を引き上げると単なるオーバークロックと変わらないようだ。テスト時間が限られていたため試していないが、より強力なクーラーを使い、ターボ時の倍率上限を適切なレベルに設定すれば安定して動作する可能性がある。ちなみに、Core i7のオーバークロックには、133MHzの基準周波数を変更するアプローチもある。


売れ筋のCore 2 Duo E8500やCore 2 Quad Q9550を交えて評価

 ではテストの結果を見ていこう。テストしたCPUは以下の通りだ。

  • Core i7-965 Extreme(3.2GHz)
  • Core i7-940(2.93GHz)
  • Core i7-920(2.66GHz)
  • Core 2 Extreme QX9770(3.2GHz)
  • Core 2 Quad Q9550(2.83GHz)
  • Core 2 Quad Q9450(2.66GHz)
  • Core 2 Quad Q8200(2.33GHz)
  • Core 2 Duo E8500(3.16GHz)

 このうちi7-940は、i7-965の動作倍率、ターボモード時の倍率、QPIの速度を変えた相当品。同じくQ9550とQ9450も、3GHzで動作するCore 2 Extreme QX9650の動作倍率を変えた相当品だ。性能は変わらないが、消費電力はそれぞれ市販品とは異なる可能性がある。

 テストに使用したパーツは以下の通りだ。

  • 【マザーボード】DX58SO(Intel、Intel X58搭載、DDR3-1066)、P5Q3 Deluxe(ASUSTeK Computer、Intel P45搭載、DDR3-1333)、P5Q Deluxe(ASUSTeK Computer、Intel P45搭載、DDR2-800)
  • 【メモリー】DDR3-1066 1GB×3(Qimondaチップ)、DDR3-1333 2GB×2、DDR2-800 2GB×2
  • 【HDD】WD Caviar Black 1TB(Western Digital)、X25-M Mainstream SATA SSD 80GB(Intel)
  • 【グラフィックスボード】ATI Radeon HD 2400 PRO搭載ボード、ファンレス
  • 【電源ユニット】AS Power Silentist S-650EB(アビー、定格出力650W)
  • 【OS】Windows Vista Ultimate Service Pack 1 32ビット日本語版

 Core i7プラットフォームのメモリーは、X58マザーボードでは評価キットに付属するQimondaチップ搭載モジュールを使用した。容量は1GB×3の3GB。ちなみにメモリーの動作周波数は基準となる133MHzを整数倍して生成する。DX58SOのBIOSでは、標準が8倍(133.33MHz×8=1066MHz)だったが、6/10/12の選択肢もあった。また、Intelの資料によると、1.6Vより高い電圧でメモリーモジュールを動作させようとするとCPUにダメージがあるという。ただ、DX58SOのBIOSの「Memory Voltage」では1.50~2.50までの設定値が存在している。今回は、各種のタイミングパラメーターや電圧は、自動で認識された値でそのままテストした。

 Core 2シリーズは、一般的なDDR2-800環境とより高速なDDR3-1333環境でテストした。いずれも2GB×2の計4GBで、Core i7よりも多いのだが、1GB×2よりは比較対象として現実だろうとの判断だ。グラフィックスボードは、消費電力を抑えるために性能の低いチップを搭載した製品を使っている。各構成で省電力機能は有効にしている。


コアそのものの演算能力もCore 2より向上、メモリー周りは大幅に高速に

 Core i7では、同等周波数のCore 2シリーズとのコア自体の性能差を知るために、Hyper-Threadingとターボの有効と無効を切り替えてテストした。特にCore i7の中では売れ筋になるであろうi7-920は、Hyper-Threadingとターボをそれぞれ有効、無効にした4種類の設定で調べた。グラフ中の「HT」はHyper-Threading、「TB」はターボを示している。Core i7の標準ではHyper-Threadingとターボが両方とも有効になっているので、製品としての性能比較は「HT有/TB有」のグラフに注目していただきたい。

 まずは「スーパーπ」(グラフ1)の結果だ。スーパーπは円周率を計算する古いプログラムで、マルチコアには全く対応しておらずシステム全体の性能も測れない。今回は、新CPUが登場したときの定番テストとして調べてみた。動作周波数で劣るi7-920でも、QX9770よりも速い14秒。最上位のi7-965にいたってはターボありで12秒だ。

 次にCPUやメモリーの基本的な特性を見てみよう。グラフ2は、「Sandra 2009」のCPU関連テストの結果だ。規定動作周波数が3.2GHzと同じ、QX9770とi7-965を使って整数演算と浮動小数点演算性能の違いを調べた。SandraのCPU関連テストはメモリーやキャッシュの影響を受けにくく、演算部分の特性だけが分かる。

 グラフはQX9770の結果を100%とした相対値にした。i7-965はHyper-Threadingとターボを両方無効にした状態でも、特にSSEを使った浮動小数点演算で性能が伸びている。このテストは動作周波数とコア数に比例するので、ターボとHyper-Threadingを有効にすると当然その分性能が伸びる。

 グラフ3は、Sandraのメモリー関連テストの一つである「Cache and Memory」の結果だ。横軸がデータ転送量で縦軸が速度を表す。このテストも動作周波数やコア数が影響する。Core i7は、Hyper-Threadingが有効だと「4kB」の速度が落ちるのだが、「128kB」まではほぼQX9770と同じだ。「256kB」から「1MB」まではCore i7が設定にかかわらず速い。

 グラフ4もSandraのメモリー関連テストの結果だ。「Buff'd iSSE2 Memory Bandwidth」はマルチスレッド化したメモリー転送速度で、コア数や動作周波数が影響する。このグラフは「Int」と「Float」の平均値だ。「256MB Blocks」は、先のCache and Memoryの結果から、メインメモリーの転送速度が分かるデータ量の値を抜き出したものだ。Core i7はメモリーモジュールの本数を変えてテストした。

 見ての通り、Core i7におけるメモリーコントローラー統合の効果は絶大だ。シングルチャンネル構成ですら、Core 2シリーズでは最上位であるFSB1600MHz、3.2GHzのQX9770のプラットフォームに匹敵する値を出している。Core 2シリーズのプラットフォームはFSBが完全なボトルネックになっており、シングルチャンネルとデュアルチャンネルでメモリーの転送速度に極端な違いは出なかった。この点はAMDのAthlon/Phenomに完全に負けていた。Core i7では、チャンネルを増やすと、その分転送速度も素直に伸びる。