概要
- ArmのCortex X925がついにAMD Zen 5やIntel Lion Coveと同等のデスクトップ性能を実現
- Nvidia GB10チップに10基のX925コアを搭載し、Dell Pro Maxシリーズなどで採用
- X925は高性能重視設計で、広いアウトオブオーダー実行ウィンドウや大容量キャッシュを備える
- 分岐予測やフロントエンドのスループットもZen 5と同等かそれ以上
- ベクター演算やレジスタリネームなど、最新x86コアと肩を並べる設計
Arm Cortex X925のデスクトップ性能到達
- デスクトップ/ラップトップ用途 で求められる高いシングルスレッド性能
- これまで AMDやIntel が大規模アウトオブオーダーコアで市場をリード
- Armは低消費電力・小面積 を重視してきたが、近年は高性能分野に進出
- 2012年の Cortex A57 登場時には夢物語だったx86同等性能が、 Cortex X925 で現実に
- Nvidia GB10 はX925コアを10基搭載し、最大4GHz動作
- Dell Pro Maxシリーズ での採用事例、実機検証が可能に
Cortex X925のマイクロアーキテクチャ
- 10ワイド設計 で極限まで性能追求
- リオーダーウィンドウ はAMD Zen 5を上回る容量
- L2キャッシュ はIntel P-Core並みの容量(2MBまたは3MB選択可)
- L1キャッシュ は64KB固定、全キャッシュでECC/パリティ保護
- DSU-120 インターコネクト経由で最大32MBのL3キャッシュ
- 物理アドレス空間40bit 対応、サーバー用途には非対応
分岐予測とフロントエンド性能
- 高度な分岐予測器 で長いパターンも認識可能
- BTB容量 はZen 5に迫る大規模設計(最大16384分岐追跡)
- リターンスタック も29エントリと十分な容量
- SPEC CPU2017 での分岐予測精度はZen 5並み、場合によっては上回る
デコード・フロントエンド
- MOPキャッシュ非搭載、デコードコストはプレデコードや低クロック動作で吸収
- L1Iキャッシュ は76ビット粒度でデータ格納
- フロントエンドスループット は最大10命令/サイクル(2MBページ利用時)
- Zen 5やLion Cove よりやや低い実効スループットだが、クロック差が要因
アウトオブオーダー実行・リネーム
- リオーダーバッファ容量 は実測で約525命令、Lion Cove(576)やZen 5(448)に匹敵
- レジスタファイルやメモリ順序キュー もx86大コア並みの規模
- 128ビットベクター演算 はx86大コアよりやや狭い
整数・浮動小数点ユニット
- 整数側 は4つのスケジューラ+8 ALUポート構成、対称性重視
- 整数madd命令 は2つのマイクロオペレーションに分割
- 浮動小数点側 は6本のパイプ、ベクターFMAや整数演算も全パイプ対応
- FPスケジューラ は1本あたり約53エントリと大容量
Armコアの進化と今後の展望
- Cortex X925 は消費電力や面積の制約を抑え、純粋に性能を追求
- AMDやIntelの最新x86大コア と実用レベルで競合可能な設計
- デスクトップ/ラップトップ市場 におけるArmの存在感拡大
- 今後は サーバー向け物理アドレス空間拡大 や ベクター演算強化 が課題