概要
Intelの最新CPUアーキテクチャ Lion Cove は、前世代 Raptor Cove から大幅な進化を遂げた高性能コア。 ゲーム用途では IPCの伸び悩み や メモリ階層の遅延 がボトルネックとなる傾向。 L1.5キャッシュなど新設計による キャッシュ命中率の向上 が見られるが、L3/DRAMアクセス時のコストは依然高い。 フロントエンドとバックエンドの両面で スループット損失の要因 が詳細に分析されている。 ゲームワークロードは 低IPC傾向 で、Lion Coveの設計意図と実際のゲーム性能のギャップが明らか。
Lion Coveアーキテクチャの主な特徴と進化点
-
Raptor Cove からの進化点として、 命令実行エンジンの再構成 と キャッシュ階層の拡張 を実現
-
1サイクルあたり8マイクロオペレーション の持続能力、これによりSPEC CPU2017ベンチマークで高いIPCを記録
-
L1データキャッシュ を2段階に分割(L1/L1.5)、 3MB L2キャッシュ を搭載
-
L1.5キャッシュはL1ミスの多くを捕捉するが、 絶対的なヒット率は中程度
-
L2キャッシュのヒット率は ゲームごとに50~72%、L1.5+L2の累積ヒット率は 75~86%
- Intelの L2大型化戦略 はL3アクセス削減には一定の効果
- しかし L3やDRAMアクセス時の遅延コスト は依然として高い
ゲームワークロードにおけるLion Coveの挙動
- ゲームでは IPCが低く抑えられがち、SPECベンチマークのような高IPCは出にくい
- バックエンドのメモリ遅延 がスループットロスの主因、 フロントエンドや命令実行遅延 も影響
- Bad Speculation(分岐ミス)やフロントエンド帯域不足 は大きな問題ではない
- 命令キャッシュ(L1i 64KB) は大半の命令フェッチをL2アクセスなしで処理
- ただし L2命令キャッシュミス時の遅延 は顕著、特にコード局所性の悪いゲームで顕著
パフォーマンスモニタリングとキャッシュ階層の詳細
- L1D_MISS.LOAD イベントでL1D(48KB)ミスを計測
- L1D_PENDING.LOAD イベントはL1.5(192KB)ミスのみ計測
- 両者を組み合わせることで L1.5ヒットをゼロ遅延扱い として分析可能
- ARB(アービトレーションキュー) でのレイテンシ計測はCPUコアクロックと異なるため、補正が必要
- DRAM帯域の限界 には達しておらず、 ARB以降のレイテンシは制御下
- L2ミスは絶対数としては少ないが、L3/DRAMアクセスの高コストを考慮すると依然課題
フロントエンド・分岐予測・命令キャッシュの挙動
- 分岐予測器の精度は非常に高い が、ミス時は大きなペナルティ
- L2やそれ以上からの命令取得 は数十サイクルの遅延をもたらす
- マイクロオペキャッシュ(DSB) が主な命令供給源
- L1iヒット率は高水準、L2コードミスはまれだが発生時は顕著な遅延
- Cyberpunk 2077 はコード局所性が良く、 Palworld は悪い傾向
- オフコア命令読み出しレイテンシ はデータ側より低いが、依然として大きな遅延要因
バックエンド・リタイアメントと遅延要因
- ゲームのような レイテンシバウンドなワークロード ではリタイアメント段が「飢餓状態」になりやすい
- 長遅延命令や分岐ミス復帰 がリタイアメントをブロック
- スループットは「バスタブ曲線」的に変動、ほとんどのサイクルでリタイアメントスロットが遊休
- パイプライン内のバブル や 分岐予測器の構造的制限 も一部影響
総括とゲーム性能の考察
- Lion Cove は設計上の広い帯域や高IPCを活かせるワークロードで真価を発揮
- ゲームでは メモリ階層の遅延 と 低IPC特性 が制約となり、理論性能を引き出しにくい
- L2/L1.5キャッシュの拡張 は一定の効果だが、L3/DRAMアクセスの遅延コストは今後も課題
- 分岐予測精度や命令キャッシュ設計 は優秀だが、ワークロード特性による制約が顕著
- ゲーム用途では スループットよりレイテンシ最適化 が引き続き重要課題