インテルのライオンコーブPコアとゲームワークロード

2025年7月7日原文(chipsandcheese.com)

概要

Intelの最新CPUアーキテクチャ Lion Cove は、前世代 Raptor Cove から大幅な進化を遂げた高性能コア。ゲーム用途では IPCの伸び悩み や メモリ階層の遅延 がボトルネックとなる傾向。 L1.5キャッシュなど新設計による キャッシュ命中率の向上 が見られるが、L3/DRAMアクセス時のコストは依然高い。フロントエンドとバックエンドの両面で スループット損失の要因 が詳細に分析されている。ゲームワークロードは 低IPC傾向 で、Lion Coveの設計意図と実際のゲーム性能のギャップが明らか。

Lion Coveアーキテクチャの主な特徴と進化点

Raptor Cove からの進化点として、 命令実行エンジンの再構成 と キャッシュ階層の拡張 を実現
1サイクルあたり8マイクロオペレーション の持続能力、これによりSPEC CPU2017ベンチマークで高いIPCを記録
L1データキャッシュ を2段階に分割（L1/L1.5）、 3MB L2キャッシュ を搭載
L1.5キャッシュはL1ミスの多くを捕捉するが、 絶対的なヒット率は中程度
L2キャッシュのヒット率は ゲームごとに50～72%、L1.5+L2の累積ヒット率は 75～86%
- Intelの L2大型化戦略 はL3アクセス削減には一定の効果
- しかし L3やDRAMアクセス時の遅延コスト は依然として高い

ゲームワークロードにおけるLion Coveの挙動

ゲームでは IPCが低く抑えられがち、SPECベンチマークのような高IPCは出にくい
バックエンドのメモリ遅延 がスループットロスの主因、 フロントエンドや命令実行遅延 も影響
Bad Speculation（分岐ミス）やフロントエンド帯域不足 は大きな問題ではない
命令キャッシュ（L1i 64KB） は大半の命令フェッチをL2アクセスなしで処理
- ただし L2命令キャッシュミス時の遅延 は顕著、特にコード局所性の悪いゲームで顕著

パフォーマンスモニタリングとキャッシュ階層の詳細

L1D_MISS.LOAD イベントでL1D（48KB）ミスを計測
L1D_PENDING.LOAD イベントはL1.5（192KB）ミスのみ計測
- 両者を組み合わせることで L1.5ヒットをゼロ遅延扱い として分析可能
ARB（アービトレーションキュー） でのレイテンシ計測はCPUコアクロックと異なるため、補正が必要
DRAM帯域の限界 には達しておらず、 ARB以降のレイテンシは制御下
L2ミスは絶対数としては少ないが、L3/DRAMアクセスの高コストを考慮すると依然課題

フロントエンド・分岐予測・命令キャッシュの挙動

分岐予測器の精度は非常に高い が、ミス時は大きなペナルティ
- L2やそれ以上からの命令取得 は数十サイクルの遅延をもたらす
マイクロオペキャッシュ（DSB） が主な命令供給源
L1iヒット率は高水準、L2コードミスはまれだが発生時は顕著な遅延
Cyberpunk 2077 はコード局所性が良く、 Palworld は悪い傾向
オフコア命令読み出しレイテンシ はデータ側より低いが、依然として大きな遅延要因

バックエンド・リタイアメントと遅延要因

ゲームのような レイテンシバウンドなワークロード ではリタイアメント段が「飢餓状態」になりやすい
- 長遅延命令や分岐ミス復帰 がリタイアメントをブロック
- スループットは「バスタブ曲線」的に変動、ほとんどのサイクルでリタイアメントスロットが遊休
パイプライン内のバブル や 分岐予測器の構造的制限 も一部影響

総括とゲーム性能の考察

Lion Cove は設計上の広い帯域や高IPCを活かせるワークロードで真価を発揮
ゲームでは メモリ階層の遅延 と 低IPC特性 が制約となり、理論性能を引き出しにくい
L2/L1.5キャッシュの拡張 は一定の効果だが、L3/DRAMアクセスの遅延コストは今後も課題
分岐予測精度や命令キャッシュ設計 は優秀だが、ワークロード特性による制約が顕著
ゲーム用途では スループットよりレイテンシ最適化 が引き続き重要課題

ハクソク