世界を動かす技術を、日本語で。

AMDのRyzen 9 9950X3D2デュアルエディションは、単一チップに208MBのキャッシュを搭載しています。

概要

AMDの「X3D」シリーズは、ゲーム性能を大幅に強化する 3D V-Cache 技術を採用。 従来モデルは、2つのCPUチップレットのうち1つだけに 追加キャッシュ を搭載。 新登場の Ryzen 9 9950X3D2 Dual Edition は、両方のチップレットに3D V-Cacheを搭載。 合計 208MB のキャッシュで、従来比最大10%の性能向上を実現。 AMD独自のドライバによるコア割り当て最適化も進化。

AMD X3Dシリーズの特徴

  • X3D は、ハイエンドRyzenデスクトッププロセッサのスペシャルバリアント
  • 64MBのL3キャッシュ を追加搭載し、特にゲームでのパフォーマンス向上
  • キャッシュを 3D V-Cache 技術により、CPUダイの上(Ryzen 5000/7000)または下(Ryzen 9000)に積層
  • 12コアおよび16コア のRyzenチップは、2つのシリコンチップレット構成

従来モデルの制約とドライバ最適化

  • 例えば 7900X3D、7950X3D、9900X3D、9950X3D は、2つのうち1つのチップレットのみに 3D V-Cache を搭載
  • AMDのドライバが、キャッシュ恩恵の大きいソフトウェアを V-Cache付きコア に割り当て
  • 通常は機能するが、 割り当てミス によるパフォーマンス低下のリスク

Ryzen 9 9950X3D2 Dual Editionの革新

  • Ryzen 9 9950X3D2 Dual Edition は、両方のCPUダイに 64MBの3D V-Cache を搭載
  • これにより、 従来のハイブリッド構成 を解消し、全コアで均等なキャッシュ恩恵
  • 総キャッシュ量は 208MB (L2キャッシュ16MB、L3キャッシュ64MB、3D V-Cache 128MB)
  • ゲームやキャッシュ依存アプリ で、9950X3D比最大10%の性能向上
  • 先進的な キャッシュアーキテクチャ による一貫したパフォーマンス

今後の展望

  • AMD は今後も 3D V-Cache 技術を拡大予定
  • ゲームやクリエイティブ用途での Ryzen X3Dシリーズ の優位性継続
  • ドライバとハードウェア両面からの最適化による、さらなる性能進化

Hackerたちの意見

誰か3D Vcacheが重なってるのか、横に並んでるのか説明してくれない?もし重なってるなら、9800X3D2はどうしてないの?

99xxチップは2つのCPUダイを持ってて、それぞれのCPUダイに1つのキャッシュダイがあるんだよ。

自分の初めてのパソコンのストレージ(確か160MBだったかな?)が、単一のコンシューマCPUのL3に収まるなんて考えられないよ!アーキテクチャ的には無理かもしれないけど、90年代初頭のOSがCPUのキャッシュで完全に動くのを見てみたいな。

確か、ちょっと変わったCPUはバックアップなしのキャッシュで動くことができたと思う。

https://github.com/coreboot/coreboot/blob/main/src/soc/intel...

私の場合、最初は16K(そう、161024バイト)と90K(そう、901024バイト)の5.25インチフロッピーディスクから始まったよ(フロッピーはパソコンの数ヶ月後に手に入れたけど)。最終的には48K RAMと180Kのダブルデンシティフロッピーディスクにアップグレードした。パソコンはアタリ800。

KolibriOSはそこに収まるよ、メモリ内のデータも含めてね。キャッシュに直接ロードすることはできないけど、キャッシュの容量が読み込むデータ全体より大きければ、キャッシュの排出は起こらないはず。OSと全データがほぼ完全にキャッシュに収まるってこと。つまり、本当に、本当に速くなるはずで、KolibriOSは元々速いからね。

50年後にはCPUやGPUのキャッシュが1TBになってるかもね。複数のLLMを動かすのに十分な量だし(タスクごとにモデルを完全に動かす感じ)。映画みたいなロボットを作るには、今見てるよりもずっと速いLLMが必要だろうね。

初めてのパソコンの時、俺より約16万倍もストレージがあったんだね。

初めてのPCは20MBのHDDに512KBのRAMだったよ。今ならそれがキャッシュに10回入るね。

私はコモドールPET派 - 8KBのRAMと、TDKの120カセットテープから読み書きできるデータが全て。… * https://en.wikipedia.org/wiki/Commodore_PET 同じ頃にTrash-80やBBCマイクロも進出してたよね。

640Kで十分だろ、誰にとっても。

初めてのPCは40MBのハードディスクと8MBのRAMだったよ :D

(ちょっとクリックベイトな)208MBキャッシュの内訳:16MB L2(ダイごとに8MB?) + 32MB L3 * 2ダイ + 64MB L3 スタック3D V-cache * 2 比較のために、9950X3Dは合計144MBのキャッシュを持ってるよ。

16MB L2(ダイごとに8MB?)実際には、計算ダイごとに8MBだけど、コアごとに見ると1MBなんだよね。CCD全体で共有されてるわけじゃない。

2026年には、デスクトップに200MB未満のキャッシュなんて絶対に使いたくないな。

DDR5メモリをすでに買った人には楽しいかもね… 9月に600ドルで見た128GBのデュアルスティックキットを買っておけばよかったと今でも後悔してる。今じゃ4,000ドルで売られてるし… それに、AM4があと数年頑張ってくれることを願ってる。

x3dが本当に欲しいんだけど、プレイしてるゲームがシングルスレッド重視だから。収入も安定してるけど、RAMの価格を考えるとAM5にアップグレードするのは良心が痛む。マジで狂ってるよ。

今は4千ドルで売られてるね… 9950X3D(最新のX2バージョンじゃないけど、699ドルのCPU)と128GBのDDR5-6000、マザーボード、ケースを今2800ドルで買えるよ: https://www.newegg.com/Product/ComboDealDetails?ItemList=Com... 128GBが必要ないなら、今Neweggで700ドル以下の質の良い64GBキットがあるから、これより安いよ。今すぐ何かを作りたい人は、1年か2年後にRAMをアップグレードできるなら、32GBキットは370ドルくらいで手に入るよ。このRAMの価格上昇は好きじゃないけど、16コアのフラッグシップCPUやおそらく高価なGPUを使ったハイエンドシステムを作る文脈では、システムを構築するのはまだ合理的だと思う。128GBのRAMがどうしても必要なら、上でリンクしたようなバンドルでできるけど、できれば少なくとも6ヶ月は待った方がいいよ。パニック買いが落ち着いてきたから、価格が下がり始めてる兆しがあるしね。128GBのRAMがこの市場で4千ドルもするべきじゃないよ。

6月に9800x3dと一緒に96GB(2x48)DDR5 ECCを決断して注文しておいてよかった。2028年のZen7へのアップグレードにまだ十分であることを願ってる。

昨年、4年使ったPCのAM4 CPUとマザーボードが壊れて、新しいパーツを買って再構築するのにほぼ新しいPCの値段を使ったことがある。完全に自分で再構築するならもっと安く済むけど、もうPCを組み立てるのは飽きた。何年もやってきたからね。NUCやM4 Mac Miniなど、いくつかのオプションを試すために買ったのは高い失敗だったけど、結局9800X3Dと5070TiのPCを2ドル以下で買った。特に理由もなく、8月に64GBのDDR5-6000キットを200ドルで買ったんだ。最近チェックしたら、そのキットが1000ドル近くになってた。昨年4080のノートPCも買って、64GBキットと追加のSSDも買った。これは運が良かったね、あの時の状況を考えると。何が起こるかの予見はないけど、今持ってるパーツで別のAM4 PCを作りたい気持ちもある。5900XTは16コアで約300ドルだから悪くない選択だけど、DDR4 RAMはほとんど役に立たない。今はCPU + マザーボード + RAMの組み合わせが大幅に割引されてるから、いいディールがあるよ。今でもプリビルトの良いディールがあるけど、6ヶ月前ほどではないけど、まだ悪くない。コストコには5080のPCが2300ドルで売ってる。今、128GB以上のPCを組み立てるなんて無理だよ。RAMの価格が何度も上がってるのを見たことがある。確か、クリプトの狂乱のピーク時にもあったけど、今回はそれよりもひどくてSSDにも影響が出てる。昨年、1-2個の4TB以上のSSDを買っておけばよかったなと思うけど、まあ仕方ない。AIバブルが弾けるのを待ってる感じだね。来年にそれが起こると思う部分もあるけど、かなり長く非合理的な状態が続くかもしれない。

とりあえず、私のAM4があと数年頑張ってくれることを願ってる。今のところ、2年前に買った128GBのDDR4で満足してるし。14700Kを14900KSのCPUにアップグレードして、あと2年待つつもり。ベンチマークを見る限り、新しいCPUは14900KSと比べてマルチスレッドの負荷に対してそんなに良くないから、最新のCPUやDDR5、新しいマザーボードにアップグレードする意味はあまりないと思う。

おそらくDDR5メモリをすでに買った人には楽しいだろうね。いや、DDR5メモリをすでに買った私たちも、ちゃんとしたCPUをすでに持ってるよ。これ以上の1,000ドルをかけて、ちょっとした性能向上のためにお金を使うのは馬鹿らしい。DDR5がもっと早くからあったら、世代交代のアップグレードを選べたかもしれないけど、AMDのDDR5はZen4とZen5の時だけだしね。

おお、冗談じゃなかったんだね: https://pcpartpicker.com/products/memory/#xcx=0&b=ddr5&Z=131... (最安値は1240ドル)

DDR5の供給が厳しいせいで、AMDとIntelがどれだけ売上を失ってるのか気になるな。

追加のキャッシュは全然意味ないよ(多分+2%)。低電圧での漏れ電流が少ないおかげで、工場出荷時からもっと攻撃的なクロックカーブを実装できたんだ。これが全コアのクロックが高くなる理由だよ(+30W TDP)。全然文句はないけど、バイニングを利用して余ったキャッシュを売るのは素晴らしい方法だと思う。ただ、文句を言わせてもらうと、Arsは昔はこういうことをちゃんと記事にしてたのに、今はAIが書いたみたいな怪しい推測ばっかりしてるのが残念。

ワークロードによるね。多くのワークロードでは2%以上は確実に効果あるよ。見てみて、https://www.phoronix.com/review/amd-ryzen-9-9950x3d-linux/10 > Ryzen 9 9950Xと9950X3Dの比較があって、3D V-Cacheが本当に役立つ部分を示してるよ。偶然にも、2%以上の差があるベンチマークだけをフィルタリングしてるみたい。最大のスピードアップは58.1%で、それはチップの半分に3D V-Cacheがあるだけなんだ。

追加のキャッシュは全く意味がない(多分+2%)タスクによるよ。メモリバウンドなタスクでは、追加のキャッシュがすごく役立つ。CFDや他のシミュレーションワークロードでは、その効果は大きい。他のタスクでは全然役に立たない。もし誰かがシンプルなゲーミングCPUや汎用CPUを求めてるなら、これにお金をかける必要はないよ。16コアのCPUなんて全く必要ない。9850X3Dの方が、あまり高い並列作業をしないユーザーにはいい選択だと思う。

9950X3D2?AMD、なんでこんな名前をつけさせるの?いっそのことUUIDでもつけた方がいいんじゃない?

これ、実際は気にしてないよ。9950は実際のチップで、x3dはキャッシュ(大きい方ね)で、2は両方のチップレットにあるってこと。

UUIDのジョークは好きだけど、兄弟のコメントに同意するよ。9950X3D2は実際いい名前だと思う。

同意できないな。この名前には論理的な意味があるよ。

これを買う大きな理由はあまり見当たらないな。トップクラスの製品ってだけで。ゲームに関しては、AMDはゲームスレッドをCCDにうまく割り当ててるし、追加のキャッシュも結構効いてる。マルチスレッドの作業負荷では、両方のCCDにキャッシュがあることによる利点はかなり小さいよ。

効果は作業負荷によって大きく変わるから、一般的なルールはないよ。スレッド間の同期が必要なアプリケーションも多いから、最も遅いスレッドの速度がパフォーマンスに大きな影響を与えるんだ。そういうアプリでは、X3D2の最も遅いスレッドはX3Dと比べてキャッシュが3倍大きいから、かなりの違いが出ることもある。パフォーマンスに差がないアプリもあれば、X3Dと普通の9950Xの間に見られる最高のパフォーマンス差と同じくらい大きな差が出るアプリもあるよ。

L3キャッシュがどのコアでも単一のプールとして機能するのか、アクセス時間にローカリティによるペナルティがあるのか、完全にローカライズされているのか知りたいな。

AMDはRyzen 9 5950Xのために、スレッドを「ゲーミング」CCDに固定する特別なドライバーを導入する必要がなかったんだ。5950Xと非X3DのRyzen 7 5800Xの間には、8コア以上を使わないワークロードではほんの少しの違いしかなかったけど、Ryzen 9 7950X3Dや7900X3Dがリリースされた時に見られた遅延とは違ってた。CCD間でL3のサイズが異なると、特別なAMDドライバーが必要で、大きいL3のCCDにスレッドを固定して、小さいL3のCCDに配置されないようにするんだ。AMDのドライバーは、プログラムを一つのCCDに留めることで、CCD間のデータ要求を減らす。L3キャッシュが同じサイズなら、プロセスが2つ目のCCDに移っても、最初のL3キャッシュを「L4」として使えるけど、偏ったモデルのように同じ速度でデータを追い出す必要はなくなる。さらに、最初のCCDは2つ目のCCDのL3も使えるから、メインメモリに行くリクエストの数が減るんだ。同じサイズのL3はIOダイへの競合を減らし、大きいサイズのL3はメモリの競合を減らすから、ウィンウィンだね。 https://www.phoronix.com/review/amd-3d-vcache-optimizer-9950...

短い答えは、L3は各CCDにローカルだってこと。これでほとんどのワークロードには十分だよ。もう読むのをやめた方がいいよ。 _______________________ 複雑な答えは、あるCCDが別のCCDからキャッシュラインを引っ張る能力があるってこと。でも、その制限についてはしっかりした答えを見つけたことがないんだ。別のCCDのL1/L2からダーティキャッシュラインを引っ張ることはできるけど(これがベンチマークでよく見るコア間のレイテンシテストで、明らかにダイ間のレイテンシが影響する)。でも、クリーンキャッシュラインを別のCCDから引っ張れるかはわからないし、それらはメインメモリにリダイレクトされるのかもしれない(メインメモリへのレイテンシはCCD間のそれほど高くないから)。クリーンキャッシュラインを引っ張れるとしても、別のCCDのL3から引っ張れるかは不明(L3はエビクションキャッシュだから、クリーンキャッシュラインしか保持しない)。キャッシュラインがCCDのL3に入る唯一の方法は、そのコアのL2からエビクションされることだから、データセットが両方のCCDでアクティブだと、両方のL3に重複することになる。あるL3からエビクションされたキャッシュラインは別のL3には入らないから、アイドル状態のCCDは擬似L4として機能できない。効果があるなら、それを示すベンチマークを見たことがないな。

Factorioのメガベースが新たな限界を見つけたね。

2004年の時、私のPCのRAMは256MBだった。親戚のノートパソコンは128MB。今のCPUキャッシュが2000年代初頭のOSをホストできるなんて、信じられないよね。