世界を動かす技術を、日本語で。

GMPに悪影響を与えるZen 5 CPU?

概要

  • GMPテスト実行中に Ryzen 9950X CPUが2回故障
  • 冷却不足電力消費 の問題が疑われるが、原因不明
  • Noctua製クーラー のオフセット取り付けが影響の可能性
  • どちらのシステムも 高負荷状態 で数ヶ月後に故障
  • 似た構成の 別CPU では安定稼働中

Zen 5 CPUがGMPテストで故障?事例と考察

  • 2025年に Ryzen 9950X を搭載した2台のシステムが GMPテスト中に故障
  • 故障したCPUのピン側に 約25mm²の変色 を確認
  • Asrock問題 ではなく、ASUS製マザーボードを使用
  • 1台目は 冬季・低温(20°C以下) のストックホルムで発生
  • 2台目は 夏季・20°C超 の専用ルームで発生
  • Noctua NH-U9S クーラーを両システムで使用
    • 1台目は 中央取り付け
    • 2台目はメーカー推奨の オフセット取り付け を実施
  • オフセット取り付けにより サーマルグリスが一方向に偏る 現象を確認
  • システム構成
    • 1台目: ASUS Prime B650M-K, DDR5-4800 ECC, Corsair SF450, Fractal Design Core 1100, Ubuntu
    • 2台目: ASUS Prime B650M-A WIFI II, DDR5-5600 ECC, Corsair RM650, Fractal Design Core 1100, Gentoo
  • どちらも 追加ファン で冷却強化を実施

故障要因の考察

  • 周囲温度が低くても故障 が発生
  • ASUSマザーボード は信頼性高い実績
  • オフセット取り付け によるサーマルグリスの偏りが熱伝導に影響の可能性
  • ヒートシンクの定格165W に対し、CPUのTDPは 170W でやや不足
  • 似た構成の Ryzen 7950Xシステム では安定稼働
  • 高負荷時に MULX命令を連続実行 するアセンブラループが発熱要因か
  • サーマルスロットリング や自動クロックダウンは機能しているはず
  • オーバークロックや電圧変更 は未実施
  • サーマルグリスの 極薄層や偏り で熱伝導ロス、加熱冷却時の 微細な隙間 発生リスク
  • どちらのCPUも 数ヶ月の高負荷運用後に同様の故障徐々に劣化 した可能性

今後の検証ポイント

  • 冷却性能の余裕確保 (ヒートシンクやファンの強化検討)
  • サーマルグリスの塗布方法 ・量の最適化
  • 負荷テスト 時の消費電力・温度監視の強化
  • 他のZen 5ユーザー で同様事例がないか調査
  • GMPテスト内容 や命令実行パターンの見直し
  • ASUS以外のマザーボード や他冷却方式での再現検証

まとめ

  • Ryzen 9950X は高負荷GMPテスト下で 数ヶ月後に故障
  • 冷却不足・熱伝導ロス・電力管理 の複合要因を疑う
  • サーマルグリスやヒートシンク取り付け の細部に注意
  • 他ユーザーやメーカーの情報共有 が今後の解決の鍵

Hackerたちの意見

AM5のピン配置を見てみると、あれはVDDCRとVSSっぽいね。外側にはちょっとPCIeが混ざってるかもしれないけど、ピン配置の向きとCPUの向きがどうなってるかは100%確信が持てない。電気のことは全然わからないから、これ以上は何も言えないや。

これはいい推測だけど、実際のシリコン面積がそのエリアのピンと密接に関係してるかどうかは、あんまり明らかじゃないね。

Zen 5の電力問題でいろいろ騒ぎになってるから、調査するための機材とやる気がある人たちがいるよ。Gamers Nexusに連絡して、テストスイートを動かす手助けをすることを考えてみて。彼らは電力消費を測定したり、このCPUの熱分析をしたりできるし、広く使われているハードウェアの設計欠陥についてのドラマチックなYouTubeコンテンツを作る可能性があるから、やる気満々だと思うよ。最近の彼らのスタイルはそれだし。

「現代のCPUは温度を測って、熱くなりすぎるとクロックを下げるんだよね?」 うん、そうだよ。今はかなり複雑で、マザーボードベンダーのファームウェアも関わってる。もし(じゃなくて、必ず)それを間違えると、CPUが焼き切れちゃうからね。これを分析するには専門知識が必要だよ。

彼はちょっとセンセーショナルだけど、影響を受けたIntel CPUを買わずに済んだのは感謝してるよ。

[...] ドラマチックなYouTubeコンテンツの数々 [...] そのフレーミングは彼とチームに対して公正じゃないよ。NVIDIAのGPUがアメリカから中国に不正に流れる話が3.5時間もあったんだけど、Bloombergの悪意あるDMCAクレームで削除されちゃったんだ。見る価値があるよ(archive.orgで見つけられる)。GNは、企業が座ってる木を揺すり続けている最後のプロ消費者向けメディアの一つだね。

Level1TechsのWendellは、データセンターでたくさんのマシンを運営している友達とのパートナーシップを通じて、ソフトウェアテストやデータセンターのユースケース分析を深く掘り下げてるよ。GNは、故障のシリコンレベルの分析にお金を払うのがユニークだし、der8auerもこの話にかなり貢献してる。僕は彼ら3人の分析を待つことが多いんだけど、それぞれが異なる「苦労して得た」視点を持ってるからね。

CPUが報告している温度が何度か言ってないのは、ちょっと変な省略だね。クーラーの仕様がどうであれ、実際にどの温度で動いているかを確認してみて。CPUが言ってることを信じて!僕は古い3950xを使ってるけど、最初のやつは数ヶ月で壊れちゃった(まだ保証内)し、仕様内のクーラーでフルロードの時に90℃に達してた。交換用のチップが届いたときに、基本的な水冷にヒートシンクを交換したら、フルロードで少なくとも20℃は冷やせてるよ。

本当に見るべきは、片側にだけ thermal paste が塗られたCPUの写真だよ。熱スロットリングは、1. 十分なヒートシンクがあること(彼らのは要件を大きく下回ってた)と、2. 正しいタイミングでダウンクロックのトリガーが作動するように正しく取り付けられていることが必要なんだ。これはまた、ひどいPEBCAKエラーの一例だね。

AMDはZen 4やZen 5のコンシューマーCPUで信頼性を欠いているね。ちょうどその頃、Intelも13kや14kのハイエンドCPUで同じことをしていた。AMDはIntelよりも少し悪いかも。DDR5メモリバスが非常に「不安定」だから、特にチャンネルごとに複数のDIMMを使うと、最高のDDR5タイミングを得るのが難しいんだ。

彼らが使っている小型クーラーは、Noctuaから9950Xには推奨されていないよ。Noctuaは9950Xにはもっと大きいクーラーだけを推奨していて、彼らのような負荷では200Wを常に放熱するからね(競合のIntel CPUが同じ条件で250W以上放熱するのに比べてかなり少ない)。それにもかかわらず、CPUの過熱保護機能があったはずだから、こういうダメージを防げたはずなんだ。CPUのクロック周波数を連続的に変えて、電流と消費電力の制限内に保つシステムに加えて、温度の閾値を超えると一時的にクロックを停止する第二の保護機能もあるんだ。でも、CPUの内部温度センサーは正確じゃないから、過熱保護が作用するのはすでに高すぎる温度になってからかもしれない。だから、これらの故障は、200WのCPUに適切なクーラーを使わなかったことと、AMDが200WのCPUを170Wとして宣伝して、 naïveな顧客を騙して小型クーラーが使えると思わせたこと、そしてこれらのCPUの過熱保護機能の故障か、定格温度範囲内でも上限近くで劣化問題が起きたことの組み合わせが原因みたいだね。

「GMPの非常にタイトなループがMULX周りでZen 5コアに指定以上の電力を使わせて、冷却ソリューションが不十分になっていると疑っています。」これが熱に関係しているなら、CPU全体の温度はゆっくり上がるはずだから、熱スロットリングのための時間は十分にあると思うんだけど。だけど、彼らの変色は確かに熱の問題っぽいから、CPUの安全機能がこれを検知しなかったのはなんでだろうね…

「ゆっくり」って相対的な意味で言ってるの?このサイズのシリコンダイは熱容量が約10⁻³ J/Kくらいあると思うけど、電力消費率は200Wを超えてるから、室温から接合温度の限界までほぼ瞬時に上がるよ。

重負荷のエリアでは、温度がかなり早く(ミリ秒以下で)上がるんじゃないかな、特にスカラーからデンスベクターの操作に移るときは。IntelのCPUのavx-512「パワーライセンス」の問題についての僕の理解では、プロセッサが実際に命令ストリームを監視して、avx512やデンスavx2の命令に達する前にコアの周波数を下げるためのヒューリスティックを計算してたってこと。短時間の大きなベクター処理でも壊れちゃうことを知ってたか心配してたんだろうね… どうやら電圧と温度センサーは大幅に改善されてるみたいで、NVIDIAのGPUのクロックのクレイジーな変動もこれに同意してるみたいだね :-)

彼らは、各CPUが故障するのに数ヶ月かかったって言ってたよ。両方のシステムは同じ不十分なヒートシンク/ファンを使ってたし、さらに低価格のマザーボード(「トップクオリティ」じゃないし、ブランドも関係ない)と、初期構成で使われてた450Wの小さな電源が混乱を招いてる。16コアのCPUと64/96GBのRAMと組み合わせてるのが変だとは思わないな。そんな構成で数ヶ月間、非常に電力を消費する負荷をかけ続けたら、最終的に故障するのも無理ないよ。

室温やペーストの塗り方はあんまり関係ないはず。現代のCPUは非常に進んだ動的電圧・周波数スケーリング(DVFS)を持っていて、温度を含むいくつかのセンサーを考慮してるからね。ストック構成の大きなx86 CPUは、完全にパッシブ冷却で動作できる速度までスロットリングできるから、クーラーが正しく取り付けられてなくても、ただスロットリングするだけだよ。つまり、もしGMPがCPUを焼き切らせているなら、何かが非常に間違っているし、それはユーザーのミスでも室温が高すぎるわけでもないよ。

PTM7950の熱伝導材を使った場合の結果も見てみたいな。最近のフェーズチェンジ化合物は温度がかなり良くなるし、塗布ミスもほとんどなくなるからね。

これが私の最初の疑問でもあったんだ。ヒートシンクを外したらCPUが焼き切れるなんて、もうずいぶん昔の話だと思ってたから。AMD K6や初期のPentium 4の頃が最後に聞いた記憶だな。

スロットリングが安定してないと、チップ内で一時的だけど大きな熱サイクルが発生して部品にストレスがかかるかもしれないね。温度が少し下がったときにすぐに周波数を上げようとしないように、スロットリングには何らかの指数的バックオフが必要だと思う。

そう、それがポイントだよ。ソフトウェアがハードウェアに物理的なダメージを与えるべきじゃない。もしそうなったら、ハードウェアに問題があるってことだよ。

電源や負荷プロファイルの問題かも?Zen4マシンで全コアを「カクカクした」ワークロードでフル稼働させてると、すごい音が出ることがあるんだ。例えば、並列処理をしているときに、単一スレッドのホットパスに対して、同じかそれ以下の時間でできるだけ早く繰り返し何かをやってる感じ。これで48時間以上持ったことはないし、BSODが出ちゃう。まだCPUを壊したことはないけどね。

それって、ハードウェアの意図的なストレステストみたいなものなの?

この機械が48時間以上もこの負荷に耐えたことはないよ。BSODが出るのが普通だからね。だから、君の作業結果も信じない方がいいよ。それは、CPUが正しい結果を出していないことを示しているから。安定したシステムができるまで、周波数を下げたり、必要ならアンダーボルティングを試してみるのがいいと思う。…それに、電力消費が激しく変動するのは、一定の高電力よりもさらに厄介だよ。VRMが正確に反応しないと、オーバーシュートやアンダーシュートを起こしたり、最悪の場合は共振点に達しちゃうからね。LINPACKは、最も要求の厳しいストレステストの一つで、安定していないシステムでは、ラウンドが始まるときではなく、止まるときにクラッシュを引き起こすことで知られているよ。

Ryzen 9950XのいわゆるTDPは170Wだよ。使われているヒートシンクは165Wの放熱を想定してるから、ちょっと厳しい感じだね。TDPの数字は完全に作り話だよ。熱のワット数や何かに全く関係ない!ただのマーケティングの数字だ。これを基に冷却システムを選ぶのは全然無理だよ。

うわ、TDPがこんなにクソだなんて信じられない!自分が完全にバカみたいに感じる!これって、電力消費の厳しい上限みたいなもので、CPUの放熱特性の「不完全さ」を考慮してるのかなって思ってたんだけど、細かいことは気にしなくていいと思ってた。これって、虚偽または誤解を招く広告にならないのかな?

65W TDPのCPUを使ってるんだけど、アイドルからフルCPU負荷までの電力消費(コンセントで測定)は100W以上違うよ。95℃に達するまでクロックを上げ続けるみたいだから、CPUファンの最高速度を制限すると電力消費が減るんだ。

TDPって言葉を見ると、Intel Core2Quad Q6600の「熱設計文書」で読んだことを思い出すな。> CPUに同梱されている熱解決策は、すべてのコアが100%利用されるときの熱出力を処理するようには設計されていません。そのような負荷には、別の熱解決策を強く推奨します(意訳)。僕はプロセッサに付属してた純正クーラーを使ったことはないけど、これは一体何の暗いジョークなんだ?

その通りだね。実際、彼らは9950Xをストック設定でPrime95を動かしたときに、最大ソケット消費電力が240ワットだったって測定してるよ。だから「170ワット」のTDPを大きく上回ってるね。

おそらくマザーボードが原因だね。ASRockは不安定なXMPやCPU電圧で叩かれてるし、ちょっとアンダーボルトするのが推奨されてるよ。使ってるAsus Prime B650Mマザーボードは、そんなにハイエンドじゃないし。

ピン付きソケットのクローズアップ写真が欠けてるね。

友達がASRockのマザーボードでAMDのCPUを焼いちゃったらしい。どうやら結構よくある問題みたいだね。

わお、これは一番安いマザーボードで、Hardware UnboxedのVRMテストに失敗したやつだね。 https://youtu.be/DTFUa60ozKY?t=744

ASRockのマザーボードで使うべき設定について、信頼できるソースをリンクしてくれない?これを避けたいんだ。

NH-U9Sをちょっと調べたら、小型システム用のコンパクトクーラーで、最大140Wまで対応してるみたいだね(例えば[1]参照)。9950XのTDP(熱設計電力)は170Wで、デフォルトのソケット電力は200W[2]、PBO(Precision Boost Overdrive)を有効にすると235Wに達することもあるって報告されてるよ[3]。

いい指摘だけど、最近のCPUはダメージを避けるために熱的にスロットリングするんじゃないの? もちろん、パワー不足の冷却ソリューションに頼るべきじゃないけど、パフォーマンスが悪くなるのは分かるけど、チップが焼けるとは思わないな。

NoctuaはヒートシンクのTDPを使わず、代わりにCPU互換チャートを持ってるよ。彼らは「中程度のターボ/オーバークロックの余裕がある」と言ってるね。

2ヶ月前に、私の9950X3Dが死んじゃった。メモリコントローラーが壊れたと思う。ASUSのボードがRAMの問題を報告したから。2x48GBの6000MHz RAMを使ってたんだけど、ボードではサポートされてなかった(少なくともドキュメントには書いてなかった)。それに、最大PBOを400MHzに制限して、VDDIOを1.3Vに制限してたんだけど、cachyOSをシャットダウン中にまだ死んじゃった。

「私たちはオーバークロックやオーバーボルテージ、他のティーンエイジャーのゲームをハードウェアでやらない。」ティーンエイジャーの時にオーバークロックをしておくと、大人になった時に自分のシステムを作るときに最低限でもCPUの電圧、クロックスピード、温度を確認することを知るんだ。CPUの温度監視やECCの修正/検出エラー、スロットリングについては一切触れていなかったよね。それから数ヶ月間、CPUベンチマークの負荷をかけ続けたんだ。「Ryzen 9950XのいわゆるTDPは170W。使用されているヒートシンクは165Wを放熱するように指定されているから、ちょっと厳しいね。」うわ、もっと高い定格のヒートシンクが必要だよ。これらのCPUは数ヶ月間オーバーヒートしてたんだ。