ドルあたりのパフォーマンスがより速く、より安くなっている

2026年7月4日原文(wafer.ai)

概要

推論需要急増 によりNVIDIA GPUの価格高騰
AMD MI355X はコストパフォーマンスに優れる選択肢
NVIDIAはソフトウェア面で依然優位 だが、AMDも急速に追いつきつつある
Waferの事例 でAMD上でも高い性能を実現
CUDA優位性の縮小 が進行中

推論需要とAMDの台頭

Claude Fable、GLM5.2、Minimax M3 など最先端モデルの頻繁な登場
トークン需要の爆発 とGPU供給不足によるNVIDIA GPU価格の高騰
AMD MI355X はNVIDIA B300の約2.75倍安価で、ハードウェアスペックも同等クラス
Wafer は安価な推論環境としてAMDを数ヶ月前から提唱
AMD Instinct MI350シリーズ はシリコンレベルでNVIDIA Blackwellと競合
NVIDIAはソフトウェアとDay-0サポート で依然リード
AMD MI355X/ROCmスタック では最先端モデルの即時対応が難しく、最適化に時間と工数が必要
エージェントによるカーネル・モデル最適化の進化 で両者の差は急速に縮小中

WaferによるAMD MI355X性能実証

20k入力/1k出力、キャッシュヒット率60%のワークロード
- ノードあたり2626 tok/s、2.4 rps、TTFT ≤5sを達成
- B200比で性能は約80%だが、コストは半分以下
GLM5.2単一ストリームで213 tok/s （Artificial Analysis基準）
- AAリーダーボード1位ではないが、性能/コスト比で優位

モデル最適化とフレームワーク選定

量子化手法とフレームワークの選択が第一歩
- GLM-5.2 bf16を AMD QuarkでMXFP4量子化
- 公式FP8量子化と比較し、MXFP4はほぼロスレス
推論フレームワークはsglangを選択
- vLLMはMXFP4+GlmMoeDsa非対応、ATOMは長文で性能劣化
- sglangは最小限の摩擦で量子化を活かせる

スペキュレーティブデコード最適化

sglang ROCmイメージは標準でspeculative decode非対応
- MTP headのレイヤープレフィックス不一致を修正し、3倍近いスループット向上
- draft depth ≥4でCUDA前提コードをROCmガードで修正
- 設定最適化（例：--kv-cache-dtype fp8_e4m3）と合わせて単一ストリーム213 tok/s達成

集計スループットとPrefill最適化

20k入力@60%キャッシュはPrefillがボトルネック
- TP8構成で1461 tok/s、TP4×DP2構成で1944 tok/sに改善
- Blackwellは3192 tok/sで依然リード
GLM5.2のfp4 MoEが遅いヒューリスティックにフォールバック
- MoEカーネル選択を自前で最適化し、2626 tok/sを達成

意義と今後

性能/コスト比でAMD MI355Xは十分競争力
- 一部フレームワークのバグ修正のみで高性能を実現
- Qwen3.5 397Bの時と異なり、カスタムカーネル不要
単一ノード運用は依然主流
AMDの課題はソフトウェアサポート、NVIDIA CUDAの優位性は急速に縮小

まとめ

推論需要の高まりとGPU価格高騰 により、コスト効率に優れるAMDの存在感が拡大
ソフトウェア最適化の進展 で、AMDでも最先端モデルの高性能推論が現実的に
CUDAの壁は崩れつつあり、今後の推論インフラ選定に変化

Hackerたちの意見

みんな、これらの比較に「ワットあたりのパフォーマンス」を指標として追加してくれないかな？正直、AMDが実際のパフォーマンスとコストの面でどの位置にいるのか理解したいんだ。アメリカ以外でデータセンターを建設したい企業と話をしてきたけど、十分なキャパシティとスケールでNvidiaの製品を調達するのが難しいんだよね。もしAMDがワットあたりのパフォーマンスで競争力があって、ソフトウェアサポートも大体信頼できるなら、アメリカ以外の人たちが最優先するポイントだし、特に中国とアメリカ以外では電気代が相対的に高いからね。もし彼らが適正価格で小規模なデータセンターを実現できれば、Nvidiaの供給が限られている場所ではAMDが選ばれるかもしれない。ただ、AMDのGPUを調達するのがどんな感じか全然分からないんだ。アメリカ以外でAMDを使っている会社を見たことがないし、ウエハーや他の数社を除いてほとんどアメリカにいるだけだよ。本当に興味深いけど、もしかしたらこれって常識かもしれないし、俺はただNvidiaのバブルに閉じ込められているのかも。

└

AMDを使っている会社を見たことがない。 MetaがAMDを使ってるよ: https://www.amd.com/en/newsroom/press-releases/2026-2-24-amd... そしてOpenAIも: https://www.amd.com/en/newsroom/press-releases/2025-10-6-amd...

└

アメリカ以外でAMDを使っている会社を見たことがない。使っているところは少しあるし、実験を始めるところも増えてきているよ。AMDはこの分野で長い間失望の源だったから、競争がやっと始まるのに楽観的になれるかどうかは微妙だね。市場にはNvidiaに対する実行可能な競争が本当に必要だよ、特にパフォーマンス/ワットの面で。

└

AMD MI355XはGPUあたり1,400Wを使用し、NVIDIA B200は1,200Wを使用します。つまり、AMDは約16%多くの電力を使っていることになります。

└

DGX B200は約50万ドルで、14kWくらい使うんだ。もしこれを8年間ずっと100%の最大使用で回すと、約1GWhになる。ギガワット時はかなりのエネルギーだけど、実際の機械の価格に比べたらそれほどでもない。例えばドイツでは、エネルギーが高いから約10万ユーロ分になるけど、8年に分けると最初の50万に比べてかなり小さい。高い電力消費の本当の問題は、エネルギーのコストじゃなくて、データセンター用の限られた電源供給なんだ。もっと効率的なセットアップが求められるのは、限られた電源接続でより多くの機器を収容できるからだよ。

└

「私は、ウエハーやアメリカのいくつかの会社以外でAMDを使っている会社を見たことがない。」見たことがないからって、存在しないわけじゃないよ。私たちはMI300xで700以上の顧客にサービスを提供してきたんだ。

└

Nvidiaの注文を満たせない会社は、少なくともAMDの製品を使ってるはずだよ。

これらのプロバイダーは80%以上の粗利を持っているの？それとも何かがそれを食い潰しているのかな？もしかして稼働率？

└

こんにちは、私はウエハーで働いています。いいえ、マージンは平均して約40%で、低めです。稼働率はマージンを決定する上で最も重要な要素の一つですね。

2600 tok/sは「合計値」で、実際のスループットではないよ。

└

はい、213 tok/sのシングルストリーム（つまりユーザーあたり）です。

ブラックウェルとの競争があるのは驚きじゃないね。ルービンは推論でブラックウェルの5倍速いから。ブラックウェルは前の世代で、推論用に特別に最適化されてなかったし。もし何か見落としてたら教えて！

Hacker Newsで議論の続きを見る

ハクソク