世界を動かす技術を、日本語で。

ドルあたりのパフォーマンスがより速く、より安くなっている

2026年7月4日原文(wafer.ai)

概要

  • 推論需要急増 によりNVIDIA GPUの価格高騰
  • AMD MI355X はコストパフォーマンスに優れる選択肢
  • NVIDIAはソフトウェア面で依然優位 だが、AMDも急速に追いつきつつある
  • Waferの事例 でAMD上でも高い性能を実現
  • CUDA優位性の縮小 が進行中

推論需要とAMDの台頭

  • Claude Fable、GLM5.2、Minimax M3 など最先端モデルの頻繁な登場
  • トークン需要の爆発 とGPU供給不足によるNVIDIA GPU価格の高騰
  • AMD MI355X はNVIDIA B300の約2.75倍安価で、ハードウェアスペックも同等クラス
  • Wafer は安価な推論環境としてAMDを数ヶ月前から提唱
  • AMD Instinct MI350シリーズ はシリコンレベルでNVIDIA Blackwellと競合
  • NVIDIAはソフトウェアとDay-0サポート で依然リード
  • AMD MI355X/ROCmスタック では最先端モデルの即時対応が難しく、最適化に時間と工数が必要
  • エージェントによるカーネル・モデル最適化の進化 で両者の差は急速に縮小中

WaferによるAMD MI355X性能実証

  • 20k入力/1k出力、キャッシュヒット率60%のワークロード
    • ノードあたり2626 tok/s、2.4 rps、TTFT ≤5sを達成
    • B200比で性能は約80%だが、コストは半分以下
  • GLM5.2単一ストリームで213 tok/s (Artificial Analysis基準)
    • AAリーダーボード1位ではないが、性能/コスト比で優位

モデル最適化とフレームワーク選定

  • 量子化手法とフレームワークの選択が第一歩
    • GLM-5.2 bf16を AMD QuarkでMXFP4量子化
    • 公式FP8量子化と比較し、MXFP4はほぼロスレス
  • 推論フレームワークはsglangを選択
    • vLLMはMXFP4+GlmMoeDsa非対応、ATOMは長文で性能劣化
    • sglangは最小限の摩擦で量子化を活かせる

スペキュレーティブデコード最適化

  • sglang ROCmイメージは標準でspeculative decode非対応
    • MTP headのレイヤープレフィックス不一致を修正し、3倍近いスループット向上
    • draft depth ≥4でCUDA前提コードをROCmガードで修正
    • 設定最適化(例:--kv-cache-dtype fp8_e4m3)と合わせて単一ストリーム213 tok/s達成

集計スループットとPrefill最適化

  • 20k入力@60%キャッシュはPrefillがボトルネック
    • TP8構成で1461 tok/s、TP4×DP2構成で1944 tok/sに改善
    • Blackwellは3192 tok/sで依然リード
  • GLM5.2のfp4 MoEが遅いヒューリスティックにフォールバック
    • MoEカーネル選択を自前で最適化し、2626 tok/sを達成

意義と今後

  • 性能/コスト比でAMD MI355Xは十分競争力
    • 一部フレームワークのバグ修正のみで高性能を実現
    • Qwen3.5 397Bの時と異なり、カスタムカーネル不要
  • 単一ノード運用は依然主流
  • AMDの課題はソフトウェアサポート、NVIDIA CUDAの優位性は急速に縮小

まとめ

  • 推論需要の高まりとGPU価格高騰 により、コスト効率に優れるAMDの存在感が拡大
  • ソフトウェア最適化の進展 で、AMDでも最先端モデルの高性能推論が現実的に
  • CUDAの壁は崩れつつあり、今後の推論インフラ選定に変化

Hackerたちの意見

みんな、これらの比較に「ワットあたりのパフォーマンス」を指標として追加してくれないかな?正直、AMDが実際のパフォーマンスとコストの面でどの位置にいるのか理解したいんだ。アメリカ以外でデータセンターを建設したい企業と話をしてきたけど、十分なキャパシティとスケールでNvidiaの製品を調達するのが難しいんだよね。もしAMDがワットあたりのパフォーマンスで競争力があって、ソフトウェアサポートも大体信頼できるなら、アメリカ以外の人たちが最優先するポイントだし、特に中国とアメリカ以外では電気代が相対的に高いからね。もし彼らが適正価格で小規模なデータセンターを実現できれば、Nvidiaの供給が限られている場所ではAMDが選ばれるかもしれない。ただ、AMDのGPUを調達するのがどんな感じか全然分からないんだ。アメリカ以外でAMDを使っている会社を見たことがないし、ウエハーや他の数社を除いてほとんどアメリカにいるだけだよ。本当に興味深いけど、もしかしたらこれって常識かもしれないし、俺はただNvidiaのバブルに閉じ込められているのかも。

AMDを使っている会社を見たことがない。 MetaがAMDを使ってるよ: https://www.amd.com/en/newsroom/press-releases/2026-2-24-amd... そしてOpenAIも: https://www.amd.com/en/newsroom/press-releases/2025-10-6-amd...

アメリカ以外でAMDを使っている会社を見たことがない。 使っているところは少しあるし、実験を始めるところも増えてきているよ。AMDはこの分野で長い間失望の源だったから、競争がやっと始まるのに楽観的になれるかどうかは微妙だね。市場にはNvidiaに対する実行可能な競争が本当に必要だよ、特にパフォーマンス/ワットの面で。

AMD MI355XはGPUあたり1,400Wを使用し、NVIDIA B200は1,200Wを使用します。つまり、AMDは約16%多くの電力を使っていることになります。

DGX B200は約50万ドルで、14kWくらい使うんだ。もしこれを8年間ずっと100%の最大使用で回すと、約1GWhになる。ギガワット時はかなりのエネルギーだけど、実際の機械の価格に比べたらそれほどでもない。例えばドイツでは、エネルギーが高いから約10万ユーロ分になるけど、8年に分けると最初の50万に比べてかなり小さい。高い電力消費の本当の問題は、エネルギーのコストじゃなくて、データセンター用の限られた電源供給なんだ。もっと効率的なセットアップが求められるのは、限られた電源接続でより多くの機器を収容できるからだよ。

「私は、ウエハーやアメリカのいくつかの会社以外でAMDを使っている会社を見たことがない。」見たことがないからって、存在しないわけじゃないよ。私たちはMI300xで700以上の顧客にサービスを提供してきたんだ。

Nvidiaの注文を満たせない会社は、少なくともAMDの製品を使ってるはずだよ。

これらのプロバイダーは80%以上の粗利を持っているの?それとも何かがそれを食い潰しているのかな?もしかして稼働率?

こんにちは、私はウエハーで働いています。いいえ、マージンは平均して約40%で、低めです。稼働率はマージンを決定する上で最も重要な要素の一つですね。

2600 tok/sは「合計値」で、実際のスループットではないよ。

はい、213 tok/sのシングルストリーム(つまりユーザーあたり)です。

ブラックウェルとの競争があるのは驚きじゃないね。ルービンは推論でブラックウェルの5倍速いから。ブラックウェルは前の世代で、推論用に特別に最適化されてなかったし。もし何か見落としてたら教えて!

Hacker Newsで議論の続きを見る