概要
- 推論需要急増 によりNVIDIA GPUの価格高騰
- AMD MI355X はコストパフォーマンスに優れる選択肢
- NVIDIAはソフトウェア面で依然優位 だが、AMDも急速に追いつきつつある
- Waferの事例 でAMD上でも高い性能を実現
- CUDA優位性の縮小 が進行中
推論需要とAMDの台頭
- Claude Fable、GLM5.2、Minimax M3 など最先端モデルの頻繁な登場
- トークン需要の爆発 とGPU供給不足によるNVIDIA GPU価格の高騰
- AMD MI355X はNVIDIA B300の約2.75倍安価で、ハードウェアスペックも同等クラス
- Wafer は安価な推論環境としてAMDを数ヶ月前から提唱
- AMD Instinct MI350シリーズ はシリコンレベルでNVIDIA Blackwellと競合
- NVIDIAはソフトウェアとDay-0サポート で依然リード
- AMD MI355X/ROCmスタック では最先端モデルの即時対応が難しく、最適化に時間と工数が必要
- エージェントによるカーネル・モデル最適化の進化 で両者の差は急速に縮小中
WaferによるAMD MI355X性能実証
- 20k入力/1k出力、キャッシュヒット率60%のワークロード
- ノードあたり2626 tok/s、2.4 rps、TTFT ≤5sを達成
- B200比で性能は約80%だが、コストは半分以下
- GLM5.2単一ストリームで213 tok/s (Artificial Analysis基準)
- AAリーダーボード1位ではないが、性能/コスト比で優位
モデル最適化とフレームワーク選定
- 量子化手法とフレームワークの選択が第一歩
- GLM-5.2 bf16を AMD QuarkでMXFP4量子化
- 公式FP8量子化と比較し、MXFP4はほぼロスレス
- 推論フレームワークはsglangを選択
- vLLMはMXFP4+GlmMoeDsa非対応、ATOMは長文で性能劣化
- sglangは最小限の摩擦で量子化を活かせる
スペキュレーティブデコード最適化
- sglang ROCmイメージは標準でspeculative decode非対応
- MTP headのレイヤープレフィックス不一致を修正し、3倍近いスループット向上
- draft depth ≥4でCUDA前提コードをROCmガードで修正
- 設定最適化(例:--kv-cache-dtype fp8_e4m3)と合わせて単一ストリーム213 tok/s達成
集計スループットとPrefill最適化
- 20k入力@60%キャッシュはPrefillがボトルネック
- TP8構成で1461 tok/s、TP4×DP2構成で1944 tok/sに改善
- Blackwellは3192 tok/sで依然リード
- GLM5.2のfp4 MoEが遅いヒューリスティックにフォールバック
- MoEカーネル選択を自前で最適化し、2626 tok/sを達成
意義と今後
- 性能/コスト比でAMD MI355Xは十分競争力
- 一部フレームワークのバグ修正のみで高性能を実現
- Qwen3.5 397Bの時と異なり、カスタムカーネル不要
- 単一ノード運用は依然主流
- AMDの課題はソフトウェアサポート、NVIDIA CUDAの優位性は急速に縮小
まとめ
- 推論需要の高まりとGPU価格高騰 により、コスト効率に優れるAMDの存在感が拡大
- ソフトウェア最適化の進展 で、AMDでも最先端モデルの高性能推論が現実的に
- CUDAの壁は崩れつつあり、今後の推論インフラ選定に変化