世界を動かす技術を、日本語で。

AMDのチップレットAPU:Strix Haloの概要

概要

  • AMDが発表した最大規模のクライアントAPU「Strix Halo」の詳細解説
  • 高性能CPU・GPUを統合し、モバイル用途でデスクトップ並みの性能を実現
  • メモリ帯域やキャッシュ設計、実際のゲーム・ベンチマーク結果を比較
  • 競合製品との性能比較と今後の可能性
  • 機械学習性能や将来の展望も簡単に言及

AMD Strix Halo:オールインワンAPUの新時代

  • AMD史上最大規模 のクライアントAPU「Strix Halo」発表
  • CES 2025 で初公開、55W~120Wの広いTDPレンジで高性能ノートPC向け設計
  • 専用グラフィックス不要 なオールインワン設計、CPU・GPU両方の高負荷処理を実現
  • 初のチップレットAPU として、デスクトップ級のCPU・GPU統合を実証
  • ターゲット市場 は従来のStrix Pointよりも高性能・高消費電力帯

Strix Haloの主な仕様と構成

  • CPU部分

    • Zen 5 CCD を2基搭載、合計16コア、512ビットFPUでデスクトップCPU同等の演算力
    • 最大5.1GHzブースト、Ryzen 9 9950Xより600MHz低いが性能は非常に高い
    • 一般的なStrix Pointは「ダブルポンプ」256b FPUでAVX512対応、Strix Haloは512b FPU採用
  • GPU部分

    • RDNA 3.5アーキテクチャ、40CU、32MB Infinity Cache、最大2.9GHzブースト
    • 性能帯はRX 7600 XT~RX 7700 の間に位置
    • 4MB L2キャッシュ 搭載、2.5TB/sの帯域でGPUに供給
  • メモリ周り

    • LPDDR5X-8000 256ビットバス、最大256GB/sの帯域
    • RX 7600 XTの288GB/sには及ばないが、従来APU比で圧倒的な帯域
    • Infinity Cache はCPUから直接アクセス不可、CPUのDRAMレイテンシは約123ns

ベンチマーク・パフォーマンス分析

  • CPU性能

    • 整数演算 でRyzen 9 7950X(前世代デスクトップフラッグシップ)と同等
    • 浮動小数点演算 でRyzen 9 9950X(現行デスクトップフラッグシップ)に迫る
    • SPEC CPU 2017 では、細かなサブテストでデスクトップCPUに近い結果
    • メモリ帯域 は16コア全体で175GB/s超、単一CCDでは最大103GB/s観測
  • GPU性能

    • HP Omen Transcend 14 2025(RTX 5070M搭載) と比較
    • メモリ帯域 は他のAPU比2倍以上、RTX 5070M比では50%少ない
    • Infinity Cache は5070MのL2比で40%高帯域・33%大容量
    • キャッシュレイテンシ はL2以降でStrix Haloが優位、DRAMレイテンシも5070M比35%低い
    • 浮動小数点スループット はStrix Point比2.5倍、5070Mに迫る/一部上回る
    • 整数スループット は5070Mが優位
  • 実ゲーム・アプリケーション性能

    • Fluid X3D(計算負荷高) でRadeon 8060S(Strix Halo iGPU)は他のiGPUを圧倒
    • Cyberpunk 2077 ではバッテリー駆動時に5070Mとほぼ互角、AC電源時は設定次第で優劣が逆転
    • ミッドレンジdGPU並みの性能 をiGPUで実現、フォームファクタの自由度拡大

Strix Haloの意義と今後の展望

  • デスクトップ・ノート兼用SoC として真のオールインワンを目指す設計思想
  • CPU・GPU両面で従来APUを凌駕、ミッドレンジdGPUとも競合可能
  • フォームファクタの自由度、高集積・高効率なiGPU設計の新基準
  • Asus ROG Flow Z13 2025 など、Surface型筐体にも搭載可能な柔軟性
  • 機械学習性能 はROCm 7.0.2対応が遅れたため、今後の検証課題
  • Apple Max/Ultraシリーズ のような更なる大容量メモリバスへの発展可能性
  • 将来のStrix Halo後継 に期待、AMDの大型APU戦略の布石

総評

  • Strix HaloはデスクトップCPU・dGPUに匹敵する性能 を持ちながら、ノートPCやタブレットにも搭載可能な柔軟性
  • 高効率なiGPU設計高帯域メモリ の組み合わせで、従来のAPUの限界を大きく超越
  • 今後のML性能強化や更なる大容量メモリ化 など、発展性も非常に高い
  • AMDの「ビッグAPU」構想を具現化した製品、今後の展開にも注目

Hackerたちの意見

どこかで読んだんだけど、思い出せないんだよね。AppleのAPUに比べて効率が悪い大きな理由は、Epycとアーキテクチャを共有することを意識的に選んでいるからで、低ワット数で効率が悪くなるのを受け入れているって話。誰か確認してくれない?

まあまあだけど、m3 ultraのメモリ帯域幅には及ばないね。でも、値段はかなり安いよ。古いデスクトップを置き換えたいんだけど、仕事から借りられるA6000みたいな外部GPUを設定やパラメータに一週間もかけずに使えるか確認しないといけない。

このレビューで、Hardware CanucksはM4 Pro(3nm 2世代)と395+(4nm)を50Wでテストした結果、パフォーマンスがある程度似ていることがわかったみたい。違いは3nmと4nmの違いで説明できるね。

5070Mのグラフィックスと競争できる可能性があるの? 価格と消費電力が合理的なら、すごくいいね。

消費電力は約75Wだよ。手動でブーストできるけど、どんな状況でも100W以下に収まるはず(Z13を調べてた時の記憶)。チップ自体はもっと高い消費電力を受け入れるはずだし、ASUSは130W以上をラップトップに供給するのに躊躇しないから、75Wって数字には驚いた。

モバイルdGPUや(ついに現実になった)DGX Sparkと比べると、まだ完成形に至っていない潜在的な市場セグメントって感じがする。DGX Sparkがこんなに遅れた理由はわからないけど、AMDにとっては市場の心をつかむチャンスを与えた大きな恩恵になったね。ディスクリートGPU(モバイルでもそうでなくても)と比べると、dGPUの利点はメモリ帯域幅。dGPUの欠点は消費電力とメモリ容量だね。CUDAを除けば、これは大きなポイントだけど。小型のDGX Sparkデスクトップを混ぜると、複数のボックス間でRDMAを可能にするデュアル200Gbネットワークポートがあるから、同じ数のStrix Halo 395ボックスよりも小さなスタック(2、3、4台)から得られるものが多いかもしれない。でも、私のホームラボ脳がRDMA付きのDGX Sparkボックスの小さなスタックに魅力を感じるとしても、プロフェッショナルな用途では、4台のDGX SparkボックスよりもGPUサーバー(またはThreadripper GPUワークステーション)が欲しいと思うかな? DGX Sparkはラップトップで売られていないから(私の知る限りでは)、Strix Haloに有利な差別化要因になってるね。やっぱり、これは変わった新興市場セグメントだと思うし、次の世代かその次は、これらの機能がどうパッケージされるべきかに向けて進化すると思う。

“dGPU”ってのは通常「ディスクリートGPU」を指すよね?「iGPU」のことを言いたかったのかな?Strix Haloはゲーミング向けに売り出されてるけど、パフォーマンスのプロファイルが全然合ってないよ。CPUは速すぎるし、iGPUはまだまだ力不足だと思う。でも、行列演算にはすごく強いんだろうね。

ちなみに、デュアル200Gbじゃなくて、1x 200Gbか2x 100Gbだよ。

DGX Sparkは、ローカルAIモデルの開発とテストに特化した用途があるみたい。Strix HaloはiGPUを搭載したamd64で、従来のPCワークロードには使えるし、合理的なローカルAIターゲットデバイスだと思う。私にとって、Strix Haloはamd64のノートPC内でのディスクリートGPUの終わりの始まりだと思う。Nvidiaもこれを分かってるから、iGPUセットアップを作るためにIntelと提携してるんじゃないかな。

次世代のAMDは、384bit LPDDR6バスを搭載したMedusa Haloを発表したらしいよ。これで、Strix Haloの2倍のメモリが使えて、発表済みのメモリを使うと1.7倍のスループットが得られるみたい。さらに、もっといいモジュールも後で出るらしいし。Strix Haloが推論プラットフォームとして成功したから、この市場セグメントはこれからも続くと思う。

一番悲しいのは、入手可能性の欠如だね。今のところ、このチップを使ってる標準的なラップトップは2つだけで、Z13が唯一の高性能モデル。Frameworkシリーズもあるけど、あまり多くの国では入手できないし、特定のユーザー層向けだよね。市場に出てから半年経ってこれだから、Z13は好きだけど、明らかにニッチなマシンだし、チップの製造が本当に大変なんじゃないかな? 全部Appleに食われちゃってるの?

HP ZBook Ultra G1aは素晴らしい選択肢で、最大128GBのRAMを搭載したモデルが買えるよ。

HP Z Book Ultraのアメリカでの価格は天文学的だったけど、EUでは標準的なノートPCと同じくらいの価格で、効果的だったよ。唯一の後悔は、発売日に注文しちゃって128GB版を待ちたくなかったことかな。でも、バッテリーの持ちやパワーは、私が投げたかなり大きなワークロードには未だに匹敵するものがない!ノートPC以外では、Beelinkとかがそれを使ったNUCを作ってて、比較的手頃な価格だよね。確かに、希少性が成長機会を評価するのを制限してるのには同意する。

Beelink、GMKtec、Minisforum、Corsair...

ヨーロッパのほとんどでは、Z13を32GB以上で買えないし、雇用主が求める2〜3年の保証も付けられないんだよね。 availabilityのせいで、CPUもGPUも少ないFramework 13を選ばざるを得ないのがイライラする。

Frameworkデスクトップで高いTDPが可能か気になるな。あっちの方が同じチップを使ってるラップトップよりも冷却性能が良さそうだし、数値が違うかもしれない。

消費電力は試してないけど、Frameworkのマザーボードを大きめのITXケースに入れて冷却を良くしてるよ。メインPCは7950X3Dで、Strixユニットと同じコア数/スレッド数なんだけど、Strixのベンチマークは7950X3Dの誤差範囲内に収まってる。つまり、パフォーマンスは同じってこと。ノートPCで同じ計算パワーが得られるのはすごいよね。

そうそう、持続的に140W、バーストで160W(約10秒間)だよ。

これ、出荷されるミニPCを試してみたいんだけど、プラチナ製(EUではめっちゃ高い)か、入手困難な素材(ここでは小売店が扱ってないし、中国から直接買うのも保証の面で不安がある)みたいだね。ROCm 7はほとんどのLinuxディストロで動いてるみたいだし、これをワークステーションとして使ったり、Ollamaやいくつかのサービスを使った「家庭用推論サーバー」として使うのはすごく良い解決策だと思う。

ROCmはすごく進歩してるけど、(RX9070XTのデスクトップを使ってるけど)まだいくつかの問題があったから、AI機能を求めてる人には今のところNvidiaかAppleのソリューションを使い続けることを勧めるよ。でも、すぐにかなり同等になると思う。価格/パフォーマンスの観点から見ると、デュアルRTX 3090のデスクトップを組むのが一番良いAIシステムだと思う(もちろん、デュアルカードをサポートするマザーボードが必要だけど)それをクローゼットに放り込んじゃえばいいんだ。

CorsairのAI Workstation 300デスクトップPCは見たことある?[1] モデルによって2000-2700ユーロで、VATを考慮すると1700-2300ドルの税抜き価格に相当するよ。[1]: https://www.corsair.com/eu/en/c/ai-workstations

Frameworkのデスクトップ395 - 128Gb版を1900ユーロちょっとで注文したよ。いくつかのオプションを追加して、EUへの送料込みで2000ユーロちょっとだった。高いとは思わなかったな。

これ、比較的安いし、ドイツから発送されるみたいだよ。 https://www.bosgamepc.com/products/bosgame-m5-ai-mini-deskto...

俺の理解が正しければ、高価格の主な理由は高帯域幅メモリだね。(実際のGPUに比べると、そんなに高帯域幅じゃないけど)

High Yieldが395チップをシリコンレベルで深掘りした動画を出してるよ: https://youtu.be/maH6KZ0YkXU

Frameworkのデスクトップを手に入れて、今ちょっと使ってみてるところ。今のところ、すごく印象的な小型ボックスだよ。これがもっと多くのエンスージアストのサポートや関与を引き出せることを期待してる。強力なVulkanやROCmに対応したインフラがあれば、みんなにとって素晴らしいよね。

関連質問: デスクトップのZen 5 CPUとRX 7600 XT、そしてRAMを買って、Strix HaloやApple SiliconみたいにシステムメモリとGPUの間で高い共有メモリ帯域幅を確保できるかな?しかも、趣味で使うにはかなり合理的なローカルLLMパフォーマンスが得られる?編集: これについてはあまりよくわからないけど、APUを使ってるときだけ共有メモリができて、ディスクリートGPUではできないんじゃないかな?これって合ってる?

いや、物理的に別のGPUがあるときはメモリは「統合」されてないよ。その場合、メモリはPCIeバスを通じてアクセスされるから、かなりの帯域幅のボトルネックになる。PCIeは16レーンのPCIe 5で最大64GB/sまでしか出ないし、すべてのGPUがそれをサポートしてるわけじゃないからね。

MシリーズのMacに比べて、GPUはどうなの?