世界を動かす技術を、日本語で。

アリババクラウド、ニュー・プーリングシステムによりNvidia AI GPUの使用を82%削減したと発表

概要

Alibaba Cloudが新しいAegaeonプーリングシステムを発表し、Nvidia GPUの必要数を大幅削減。 論文は2025年ACM SOSPで発表され、中国市場の制約下での有効性を示す。 Aegaeonは推論時にGPU利用効率を最大化するスケジューラ。 最大で9倍の「goodput」向上、GPU台数は1,192台から213台に減少。 最適化された環境での成果であり、他社クラウドでの再現性は未確認。

Alibaba CloudのAegaeonシステムによるGPU効率化

  • Alibaba Cloud が開発した Aegaeonプーリングシステム の発表
  • Nvidia GPU の必要数が 82%削減、長期間のベータテストで実証
  • 2025年 ACM Symposium on Operating Systems (SOSP) で査読付き論文として発表
  • 中国市場のような GPU供給制約環境 での有効性
  • Inference-time scheduler として、需要の変動が激しい複数モデルを効率的に処理
  • 従来の「1GPU:1モデル」から トークンレベルでの仮想化
  • 1台の Nvidia H20 が複数モデルを同時にサービス可能
  • goodput(有効出力) が最大9倍向上
  • 数十種類・最大720億パラメータのLLMをサポートした際、必要GPU数が 1,192台から213台 へ減少
  • Peking University および Alibabaインフラ部門 (CTO Jingren Zhou含む)が共同執筆
  • テストには 米国輸出規制下でも利用可能なNvidia H20 を使用
  • GPU削減の内訳やモデルごとの詳細は論文で非公開
  • South China Morning Post によると、テストはAlibaba Cloudの Model Studioマーケットプレイス で実施

Aegaeonの技術的特徴と課題

  • 推論時のスケジューリング に特化し、トークン単位でのGPU割当が可能
  • バースト的・予測困難な需要 に対応する設計思想
  • eRDMA elastic RDMAネットワーク など、Alibaba独自のネットワーク基盤を活用
  • 垂直統合型の最適化環境 での実験結果
  • 他社クラウドや一般的なGPU環境での 再現性は未確認
  • ネットワークファブリックの詳細 や他環境への適用可能性は論文で未言及

今後の展望と業界インパクト

  • 既存GPU資産の効率的活用 によるコスト削減・供給制約への対応策
  • 中国市場など、最新GPUの入手が難しい地域 での大規模LLM運用の可能性
  • クラウドプロバイダー によるGPUリソースの最大活用競争の加速
  • 他社クラウド での技術適用や一般化には追加検証が必要
  • 詳細は ACM論文 (https://dl.acm.org/doi/10.1145/3731569.3764815)参照

Hackerたちの意見

アメリカが中国の技術発展を遅らせようとする試みは、中国が同じ道を直接辿るのを防ぐことで成功するかもしれないけど、逆に中国が別の方向でのイノベーションを強いられる結果になるかもしれない。最終的には、この強制的なイノベーションのおかげで効率が上がるかもしれないし、中国企業が自らの進展をオープンソースにし続けるなら、最終的にはアメリカに感謝する理由ができるかもしれないね。

技術基準の収束を願ってるけど、今の流れだと2つのスタックは早かれ遅かれ分かれそうだね。アメリカが中国のモデルの使用を禁止し、同時に準オープンモデルの輸出も禁止してるから。昔のPALとNTSCのビデオ規格みたいに、PAL(EU/アジア/アフリカ)とNTSC(アメリカ/日本)がデジタルフォーマットの採用で徐々に収束したように、ここでも地政学的な理由で分かれることになるかも。

正直、この状況は日本が第二次世界大戦後に少ない資源で多くを成し遂げたことを思い出させる。例えば、燃費の良いエンジンや軽い車とかね。こういった制約はアメリカ(とある程度ヨーロッパ)にはなかったから、アメリカの車は非アメリカ市場では全然競争力がなかったんだよね。

逆効果?もう遅いよ。2024年には西側の研究所が圧倒的だったけど、今は2025年で、中国からはdeepseek、qwen、kimi、glm、ernieなど、数多くの優れたモデルが西側の研究所に追いついてる。実際、今は西側の研究所よりも中国の研究所が最先端モデルを発表してる数が多いんだ。

歴史が示すように、中国から技術を引き離しても彼らを止めることはできないし、数年でそれを達成する(あるいはそれ以上)だろう。西側の中国の成果に対する見方には傲慢さがあると思う。西側の企業が作り出したものの多くは、中国の科学者や製造の大きな貢献があったからこそ成り立っている。もしAI研究者の名前を見れば、現在西側で活動している人も含めて強いパターンがあるよ。--- *「西側」という言葉が嫌いなんだ。なぜなら、一部の「西洋人」がそれを使って「文明的」と「非文明的」を分けようとするから。だから彼らにとってラテンアメリカは「西側」ではないけど、ラテンアメリカの国々はすべて西側なんだよね。

移民に対する反発がアメリカに最も影響を与えると思う。この分野でイノベーションを起こしている多くの人が悪く言われて、どんどん去っていってるから。地理的なことを除けば、世界中から才能を引き寄せることがアメリカの強みなんだけど、今はアメリカが中国のように外国人嫌いになろうとして、技術の輸出入を制限しようとしている。でも、人口が10倍で、内部の対立や亀裂が少ない国と競争するのは難しいよね。世界は、特にヨーロッパも、新しい国がリーダーや超大国の役割を担うのを探している。中国はまだそこには達していないけど、次世代の戦闘機やASMLに追いつくことで数年後にはそうなるかもしれない。ただ、中国の最大の弱点は、台湾や南シナ海のような地域問題に焦点を当てすぎていて、西ヨーロッパやインドを取り込むことに対する野心が欠けていることだと思う。

もう一つの結果は、データシートを理解するために中国語を学ばなきゃいけなくなるかもしれないってことだね…

中国には、VRAMがたくさんあるGPUを128GBから256GBで出してほしいな。Nvidiaの半分の速度でも構わない。大きなモデルをそれなりの速度で動かせる方が、全く動かせないよりはマシだから。AMDもこれをやればNvidiaの市場シェアに大きな影響を与えられたはずなのに、理由があってやらなかったんだよね。

アメリカはもう中国を抑えられないよ。中国はチップの輸入禁止をしているから、アメリカが何をしても関係ないんだ。[1]: https://www.cnbc.com/2025/09/17/nvidia-ceo-disappointed-afte...

他の人がやってることをコピーする方が、研究やエンジニアリングに時間とお金をかけるよりずっと楽だよね。技術を盗むのも簡単だし。自転車を発明することはできないけど、コピーすることはできるよ。

中国が最先端のモデルをオープンソースにしなくなっている兆候があるね。HuaweiやQwen(Qwen-Max, WAN 2.5)が、まだオープンソースにされていないフラッグシップモデルを発表したし。

より良いリンク https://www.tomshardware.com/tech-industry/semiconductors/al... 論文 https://dl.acm.org/doi/10.1145/3731569.3764815

わかった、上のURLを変更したよ(https://www.scmp.com/business/article/3329450/alibaba-cloud-...から)。論文へのリンクは上のテキストに入れるね。ありがとう!

中国企業のエンジニアリングや研究に関するブログのようなものがあるか知ってる人いる?以前は西側の企業のブログをフォローしてたけど、正直言って、ある時点からはFAANG以外のエンジニアリングの良いベンチマークとして考えてるケースを見たいんだよね。

中国の企業のブログでは、こういう新しいイノベーションや最適化についての記事がよくあるけど、マーケティングの記事と混ざってることが多いよね。中国のフォーラムにはもっとたくさんの情報があると思うけど、英語しか話せない私には簡単にアクセスできないのが残念だな :(

重要なポイント: 「しかし、AlibabaのQwenやDeepSeekのような少数のモデルが推論に最も人気があり、他のほとんどのモデルは時々しか呼ばれない。このため、リソースの非効率が生じており、研究者たちはAlibaba Cloudのマーケットプレイスで、17.7%のGPUがわずか1.35%のリクエストにしか対応していないことを発見した。」

リソースが豊富な企業なら、事前にトレーニングされたモデルを新しいハードウェアにデプロイして、NVDAの税金を節約するのは簡単だよね。でも、成熟したNVDAエコシステムの外で研究やモデルのトレーニングが行われる可能性はかなり低いと思う。

Alibaba Cloudは、人気のないモデルに使われるNvidia GPUを82%削減したと主張している(強調は私のもの)「研究者たちは、Alibaba Cloudのマーケットプレイスで17.7%のGPUがわずか1.35%のリクエストにしか対応していないことを発見した。そのため、1192台のGPUの代わりに、今は213台を使ってそのリクエストに応えている。」

いや、実際は違うよ。論文の図1(a)には、17.7%は合計30,000台のGPUに対する相対的な数値だって書いてある(つまり、1.35%のリクエストを処理するために5310台のGPUが必要ってこと)。そして、削減は47の異なるモデルだけの小規模なベータデプロイメントで測定されている(全体で733の「コールド」モデルと比較して)。モデル数から単純に推測すると、すべてのコールドモデルを処理するには3321台のGPUが必要で、以前より37.5%の削減になる(または、30,000台のGPUクラスター全体で6.6%の削減)。

昔は、ソフトウェアやコンピュータエンジニアが問題に真正面から向き合って、アルゴリズムを設計したり、クリエイティブな解決策を見つけたりしてたんだ。でも、アメリカの半導体産業に対する制限のおかげで、中国のエンジニアたちは昔のエンジニアみたいに、自分たちで革新して課題を乗り越える方法を見つけざるを得なくなってるね(シリコンバレーが昔はそうだったみたいに)。

彼らは小さなモデルで作業してるんだよね。大きなモデルにどれくらいスケールするかは、ちょっとわからないな(もしできるとしても)。

彼らはみんなLLMだから、小さくはないけど、巨大でもないかな。> 現在のデプロイメントは、213台のH20 GPUからなるクロスリージョンクラスターで動いていて、28個の1.8~7Bモデル(TP=1)と19個の32~72Bモデル(TP=4)を提供してるよ。

この手法は他の負荷にどのくらい適用できるんだろう?

この仮想GPUは別のスケジューラーみたいだね。データを移動させることでどれくらいのレイテンシーが発生するのか気になるな。

5年後に新しい最適化された「方程式」が出て、もっとGPUが必要なくなるって、どれくらい現実的なんだろう?

無理だね。