概要
Alibaba Cloudが新しいAegaeonプーリングシステムを発表し、Nvidia GPUの必要数を大幅削減。 論文は2025年ACM SOSPで発表され、中国市場の制約下での有効性を示す。 Aegaeonは推論時にGPU利用効率を最大化するスケジューラ。 最大で9倍の「goodput」向上、GPU台数は1,192台から213台に減少。 最適化された環境での成果であり、他社クラウドでの再現性は未確認。
Alibaba CloudのAegaeonシステムによるGPU効率化
- Alibaba Cloud が開発した Aegaeonプーリングシステム の発表
- Nvidia GPU の必要数が 82%削減、長期間のベータテストで実証
- 2025年 ACM Symposium on Operating Systems (SOSP) で査読付き論文として発表
- 中国市場のような GPU供給制約環境 での有効性
- Inference-time scheduler として、需要の変動が激しい複数モデルを効率的に処理
- 従来の「1GPU:1モデル」から トークンレベルでの仮想化 へ
- 1台の Nvidia H20 が複数モデルを同時にサービス可能
- goodput(有効出力) が最大9倍向上
- 数十種類・最大720億パラメータのLLMをサポートした際、必要GPU数が 1,192台から213台 へ減少
- Peking University および Alibabaインフラ部門 (CTO Jingren Zhou含む)が共同執筆
- テストには 米国輸出規制下でも利用可能なNvidia H20 を使用
- GPU削減の内訳やモデルごとの詳細は論文で非公開
- South China Morning Post によると、テストはAlibaba Cloudの Model Studioマーケットプレイス で実施
Aegaeonの技術的特徴と課題
- 推論時のスケジューリング に特化し、トークン単位でのGPU割当が可能
- バースト的・予測困難な需要 に対応する設計思想
- eRDMA elastic RDMAネットワーク など、Alibaba独自のネットワーク基盤を活用
- 垂直統合型の最適化環境 での実験結果
- 他社クラウドや一般的なGPU環境での 再現性は未確認
- ネットワークファブリックの詳細 や他環境への適用可能性は論文で未言及
今後の展望と業界インパクト
- 既存GPU資産の効率的活用 によるコスト削減・供給制約への対応策
- 中国市場など、最新GPUの入手が難しい地域 での大規模LLM運用の可能性
- クラウドプロバイダー によるGPUリソースの最大活用競争の加速
- 他社クラウド での技術適用や一般化には追加検証が必要
- 詳細は ACM論文 (https://dl.acm.org/doi/10.1145/3731569.3764815)参照