概要
- Mixture of Grouped Experts (MoGE) は、従来のMoEの課題である専門家の負荷不均衡を解消する新アーキテクチャ。
- Pangu Pro MoE は、MoGEを採用し、Ascend NPU上で高効率な分散推論を実現。
- トークンごとに均等に専門家を活性化し、 デバイス間の計算負荷を最適化。
- 既存の32B/72B密モデルよりも 高い推論性能とコストパフォーマンス を達成。
- GLM-Z1-32BやQwen3-32B などの有力オープンソースモデルを上回る性能を実証。
Mixture of Grouped Experts (MoGE)の概要
- MoGE は、専門家(Expert)をグループ化し、トークンごとに各グループから均等に専門家を選択する設計。
- 従来の MoE では、一部の専門家に負荷が集中しやすい問題を抱える。
- グループごとの均等活性化により、 計算負荷のバランス を自動的に調整。
- 複数デバイスでの並列実行時、 デバイス間の負荷分散 を実現。
- 特に推論フェーズでの スループット向上 と効率的なリソース活用が可能。
Pangu Pro MoEの特徴と性能
- Pangu Pro MoE は、MoGEアーキテクチャを採用した 72Bパラメータ のスパースモデル。
- 各トークンで 16Bパラメータ のみ活性化し、計算コストを大幅削減。
- Ascend 300I Duo/800I A2 向けにシステムシミュレーションを通じて最適化。
- 推論性能 は1カードあたり1148 tokens/s、推測的アクセラレーションで1528 tokens/sを達成。
- 同規模の Denseモデル(32B/72B) よりも高効率。
Ascend NPUにおけるMoGEの分散学習と推論
- Ascend NPU による大規模並列実行で、モデル学習と推論の効率化。
- MoGEにより、 専門家ごとの負荷均等化 が実現し、デバイス利用率の最大化。
- コストパフォーマンス に優れ、実運用に適した推論環境を提供。
- Pangu Pro MoE は、サブ100Bパラメータクラスで最高レベルの性能を持つモデル。
- GLM-Z1-32BやQwen3-32B といった著名なオープンソースモデルを上回る結果を報告。
今後の展望と応用可能性
- MoGE の導入により、今後さらに大規模なLLMの効率的な運用が期待。
- 分散環境 での負荷分散技術として、他のAIモデルやプラットフォームへの応用可能性。
- Pangu Pro MoE の成果は、産業応用や研究開発における大規模言語モデルの新たな標準となる可能性。