概要
- Xiaomi MiMo-V2.5-Pro-UltraSpeedは、1兆パラメータモデルで1000トークン/秒の生成速度を実現
- TileRTとの共同開発により、汎用GPU上で業界最高クラスの推論速度を達成
- 限定期間・申請制APIおよび無料チャット体験を提供
- FP4量子化・DFlash推論・TileRT超低遅延システムの三位一体設計
- AI応用の生産性・品質・リアルタイム性を根本から変革
MiMo-V2.5-Pro-UltraSpeed:究極の速度がもたらす新たな地平
- Xiaomi MiMo-V2.5-Pro-UltraSpeed はTileRTと協力し、 1兆パラメータモデルで1000トークン/秒 を初めて突破
- 速度の進化 はAIの知能そのものの境界を拡張し、待つ道具から「思考の拡張」へ変貌
- リアルタイム応答・反復・協働 が摩擦なく可能となる新体験
- 最大 1200トークン/秒 の速度比較データも公開
限定提供・申請制APIと無料チャット体験
- MiMo-V2.5-Pro-UltraSpeed API は期間限定・申請制で提供、価格は従来の3倍だが 10倍の生成速度
- APIのみ対応、トークンプラン非対応
- 利用申請は専用サイト (platform.xiaomimimo.com/ultraspeed)で受付、審査通過者のみ利用可能
- 対象期間: 2026年6月9日〜6月23日(北京時間)
- 主に 企業・プロ開発者 を優先
- 無料チャット体験 も同期間実施、1アカウント1日10回まで・1回30分上限・5分以上無操作で自動終了
1000トークン/秒がもたらすパラダイムシフト
- 速度の飛躍 は単なる高速化ではなく、AI応用の枠組み自体を変革
- 並列的な推論経路の同時探索・自己検証・自己修正 による思考の質向上
- コーディングエージェント の生産性天井を解放、開発待機時間の根絶
- リアルタイム意思決定ループ が実現し、高頻度取引・即時詐欺検知・医療現場など時間制約下の応用が可能
- AIの速度 は単なる効率指標でなく、人類の生活の質向上や生死を分ける場面での「切り札」へ
極限のモデル・システム共同設計(Codesign)
- MiMoモデルチームとTileRTシステムチーム の深い共同設計による成果
- 特殊ハードウェア非依存、汎用GPU(8枚ノード)上で1000トークン/秒を実現
- モデル側の革新
- FP4量子化 によるモデルサイズ削減と帯域活用最大化
- MoE(Mixture of Experts)構造 でExpert部分のみFP4量子化、他は精度維持
- DFlash投機的デコーディング による並列生成・検証プロセスの効率化
- システム側の革新
- TileRT によるカスタムコンパイラと計算カーネル最適化
- 持続型エンジンカーネル で全計算パイプラインをGPU上に常駐、データ移動と計算の完全な重畳
- Warp特化型パイプライン で通信・データ移動・テンソル計算を物理的に細分化・協調
FP4量子化の詳細
- 1兆パラメータ規模 では8bitや16bitでもメモリ・帯域の負荷が大きい
- FP4(MXFP4)量子化 をExpert部分のみに適用、精度を保ちつつモデルサイズを大幅縮小
- Quantization-Aware Training(QAT) で全体の能力をオリジナルモデルと同等に維持
DFlash投機的デコーディングの詳細
- 従来のSpeculative Decoding はドラフトモデルの品質と計算コストのトレードオフが課題
- DFlash はブロック単位のマスク付き並列予測で、逐次的生成の制約を突破
- Sliding Window Attention(SWA) を活用し、長文コンテキストでも効率的な学習・推論
- 並列予測による受容長(Acceptance Length) が大幅向上
- コーディング:平均6.30、最大7.14(8トークン中6〜7トークン受容)
- Math/Reasoning:5.56
- Agent:4.29
- 一般会話など高不確実性領域 では今後もアルゴリズム最適化を継続
TileRT超低遅延推論システムの詳細
- 1000トークン/秒 では各演算子のライフサイクルがマイクロ秒単位に圧縮され、従来型システムの「演算子境界」がボトルネック化
- 持続型エンジンカーネル で全パイプラインをGPU上に常駐し、データ移動と計算を完全オーバーラップ
- Warp特化協調 でGPU全体を連続・精密に制御
- ハードウェアとソフトウェアの深い融合(Codesign) により、物理限界まで性能を引き出す
- モデル層での混合FP4量子化・DFlashデコーディング とTileRTの緊密な連携で、推論効率を最大化
このように、 MiMo-V2.5-Pro-UltraSpeed はAI推論速度の限界を大きく押し広げ、 生産性・品質・リアルタイム性 の新たな基準を打ち立てる製品です。今後もさらなる最適化と応用範囲の拡大が期待されます。