ハクソク

世界を動かす技術を、日本語で。

MiMo-v2.5-Pro-UltraSpeed: 1Tモデル、毎秒1000トークン処理

2026年6月9日原文(mimo.xiaomi.com)

概要

Xiaomi MiMo-V2.5-Pro-UltraSpeedは、1兆パラメータモデルで1000トークン/秒の生成速度を実現
TileRTとの共同開発により、汎用GPU上で業界最高クラスの推論速度を達成
限定期間・申請制APIおよび無料チャット体験を提供
FP4量子化・DFlash推論・TileRT超低遅延システムの三位一体設計
AI応用の生産性・品質・リアルタイム性を根本から変革

MiMo-V2.5-Pro-UltraSpeed：究極の速度がもたらす新たな地平

Xiaomi MiMo-V2.5-Pro-UltraSpeed はTileRTと協力し、 1兆パラメータモデルで1000トークン/秒 を初めて突破
速度の進化 はAIの知能そのものの境界を拡張し、待つ道具から「思考の拡張」へ変貌
リアルタイム応答・反復・協働 が摩擦なく可能となる新体験
最大 1200トークン/秒 の速度比較データも公開

限定提供・申請制APIと無料チャット体験

MiMo-V2.5-Pro-UltraSpeed API は期間限定・申請制で提供、価格は従来の3倍だが 10倍の生成速度
APIのみ対応、トークンプラン非対応
利用申請は専用サイト （platform.xiaomimimo.com/ultraspeed）で受付、審査通過者のみ利用可能
- 対象期間： 2026年6月9日〜6月23日（北京時間）
- 主に 企業・プロ開発者 を優先
無料チャット体験 も同期間実施、1アカウント1日10回まで・1回30分上限・5分以上無操作で自動終了

1000トークン/秒がもたらすパラダイムシフト

速度の飛躍 は単なる高速化ではなく、AI応用の枠組み自体を変革
- 並列的な推論経路の同時探索・自己検証・自己修正 による思考の質向上
- コーディングエージェント の生産性天井を解放、開発待機時間の根絶
- リアルタイム意思決定ループ が実現し、高頻度取引・即時詐欺検知・医療現場など時間制約下の応用が可能
AIの速度 は単なる効率指標でなく、人類の生活の質向上や生死を分ける場面での「切り札」へ

極限のモデル・システム共同設計（Codesign）

MiMoモデルチームとTileRTシステムチーム の深い共同設計による成果
- 特殊ハードウェア非依存、汎用GPU（8枚ノード）上で1000トークン/秒を実現
モデル側の革新
- FP4量子化 によるモデルサイズ削減と帯域活用最大化
- MoE（Mixture of Experts）構造 でExpert部分のみFP4量子化、他は精度維持
- DFlash投機的デコーディング による並列生成・検証プロセスの効率化
システム側の革新
- TileRT によるカスタムコンパイラと計算カーネル最適化
- 持続型エンジンカーネル で全計算パイプラインをGPU上に常駐、データ移動と計算の完全な重畳
- Warp特化型パイプライン で通信・データ移動・テンソル計算を物理的に細分化・協調

FP4量子化の詳細

1兆パラメータ規模 では8bitや16bitでもメモリ・帯域の負荷が大きい
FP4（MXFP4）量子化 をExpert部分のみに適用、精度を保ちつつモデルサイズを大幅縮小
Quantization-Aware Training（QAT） で全体の能力をオリジナルモデルと同等に維持

DFlash投機的デコーディングの詳細

従来のSpeculative Decoding はドラフトモデルの品質と計算コストのトレードオフが課題
DFlash はブロック単位のマスク付き並列予測で、逐次的生成の制約を突破
Sliding Window Attention（SWA） を活用し、長文コンテキストでも効率的な学習・推論
並列予測による受容長（Acceptance Length） が大幅向上
- コーディング：平均6.30、最大7.14（8トークン中6〜7トークン受容）
- Math/Reasoning：5.56
- Agent：4.29
一般会話など高不確実性領域 では今後もアルゴリズム最適化を継続

TileRT超低遅延推論システムの詳細

1000トークン/秒 では各演算子のライフサイクルがマイクロ秒単位に圧縮され、従来型システムの「演算子境界」がボトルネック化
持続型エンジンカーネル で全パイプラインをGPU上に常駐し、データ移動と計算を完全オーバーラップ
Warp特化協調 でGPU全体を連続・精密に制御
ハードウェアとソフトウェアの深い融合（Codesign） により、物理限界まで性能を引き出す
モデル層での混合FP4量子化・DFlashデコーディング とTileRTの緊密な連携で、推論効率を最大化

このように、 MiMo-V2.5-Pro-UltraSpeed はAI推論速度の限界を大きく押し広げ、 生産性・品質・リアルタイム性 の新たな基準を打ち立てる製品です。今後もさらなる最適化と応用範囲の拡大が期待されます。

Hackerたちの意見

MiMoがDeepseekと同じくらい安いってことを考えると、超高速のために3倍にしてもまだ驚くほど安いよね。

└

MiMoとDeepSeekは安くないね。AnthropicやOpenAIは、提供しているものに対して高い。

ちょっと宣伝みたいに聞こえるかもしれないけど、指数関数的成長ってやつだよ。プロンプトからほぼ瞬時にソフトウェアが得られて、いくつか選んで一番いいのを選ぶって感じになると思う。最適な構文糖のメソッド名を選ぶためのライブラリの議論なんて、アセンブリで打ち込むことを提案するのと同じくらいクレイジーだよ。

└

昔は新しいフロントエンドフレームワークが3ヶ月ごとに出てたのを覚えてる？それがほとんど止まっちゃったね。もう誰も気にしない。

└

みんなクソみたいになるだろうね！楽しみだな。

└

なんか、クソみたいなソフトウェアの指数関数的成長って感じだね。前にも量産されたクソみたいなものはあったけど、今はそれが爆発的に溢れ出すってことになるんじゃないかな。

└

そうはならないよ。複雑さの80%は「何を作るかを知ること」だから。1分でプロトタイプを作ってくれるものがあって、それを壊して、片方では少し良いプロトタイプができるけど、別の方法で新たに壊れて、これを何度も繰り返すことになるんだ。

└

モデルがすごく速いから、プロンプトを終わる前に自動補完して、質問が終わる前に何十ものアプリケーションを生成するかもしれないよ。

└

どれが一番いいかどうやって判断するの？ユーザーや使い方の組み合わせを全部試すの？結局、作業が生成から検証にシフトするだけだね。

└

「最適な構文シュガーのメソッド名を持つライブラリを選ぶ議論は、アセンブリ言語でタイプすることを提案するのと同じくらいクレイジーだね。もっと希望的な見方をしてるよ。AIが進化して速くなることで、これまで避けてきたコードの改善をもっと迅速かつ反復的に行えるようになると思う。過去にやるのが大変だったリファクタリングもいくつかやったことがある。作業が大変なだけじゃなくて、うまくいくかどうかもわからないから、二重のフリクションがあるんだよね。AIがあれば、コーヒーブレイク中にリファクタリングを投げて、問題が出るかどうかを見れるんだ。一般的に、AIは人類をより極端な存在にするだろうね。良い面も悪い面も。悪い面が多い気がするけど。

└

ボトルネックは検証になるだろうね。

└

どうだろう。エンジニアは昔ながらの方法でソフトウェアを開発することもできるし、たとえばObsidianとかGhosttyみたいなものを作るのに数ヶ月かかることもあるよね。コードの一行一行や依存関係、良いアーキテクチャに気を使って。本当に昔のやり方だよ。で、もし製品が良ければ、成功するはず。

Hacker Newsで議論の続きを見る