世界を動かす技術を、日本語で。

MiMo-v2.5-Pro-UltraSpeed: 1Tモデル、毎秒1000トークン処理

概要

  • Xiaomi MiMo-V2.5-Pro-UltraSpeedは、1兆パラメータモデルで1000トークン/秒の生成速度を実現
  • TileRTとの共同開発により、汎用GPU上で業界最高クラスの推論速度を達成
  • 限定期間・申請制APIおよび無料チャット体験を提供
  • FP4量子化・DFlash推論・TileRT超低遅延システムの三位一体設計
  • AI応用の生産性・品質・リアルタイム性を根本から変革

MiMo-V2.5-Pro-UltraSpeed:究極の速度がもたらす新たな地平

  • Xiaomi MiMo-V2.5-Pro-UltraSpeed はTileRTと協力し、 1兆パラメータモデルで1000トークン/秒 を初めて突破
  • 速度の進化 はAIの知能そのものの境界を拡張し、待つ道具から「思考の拡張」へ変貌
  • リアルタイム応答・反復・協働 が摩擦なく可能となる新体験
  • 最大 1200トークン/秒 の速度比較データも公開

限定提供・申請制APIと無料チャット体験

  • MiMo-V2.5-Pro-UltraSpeed API は期間限定・申請制で提供、価格は従来の3倍だが 10倍の生成速度
  • APIのみ対応、トークンプラン非対応
  • 利用申請は専用サイト (platform.xiaomimimo.com/ultraspeed)で受付、審査通過者のみ利用可能
    • 対象期間: 2026年6月9日〜6月23日(北京時間)
    • 主に 企業・プロ開発者 を優先
  • 無料チャット体験 も同期間実施、1アカウント1日10回まで・1回30分上限・5分以上無操作で自動終了

1000トークン/秒がもたらすパラダイムシフト

  • 速度の飛躍 は単なる高速化ではなく、AI応用の枠組み自体を変革
    • 並列的な推論経路の同時探索・自己検証・自己修正 による思考の質向上
    • コーディングエージェント の生産性天井を解放、開発待機時間の根絶
    • リアルタイム意思決定ループ が実現し、高頻度取引・即時詐欺検知・医療現場など時間制約下の応用が可能
  • AIの速度 は単なる効率指標でなく、人類の生活の質向上や生死を分ける場面での「切り札」へ

極限のモデル・システム共同設計(Codesign)

  • MiMoモデルチームとTileRTシステムチーム の深い共同設計による成果
    • 特殊ハードウェア非依存、汎用GPU(8枚ノード)上で1000トークン/秒を実現
  • モデル側の革新
    • FP4量子化 によるモデルサイズ削減と帯域活用最大化
    • MoE(Mixture of Experts)構造 でExpert部分のみFP4量子化、他は精度維持
    • DFlash投機的デコーディング による並列生成・検証プロセスの効率化
  • システム側の革新
    • TileRT によるカスタムコンパイラと計算カーネル最適化
    • 持続型エンジンカーネル で全計算パイプラインをGPU上に常駐、データ移動と計算の完全な重畳
    • Warp特化型パイプライン で通信・データ移動・テンソル計算を物理的に細分化・協調

FP4量子化の詳細

  • 1兆パラメータ規模 では8bitや16bitでもメモリ・帯域の負荷が大きい
  • FP4(MXFP4)量子化 をExpert部分のみに適用、精度を保ちつつモデルサイズを大幅縮小
  • Quantization-Aware Training(QAT) で全体の能力をオリジナルモデルと同等に維持

DFlash投機的デコーディングの詳細

  • 従来のSpeculative Decoding はドラフトモデルの品質と計算コストのトレードオフが課題
  • DFlash はブロック単位のマスク付き並列予測で、逐次的生成の制約を突破
  • Sliding Window Attention(SWA) を活用し、長文コンテキストでも効率的な学習・推論
  • 並列予測による受容長(Acceptance Length) が大幅向上
    • コーディング:平均6.30、最大7.14(8トークン中6〜7トークン受容)
    • Math/Reasoning:5.56
    • Agent:4.29
  • 一般会話など高不確実性領域 では今後もアルゴリズム最適化を継続

TileRT超低遅延推論システムの詳細

  • 1000トークン/秒 では各演算子のライフサイクルがマイクロ秒単位に圧縮され、従来型システムの「演算子境界」がボトルネック化
  • 持続型エンジンカーネル で全パイプラインをGPU上に常駐し、データ移動と計算を完全オーバーラップ
  • Warp特化協調 でGPU全体を連続・精密に制御
  • ハードウェアとソフトウェアの深い融合(Codesign) により、物理限界まで性能を引き出す
  • モデル層での混合FP4量子化・DFlashデコーディング とTileRTの緊密な連携で、推論効率を最大化

このように、 MiMo-V2.5-Pro-UltraSpeed はAI推論速度の限界を大きく押し広げ、 生産性・品質・リアルタイム性 の新たな基準を打ち立てる製品です。今後もさらなる最適化と応用範囲の拡大が期待されます。

Hackerたちの意見

MiMoがDeepseekと同じくらい安いってことを考えると、超高速のために3倍にしてもまだ驚くほど安いよね。

MiMoとDeepSeekは安くないね。AnthropicやOpenAIは、提供しているものに対して高い。

ちょっと宣伝みたいに聞こえるかもしれないけど、指数関数的成長ってやつだよ。プロンプトからほぼ瞬時にソフトウェアが得られて、いくつか選んで一番いいのを選ぶって感じになると思う。最適な構文糖のメソッド名を選ぶためのライブラリの議論なんて、アセンブリで打ち込むことを提案するのと同じくらいクレイジーだよ。

昔は新しいフロントエンドフレームワークが3ヶ月ごとに出てたのを覚えてる?それがほとんど止まっちゃったね。もう誰も気にしない。

みんなクソみたいになるだろうね!楽しみだな。

なんか、クソみたいなソフトウェアの指数関数的成長って感じだね。前にも量産されたクソみたいなものはあったけど、今はそれが爆発的に溢れ出すってことになるんじゃないかな。

そうはならないよ。複雑さの80%は「何を作るかを知ること」だから。1分でプロトタイプを作ってくれるものがあって、それを壊して、片方では少し良いプロトタイプができるけど、別の方法で新たに壊れて、これを何度も繰り返すことになるんだ。

モデルがすごく速いから、プロンプトを終わる前に自動補完して、質問が終わる前に何十ものアプリケーションを生成するかもしれないよ。

どれが一番いいかどうやって判断するの?ユーザーや使い方の組み合わせを全部試すの?結局、作業が生成から検証にシフトするだけだね。

「最適な構文シュガーのメソッド名を持つライブラリを選ぶ議論は、アセンブリ言語でタイプすることを提案するのと同じくらいクレイジーだね。もっと希望的な見方をしてるよ。AIが進化して速くなることで、これまで避けてきたコードの改善をもっと迅速かつ反復的に行えるようになると思う。過去にやるのが大変だったリファクタリングもいくつかやったことがある。作業が大変なだけじゃなくて、うまくいくかどうかもわからないから、二重のフリクションがあるんだよね。AIがあれば、コーヒーブレイク中にリファクタリングを投げて、問題が出るかどうかを見れるんだ。一般的に、AIは人類をより極端な存在にするだろうね。良い面も悪い面も。悪い面が多い気がするけど。

ボトルネックは検証になるだろうね。

どうだろう。エンジニアは昔ながらの方法でソフトウェアを開発することもできるし、たとえばObsidianとかGhosttyみたいなものを作るのに数ヶ月かかることもあるよね。コードの一行一行や依存関係、良いアーキテクチャに気を使って。本当に昔のやり方だよ。で、もし製品が良ければ、成功するはず。

指数関数的な進化で、数年以内にメモリ内計算が完全に実現するらしいよ。そしたら、効率が100倍になるんだって。つまり、もっと賢くて、しかも超高速なモデルが少なくとも10倍大きくなるってこと。小規模なビジネスでは、コードを完全にスキップして、コンテキストデータやプロンプトから直接UIをインタラクティブな速度で表示するようになるんだ。GoogleのGenieがゲームでやってることに似てるけど、もっと正確にね。

中国のプロバイダーからの価格と速度の最適化、アメリカのプロバイダーの価格上昇が組み合わさると、ゲームが早かれ遅かれ変わるよ。多くの企業がAIの請求書にすでに問題を抱えてる。

これらの価格決定を動かしている経済的要因って何なんだろう?中国の企業はアメリカよりも自社モデルをより多く補助してるのか、それとも国間のエネルギー政策の結果なのかな?

モデルの不一致が大きな問題だと思う。Anthropicがあなたのリクエストを安いモデルに回すかどうかわからないから、タスクのコストを見積もることができないんだよね。何度も再起動しなきゃいけないかもしれないし、そのたびにお金がかかるから。さらに、モデルが本物か偽物かを判断するためにプロンプトを与えなきゃいけないから、それもトークンの使用量を増やす要因になってる。

中国のモデルは十分良くて安いよ。俺はGitHub Copilotの年間サブスクリプションを持ってる。最近、Microsoftが請求方法をトークンベースに変更したんだ。今もプレミアムリクエストごとに請求されてるけど、GPT 5.4は以前の1xと比べて今は6xになってる。

もう一つの問題は、アメリカのモデルはすべてクローズドソースで、大企業だとOpenAIやAnthropicに組織が人質にされるのを望まないかもしれないってこと。アメリカのモデルラボがどんな防御策を持ってるのか、正直理解できない。もし彼らが再帰的自己改善がすぐそこまで来てると言っていて、中国のラボがアメリカのモデルにほんの少し遅れているだけなら、アメリカのラボには何の防御策があるの?アメリカのモデルは、中国のオープンソースのものより再帰的自己改善がうまくいくのかな?俺が完全に間違ってるかもしれないけど、もしOpenAIやAnthropicにお金を投資してたら、今すぐにでも引き上げると思う。今後数年で彼らがほぼゼロになる可能性はかなり高いと思う。

最近、ちょっとお金がないから、ClaudeやGPTの代わりにDeepSeek v4 FlashやGLM 5.1をできるだけ使うようにしてるんだ。

CerebrasがKimi K2.6を3000t/sで試してるらしい(招待制)。フロンティアモデルのために速いハードウェアがもっとメインストリームになるのが楽しみだな。Nvidia向けに速度を重視して設計されたモデルは、ギャップを埋める素晴らしい追加になるかも。

Cerebrasは現在、プレフィックスキャッシングに対する割引を提供していないから、エージェント的なワークロードに使うとsqr(n_turns)がもっと高くつくんだ。

これぞソフトウェア開発のブレイクスルーだね!教えてくれてありがとう!

TFAは、これまでこの速度を達成するにはCerebrasのような特別で非常に高価なハードウェアが必要だったと述べていて、彼らの結果の新しさは、標準的なハードウェア、つまり8つのGPUを搭載したサーバーを使って、1Tパラメータを超えるモデルで1000トークン/秒を達成したことを強調している。

ソースは?彼らのウェブサイトには1000トークン/秒って書いてあるよ。 https://www.cerebras.ai/blog/which-is-faster-gemini-3-5-flas...

いいね。フロンティアモデルはかなり印象的になってきたけど、インタラクティブな人間とループのコーディングにはちょっと遅すぎるかな。バイブコーディングや複数のエージェントを並行して動かすことを促進してる。速いエージェントはパートナーみたいに感じるよ。しばらくの間、Cerebras GLM 4.7をいくつかのタスクで使ってたけど、あんまり賢いモデルじゃないけど、サイトのライブプロトタイプを立ち上げて「フォントを大きくして。いや、その大きさじゃない」と打ち込んでリアルタイムで変わるのを見るのは素晴らしい体験だった。MiMo 2.5はGLM 4.7よりもずっと能力が高いよ。

MiMo 2.5はGLM 4.7よりもずっと能力が高い。MiMo 2.5はMiMo 2.5 Proとは同じモデルじゃないよ。GLM 5.1はz.aiの最新のバージョンで、人気のあるオープンウェイトのコーディングモデルの一つなんだ。もし機会があったら、最近70%値下げされたMiMo 2.5 Proよりも高くなったGLM 5.1はどうだった?

コードを書くエージェント用にglm 4.7を試してみたけど、単純なスクリプトで200-1000 LOCは本当にひどかった。Cerebrasの提供を諦めなきゃいけなかったよ、彼らのスマートモデルはエンタープライズプランにしかないから。

1k TPSは素晴らしいけど、このスレッドにAIが生成したコメントがどれだけあるかにもっと興味があるな!

具体的には?

1,000 TPSのコメントは、恐ろしい未来だね。

Fast AIは本当にワクワクするけど、ちょっと不安もあるな。今のところ、Claudeは一部のタスクでは俺より速いけど、まあ近いところにはいる。今、1時間走ってるPRを整理するためのプロンプトがあって、あと数時間かかると思う。もしそれがほぼ瞬時にできるとしたら、ワークフローがどうなるのか想像できない。一方で、集中しやすくなるかもしれない。プロンプトによっては時間がかかりすぎて、マルチタスクしちゃって後で後悔することもあるし。逆に、数秒から数分で、以前は数時間や数日かかってたことを解決できるAI?それはゲームチェンジャーだし、俺たちがどこに入るのかも分からない。

興味本位で聞くけど、何時間もかかるPRループってどんなのを回してるの?

人間は人工的でないものにフィットするんだよね。AIがサーバーファームにいる限り、物理的な世界での作業には人間が必要だよ。ロボットとAIを組み合わせると、本当にややこしくなる。

今、Deepseek-v4-proをメインモデルとして使ってるんだけど、これが時々めっちゃ面倒なんだ。簡単で退屈なタスクを「エージェントに任せて、ちょっと昼寝しよう」って思うんだけど、パソコンから離れる前にもうコードが書き終わってる。

おお、プロンプトは何で、PRは何?

3倍のコストをかけてまで、早いコード生成を求める企業はあまり見ないな。クラウドベースのAIコード生成はすでに非常に速いし、ほとんどのソフトウェア開発においてボトルネックにはなってないと思う。コストメリットがあるような普通のユースケースはあまりないんじゃないかな。

現在のソフトウェア開発のボトルネックについてとても興味があるな。推論が私がやっていることのボトルネックからは遠い気がするけど、ゼロに近づけるのはいいことだと思う。もしそれがゼロになったら、新しいボトルネックを減らすために開発アプローチを変えるだろうけど、本当に瞬時に近いものを得るには全プロセスの革新が必要だね。(今測ってみるべきかな、興味あるし)

Claudeのファストモードを使って、思考をオフにしてみて。全体の計画を高いレベルで説明するように言えば、ずっと早く進むよ。

これ、音声には本当に強力だね。推論できることでLLMがすごく賢くなるけど、音声の場合はレイテンシ予算がすごくタイトだから、通常はその時間を取れないんだよね。

これ、人間にも当てはまるよね。笑

MiMo V2.5 Pro(通常速度)は、テストした中で最も強力なオープンウェイトのエージェントコーディングモデルだよ。パフォーマンスが低いリリースに比べて、あまり注目されてないのが興味深いね。「ファストモード」の価格もかなり競争力がある。データは https://gertlabs.com/rankings

DeepSeek v4 ProがFlashよりもかなり安いのはなんで?Mimo 2.5はどこ行ったの?

生産性の議論についてだけど、よくわからない。今は2時間でできることが、以前は2日かかってたとしても、普通の社員にとってはあまり関係ないんだよね。なんでかっていうと、結局はいつも通り8時間働かなきゃいけないから。今のパターンは違って、2日かけてじっくり問題を掘り下げる楽しみがなくなって、今はスロットマシンに急いで飛び込んで、正しいプロンプトで正しい答えが出ることを期待してる感じ。だから、むしろ私たちにとっては悪化してると思う。企業や経営者にとっては全く逆の状況で、AIの状況をめちゃくちゃ楽しんでるみたいだけどね!

私にとっては、あんまり楽しくなくなってきてる。

どんな世界に住んでるの?従業員が1日8時間働くなんて。確かに8時間は打刻するけど、その時間を働いてるわけじゃないよね。

LLMは、あなたを騙そうとするジーニーだと思ってみて。まずは契約書(REQ/ARCH/IMPLドキュメント)を書かせてみて、それをざっと見て間違いがないか確認するの。そこを基にテストを書かせて、またざっと見直す。これでガードレールが整ったコンテキストができるから、驚かされる可能性が減るよ。

AIを使って問題を深掘りすることができるよ。私にとっては、完全には理解していない分野での知識を補ってくれる。学習にも役立つし、普段なら取り組まないような問題にも挑戦できる。超高速AIが楽しみだな。そうなると、マルチスレッドに誘惑されることが少なくなって、1回のセッションで深く集中できるようになると思う。

一般的には同意するな。AIに関するメッセージングが「もっと早く、より多く」を目指しているだけで、質の高い成果を出すために使われているわけじゃないから。でも、結局はインセンティブと規律に帰着すると思う。今の多くの職場のインセンティブを考えると、早いAIはただ「より多くの粗悪品」を生産するために使われるだけだろうね。

「2日間で問題を深掘りする楽しみを味わう代わりに、今はスロットマシンに急いで飛び込んで、正しいプロンプトで正しい答えが出ることを期待している。スロットマシンのように扱っているなら、それは間違っているよ。明確に頼めば、求めているものを正確に出してくれる。つまり、ただ「Xをやって!」じゃなくて、明確で詳細な仕様を書いてね。非決定性は、仕様の曖昧さから来ているんだ。」

これは遺伝的アルゴリズムのループだと思ってる。LLMはそのループ内の変異関数みたいなもの。テストや仕様を使って求める最終形を定義できれば、LLMを問題に投げて解決策に収束させることができる。コードを生成して実行し、その結果をLLMにフィードバックして、また繰り返す。もしLLMを非常に高いスループットで実行できれば、解決策をより早く反復できる。これがモデル全体の能力を大いに補うことができるよ。正しい解決策が数回の試行で得られることを期待する代わりに、役立つ結果が得られるまでいろんなことを試させればいいんだ。

それが、誰かがあなたに仕事を与えてお金をもらう仕事の基本的なトレードオフだよ。時間をお金と交換しているわけ。もし自分のために働くなら、契約やアプリを自作したり、宝くじを買ったりして、結果をお金と交換していることになる。安定したクライアントを持つフリーランスのウェブ開発者なら、今は最高の時期だね!以前は1週間かかっていたことが数時間で終わるし、AIを使ってさらに良いウェブサイトを作ることで同じ金額をクライアントに請求できる。つまり、新しいクライアントのために新しいウェブサイトを作るか、時間を取って追加のウェブサイトを作らないかの選択ができる。でも、AIの前でも後でも、新しいクライアントを継続的に獲得するためには頑張らないといけないから、全く違う生活になるね。

AIがソフトウェア開発を安くするって言ってたんだ。ソフトウェアエンジニアの給料が下がるっていうのは、給料の一部がAI企業に流れるからだし、世界が開発力を2倍(10倍?)吸収する必要があるからなんだよね。