世界を動かす技術を、日本語で。

Mercury 2: 拡散技術によって強化された高速推論LLM

概要

  • Mercury 2は世界最速の推論型LLMとして登場
  • Diffusion技術により従来の逐次デコード方式を刷新
  • 圧倒的な速度と高品質推論を両立
  • 低レイテンシが求められる実運用で大きな優位性
  • OpenAI API互換で既存システムに容易導入可能

Mercury 2:Diffusion型による最速推論LLMの登場

  • Mercury 2 は、 世界最速 の推論型言語モデルとしてInception社が発表
  • 生成AIの現場では、プロンプトと回答の単発処理から、 エージェントループ検索パイプライン大量抽出処理 など、複雑な反復処理が主流
  • 従来型LLMは 逐次デコード (左から右へトークンを一つずつ生成)がボトルネック
  • Diffusion技術 を基盤とし、並列的なリファインメントで複数トークンを同時生成
    • タイプライター式からエディター式への進化
  • 5倍以上の高速化を実現、 速度曲線自体が根本的に異なる

技術的特徴と優位性

  • 高度な推論=計算量増大=レイテンシ・コスト増、という従来のトレードオフを解消
  • Diffusion型推論 により、 リアルタイム性高品質 を両立
  • NVIDIA Blackwell GPU で1,009トークン/秒の生成速度
  • 価格:入力100万トークンあたり$0.25、出力100万トークンあたり$0.75
  • 128Kコンテキスト長ツール統合スキーマ整合JSON出力 など先進機能を搭載
  • 高負荷時でも p95レイテンシ の安定確保、ユーザー体感速度への最適化

Mercury 2が切り拓く実運用領域

  • コーディング・編集支援
    • オートコンプリート、次の編集提案、リファクタ、対話型コードエージェント等、 開発者体験 を損なわない即応性
  • エージェントループ
    • 推論コールが多数連鎖するワークフローで、1回ごとのレイテンシ削減が全体効率と品質を大幅向上
  • リアルタイム音声・インタラクション
    • 会話AIや音声アバターにおける 自然な応答速度推論品質 の両立
  • 検索・RAGパイプライン
    • マルチホップ検索や要約処理の高速化により、 サブ秒レベルの知的検索体験 を実現

ユーザー・パートナーの声

  • Zed :開発者の思考と同速度で提案が届く体験
  • Viant :広告配信最適化のリアルタイム化と自律化
  • Wispr Flow :リアルタイム文字起こしやHCIでの圧倒的低レイテンシ
  • Skyvern :GPT-5.2の2倍以上の速度
  • Happyverse AI :人間らしい自然な音声対話の実現
  • OpenCall :応答性の高い音声エージェント構築
  • SearchBlox :全社的なリアルタイム知的検索の実現

導入・利用方法

  • Mercury 2は即日利用可能
  • OpenAI API互換 のため、既存スタックにそのまま導入可能
  • エンタープライズ評価時は、 ワークロード適合・評価設計・性能検証 までサポート
  • 公式サイト から詳細・導入相談可能

まとめ:Diffusion時代の新たな生産性

  • Mercury 2は、 速度・品質・拡張性 で現場のAI体験を一新
  • Diffusion技術による 超高速推論 が、AI活用の現実的ハードルを大幅に低減
  • 実運用レベルでの即応性高精度推論 の両立が、次世代AIサービスの基盤となる

Hackerたちの意見

新しい4桁/秒のトークンモデルについて一番ワクワクするのは、基本的にマルチショットプロンプティング(+ナッジ)ができるところだね。ユーザーはそれを感じることなく、時々遭遇する変な幻覚的な挙動や非決定論的な動作を修正できるかもしれない。

それも私たちの考えだよ!マーキュリー2はエージェントタスクのための非常に速い反復を可能にすると見てる。問題に対して一度の試行はあまり正確じゃないかもしれないけど、モデルの実行時間が短いから、ユーザーはもっと早く反復できるんだ。

通常のモデルは、バッチ推論を使えばめっちゃ速いよ。GPT-OSS 20Bは、3090一台でbs=64の時に約2kトークン/秒に近づく(ここはちょっと記憶が曖昧かも)。

知能を秒あたりで測るのも面白いかも。つまり、トークンあたりの知能と、秒あたりのトークン数を考えるってことね。今のところ、Sonnet 4.6がOpus 4.6より5倍速かったら、私は主にSonnet 4.6を使うと思う。でも、以前のモデル世代ではそうじゃなかった。あの時はSonnetクラスのモデルがOpusクラスのモデルに比べてあまり良く感じなかったからね。知能がボトルネックになっているようなことをしているときは、また変わるかもしれないけど。速いレスポンスにはそれ自体の利点があって、より早いイテレーションを提供してくれる。昔はOpenAI Deep Researchが好きだったけど、あれが出た後はo3-thinkingに切り替えたんだ。80%の徹底さで20%の時間で済むから、全体的にはそっちの方が良かった。

面白い視点だね。もしかしたら、ユーザーは小さな(でもすごく速い)ステップしかできないことを知って、クエリを工夫するようになるかも。誰が勝つんだろうね!

それには同意するな。すぐにベンチマークできるかもしれない(もうできてるかも)けど、異なるエージェントコードモデルに比較的簡単なソフトウェアを作らせることができるかも。速いモデルはより早くイテレーションできるし、大きなモデルは最初の試みでより良いコードを書くし、ループデバッグも少なくて済む。誰が勝つんだろう?今のところOpus 4.6が大好きだけど、その追加の知能がSonnetより使う価値があるかは全然わからない。データがあればいいな!

知能をトークンあたり、相対的なハードウェアの単位あたり、ワットあたりで考えた方がいいかも。もし30トンの石炭を燃やして、5トンの石炭オプションよりも0.0000000001%だけ良くなるためにもっとハードウェアを使ってるなら、それってあんまり実質的な改善じゃないよね。

同意するよ!実際、速いエージェント反復を目指した新しいクラスのモデルが出てきてる(Composerや、独自モデルとオープンモデルのフラッシュ版を考えてみて)。私たちはマーキュリー2をこのカテゴリーの強力なモデルとして位置づけてるんだ。

明らかに「スピードはそれ自体が一つの質である」という軸があると思う。Cereberas(またはGroq)を使ってAPIを開発すると、仕事の反復のターンアラウンドスピードがフロンティアの高知能ラボを使うよりもずっと速くて(しかも安い!)、ほとんど別の製品みたいだよ。それに、最近ちょっとした研究論文をまとめたんだけど、「フロンティアARモデルを少し使って計画を立ててから、残りを生成するために拡散モデルに切り替える」っていう選択肢がまだあまり探求されてないと思う。拡散モデルでかなり良い改善が得られるよ! https://estsauver.com/think-first-diffuse-fast.pdf

人を評価するのにも役立つよね。

面白い提案だね。何かエントロピーに基づいた指標を使って、それを代理にするのはどうかな?

拡散モデルにはあまり魅力を感じないな。他の研究所、例えばGoogleも持ってるけど、ほとんどのユースケースではパレートフロンティアに追いついてない。価格/性能の詳細はここにあるよ。 https://artificialanalysis.ai/models/mercury-2

パレートのポイントには少し反論したいな。速度と品質について、拡散は実際にフロンティアを進めてる。比較可能な品質レベルで、Mercuryは同じARモデルよりも5倍以上速いんだ(AAページで言及されているものも含めて)。だから、固定の品質目標があれば、意味のあるスループットが得られるよ。ただ、今の拡散モデルは、OpusやGemini Proなどの非常に大きなARシステムにはまだ絶対的な知能で勝てないのは同意する。驚くことじゃないけどね。小さなモデルから始めて、徐々にスケールアップしているから。ロードマップは、推論時間の大きな利点を保ちながら知能をスケールアップすることだよ。

技術的な課題が解決されると、可能性がもっと広がると思う。テキストの拡散は、トランスフォーマーの自己回帰に比べてまだまだ発展途上だし、Inceptionは新しい道を切り開いてるね。

考えが変わった!これ、Morph Fast Applyみたいな速い編集モデルにぴったりだと思う。https://www.morphllm.com/products/fastapply 彼らが「Mercury Edit」って形で提供してるみたいで、試してみたいな。

ここはInceptionの共同創設者兼チーフサイエンティストだよ。もし役に立てるなら、Mercury 2や拡散LMについての技術的な質問には喜んで答えるよ。

かなりうまく機能してるみたいで、特に答えがすごく早く出てくるのが面白い!車の洗車に関するトリック質問には簡単に騙されるけど、数学や工学の質問をすると、より良いオープンモデルと同等の感じがするし、明らかに速いね。

マーキュリー2ってどれくらいの大きさなの?トークンはどれくらい学習してるの?エージェントの精度は、例えばコーディングエージェントを動かすのに十分なのかな?もっと難しいタスクをこなすために大きなモデルが必要だったりしない?

将来的には、さらに速くなるためにドリフトモデルに移行すると思う?

拡散モデルのkvキャッシュの状況ってどうなってるの?キャッシングによるレイテンシや計算/コストの節約はあるのかな?その曲線は自己回帰キャッシングオプションと似てるの?それとも、そんなことは全く関係なくて、システムプロンプトをいじって毎ターン動的に変えられるのかな?節約が得られないから?それとも、ヘッドに動的な変更を加えつつ、拡散ベースのアーキテクチャのおかげでキャッシュの節約もできるのかな?アイデアがたくさんあるね…

ちょっと変なやり取りがあったんだけど、弱いトランスフォーマーモデルがループに入る感じに似てた。これって何が原因なんだろう?

完全な双方向アテンションを使ってるの?それとも何か因果的な要素があるの?

発表の中で音声AIについて触れてるけど、実際にはどう機能するのか気になるな。ほとんどの音声AIシステムは、完全な応答遅延ではなく、最初の非推論トークンまでの時間に制約されてるからね(TTSに移ると、出力速度は話す速度に制限されるし、遅いモデルでも一旦動き出すとその速度より早くトークンを生成するから)。マーキュリー2のTTFTの数値はどうなってるの?他の推論モデルと比べるとかなり改善されるのは分かるけど、トータルの遅延がまだ数秒単位で、ミリ秒単位じゃないとすると、音声での推論が本当に実現可能なのか疑問だな。

PDFをMarkdownに変換する周りで、すごく面白いユースケースがありそうだね。膨大なボリュームの要求があって、予算も低くて、自己回帰からあまり恩恵を受けないようなタスクに見える。あなたのチームがこれを探求したかどうか、すごく興味があるよ。

イテレーション速度の利点は確かにあるけど、文脈によるね。構造化データに対してループを回すようなエージェント的な作業では、例えば出力の検証や小さな呼び出しでデータセットを探索する場合、50トークン/秒のモデルと1000トークン/秒以上のモデルのレイテンシの違いがすぐに大きくなる。10分かかる作業が1分未満になるから、プロトタイプの作り方が変わるよね。私にとってのオープンクエスチョンは、ボトルネックが実際にはイテレーション速度じゃなくて推論の質の高さが十分かどうかってこと。volodiaが「ファストエージェント」モデルとして位置づけてるのは正直だと思う。そういうタスクに合うなら、5倍の速度の利点は本当に興味深い。

もしTalaasチップに埋め込まれてたら、約50,000トークン/秒を生成できるってこと?

拡散ベースの推論ってすごく興味深いよね。連続的な依存関係をどう扱うのか、従来の自己回帰モデルと比べて気になるな。複雑な計画タスクでは、ステップNがステップ1-Nに大きく依存する場合、並列生成は一貫性に苦労することがあるのかな?それとも、モデルは並列サンプリング中にうまくその依存関係をエンコードする方法を学ぶのかな?

自分のローカルハードウェアで遊べるオープンウェイトの拡散LLMモデルってある?リソースが限られたシナリオ(つまり、消費者向けのNvidia GPU、データセンターのH100じゃなくて)でのこのスタイルのモデルのパフォーマンスの違いが気になるな。

昨年(2025年)の研究論文「Mercury: Ultra-Fast Language Models Based on Diffusion」 https://arxiv.org/pdf/2506.17298