Mercury 2: 拡散技術によって強化された高速推論LLM

2026年2月25日原文(inceptionlabs.ai)

概要

Mercury 2は世界最速の推論型LLMとして登場
Diffusion技術により従来の逐次デコード方式を刷新
圧倒的な速度と高品質推論を両立
低レイテンシが求められる実運用で大きな優位性
OpenAI API互換で既存システムに容易導入可能

Mercury 2：Diffusion型による最速推論LLMの登場

Mercury 2 は、 世界最速 の推論型言語モデルとしてInception社が発表
生成AIの現場では、プロンプトと回答の単発処理から、 エージェントループ ・ 検索パイプライン ・ 大量抽出処理 など、複雑な反復処理が主流
従来型LLMは 逐次デコード （左から右へトークンを一つずつ生成）がボトルネック
Diffusion技術 を基盤とし、並列的なリファインメントで複数トークンを同時生成
- タイプライター式からエディター式への進化
5倍以上の高速化を実現、 速度曲線自体が根本的に異なる

技術的特徴と優位性

高度な推論＝計算量増大＝レイテンシ・コスト増、という従来のトレードオフを解消
Diffusion型推論 により、 リアルタイム性 と 高品質 を両立
NVIDIA Blackwell GPU で1,009トークン/秒の生成速度
価格：入力100万トークンあたり$0.25、出力100万トークンあたり$0.75
128Kコンテキスト長、 ツール統合、 スキーマ整合JSON出力 など先進機能を搭載
高負荷時でも p95レイテンシ の安定確保、ユーザー体感速度への最適化

Mercury 2が切り拓く実運用領域

コーディング・編集支援
- オートコンプリート、次の編集提案、リファクタ、対話型コードエージェント等、 開発者体験 を損なわない即応性
エージェントループ
- 推論コールが多数連鎖するワークフローで、1回ごとのレイテンシ削減が全体効率と品質を大幅向上
リアルタイム音声・インタラクション
- 会話AIや音声アバターにおける 自然な応答速度 と 推論品質 の両立
検索・RAGパイプライン
- マルチホップ検索や要約処理の高速化により、 サブ秒レベルの知的検索体験 を実現

ユーザー・パートナーの声

Zed ：開発者の思考と同速度で提案が届く体験
Viant ：広告配信最適化のリアルタイム化と自律化
Wispr Flow ：リアルタイム文字起こしやHCIでの圧倒的低レイテンシ
Skyvern ：GPT-5.2の2倍以上の速度
Happyverse AI ：人間らしい自然な音声対話の実現
OpenCall ：応答性の高い音声エージェント構築
SearchBlox ：全社的なリアルタイム知的検索の実現

導入・利用方法

Mercury 2は即日利用可能
OpenAI API互換 のため、既存スタックにそのまま導入可能
エンタープライズ評価時は、 ワークロード適合・評価設計・性能検証 までサポート
公式サイト から詳細・導入相談可能

まとめ：Diffusion時代の新たな生産性

Mercury 2は、 速度・品質・拡張性 で現場のAI体験を一新
Diffusion技術による 超高速推論 が、AI活用の現実的ハードルを大幅に低減
実運用レベルでの即応性 と 高精度推論 の両立が、次世代AIサービスの基盤となる

Hackerたちの意見

新しい4桁/秒のトークンモデルについて一番ワクワクするのは、基本的にマルチショットプロンプティング（＋ナッジ）ができるところだね。ユーザーはそれを感じることなく、時々遭遇する変な幻覚的な挙動や非決定論的な動作を修正できるかもしれない。

└

それも私たちの考えだよ！マーキュリー2はエージェントタスクのための非常に速い反復を可能にすると見てる。問題に対して一度の試行はあまり正確じゃないかもしれないけど、モデルの実行時間が短いから、ユーザーはもっと早く反復できるんだ。

└

通常のモデルは、バッチ推論を使えばめっちゃ速いよ。GPT-OSS 20Bは、3090一台でbs=64の時に約2kトークン/秒に近づく（ここはちょっと記憶が曖昧かも）。

知能を秒あたりで測るのも面白いかも。つまり、トークンあたりの知能と、秒あたりのトークン数を考えるってことね。今のところ、Sonnet 4.6がOpus 4.6より5倍速かったら、私は主にSonnet 4.6を使うと思う。でも、以前のモデル世代ではそうじゃなかった。あの時はSonnetクラスのモデルがOpusクラスのモデルに比べてあまり良く感じなかったからね。知能がボトルネックになっているようなことをしているときは、また変わるかもしれないけど。速いレスポンスにはそれ自体の利点があって、より早いイテレーションを提供してくれる。昔はOpenAI Deep Researchが好きだったけど、あれが出た後はo3-thinkingに切り替えたんだ。80%の徹底さで20%の時間で済むから、全体的にはそっちの方が良かった。

└

面白い視点だね。もしかしたら、ユーザーは小さな（でもすごく速い）ステップしかできないことを知って、クエリを工夫するようになるかも。誰が勝つんだろうね！

└

それには同意するな。すぐにベンチマークできるかもしれない（もうできてるかも）けど、異なるエージェントコードモデルに比較的簡単なソフトウェアを作らせることができるかも。速いモデルはより早くイテレーションできるし、大きなモデルは最初の試みでより良いコードを書くし、ループデバッグも少なくて済む。誰が勝つんだろう？今のところOpus 4.6が大好きだけど、その追加の知能がSonnetより使う価値があるかは全然わからない。データがあればいいな！

└

知能をトークンあたり、相対的なハードウェアの単位あたり、ワットあたりで考えた方がいいかも。もし30トンの石炭を燃やして、5トンの石炭オプションよりも0.0000000001%だけ良くなるためにもっとハードウェアを使ってるなら、それってあんまり実質的な改善じゃないよね。

└

同意するよ！実際、速いエージェント反復を目指した新しいクラスのモデルが出てきてる（Composerや、独自モデルとオープンモデルのフラッシュ版を考えてみて）。私たちはマーキュリー2をこのカテゴリーの強力なモデルとして位置づけてるんだ。

└

明らかに「スピードはそれ自体が一つの質である」という軸があると思う。Cereberas（またはGroq）を使ってAPIを開発すると、仕事の反復のターンアラウンドスピードがフロンティアの高知能ラボを使うよりもずっと速くて（しかも安い！）、ほとんど別の製品みたいだよ。それに、最近ちょっとした研究論文をまとめたんだけど、「フロンティアARモデルを少し使って計画を立ててから、残りを生成するために拡散モデルに切り替える」っていう選択肢がまだあまり探求されてないと思う。拡散モデルでかなり良い改善が得られるよ！ https://estsauver.com/think-first-diffuse-fast.pdf

└

人を評価するのにも役立つよね。

└

面白い提案だね。何かエントロピーに基づいた指標を使って、それを代理にするのはどうかな？

拡散モデルにはあまり魅力を感じないな。他の研究所、例えばGoogleも持ってるけど、ほとんどのユースケースではパレートフロンティアに追いついてない。価格/性能の詳細はここにあるよ。 https://artificialanalysis.ai/models/mercury-2

Hacker Newsで議論の続きを見る

ハクソク