概要
- Mercury 2は世界最速の推論型LLMとして登場
- Diffusion技術により従来の逐次デコード方式を刷新
- 圧倒的な速度と高品質推論を両立
- 低レイテンシが求められる実運用で大きな優位性
- OpenAI API互換で既存システムに容易導入可能
Mercury 2:Diffusion型による最速推論LLMの登場
- Mercury 2 は、 世界最速 の推論型言語モデルとしてInception社が発表
- 生成AIの現場では、プロンプトと回答の単発処理から、 エージェントループ ・ 検索パイプライン ・ 大量抽出処理 など、複雑な反復処理が主流
- 従来型LLMは 逐次デコード (左から右へトークンを一つずつ生成)がボトルネック
- Diffusion技術 を基盤とし、並列的なリファインメントで複数トークンを同時生成
- タイプライター式からエディター式への進化
- 5倍以上の高速化を実現、 速度曲線自体が根本的に異なる
技術的特徴と優位性
- 高度な推論=計算量増大=レイテンシ・コスト増、という従来のトレードオフを解消
- Diffusion型推論 により、 リアルタイム性 と 高品質 を両立
- NVIDIA Blackwell GPU で1,009トークン/秒の生成速度
- 価格:入力100万トークンあたり$0.25、出力100万トークンあたり$0.75
- 128Kコンテキスト長、 ツール統合、 スキーマ整合JSON出力 など先進機能を搭載
- 高負荷時でも p95レイテンシ の安定確保、ユーザー体感速度への最適化
Mercury 2が切り拓く実運用領域
- コーディング・編集支援
- オートコンプリート、次の編集提案、リファクタ、対話型コードエージェント等、 開発者体験 を損なわない即応性
- エージェントループ
- 推論コールが多数連鎖するワークフローで、1回ごとのレイテンシ削減が全体効率と品質を大幅向上
- リアルタイム音声・インタラクション
- 会話AIや音声アバターにおける 自然な応答速度 と 推論品質 の両立
- 検索・RAGパイプライン
- マルチホップ検索や要約処理の高速化により、 サブ秒レベルの知的検索体験 を実現
ユーザー・パートナーの声
- Zed :開発者の思考と同速度で提案が届く体験
- Viant :広告配信最適化のリアルタイム化と自律化
- Wispr Flow :リアルタイム文字起こしやHCIでの圧倒的低レイテンシ
- Skyvern :GPT-5.2の2倍以上の速度
- Happyverse AI :人間らしい自然な音声対話の実現
- OpenCall :応答性の高い音声エージェント構築
- SearchBlox :全社的なリアルタイム知的検索の実現
導入・利用方法
- Mercury 2は即日利用可能
- OpenAI API互換 のため、既存スタックにそのまま導入可能
- エンタープライズ評価時は、 ワークロード適合・評価設計・性能検証 までサポート
- 公式サイト から詳細・導入相談可能
まとめ:Diffusion時代の新たな生産性
- Mercury 2は、 速度・品質・拡張性 で現場のAI体験を一新
- Diffusion技術による 超高速推論 が、AI活用の現実的ハードルを大幅に低減
- 実運用レベルでの即応性 と 高精度推論 の両立が、次世代AIサービスの基盤となる