世界を動かす技術を、日本語で。

Kimiがオープンソースの視覚SOTAエージェントモデル「Kimi K2.5」を発表

概要

  • Kimi K2.5 は、オープンソースで最強の マルチモーダルAIモデル
  • ビジョン×テキスト の大規模事前学習により、 コーディング・視覚推論 ・エージェント群制御を実現。
  • 最大100サブエージェント による並列タスク処理で、従来比 最大4.5倍高速化
  • Kimi.comやAPI、Kimi Code など多様な利用方法を提供。
  • 実務・知識労働 にも強み、オフィス業務の効率化を大幅に促進。

Kimi K2.5:次世代オープンソースAIモデルの特徴

  • Kimi K2.5 は、Kimi K2をベースに 約15兆のビジュアル・テキストトークン で追加事前学習を実施。
  • マルチモーダルネイティブ設計 により、画像・動画とテキストを同時に扱う高性能AI。
  • 最先端のコーディング能力ビジョン推論 を兼備、特にフロントエンド開発に強み。
  • Kimi Agent Swarm による 自己指向型エージェント群制御 パラダイムを導入。
    • 最大100サブエージェント、1,500ツールコールを並列実行。
    • 単一エージェント比で 最大4.5倍の実行時間短縮
  • Kimi.com、Kimi App、API、Kimi Code で利用可能。
    • K2.5 Instant、K2.5 Thinking、K2.5 Agent、K2.5 Agent Swarm(Beta)の4モードをサポート。

コーディング×ビジョン:直感的な開発体験

  • 自然言語×画像入力 から、 フロントエンドUI・リッチアニメーション を自動生成。
  • 画像・動画解析によるコード生成・デバッグ で、ビジュアルから直接意図を表現可能。
    • 例:動画からWebサイトを再構築、パズル画像から最短経路をコードでマーキング。
  • Kimi Code Bench で多様なエンドツーエンド開発タスクを評価、K2比で一貫した性能向上。
  • Kimi Code はターミナルやVSCode等のIDEと連携、画像・動画入力に対応。
    • 既存スキルやMCPを自動移行、開発環境の即時強化。

Agent Swarm:並列・分散型AI実行の革新

  • K2.5 Agent Swarm自己指向型エージェント群 による並列タスク分解・実行を実現。
  • Parallel-Agent Reinforcement Learning (PARL) で訓練、並列性とタスク成功率を両立。
    • オーケストレータが動的にサブエージェント(例:AI Researcher, Fact Checker等)を生成・分担。
    • Critical Steps 指標で並列化の実効性を評価、遅延を最小化。
    • 訓練初期は並列性を強化、後期はタスク品質に最適化。
  • 80%のエンドツーエンド実行時間短縮、複雑な長期タスクも効率的に処理。

オフィス生産性:知識労働のAI化

  • K2.5 Agent大規模・高密度なオフィス業務 を自律処理。
    • 長文・大量データの解析、複数ツールの多段活用、エキスパート品質の成果物生成。
    • Word注釈追加、ピボットテーブルによる財務モデル構築、PDFでのLaTeX数式作成等の高度タスクに対応。
  • AI Office Benchmark、General Agent Benchmark でK2 Thinking比59.3%、24.3%向上。
  • かつて数時間~数日かかった業務が 数分で完了

結論:AGIへの一歩

  • Kimi K2.5 は、 コーディング×ビジョン・エージェント群・オフィス業務 の進化を通じ、オープンソースコミュニティにおける AGI実現 への重要な一歩。
  • 今後も エージェント型知能 の最前線を追求し、知識労働AIの限界を更新予定。

Appendix:ベンチマーク・評価指標

  • 公式API利用推奨、サードパーティ評価はKimi Vendor Verifier (KVV)参照。
    • 詳細:https://kimi.com/blog/kimi-vendor-verifier.html
  • ベンチマーク条件評価方法 の詳細を明記。
    • 例:思考モード有効化、最大トークン数、ツール活用方針等。
  • 各種AIモデルとの比較 や、コーディング・長文・ビジョン・エージェント系ベンチマークの評価手順を解説。

参考情報・脚注

  • Kimi K2.5 は、 DeepSeek-V3.2、Claude Opus 4.5、GPT-5.2、Gemini 3 Pro、Qwen3-VL-235B-A22B-Thinking 等と比較評価。
  • コーディングタスク長文処理ビジョンタスク でのスコア取得方法を詳細記載。
  • 失敗時の扱い、再現性確保のための設定値 等も明記。

Hackerたちの意見

複雑なタスクに対して、Kimi K2.5は最大100のサブエージェントを持つエージェントスワームを自己指揮できるんだ。最大1,500のツールコールで並行ワークフローを実行することができるよ。 > K2.5エージェントスワームは、並行して専門的に実行することで複雑なタスクのパフォーマンスを向上させるんだ。これにより、エンドツーエンドの実行時間が80%も短縮されるんだって。ツール呼び出しだけじゃなくて、エージェントのオーケストレーションにも強化学習が使われてる、すごいね!

パラレルエージェントって、めっちゃシンプルだけど、すごく強力なハックだよね。Claude CodeでTeammateToolを使って、いい結果がたくさん出てる!

Huggingfaceのリンク: https://huggingface.co/moonshotai/Kimi-K2.5 1Tパラメータ、32bアクティブパラメータ。ライセンス: MITで、以下の修正があるよ: ソフトウェア(またはその派生作品)が、月間アクティブユーザーが1億人を超える商業製品やサービス、または月間収益が2,000万ドル(他の通貨に相当)を超える場合、そういった製品やサービスのユーザーインターフェースに「Kimi K2.5」を目立つように表示しなければならない。

ねえ、Kimi K2.5のすべて(thinking、instruct、agent、agent swarm [ベータ])はオープンソースになったの?エージェントスワームがAPIで利用可能って言ってた気がするから、オープンじゃないのかなって思ったんだけど(ウェイトのこと)。全部オープンソースかどうか教えてくれる?

または月間収益が2,000万ドル(他の通貨に相当)を超える場合、そういった製品やサービスのユーザーインターフェースに「Kimi K2.5」を目立つように表示しなければならない。 なんで「100万ドル払え」って言わないの?

一兆だって?ネイティブのint4でも…それってVRAMが半テラバイトも必要ってこと?この技術のすごさには驚かされるけど、50パーセンタイルのHLEを超えてるっていうのに、ちょっと皮肉なことを言うと、誰も家で使えないものを配るのに危険は半分って感じだね…

Kimi K2が他のモデルよりも「感情的知性」が高いって言ってる人が何人かいたのを見たよ。K2.5がその傾向を続けるか、さらに改善するか楽しみだな。

うん、これはかなり主観的だけど、私もそう感じるよ(Gemini 3、GPT 5.2、Opus 4.5と比べて)。

「Deepseekの瞬間」はちょうど1年前の今日だね!偶然かどうかは別として、ただこの無料で提供されている魔法/技術の量に驚いてみよう…そして、これがOpenAIや他の企業が「私たちを守るために」閉じていたのとはどれだけ解放的で違うかってこと。

目を引いたのは、K2.5モデルの他に、Moonshot AIがKimi Code(https://www.kimi.com/code)を発表したことだよ。これはKimi CLIから進化したもので、ターミナルコーディングエージェントなんだ。先月Kimiのサブスクリプションで使ってみたけど、安定したハーネスを持つ優れたエージェントだよ。GitHub: https://github.com/MoonshotAI/kimi-cli

これに対する現実的なセットアップは、16× H100 80GBにNVLinkを組み合わせることかな。これでアクティブな32BのエキスパートとKVキャッシュを極端な量子化なしで快適に処理できる。コスト的には、約50万〜70万ドルの初期投資か、オンデマンドで1時間あたり40〜60ドルくらいになるね。つまり、このモデルはカジュアルなシングルGPUのデプロイメントじゃなくて、本気のインフラチーム向けってことがわかる。APIプロバイダーがそのハードウェアの現実に基づいてトークンの価格をどう設定するのか、ちょっと興味あるな。

もう一つの現実的なセットアップは、2台のMac StudioをThunderbolt 5 RMDAで接続した小さな会社向けのプライベートAIで、20,000ドルくらいだね。

一般的に言うと、8xH200の方が16xH100よりずっと安いし、速いよね。でも、技術的にはどっちも動くはず。

最近のリリース(Qwen3 max thinking、今はKimi k2.5)が、中国の会社からClaude opusとベンチマークを取ってるのに気づいた?Sonnetじゃなくて。彼らは本当に追いついてきてるね、ほぼ同じペースで。

ベンチマークは怪しいよ。実際の使用シナリオを見る方がずっと重要だと思う。

かわいいペリカンだね。 https://tools.simonwillison.net/svg-render#%3Csvg%20viewBox%...

動かないね、リンクかSVGが切れてるみたい。

おめでとう、Kimiチーム、素晴らしい仕事だね。なんでClaudeがコーディングでまだトップなんだろう?彼らはコーディングのトレーニングにかなり集中してるの?それとも一般的なトレーニングがすごくて、コーディングでもうまくいってるのかな?誰かOpus 4.5をコーディングで打ち負かしてほしい、置き換えたいんだ。

オープンソースのモデルが追いついてきて、ビジョンを一級市民として扱ってるのが嬉しい(いわゆるネイティブなマルチモーダルエージェントモデル)。GLMとQwenモデルは、ベースモデルとビジョンバリアント(glm-4.6とglm-4.6v)を持つことで、アプローチが違うね。Kimi K2.5の後、他のベンダーも同じ道を進むのかな?VITA AI Coworkerみたいなコンピュータ自動化のユースケースで、このモデルがどう動くのか楽しみ!