Kimiがオープンソースの視覚SOTAエージェントモデル「Kimi K2.5」を発表

103日前原文(kimi.com)

概要

Kimi K2.5 は、オープンソースで最強の マルチモーダルAIモデル。
ビジョン×テキスト の大規模事前学習により、 コーディング・視覚推論 ・エージェント群制御を実現。
最大100サブエージェント による並列タスク処理で、従来比 最大4.5倍高速化。
Kimi.comやAPI、Kimi Code など多様な利用方法を提供。
実務・知識労働 にも強み、オフィス業務の効率化を大幅に促進。

Kimi K2.5：次世代オープンソースAIモデルの特徴

Kimi K2.5 は、Kimi K2をベースに 約15兆のビジュアル・テキストトークン で追加事前学習を実施。
マルチモーダルネイティブ設計 により、画像・動画とテキストを同時に扱う高性能AI。
最先端のコーディング能力 と ビジョン推論 を兼備、特にフロントエンド開発に強み。
Kimi Agent Swarm による 自己指向型エージェント群制御 パラダイムを導入。
- 最大100サブエージェント、1,500ツールコールを並列実行。
- 単一エージェント比で 最大4.5倍の実行時間短縮。
Kimi.com、Kimi App、API、Kimi Code で利用可能。
- K2.5 Instant、K2.5 Thinking、K2.5 Agent、K2.5 Agent Swarm(Beta)の4モードをサポート。

コーディング×ビジョン：直感的な開発体験

自然言語×画像入力 から、 フロントエンドUI・リッチアニメーション を自動生成。
画像・動画解析によるコード生成・デバッグ で、ビジュアルから直接意図を表現可能。
- 例：動画からWebサイトを再構築、パズル画像から最短経路をコードでマーキング。
Kimi Code Bench で多様なエンドツーエンド開発タスクを評価、K2比で一貫した性能向上。
Kimi Code はターミナルやVSCode等のIDEと連携、画像・動画入力に対応。
- 既存スキルやMCPを自動移行、開発環境の即時強化。

Agent Swarm：並列・分散型AI実行の革新

K2.5 Agent Swarm は 自己指向型エージェント群 による並列タスク分解・実行を実現。
Parallel-Agent Reinforcement Learning (PARL) で訓練、並列性とタスク成功率を両立。
- オーケストレータが動的にサブエージェント（例：AI Researcher, Fact Checker等）を生成・分担。
- Critical Steps 指標で並列化の実効性を評価、遅延を最小化。
- 訓練初期は並列性を強化、後期はタスク品質に最適化。
80%のエンドツーエンド実行時間短縮、複雑な長期タスクも効率的に処理。

オフィス生産性：知識労働のAI化

K2.5 Agent は 大規模・高密度なオフィス業務 を自律処理。
- 長文・大量データの解析、複数ツールの多段活用、エキスパート品質の成果物生成。
- Word注釈追加、ピボットテーブルによる財務モデル構築、PDFでのLaTeX数式作成等の高度タスクに対応。
AI Office Benchmark、General Agent Benchmark でK2 Thinking比59.3%、24.3%向上。
かつて数時間～数日かかった業務が 数分で完了。

結論：AGIへの一歩

Kimi K2.5 は、 コーディング×ビジョン・エージェント群・オフィス業務 の進化を通じ、オープンソースコミュニティにおける AGI実現 への重要な一歩。
今後も エージェント型知能 の最前線を追求し、知識労働AIの限界を更新予定。

Appendix：ベンチマーク・評価指標

公式API利用推奨、サードパーティ評価はKimi Vendor Verifier (KVV)参照。
- 詳細：https://kimi.com/blog/kimi-vendor-verifier.html
ベンチマーク条件 や 評価方法 の詳細を明記。
- 例：思考モード有効化、最大トークン数、ツール活用方針等。
各種AIモデルとの比較 や、コーディング・長文・ビジョン・エージェント系ベンチマークの評価手順を解説。

参考情報・脚注

Kimi K2.5 は、 DeepSeek-V3.2、Claude Opus 4.5、GPT-5.2、Gemini 3 Pro、Qwen3-VL-235B-A22B-Thinking 等と比較評価。
コーディングタスク や 長文処理、 ビジョンタスク でのスコア取得方法を詳細記載。
失敗時の扱い、再現性確保のための設定値 等も明記。

Hackerたちの意見

複雑なタスクに対して、Kimi K2.5は最大100のサブエージェントを持つエージェントスワームを自己指揮できるんだ。最大1,500のツールコールで並行ワークフローを実行することができるよ。 > K2.5エージェントスワームは、並行して専門的に実行することで複雑なタスクのパフォーマンスを向上させるんだ。これにより、エンドツーエンドの実行時間が80%も短縮されるんだって。ツール呼び出しだけじゃなくて、エージェントのオーケストレーションにも強化学習が使われてる、すごいね！

└

パラレルエージェントって、めっちゃシンプルだけど、すごく強力なハックだよね。Claude CodeでTeammateToolを使って、いい結果がたくさん出てる！

Huggingfaceのリンク: https://huggingface.co/moonshotai/Kimi-K2.5 1Tパラメータ、32bアクティブパラメータ。ライセンス: MITで、以下の修正があるよ: ソフトウェア（またはその派生作品）が、月間アクティブユーザーが1億人を超える商業製品やサービス、または月間収益が2,000万ドル（他の通貨に相当）を超える場合、そういった製品やサービスのユーザーインターフェースに「Kimi K2.5」を目立つように表示しなければならない。

└

ねえ、Kimi K2.5のすべて（thinking、instruct、agent、agent swarm [ベータ]）はオープンソースになったの？エージェントスワームがAPIで利用可能って言ってた気がするから、オープンじゃないのかなって思ったんだけど（ウェイトのこと）。全部オープンソースかどうか教えてくれる？

└

または月間収益が2,000万ドル（他の通貨に相当）を超える場合、そういった製品やサービスのユーザーインターフェースに「Kimi K2.5」を目立つように表示しなければならない。なんで「100万ドル払え」って言わないの？

└

一兆だって？ネイティブのint4でも…それってVRAMが半テラバイトも必要ってこと？この技術のすごさには驚かされるけど、50パーセンタイルのHLEを超えてるっていうのに、ちょっと皮肉なことを言うと、誰も家で使えないものを配るのに危険は半分って感じだね…

Kimi K2が他のモデルよりも「感情的知性」が高いって言ってる人が何人かいたのを見たよ。K2.5がその傾向を続けるか、さらに改善するか楽しみだな。

└

うん、これはかなり主観的だけど、私もそう感じるよ（Gemini 3、GPT 5.2、Opus 4.5と比べて）。

「Deepseekの瞬間」はちょうど1年前の今日だね！偶然かどうかは別として、ただこの無料で提供されている魔法/技術の量に驚いてみよう…そして、これがOpenAIや他の企業が「私たちを守るために」閉じていたのとはどれだけ解放的で違うかってこと。

目を引いたのは、K2.5モデルの他に、Moonshot AIがKimi Code（https://www.kimi.com/code）を発表したことだよ。これはKimi CLIから進化したもので、ターミナルコーディングエージェントなんだ。先月Kimiのサブスクリプションで使ってみたけど、安定したハーネスを持つ優れたエージェントだよ。GitHub: https://github.com/MoonshotAI/kimi-cli

これに対する現実的なセットアップは、16× H100 80GBにNVLinkを組み合わせることかな。これでアクティブな32BのエキスパートとKVキャッシュを極端な量子化なしで快適に処理できる。コスト的には、約50万〜70万ドルの初期投資か、オンデマンドで1時間あたり40〜60ドルくらいになるね。つまり、このモデルはカジュアルなシングルGPUのデプロイメントじゃなくて、本気のインフラチーム向けってことがわかる。APIプロバイダーがそのハードウェアの現実に基づいてトークンの価格をどう設定するのか、ちょっと興味あるな。

└

もう一つの現実的なセットアップは、2台のMac StudioをThunderbolt 5 RMDAで接続した小さな会社向けのプライベートAIで、20,000ドルくらいだね。

└

一般的に言うと、8xH200の方が16xH100よりずっと安いし、速いよね。でも、技術的にはどっちも動くはず。

最近のリリース（Qwen3 max thinking、今はKimi k2.5）が、中国の会社からClaude opusとベンチマークを取ってるのに気づいた？Sonnetじゃなくて。彼らは本当に追いついてきてるね、ほぼ同じペースで。

└

ベンチマークは怪しいよ。実際の使用シナリオを見る方がずっと重要だと思う。

かわいいペリカンだね。 https://tools.simonwillison.net/svg-render#%3Csvg%20viewBox%...

└

動かないね、リンクかSVGが切れてるみたい。

おめでとう、Kimiチーム、素晴らしい仕事だね。なんでClaudeがコーディングでまだトップなんだろう？彼らはコーディングのトレーニングにかなり集中してるの？それとも一般的なトレーニングがすごくて、コーディングでもうまくいってるのかな？誰かOpus 4.5をコーディングで打ち負かしてほしい、置き換えたいんだ。

オープンソースのモデルが追いついてきて、ビジョンを一級市民として扱ってるのが嬉しい（いわゆるネイティブなマルチモーダルエージェントモデル）。GLMとQwenモデルは、ベースモデルとビジョンバリアント（glm-4.6とglm-4.6v）を持つことで、アプローチが違うね。Kimi K2.5の後、他のベンダーも同じ道を進むのかな？VITA AI Coworkerみたいなコンピュータ自動化のユースケースで、このモデルがどう動くのか楽しみ！

ハクソク