世界を動かす技術を、日本語で。

Kimi K2.7-Code: より高いトークン効率を持つオープンソースコーディングモデル

2026年6月12日原文(huggingface.co)

概要

  • Kimi K2.7 Code は、Kimi K2.6を基に開発された コーディング特化型エージェントモデル
  • 実用的な長期コーディングタスク で大幅な性能向上と トークン効率化 を実現
  • 最新ベンチマーク で他の大規模モデルと比較し、優れたスコアを記録
  • API・デプロイ方法利用例 が豊富に提供されている
  • Modified MIT License で公開、商用利用にも対応

Kimi K2.7 Code モデル紹介

  • Kimi K2.7 Code は、Kimi K2.6を基盤とした エージェント型コーディングモデル
  • 長期的かつ複雑なソフトウェアエンジニアリングワークフロー の自動化に対応
  • トークン効率 を向上させ、 思考トークン消費量を約30%削減
  • エンドツーエンドのタスク完結能力 を強化

モデル構成概要

  • Mixture-of-Experts (MoE)アーキテクチャ 採用
  • 総パラメータ数 :1兆(1T)、 活性化パラメータ数 :32B
  • レイヤー数 :61(Dense Layer含む)、 Dense Layer数 :1
  • Attention Hidden Dimension :7168、 MoE Hidden Dimension :2048(各Expertごと)
  • Attention Head数 :64、 Expert数 :384、 トークンごとに選択されるExpert数 :8
  • 共有Expert数 :1、 語彙サイズ :160K、 文脈長 :256K
  • Attention機構 :MLA、 活性化関数 :SwiGLU
  • Vision Encoder :MoonViT、 Vision Encoderパラメータ数 :400M

ベンチマーク評価結果

  • Kimi Code Bench v2Program BenchMLS Bench Lite 等の主要ベンチマークで高スコアを記録

    • 例:Kimi Code Bench v2で 62.0 (K2.6は50.9、GPT-5.5は69.0)
  • エージェント性能 もKimi Claw 24/7 BenchやMCP Atlas等で競合モデルを上回る

  • 評価条件 は全モデルで統一、詳細は各ベンチマーク解説参照

    • Kimi Code Bench v2 :10以上の主要プログラミング言語・本番運用技術スタック・多様な実務タスクを網羅
    • Program Bench :バイナリとドキュメントのみからプログラムを再現
    • MLS Bench Lite :30タスクのML/AI手法の汎用性・スケーラビリティ評価
    • Kimi Claw 24/7 Bench :長期・多分野の協働タスクでのエージェント性能測定
    • MCP Atlas/Mark :ツール連携タスクにおける現実的なLLM性能評価

ネイティブINT4量子化

  • Kimi-K2.7-Code はKimi-K2-Thinkingと同様の ネイティブint4量子化手法 を採用

デプロイ方法

  • API はhttps://platform.moonshot.ai で提供、 OpenAI/Anthropic互換API も利用可能
  • 推奨推論エンジン :vLLM、SGLang、KTransformers
  • Transformerバージョン要件 :>=4.57.1, <5.0.0
  • Kimi-K2.5/K2.6と同一アーキテクチャ のため、既存のデプロイ方法を再利用可能
  • デプロイ例 はModel Deployment Guide参照

モデル利用方法

  • 公式APIの利用例 を複数掲載

    • 思考モード (Thinking)は常時有効
    • preserve_thinking も強制有効化、マルチターンで推論内容を保持
    • 温度 は1.0、 top_p は0.95推奨
    • インスタントモード は非対応
  • 動画・画像入力 もサポート(現状公式APIのみ実験的対応)

    • チャット補完(Thinkingモード)例
      • ユーザーとAIのメッセージをやり取りし、推論内容と回答を明示的に取得
    • 画像入力例
      • 画像をbase64でAPIに送信し、詳細説明を取得
    • 動画入力例
      • 動画をbase64でAPIに送信し、内容説明を取得
    • preserve_thinking例
      • 過去の推論内容を参照しつつ、マルチターンで回答を生成
    • Interleaved Thinking/Multi-Step Tool Call
      • K2 Thinkingの設計を継承、詳細はK2 Thinkingドキュメント参照
    • Kimi Code CLI
      • 最適なエージェントフレームワーク、https://www.kimi.com/code で利用可能

ライセンス・連絡先

  • Modified MIT License でコード・モデルウェイトを公開
  • サードパーティ通知 はTHIRD PARTY NOTICES参照
  • 問い合わせ先 :support@moonshot.ai

Kimi K2.7 Code は、最先端のコーディングエージェントとして、業務自動化やソフトウェア開発の生産性向上に貢献するモデル。 高い拡張性・互換性・API利用性 を備え、幅広い開発現場で即戦力となる。

Hackerたちの意見

Anthropicとかがどうやって競争力を保ってるのか気になるんだけど、OpusがKimi K2.6や他の中国製モデルに比べて($5 / $25)5倍も高いのに、性能はほんの少し良いだけってのはどういうことなんだろう。私の考えでは、アメリカの企業はデータを中国に送れないから仕方ないと思うけど、それが「防壁」ってことなのかな?

Opusにはほんの少しだけ良くなってほしいんだけど、私は主にリサーチエンジニアリングをやってるから、プロジェクトを台無しにしない能力が欠けてるんだ。クレジットが切れるたびにKimiやComposer 2.5をちょっと使ってみるけど、結局は他のモデルの誤解やお粗末なエンジニアリングのせいで、OAI/ANTのクレジットがリフレッシュされた後に何時間も回復作業をしなきゃいけない。ウェブゲームに触れさせるだけでもそうなんだ…。

「私の理論では、アメリカの企業はデータを中国に送れないんだ。多くのアメリカのプロバイダーがこれらの“オープンソース”モデルをホスティングしているから、それが問題だとは思えない。」

「今のところの競争優位はモデルのパフォーマンスと、それがどれだけのトークンや追加の時間を使うかってことだね。Kimiモデルの比較的頻繁なユーザーとして言うけど、全体的にファンだよ。でも、まだゲーム化されていないベンチマーク、例えばDeepSWEでは、Kimi K2.6はClaude Sonnet 4.6($3 / $15)にしっかり負けてるし、GPT 5.4 Mini($0.75 / $4.50)にも少し負けてる。Kimiモデルは多くのコードタスクに対して非常に良いことは間違いない。最高品質のオープンウェイトモデルだ。ただ、Sonnet/Opusと同じような全体的な結果を得るには、平均してもっと多くのトークンを使わなきゃいけないし、モデルの管理ももっと必要になる。トークンあたりの価格を見るんじゃなくて、全体のプロセスに対していくら払うかを見るべきだよ。」

どのモデルもデファクトで高品質な英語向けのCLIがないのが大きな問題だと思う。試した中国のモデルは、オープンソースのCLIではうまく動かなかった。確かに、試したのは数個だけだけど、それでも…

両方試した人のほとんどは、AnthropicのモデルがKimiよりもかなり良いって言うと思う。Kimiや他のオープンソースモデルはSWE-benchとかでは良いスコアを取るかもしれないけど、実際に使ってみるとその差は明らかだと思う。

みんなの認識としては「ほんの少し良い」って感じじゃないと思う。特にその品質の差が価格差に影響してるかどうかに同意するかは別としてね。もっと言うと、評価を行ってる合理的な人たちがいるから、ほんの少し良いってのは単なる雰囲気じゃないと思う。お金をたくさん使ってる場合には特にね。でも、そういう評価スイートの一部しか見えてないけど。もしかしたらみんな非合理的で、アンソロポシックがそれを利用してるのかも!

現在のエンタープライズの懸念は、AIの波に対するFOMOと、数十万の従業員を再教育または置き換える方法だと思う。コストが今のところ主な懸念ではないと思う。でも、AIが約束通りに迅速に大規模な労働者の置き換えを実現しない場合、C-suiteやそのコンサルタントたちがトークンの価格について質問し始めるのは確かだと思う。

APIトークンの価格は一つの要素だけど、Claudeのサブスクリプションはお得だよね。変なことに、みんなClaudeのサブスクリプションはAPIの価格のおかげで補助されてるって言うけど、実際には(1)Claudeの推論コストが誰も知らないし、(2)中国のプロバイダーも安い推論を提供できるから、なんでClaudeはできないと思ってるのか不思議だよね。企業向けに公開されていないAPI価格の特別な契約があるのかも、だから私たちが見るのは高いAPIの定価だけなんだろうな。

あなたの質問は、中国の企業が無料モデルを出し続けるという前提に依存してるよね。それって、彼らにとっての「堀」って何なの?

オープンウェイトやソースモデルについてはまだまだ初心者なんだ。もしフルタイムで使ってる人がいたら、設定やパフォーマンスについてぜひ教えてほしい。Anthropic製品から移行を考えてるから。

中国のモデルに切り替えようとするんだけど、結局Claudeに出力を直してもらうことになっちゃう。(機能面もスタイルもね。)だからいつも戻っちゃうんだよね。[0] GPTも試してるけど、かなり安定してる。すごく速いし、デバッグも得意。でも、コードがちょっと賢すぎて頭が痛くなることもある。(プロンプトで直せるかも。試してみたら中国のモデルには少し効果があったよ。「エレガントにして」って言うだけで、昔の画像AIの時代みたいに「+good -bad」ってね!)今のところ、実際に理解するためには人間の頭が必要だから、Claudeがその要件を一貫して満たしてくれてるんだ。でも、いつか中国のラボが特別なソースを見つけてくれることを期待してる :) -- [0] (小さな編集にはDeepSeek Flashがすごく楽しい。ほぼ無限のAIが使えるって、すごくない?)

Hacker Newsで議論の続きを見る