世界を動かす技術を、日本語で。

Kimi k2、最大のオープンソースSOTAモデルですか?

概要

  • Kimi K2 は最先端の Mixture-of-Experts (MoE) 言語モデル
  • 1兆パラメータ32B有効パラメータ を持つ大規模モデル
  • Muon最適化手法 を用いた高安定性・高性能
  • エージェント的推論・ツール利用 に強み
  • APIや推論エンジンでの 導入・利用方法 も公開

Kimi K2: 次世代MoE言語モデルの紹介

  • Kimi K2最先端のMixture-of-Experts (MoE) アーキテクチャ採用
  • 総パラメータ1兆・有効パラメータ32B の大規模モデル
  • MuonClip Optimizer によるスケール時の安定性確保
  • エージェント的知能 (ツール利用・自律的問題解決)に特化
  • Kimi-K2-BaseKimi-K2-Instruct の2バリアントを提供
    • Kimi-K2-Base:研究者・開発者向け基盤モデル
    • Kimi-K2-Instruct:即利用可能な汎用・エージェント体験向け

モデルの概要・アーキテクチャ

  • アーキテクチャ :Mixture-of-Experts (MoE)
  • 総パラメータ数 :1兆(1T)
  • 有効パラメータ数 :32B
  • 層数 :61(うちDense Layer 1層)
  • Attention Hidden Dimension :7168
  • MoE Hidden Dimension(各Expert) :2048
  • Attention Head数 :64
  • Expert数 :384
  • トークンごとに選択されるExpert数 :8
  • 共有Expert数 :1
  • 語彙数 :160K
  • コンテキスト長 :128K
  • Attention機構 :MLA
  • 活性化関数 :SwiGLU

ベンチマーク評価結果(Kimi-K2-Instruct)

  • コーディングタスク で高いPass@1スコア(例:LiveCodeBench 53.7, SWE-bench Verified 65.8)
  • ツール利用タスク で強力な性能(Tau2 retail 70.6, AceBench 76.5 など)
  • 数学・STEMタスク で最先端水準(MATH-500 97.4, AIME 2024 69.6 など)
  • 一般タスク でも高精度(MMLU 89.5, MMLU-Redux 92.7 など)
  • 一部指標で世界SOTA・OSS SOTAを達成
  • 詳細なベンチマーク比較 は表を参照

ベースモデル評価結果(Kimi-K2-Base)

  • MMLU-Redux-2.0 等で高精度(90.2)、他OSSモデルと比較し優位性
  • SimpleQA, TriviaQA など幅広いタスクで高スコア
  • コーディング・数学・中国語タスク でも高水準

デプロイと利用方法

  • API提供 : https://platform.moonshot.ai でOpenAI/Anthropic互換API
    • Anthropic互換APIは温度パラメータ調整(request_temperature * 0.6)
  • モデルチェックポイント :block-fp8形式でHuggingfaceに公開
  • 推奨推論エンジン :vLLM、SGLang、KTransformers、TensorRT-LLM
  • デプロイ例 はModel Deployment Guide参照

モデル利用例

  • チャット補完 :OpenAI互換APIで簡単にチャット可能
    • 推奨温度:0.6
    • デフォルトのsystemプロンプト例を提供
  • ツール呼び出し :Kimi-K2-Instructは強力なツールコール機能
    • ツールリストを渡すことで自律的にツール実行
    • サンプルコードでエンドツーエンドのツール呼び出し手順を解説
    • 推論エンジンがKimi-K2のネイティブツール解析ロジックをサポートしている必要あり

ライセンス・問い合わせ

  • Modified MIT License でコード・モデル重みを公開
  • 問い合わせ先 :support@moonshot.cn

Kimi K2 は大規模・高性能なMoE言語モデルであり、 研究・開発・実運用 の幅広いシーンで活用可能。 OSSモデルの中でもトップクラスの性能 を持ち、 APIや推論エンジン連携 も充実。エージェント的な知能やツール利用が求められる現場で特に有効。

Hackerたちの意見

これはすごく印象的な汎用LLM(GPT 4o、DeepSeek-V3ファミリー)だね。オープンソースでもあるし。ただ、推論やマルチモーダルAIモデルに注目が移ったから、あんまり注目されてない気がする。精度のベンチマークでは、トップモデルはみんな推論系だしね。もし誰かがKimi k2を使って推論モデルをトレーニングしたら、そのモデルがどんな感じになるのか気になるな。

「もし誰かがKimi k2を使って推論モデルをトレーニングしたら、今まさにMoonshotAIがそれをやってるんじゃないかな」

なんでKimiの現在のモデルや古いモデルはベンチマークされて、Artificial analysisに追加されてないの?

これはサム・アルトマンが「おっと、実は今週新しいオープンソースモデルをリリースできない、すまん。なんかセキュリティの懸念がある」と言わせたモデルリリースだね。もしかしたら、彼らのオープンソースモデルのリリースは、これと比べるとあんまり良くないのかも。

「オープンソース」って笑っちゃうよね。実際はオープンウェイト。いつも通り、データセットやトレーニングスクリプトは手に入らないし。

現在の著作権制度の下では無理だね。著作権で保護されたテキストなしで最先端をトレーニングするのは不可能だし、それをどうやって配布するつもりなの?

それはオープンウェイトじゃなくて、ウェイトアベイラブルだよ。「修正されたMITライセンス」を使ってる。修正されたMITライセンスの著作権 (c) 2025 Moonshot AI このソフトウェアと関連する文書ファイル(以下「ソフトウェア」と呼ぶ)のコピーを取得したすべての人に対して、無償で、制限なくソフトウェアを扱う権利が付与されます。具体的には、使用、コピー、修正、統合、公開、配布、サブライセンス、販売などが含まれますが、これに限られません。ソフトウェアを提供された人にも同様のことを許可します。ただし、以下の条件に従う必要があります:上記の著作権表示とこの許可通知は、ソフトウェアのすべてのコピーまたは重要な部分に含める必要があります。ソフトウェアは「現状のまま」提供され、いかなる種類の保証もありません。著作権者や著作権保有者は、ソフトウェアの使用や取引に起因するいかなる請求、損害、その他の責任についても責任を負いません。私たちの唯一の修正点は、もしソフトウェア(またはその派生作品)が、月間アクティブユーザーが1億人を超える商業製品やサービス、または月間収益が2000万ドル(他の通貨で同等)を超える場合、あなたはその製品やサービスのユーザーインターフェースに「Kimi K2」を目立つように表示する必要があるということです。

Kimiをいくつかのコーディング問題に試してみたけど、いい感じだったよ。めちゃくちゃ大きいから「ローカル」モデルには向かないと思うけど、他のモデルとはちょっと違った雰囲気があった。気に入ったよ。少なくともアンサンブルの使い方には役立ちそう。

4bit量子化で512GBのMac Studioを2台使えば、合理的な速度は出せるよ(MLX TB4リング - https://x.com/awnihannun/status/1943723599971443134)とか、1TB以上のRAMを持つシングルソケットのEpycシステムでもね(M Ultraと同じくらいの実際のメモリスループット)。だから、遊ぶには約2万ドルくらいかかるかな。でも、実際の速度を求めるなら、かなりのハードウェアが必要だね。これは「自分のスタンプをデプロイする」モデルって感じで、「ローカル」モデルとはちょっと違う。

それでもかなり良いと思う。十分なリソースを持っている人なら、他の人たちのためにもっと扱いやすいサイズに圧縮できるかもしれないね。

Claudeと比べて何回か試してみたけど、KimiはClaudeの過剰設計された解決策よりもずっとシンプルで読みやすいコードを書いてくれた。ただ、Claudeが対処したいくつかの微妙なエッジケースを見逃してたけどね。

Claudeって何?Sonnet?3.7?3.5?Opus?4?

最初に与えた質問(私がコードにしてもらったちょっとした簡単な数学の問題)に対して、めちゃくちゃ間違ってた。公平を期すために言うと、驚いたことにOpenAIのモデルもこのタスクには失敗してたけど、少し促したらなんとかできたみたい。

新しくてしっかりした非推論モデルが好きだな。フロンティアを押し広げるやつね。これらはまだいい使い道があるし(基本的に論理パズルやSTEMのテーマが関係ないところ)、推論トークンにお金を使いたくない時に役立つよ。

予想するに、OpenAIのオープンソースモデルは、Kimi K2に先を越されて、数字で負けたから遅れたんじゃないかな。

OpenAIの誰かが「自宅でホスティングするには大きすぎる」と言ってたから、君の言う通りかもしれないね。今頃、いくつかの評価を探して、ベンチマックスしてるんじゃないかな。

これはオープンソースじゃないよ。「修正されたMITライセンス」を持っていて、特定の閾値を超えるユーザーに対して他の制限があるんだ。私たちの唯一の修正点は、もしソフトウェア(またはその派生作品)が、月間アクティブユーザーが1億人を超える商業製品やサービス、または月間収益が2000万ドル(他の通貨で同等)を超える場合、あなたはその製品やサービスのユーザーインターフェースに「Kimi K2」を目立つように表示する必要があるということだよ。

それはLlamaの「“Built with Llama”を目立つように表示する」と「月間アクティブユーザーが7億人を超える」という条件を組み合わせたようなもので、ちょっと変わったMITライセンスとして偽装されてる感じだね。

その制限はOSD(またはFSFのフリーソフトウェア定義、Debianの)に違反してない気がする。GPLv2やGPLv3、4条BSDライセンスにも似たような制限があるけど、ユーザーや収益の閾値はないんだ。例えば、GPLv2ではこう言ってる:> c) 修正されたプログラムが通常、対話的にコマンドを読み取る場合、あなたはそれを、普通の方法で対話的に使用するために起動したときに、適切な著作権表示と保証がないことを示す通知を表示させる必要があります(または、保証を提供することを示す)。ユーザーがこのライセンスのコピーをどのように見るかを伝えることも必要です。(例外:プログラム自体が対話的だけど、通常そのような通知を表示しない場合、あなたのプログラムに基づく作品は通知を表示する必要はありません。)そして、4条BSDライセンスではこう言ってる:> 3. このソフトウェアの機能や使用に言及するすべての広告資料は、以下の認識を表示しなければなりません:この製品には、組織によって開発されたソフトウェアが含まれています。これらのライセンスは、単にオープンソースライセンスではなく、IIRCではOSDの採用に関する議論の多くが、彼らやより難しいアーティスティックライセンスが除外されないようにすることに集中していたんだ。ニューラルネットワークが「オープンソース」か「オープンソースでない」と話すのはナンセンスだよ。なぜなら、彼らが構築されるソースコードは存在しないから。最も近いのはトレーニング資料とトレーニング手順だけど、それを実行するのは再コンパイルとはかなり異なる。何百万ドルもかかるし、毎回同じ結果が出るわけじゃないからね。でも、それはライセンスに関する質問ではないよ。

それは基本的にOpenStreetMapよりも制限が少ないね。

これはオープンソースじゃない。OSIの純粋主義は有害で、業界の支配を招いている。非ウイルス的なオープンソースは、ハイパースケーラーが利用するためのライセンスに過ぎない。彼らは提供物を取り込んで、何も返さずに数億ドルを稼いでいる。小さなICを支援するために、持続可能なエンジニアリングを支える「フェアソース」ライセンスがもっと必要だ。多兆ドルの時価総額を持つ巨大企業ではなくてね。オープンウェブを壊しているのも同じ企業だ。このライセンスは作者を守るものでもない。MAU/ARRの閾値を超えたらクレジットを求めるだけだ。正直、閾値に達したらお金を請求すべきだし、Mag7の使用を完全にブラックリストにすべきだ。これを構築するためにかけたリソースはかなりのものなのに、無料で提供してくれている。感謝すべきだよ。

これのどの部分が四つの基本的自由に反してるの?指摘できる?

バカみたいだけど、LLMの世界では「オープンソース」は通常「ウェイトが公開されている」という意味で使われる。これはソフトウェアライセンスの意味での「オープンソース」と混同しないようにね。

私にとってK2は山で、SOTAは「空中の頂上」だね。その見出しを見て「うわ、すごい!」って思ったよ :-)

私にとってK2はKotlin 2.0のコンパイラだね。 https://blog.jetbrains.com/kotlin/2023/02/k2-kotlin-2-0/

技術的な強みは別として、Kimi K2がどれだけロボットっぽくないかに感心してる。彼の個性はAnthropicの最高のものに近い:心地よくて、鋭くて、雄弁だ。ボットのようなつまらない文章に対する小さな勝利だね。

今のところ、回答の質と声が気に入ってるよ(ChatGPTやDeepSeekよりも少し控えめで、もっと直接的)。でも、回答のフォーマットがSOTAモデルよりも頻繁に崩れてる気がする(DeepSeekもそのカテゴリーに入るか、近い感じ)。