Kimi k2、最大のオープンソースSOTAモデルですか？

2025年7月13日原文(github.com)

概要

Kimi K2 は最先端の Mixture-of-Experts (MoE) 言語モデル
1兆パラメータ と 32B有効パラメータ を持つ大規模モデル
Muon最適化手法 を用いた高安定性・高性能
エージェント的推論・ツール利用 に強み
APIや推論エンジンでの 導入・利用方法 も公開

Kimi K2: 次世代MoE言語モデルの紹介

Kimi K2 は 最先端のMixture-of-Experts (MoE) アーキテクチャ採用
総パラメータ1兆・有効パラメータ32B の大規模モデル
MuonClip Optimizer によるスケール時の安定性確保
エージェント的知能 （ツール利用・自律的問題解決）に特化
Kimi-K2-Base と Kimi-K2-Instruct の2バリアントを提供
- Kimi-K2-Base：研究者・開発者向け基盤モデル
- Kimi-K2-Instruct：即利用可能な汎用・エージェント体験向け

モデルの概要・アーキテクチャ

アーキテクチャ ：Mixture-of-Experts (MoE)
総パラメータ数 ：1兆（1T）
有効パラメータ数 ：32B
層数：61（うちDense Layer 1層）
Attention Hidden Dimension ：7168
MoE Hidden Dimension（各Expert） ：2048
Attention Head数 ：64
Expert数 ：384
トークンごとに選択されるExpert数 ：8
共有Expert数 ：1
語彙数 ：160K
コンテキスト長 ：128K
Attention機構 ：MLA
活性化関数 ：SwiGLU

ベンチマーク評価結果（Kimi-K2-Instruct）

コーディングタスク で高いPass@1スコア（例：LiveCodeBench 53.7, SWE-bench Verified 65.8）
ツール利用タスク で強力な性能（Tau2 retail 70.6, AceBench 76.5 など）
数学・STEMタスク で最先端水準（MATH-500 97.4, AIME 2024 69.6 など）
一般タスク でも高精度（MMLU 89.5, MMLU-Redux 92.7 など）
一部指標で世界SOTA・OSS SOTAを達成
詳細なベンチマーク比較 は表を参照

ベースモデル評価結果（Kimi-K2-Base）

MMLU-Redux-2.0 等で高精度（90.2）、他OSSモデルと比較し優位性
SimpleQA, TriviaQA など幅広いタスクで高スコア
コーディング・数学・中国語タスク でも高水準

デプロイと利用方法

API提供 ： https://platform.moonshot.ai でOpenAI/Anthropic互換API
- Anthropic互換APIは温度パラメータ調整（request_temperature * 0.6）
モデルチェックポイント ：block-fp8形式でHuggingfaceに公開
推奨推論エンジン ：vLLM、SGLang、KTransformers、TensorRT-LLM
デプロイ例 はModel Deployment Guide参照

モデル利用例

チャット補完 ：OpenAI互換APIで簡単にチャット可能
- 推奨温度：0.6
- デフォルトのsystemプロンプト例を提供
ツール呼び出し ：Kimi-K2-Instructは強力なツールコール機能
- ツールリストを渡すことで自律的にツール実行
- サンプルコードでエンドツーエンドのツール呼び出し手順を解説
- 推論エンジンがKimi-K2のネイティブツール解析ロジックをサポートしている必要あり

ライセンス・問い合わせ

Modified MIT License でコード・モデル重みを公開
問い合わせ先 ：support@moonshot.cn

Kimi K2 は大規模・高性能なMoE言語モデルであり、 研究・開発・実運用 の幅広いシーンで活用可能。 OSSモデルの中でもトップクラスの性能 を持ち、 APIや推論エンジン連携 も充実。エージェント的な知能やツール利用が求められる現場で特に有効。

Hackerたちの意見

これはすごく印象的な汎用LLM（GPT 4o、DeepSeek-V3ファミリー）だね。オープンソースでもあるし。ただ、推論やマルチモーダルAIモデルに注目が移ったから、あんまり注目されてない気がする。精度のベンチマークでは、トップモデルはみんな推論系だしね。もし誰かがKimi k2を使って推論モデルをトレーニングしたら、そのモデルがどんな感じになるのか気になるな。

└

「もし誰かがKimi k2を使って推論モデルをトレーニングしたら、今まさにMoonshotAIがそれをやってるんじゃないかな」

└

なんでKimiの現在のモデルや古いモデルはベンチマークされて、Artificial analysisに追加されてないの？

これはサム・アルトマンが「おっと、実は今週新しいオープンソースモデルをリリースできない、すまん。なんかセキュリティの懸念がある」と言わせたモデルリリースだね。もしかしたら、彼らのオープンソースモデルのリリースは、これと比べるとあんまり良くないのかも。

「オープンソース」って笑っちゃうよね。実際はオープンウェイト。いつも通り、データセットやトレーニングスクリプトは手に入らないし。

└

現在の著作権制度の下では無理だね。著作権で保護されたテキストなしで最先端をトレーニングするのは不可能だし、それをどうやって配布するつもりなの？

└

それはオープンウェイトじゃなくて、ウェイトアベイラブルだよ。「修正されたMITライセンス」を使ってる。修正されたMITライセンスの著作権 (c) 2025 Moonshot AI このソフトウェアと関連する文書ファイル（以下「ソフトウェア」と呼ぶ）のコピーを取得したすべての人に対して、無償で、制限なくソフトウェアを扱う権利が付与されます。具体的には、使用、コピー、修正、統合、公開、配布、サブライセンス、販売などが含まれますが、これに限られません。ソフトウェアを提供された人にも同様のことを許可します。ただし、以下の条件に従う必要があります：上記の著作権表示とこの許可通知は、ソフトウェアのすべてのコピーまたは重要な部分に含める必要があります。ソフトウェアは「現状のまま」提供され、いかなる種類の保証もありません。著作権者や著作権保有者は、ソフトウェアの使用や取引に起因するいかなる請求、損害、その他の責任についても責任を負いません。私たちの唯一の修正点は、もしソフトウェア（またはその派生作品）が、月間アクティブユーザーが1億人を超える商業製品やサービス、または月間収益が2000万ドル（他の通貨で同等）を超える場合、あなたはその製品やサービスのユーザーインターフェースに「Kimi K2」を目立つように表示する必要があるということです。

Kimiをいくつかのコーディング問題に試してみたけど、いい感じだったよ。めちゃくちゃ大きいから「ローカル」モデルには向かないと思うけど、他のモデルとはちょっと違った雰囲気があった。気に入ったよ。少なくともアンサンブルの使い方には役立ちそう。

└

4bit量子化で512GBのMac Studioを2台使えば、合理的な速度は出せるよ（MLX TB4リング - https://x.com/awnihannun/status/1943723599971443134）とか、1TB以上のRAMを持つシングルソケットのEpycシステムでもね（M Ultraと同じくらいの実際のメモリスループット）。だから、遊ぶには約2万ドルくらいかかるかな。でも、実際の速度を求めるなら、かなりのハードウェアが必要だね。これは「自分のスタンプをデプロイする」モデルって感じで、「ローカル」モデルとはちょっと違う。

└

それでもかなり良いと思う。十分なリソースを持っている人なら、他の人たちのためにもっと扱いやすいサイズに圧縮できるかもしれないね。

└

Claudeと比べて何回か試してみたけど、KimiはClaudeの過剰設計された解決策よりもずっとシンプルで読みやすいコードを書いてくれた。ただ、Claudeが対処したいくつかの微妙なエッジケースを見逃してたけどね。

└

Claudeって何？Sonnet？3.7？3.5？Opus？4？

Hacker Newsで議論の続きを見る

ハクソク