Kimi Linear: 表現力豊かで効率的なアテンションアーキテクチャ

概要

Kimi Linearは、高速かつ効率的な線形アテンションアーキテクチャ長文・短文・RLスケーリング領域で従来のfull attentionを上回る性能 KVキャッシュ削減やデコーディング高速化などハードウェア効率性向上 Kimi Delta Attention（KDA）による新しいゲーティング機構 Hugging Faceやvllmで容易に利用・展開可能

Kimi Linear: 高効率・高性能な線形アテンションアーキテクチャ

Kimi Linear は、従来のfull attention手法を超える 高効率・高性能な線形アテンションアーキテクチャ
長文（最大1Mトークン）・短文・強化学習（RL） など多様なスケーリング領域で高いパフォーマンス
コア技術は Kimi Delta Attention（KDA） で、Gated DeltaNetを改良し、効率的なゲーティング機構を実現
有限状態RNNメモリ の最適活用により、ハードウェア効率を大幅向上
KVキャッシュの削減（最大75%） や、1Mトークンまでの デコーディングスループット最大6倍向上

ベンチマーク結果

MMLU-Pro（4k context） ：Kimi Linearは 51.0 の性能、full attentionと同等の速度
RULER（128k context） ：Pareto最適（ 84.3）、 3.98倍の高速化
TPOT（1Mトークン） ：MLA比で 6.3倍高速化、長文処理で大幅な速度向上

モデル情報

| モデル名 | パラメータ総数 | 有効パラメータ | コンテキスト長 | ダウンロード先 | |------------------------|----------------|----------------|----------------|----------------------| | Kimi-Linear-Base | 48B | 3B | 1M | 🤗 Hugging Face | | Kimi-Linear-Instruct | 48B | 3B | 1M | 🤗 Hugging Face |

主な特徴

Kimi Delta Attention（KDA） ：ゲーティングを細粒度化した線形アテンション機構
ハイブリッド構成 ： KDA:global MLA=3:1 の比率でメモリ消費を抑えつつ高品質維持
優れたパフォーマンス ：1.4Tトークンの学習でもfull attentionを上回る
高スループット ：デコーディング速度最大6倍、TPOT大幅短縮

利用方法：Hugging Face Transformersによる推論

Python >= 3.10
torch >= 2.6
fla-core >= 0.4.0

pip install -U fla-core

from transformers import AutoModelForCausalLM, AutoTokenizer

model_name = "moonshotai/Kimi-Linear-48B-A3B-Instruct"
model = AutoModelForCausalLM.from_pretrained(
    model_name,
    torch_dtype="auto",
    device_map="auto",
    trust_remote_code=True
)
tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True)

messages = [
    {"role": "system", "content": "You are a helpful assistant provided by Moonshot-AI."},
    {"role": "user", "content": "Is 123 a prime?"}
]
input_ids = tokenizer.apply_chat_template(
    messages, add_generation_prompt=True, return_tensors="pt"
).to(model.device)
generated_ids = model.generate(inputs=input_ids, max_new_tokens=500)
response = tokenizer.batch_decode(generated_ids)[0]
print(response)

デプロイ方法：OpenAI互換APIエンドポイント（vllm利用）

vllm serve コマンドで簡単にAPI化
tensor-parallel-size=4 や max-model-len=1048576 など各種オプション対応

vllm serve moonshotai/Kimi-Linear-48B-A3B-Instruct \
  --port 8000 \
  --tensor-parallel-size 4 \
  --max-model-len 1048576 \
  --trust-remote-code

論文引用

研究利用時は下記の形式で引用推奨

@misc{team2025kimi,
  title = {Kimi Linear: An Expressive, Efficient Attention Architecture},
  author = {Zhang, Yu and Lin, Zongyu and Yao, Xingcheng and ...},
  year = {2025},
  eprint = {2510.26692},
  archivePrefix = {arXiv},
  primaryClass = {cs.CL}
}

Hackerたちの意見

https://lifearchitect.ai/models-table/

初めて聞く人のために、「ハイブリッド線形アテンションアーキテクチャ」って何？

└

彼らのレイヤーの1/4は従来の二次アテンションだよ。

└

この質問をしてくれてありがとう。いい返事がもらえたよ。

ハードウェアのおすすめある？これにはどれくらいのメモリが必要？

└

量子化されたバージョンには、48GB以上のカードが必要だね。そうじゃないとKVキャッシュ用の意味のあるスペースが残らない。Blackwell以降のモデルを使うのが、4bのための高速ハードウェアサポートを得るにはいいアイデアだよ（最近のモデルは古いアーキテクチャ向けに出荷されるのに時間がかかったりしたし、gpt-ossだったかな）。

AIがどんどん進化していくのがすごいね。新しいモデルが出るたびに、すごく大きな進歩を感じる。

└

効率性が向上しているだけだね。これらのコストに対して価値が不釣り合いに高いことを考えると、君の言い方は、パフォーマンスを押し上げるというさらに難しい側面が改善されたように聞こえるよ。

チャットGPTからパープレキシティに乗り換えて、今はKimi K2に移行したんだけど、ここで読んだ記事を見て、中国のモデルがスパイしてるとかの恐れは単なるデマだって分かったんだ。正直、私の経験ではKimi K2の方がパープレキシティよりずっと良いと思う。なんとかうまくやっていけるといいな。AIを作るには、欲に反するレベルの協力が必要みたいだね。

└

ここで読んだ記事を見て、中国のモデルがスパイしてるとかの恐れは単なるデマだって分かったんだ。彼らが人をスパイしてないとは思わないけど、実際どうやって知るの？中国の警察が訪れたことがないからって、それが「単なる真実」だってどうやって分かるの？とはいえ、私も中国のモデルをたくさん使ってるけど、特に恐れてないよ。ただ、ローカルで使ってるから、クラウドプラットフォームじゃないんだ。

└

パープレキシティやKimiがGPT-5より優れてると思う理由は何？

└

私のデフォルトの仮定は、すべてのモデルがスパイしてる（というか、スパイされてる）ってこと。データがあまりにも魅力的だから、主要な情報機関はこのレベルの人々への洞察を得ることに興奮してるはず。もちろん、Kimiには恐れがあるよね。中国政府がMoonshot AIにデータを共有させるのが簡単だから。他の国は、中国の対諜報機関に見つからないようにデータをこっそり抜き取る必要がある。GPT-5の場合は、アメリカ政府がOpenAIに圧力をかけるのが簡単で、他の国もアメリカの対諜報機関に見つからないようにデータを抜き取る必要がある。スパイされていないと reasonably 確信できる唯一の方法は、自分でモデルを運用するか、モデルを動かすためにGPUの時間を借りることだと思う。私が心配しているのは、特定のクエリを検出したり、中国の競争相手や敵のために働いていると検出したときに、モデルが毒された回答を返すように仕掛けられているかどうかだ。でも、それは機能するためにはかなりこっそりやらないといけないよね。

既存のモデルとの比較はどう？共通のベンチマークでのテキストやコーディング、MMLUとか？

みんなAIデータセンターが極端なエネルギー需要で地球を壊すことを心配してるよね。でも、AIの推論やトレーニングをもっと効率的にするためには、まだ大きな学習曲線があるみたい。より良いアルゴリズムによってAIデータセンターの終末を見ない可能性はどれくらいある？

└

ポリシーがないと、効率の向上は常に需要の増加で相殺されるよね。エネルギー消費のソース別のデータはいい例で、代替手段があるのに、今ほど石炭を消費したことはないよ。 https://ourworldindata.org/global-energy-200-years

└

過去2年間で大きな効率向上が見られたよね。小さなモデルがどんどん能力を高めてるし、簡単なタスクに必要な最小限のモデルサイズも縮小してる。独自のモデル提供者は新しいマイルストーンについて話すのをやめて、代わりにほとんど黙ってる方法で大幅な価格引き下げを達成してる（おそらく小さなモデルや異なるモデルサイズへのインテリジェントなルーティングが含まれてる）。でも、今のところこれはただ需要を増やす結果になってる。もしもっと安ければ、LLMを使うことができるケースがたくさんあるし、効率が上がるたびにそういうケースが増えていくよね。

└

AIデータセンターの終末を回避する可能性は、より良いアルゴリズムによってどれくらい高いと思う？ほぼ確実だと思うよ。アルゴリズムの改善は、何十年もハードウェアの改善を上回ってきたからね。今、小さなモデルの台頭を見ているし、ちょっとした調整で小さなモデルが非常に優れた問題解決者になれることが分かってきた。むしろ、最新の大規模モデルよりも優れているかも。データセンターのスケーリングは、モデルサイズを制限するデータの限界に達しているから、ピークに近づいていると思う。

└

この心配は広まっているとは思わないし、必要でもないと思う。中国は、核エネルギーや太陽光、そして水力を使って、アメリカのエネルギー生産を2倍以上に増やしても、環境に大きな影響を与えていない。むしろ、アメリカは大幅に生産不足だよ。

コンテキストのスケーリングに関する主な問題は、メモリ使用量が二次的に増加することだと聞いたけど、Googleはこれを回避する方法を見つけたのかな？彼らは膨大なコンテキストを持っているし。（カスタムハードウェアもあるけど、それだけで説明は足りる？）

ハクソク