世界を動かす技術を、日本語で。

Kimi Linear: 表現力豊かで効率的なアテンションアーキテクチャ

2025年10月31日原文(github.com)

概要

Kimi Linearは、高速かつ効率的な線形アテンションアーキテクチャ 長文・短文・RLスケーリング領域で従来のfull attentionを上回る性能 KVキャッシュ削減やデコーディング高速化などハードウェア効率性向上 Kimi Delta Attention(KDA)による新しいゲーティング機構 Hugging Faceやvllmで容易に利用・展開可能

Kimi Linear: 高効率・高性能な線形アテンションアーキテクチャ

  • Kimi Linear は、従来のfull attention手法を超える 高効率・高性能な線形アテンションアーキテクチャ
  • 長文(最大1Mトークン)・短文・強化学習(RL) など多様なスケーリング領域で高いパフォーマンス
  • コア技術は Kimi Delta Attention(KDA) で、Gated DeltaNetを改良し、効率的なゲーティング機構を実現
  • 有限状態RNNメモリ の最適活用により、ハードウェア効率を大幅向上
  • KVキャッシュの削減(最大75%) や、1Mトークンまでの デコーディングスループット最大6倍向上

ベンチマーク結果

  • MMLU-Pro(4k context) :Kimi Linearは 51.0 の性能、full attentionと同等の速度
  • RULER(128k context) :Pareto最適( 84.3)、 3.98倍の高速化
  • TPOT(1Mトークン) :MLA比で 6.3倍高速化、長文処理で大幅な速度向上

モデル情報

| モデル名 | パラメータ総数 | 有効パラメータ | コンテキスト長 | ダウンロード先 | |------------------------|----------------|----------------|----------------|----------------------| | Kimi-Linear-Base | 48B | 3B | 1M | 🤗 Hugging Face | | Kimi-Linear-Instruct | 48B | 3B | 1M | 🤗 Hugging Face |

主な特徴

  • Kimi Delta Attention(KDA) :ゲーティングを細粒度化した線形アテンション機構
  • ハイブリッド構成KDA:global MLA=3:1 の比率でメモリ消費を抑えつつ高品質維持
  • 優れたパフォーマンス :1.4Tトークンの学習でもfull attentionを上回る
  • 高スループット :デコーディング速度最大6倍、TPOT大幅短縮

利用方法:Hugging Face Transformersによる推論

  • Python >= 3.10
  • torch >= 2.6
  • fla-core >= 0.4.0
pip install -U fla-core
from transformers import AutoModelForCausalLM, AutoTokenizer

model_name = "moonshotai/Kimi-Linear-48B-A3B-Instruct"
model = AutoModelForCausalLM.from_pretrained(
    model_name,
    torch_dtype="auto",
    device_map="auto",
    trust_remote_code=True
)
tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True)

messages = [
    {"role": "system", "content": "You are a helpful assistant provided by Moonshot-AI."},
    {"role": "user", "content": "Is 123 a prime?"}
]
input_ids = tokenizer.apply_chat_template(
    messages, add_generation_prompt=True, return_tensors="pt"
).to(model.device)
generated_ids = model.generate(inputs=input_ids, max_new_tokens=500)
response = tokenizer.batch_decode(generated_ids)[0]
print(response)

デプロイ方法:OpenAI互換APIエンドポイント(vllm利用)

  • vllm serve コマンドで簡単にAPI化
  • tensor-parallel-size=4max-model-len=1048576 など各種オプション対応
vllm serve moonshotai/Kimi-Linear-48B-A3B-Instruct \
  --port 8000 \
  --tensor-parallel-size 4 \
  --max-model-len 1048576 \
  --trust-remote-code

論文引用

  • 研究利用時は下記の形式で引用推奨
@misc{team2025kimi,
  title = {Kimi Linear: An Expressive, Efficient Attention Architecture},
  author = {Zhang, Yu and Lin, Zongyu and Yao, Xingcheng and ...},
  year = {2025},
  eprint = {2510.26692},
  archivePrefix = {arXiv},
  primaryClass = {cs.CL}
}

Hackerたちの意見

https://lifearchitect.ai/models-table/

初めて聞く人のために、「ハイブリッド線形アテンションアーキテクチャ」って何?

彼らのレイヤーの1/4は従来の二次アテンションだよ。

この質問をしてくれてありがとう。いい返事がもらえたよ。

ハードウェアのおすすめある?これにはどれくらいのメモリが必要?

量子化されたバージョンには、48GB以上のカードが必要だね。そうじゃないとKVキャッシュ用の意味のあるスペースが残らない。Blackwell以降のモデルを使うのが、4bのための高速ハードウェアサポートを得るにはいいアイデアだよ(最近のモデルは古いアーキテクチャ向けに出荷されるのに時間がかかったりしたし、gpt-ossだったかな)。

AIがどんどん進化していくのがすごいね。新しいモデルが出るたびに、すごく大きな進歩を感じる。

効率性が向上しているだけだね。これらのコストに対して価値が不釣り合いに高いことを考えると、君の言い方は、パフォーマンスを押し上げるというさらに難しい側面が改善されたように聞こえるよ。

チャットGPTからパープレキシティに乗り換えて、今はKimi K2に移行したんだけど、ここで読んだ記事を見て、中国のモデルがスパイしてるとかの恐れは単なるデマだって分かったんだ。正直、私の経験ではKimi K2の方がパープレキシティよりずっと良いと思う。なんとかうまくやっていけるといいな。AIを作るには、欲に反するレベルの協力が必要みたいだね。

ここで読んだ記事を見て、中国のモデルがスパイしてるとかの恐れは単なるデマだって分かったんだ。 彼らが人をスパイしてないとは思わないけど、実際どうやって知るの? 中国の警察が訪れたことがないからって、それが「単なる真実」だってどうやって分かるの? とはいえ、私も中国のモデルをたくさん使ってるけど、特に恐れてないよ。ただ、ローカルで使ってるから、クラウドプラットフォームじゃないんだ。

パープレキシティやKimiがGPT-5より優れてると思う理由は何?

私のデフォルトの仮定は、すべてのモデルがスパイしてる(というか、スパイされてる)ってこと。データがあまりにも魅力的だから、主要な情報機関はこのレベルの人々への洞察を得ることに興奮してるはず。もちろん、Kimiには恐れがあるよね。中国政府がMoonshot AIにデータを共有させるのが簡単だから。他の国は、中国の対諜報機関に見つからないようにデータをこっそり抜き取る必要がある。GPT-5の場合は、アメリカ政府がOpenAIに圧力をかけるのが簡単で、他の国もアメリカの対諜報機関に見つからないようにデータを抜き取る必要がある。スパイされていないと reasonably 確信できる唯一の方法は、自分でモデルを運用するか、モデルを動かすためにGPUの時間を借りることだと思う。私が心配しているのは、特定のクエリを検出したり、中国の競争相手や敵のために働いていると検出したときに、モデルが毒された回答を返すように仕掛けられているかどうかだ。でも、それは機能するためにはかなりこっそりやらないといけないよね。

Hacker Newsで議論の続きを見る