概要
Kimi Linearは、高速かつ効率的な線形アテンションアーキテクチャ 長文・短文・RLスケーリング領域で従来のfull attentionを上回る性能 KVキャッシュ削減やデコーディング高速化などハードウェア効率性向上 Kimi Delta Attention(KDA)による新しいゲーティング機構 Hugging Faceやvllmで容易に利用・展開可能
Kimi Linear: 高効率・高性能な線形アテンションアーキテクチャ
- Kimi Linear は、従来のfull attention手法を超える 高効率・高性能な線形アテンションアーキテクチャ
- 長文(最大1Mトークン)・短文・強化学習(RL) など多様なスケーリング領域で高いパフォーマンス
- コア技術は Kimi Delta Attention(KDA) で、Gated DeltaNetを改良し、効率的なゲーティング機構を実現
- 有限状態RNNメモリ の最適活用により、ハードウェア効率を大幅向上
- KVキャッシュの削減(最大75%) や、1Mトークンまでの デコーディングスループット最大6倍向上
ベンチマーク結果
- MMLU-Pro(4k context) :Kimi Linearは 51.0 の性能、full attentionと同等の速度
- RULER(128k context) :Pareto最適( 84.3)、 3.98倍の高速化
- TPOT(1Mトークン) :MLA比で 6.3倍高速化、長文処理で大幅な速度向上
モデル情報
| モデル名 | パラメータ総数 | 有効パラメータ | コンテキスト長 | ダウンロード先 | |------------------------|----------------|----------------|----------------|----------------------| | Kimi-Linear-Base | 48B | 3B | 1M | 🤗 Hugging Face | | Kimi-Linear-Instruct | 48B | 3B | 1M | 🤗 Hugging Face |
主な特徴
- Kimi Delta Attention(KDA) :ゲーティングを細粒度化した線形アテンション機構
- ハイブリッド構成 : KDA:global MLA=3:1 の比率でメモリ消費を抑えつつ高品質維持
- 優れたパフォーマンス :1.4Tトークンの学習でもfull attentionを上回る
- 高スループット :デコーディング速度最大6倍、TPOT大幅短縮
利用方法:Hugging Face Transformersによる推論
- Python >= 3.10
- torch >= 2.6
- fla-core >= 0.4.0
pip install -U fla-core
from transformers import AutoModelForCausalLM, AutoTokenizer
model_name = "moonshotai/Kimi-Linear-48B-A3B-Instruct"
model = AutoModelForCausalLM.from_pretrained(
model_name,
torch_dtype="auto",
device_map="auto",
trust_remote_code=True
)
tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True)
messages = [
{"role": "system", "content": "You are a helpful assistant provided by Moonshot-AI."},
{"role": "user", "content": "Is 123 a prime?"}
]
input_ids = tokenizer.apply_chat_template(
messages, add_generation_prompt=True, return_tensors="pt"
).to(model.device)
generated_ids = model.generate(inputs=input_ids, max_new_tokens=500)
response = tokenizer.batch_decode(generated_ids)[0]
print(response)
デプロイ方法:OpenAI互換APIエンドポイント(vllm利用)
- vllm serve コマンドで簡単にAPI化
- tensor-parallel-size=4 や max-model-len=1048576 など各種オプション対応
vllm serve moonshotai/Kimi-Linear-48B-A3B-Instruct \
--port 8000 \
--tensor-parallel-size 4 \
--max-model-len 1048576 \
--trust-remote-code
論文引用
- 研究利用時は下記の形式で引用推奨
@misc{team2025kimi,
title = {Kimi Linear: An Expressive, Efficient Attention Architecture},
author = {Zhang, Yu and Lin, Zongyu and Yao, Xingcheng and ...},
year = {2025},
eprint = {2510.26692},
archivePrefix = {arXiv},
primaryClass = {cs.CL}
}