DeepSeek-v3.2-Exp

2025年9月29日原文(github.com)

概要

DeepSeek-V3.2-Exp は、次世代アーキテクチャへの中間段階としてリリース
DeepSeek Sparse Attention による長文処理効率の大幅向上
V3.1-Terminus と同等レベルの出力品質とベンチマーク性能
TileLang や DeepGEMM などのオープンソースカーネルの活用
HuggingFace や SGLang、 vLLM での導入手順とライセンス情報

DeepSeek-V3.2-Exp 概要

DeepSeek-V3.2-Exp は、実験的なモデルバージョンの正式リリース
V3.1-Terminus を基盤とし、 DeepSeek Sparse Attention （DSA）を新規搭載
DSA は、長文コンテキストにおける学習・推論効率の最適化を目的としたスパースアテンション機構
計算効率 の向上と、 モデル出力品質 の維持を両立
効率的なTransformerアーキテクチャ に向けた継続的な研究成果

DeepSeek Sparse Attention（DSA）の特徴

微細粒度スパースアテンション の初実装
長文処理時の 学習効率・推論速度 の大幅な向上
モデル出力品質 は従来モデル（V3.1-Terminus）とほぼ同等
トレーニング設定 はV3.1-Terminusと意図的に一致

ベンチマーク比較

MMLU-Pro: 85.0（V3.1） vs 85.0（V3.2-Exp）
GPQA-Diamond: 80.7 vs 79.9
Humanity's Last Exam: 21.7 vs 19.8
LiveCodeBench: 74.9 vs 74.1
AIME 2025: 88.4 vs 89.3
HMMT 2025: 86.1 vs 83.6
Codeforces: 2046 vs 2121
Aider-Polyglot: 76.1 vs 74.5
BrowseComp: 38.5 vs 40.1
BrowseComp-zh: 45.0 vs 47.9
SimpleQA: 96.8 vs 97.1
SWE Verified: 68.4 vs 67.8
SWE-bench Multilingual: 57.8 vs 57.9
Terminal-bench: 36.7 vs 37.7

オープンソースカーネル

TileLang: 読みやすさと研究用途に特化したカーネル
DeepGEMM: 高性能CUDAカーネルやページド版インデクサロジットカーネル
FlashMLA: スパースアテンションカーネルの提供

ローカル実行方法

HuggingFaceモデル重み を推論用フォーマットに変換
- cd inference
- export EXPERTS=256
- python convert.py --hf-ckpt-path ${HF_CKPT_PATH} --save-path ${SAVE_PATH} --n-experts ${EXPERTS} --model-parallel ${MP}
インタラクティブチャット の起動
- export CONFIG=config_671B_v3.2.json
- torchrun --nproc-per-node ${MP} generate.py --ckpt-path ${SAVE_PATH} --config ${CONFIG} --interactive

SGLangによる導入

Dockerイメージ の取得
- H200: docker pull lmsysorg/sglang:dsv32
- MI350: docker pull lmsysorg/sglang:dsv32-rocm
- NPUs: docker pull lmsysorg/sglang:dsv32-a2 / docker pull lmsysorg/sglang:dsv32-a3
サーバー起動コマンド
- python -m sglang.launch_server --model deepseek-ai/DeepSeek-V3.2-Exp --tp 8 --dp 8 --page-size 64

vLLMでの対応

vLLM は DeepSeek-V3.2-Exp をリリース当日からサポート
最新の導入方法は公式レシピ参照

ライセンスと引用情報

MIT License によるリポジトリおよびモデル重みの提供
論文引用例
- @misc{deepseekai2024deepseekv32, title={DeepSeek-V3.2-Exp: Boosting Long-Context Efficiency with DeepSeek Sparse Attention}, author={DeepSeek-AI}, year={2025}, }

問い合わせ先

質問・要望 はGitHub Issueまたは service@deepseek.com まで

Hackerたちの意見

ディープスパースアテンションがコード（構造化された長いファイルの推論）に役立つみたいだね。

スパースアテンションが実際の世界で使われてるのはすごいね！

中国のOSSモデルがどんどん良くなって、安くなっていくのを見るのは嬉しい。しかも、すでに安いモデルのAPI価格が50%も下がって、今は$0.28/M入力（$0.028/Mキャッシュヒット）> $0.42/M出力になったよ。

└

価格が下がったのはいいけど、どれくらい持つんだろうね。前はすごく安かったのに、急に倍近くになって、今また下がったんだよね。

└

前の価格っていくらだったっけ？最近値上げしたばかりだと思ってたんだけど。

すごい…コストが大幅に削減されてるのに、ベンチマークはほぼ安定してる。印象的だね。

あまり話題にならない2次的な影響は価格だよね。このペースでモデルがスケールすることが価格とも相関してるのは驚き。モデルの知能と同じくらい、AIの普及にとって重要だと思う。私の知る限り、価格が下がり続けることを妨げる「法則」はないし、少なくともムーアの法則（今のAI/Nvidiaチップの開発サイクルが何と呼ばれているかは知らないけど）と関連してる。新しい世代のハードウェアは次々とかなり速くて安くなってるから、来年にはChatGPT-5モデルが半額で登場するかも？（モデルのコストが上がるのは分かってるけど、トークン単位で見ればね）

└

価格の下落を過小評価してるよ。ある記事を取り上げると、GPT 3.5の登場からの最初の2年間で、同じ知能の推論価格が年間10倍減少したって、アンドリーセン・ホロウィッツの研究によるとね。だから、急激な減速シナリオでも、次の5年間で1000倍の減少が見込めるかもしれない。価格のデフレーションは今のところムーアの法則とは関係ないよ。パフォーマンスの向上はモデルの最適化や高帯域幅メモリの供給チェーン、電力供給の拡大から来てるから、FLOP密度とは関係ないんだ。

みんなすごいね！実際のデータに対してどうパフォーマンスを発揮するのかすごく気になる。小さなニュアンスが重要なところでね。それと、128Kのコンテキストウィンドウを超えてテストしたことある？

https://openrouter.ai/deepseek/deepseek-v3.2-exp

└

おかしいな。モデルが「データでトレーニング中」って表示されてるんだよね。「私たちの知る限り、このプロバイダーはあなたのプロンプトや完了を使って新しいモデルをトレーニングするかもしれません。このプロバイダーは無効ですが、データポリシーを変更することで再度有効にできます。」って。普通、有料モデルにはこういうことはないのに、Openrouterがこのモデルを間違って表示してるのか、それともDeepseekが実際に提出されたデータでトレーニングしてるのかな？

└

Open Routerって本当にオープンなの？「メイン」のリポジトリがアーカイブされてるし、小さめのプロジェクトがいくつかあるだけなんだけど。APIクライアントのバインディングだけがオープンで、コアのルーティングサービスはクローズなのかな？

Hacker Newsで議論の続きを見る

ハクソク