世界を動かす技術を、日本語で。

DeepSeek-v3.2-Exp

概要

  • DeepSeek-V3.2-Exp は、次世代アーキテクチャへの中間段階としてリリース
  • DeepSeek Sparse Attention による長文処理効率の大幅向上
  • V3.1-Terminus と同等レベルの出力品質とベンチマーク性能
  • TileLangDeepGEMM などのオープンソースカーネルの活用
  • HuggingFaceSGLangvLLM での導入手順とライセンス情報

DeepSeek-V3.2-Exp 概要

  • DeepSeek-V3.2-Exp は、実験的なモデルバージョンの正式リリース
  • V3.1-Terminus を基盤とし、 DeepSeek Sparse Attention (DSA)を新規搭載
  • DSA は、長文コンテキストにおける学習・推論効率の最適化を目的としたスパースアテンション機構
  • 計算効率 の向上と、 モデル出力品質 の維持を両立
  • 効率的なTransformerアーキテクチャ に向けた継続的な研究成果

DeepSeek Sparse Attention(DSA)の特徴

  • 微細粒度スパースアテンション の初実装
  • 長文処理時の 学習効率・推論速度 の大幅な向上
  • モデル出力品質 は従来モデル(V3.1-Terminus)とほぼ同等
  • トレーニング設定 はV3.1-Terminusと意図的に一致

ベンチマーク比較

  • MMLU-Pro: 85.0(V3.1) vs 85.0(V3.2-Exp)
  • GPQA-Diamond: 80.7 vs 79.9
  • Humanity's Last Exam: 21.7 vs 19.8
  • LiveCodeBench: 74.9 vs 74.1
  • AIME 2025: 88.4 vs 89.3
  • HMMT 2025: 86.1 vs 83.6
  • Codeforces: 2046 vs 2121
  • Aider-Polyglot: 76.1 vs 74.5
  • BrowseComp: 38.5 vs 40.1
  • BrowseComp-zh: 45.0 vs 47.9
  • SimpleQA: 96.8 vs 97.1
  • SWE Verified: 68.4 vs 67.8
  • SWE-bench Multilingual: 57.8 vs 57.9
  • Terminal-bench: 36.7 vs 37.7

オープンソースカーネル

  • TileLang: 読みやすさと研究用途に特化したカーネル
  • DeepGEMM: 高性能CUDAカーネルやページド版インデクサロジットカーネル
  • FlashMLA: スパースアテンションカーネルの提供

ローカル実行方法

  • HuggingFaceモデル重み を推論用フォーマットに変換
    • cd inference
    • export EXPERTS=256
    • python convert.py --hf-ckpt-path ${HF_CKPT_PATH} --save-path ${SAVE_PATH} --n-experts ${EXPERTS} --model-parallel ${MP}
  • インタラクティブチャット の起動
    • export CONFIG=config_671B_v3.2.json
    • torchrun --nproc-per-node ${MP} generate.py --ckpt-path ${SAVE_PATH} --config ${CONFIG} --interactive

SGLangによる導入

  • Dockerイメージ の取得
    • H200: docker pull lmsysorg/sglang:dsv32
    • MI350: docker pull lmsysorg/sglang:dsv32-rocm
    • NPUs: docker pull lmsysorg/sglang:dsv32-a2 / docker pull lmsysorg/sglang:dsv32-a3
  • サーバー起動コマンド
    • python -m sglang.launch_server --model deepseek-ai/DeepSeek-V3.2-Exp --tp 8 --dp 8 --page-size 64

vLLMでの対応

  • vLLMDeepSeek-V3.2-Exp をリリース当日からサポート
  • 最新の導入方法は公式レシピ参照

ライセンスと引用情報

  • MIT License によるリポジトリおよびモデル重みの提供
  • 論文引用例
    • @misc{deepseekai2024deepseekv32, title={DeepSeek-V3.2-Exp: Boosting Long-Context Efficiency with DeepSeek Sparse Attention}, author={DeepSeek-AI}, year={2025}, }

問い合わせ先

  • 質問・要望 はGitHub Issueまたは service@deepseek.com まで

Hackerたちの意見

ディープスパースアテンションがコード(構造化された長いファイルの推論)に役立つみたいだね。

スパースアテンションが実際の世界で使われてるのはすごいね!

中国のOSSモデルがどんどん良くなって、安くなっていくのを見るのは嬉しい。しかも、すでに安いモデルのAPI価格が50%も下がって、今は$0.28/M入力($0.028/Mキャッシュヒット)> $0.42/M出力になったよ。

価格が下がったのはいいけど、どれくらい持つんだろうね。前はすごく安かったのに、急に倍近くになって、今また下がったんだよね。

前の価格っていくらだったっけ?最近値上げしたばかりだと思ってたんだけど。

すごい…コストが大幅に削減されてるのに、ベンチマークはほぼ安定してる。印象的だね。

あまり話題にならない2次的な影響は価格だよね。このペースでモデルがスケールすることが価格とも相関してるのは驚き。モデルの知能と同じくらい、AIの普及にとって重要だと思う。私の知る限り、価格が下がり続けることを妨げる「法則」はないし、少なくともムーアの法則(今のAI/Nvidiaチップの開発サイクルが何と呼ばれているかは知らないけど)と関連してる。新しい世代のハードウェアは次々とかなり速くて安くなってるから、来年にはChatGPT-5モデルが半額で登場するかも?(モデルのコストが上がるのは分かってるけど、トークン単位で見ればね)

価格の下落を過小評価してるよ。ある記事を取り上げると、GPT 3.5の登場からの最初の2年間で、同じ知能の推論価格が年間10倍減少したって、アンドリーセン・ホロウィッツの研究によるとね。だから、急激な減速シナリオでも、次の5年間で1000倍の減少が見込めるかもしれない。価格のデフレーションは今のところムーアの法則とは関係ないよ。パフォーマンスの向上はモデルの最適化や高帯域幅メモリの供給チェーン、電力供給の拡大から来てるから、FLOP密度とは関係ないんだ。

みんなすごいね!実際のデータに対してどうパフォーマンスを発揮するのかすごく気になる。小さなニュアンスが重要なところでね。それと、128Kのコンテキストウィンドウを超えてテストしたことある?

https://openrouter.ai/deepseek/deepseek-v3.2-exp

おかしいな。モデルが「データでトレーニング中」って表示されてるんだよね。「私たちの知る限り、このプロバイダーはあなたのプロンプトや完了を使って新しいモデルをトレーニングするかもしれません。このプロバイダーは無効ですが、データポリシーを変更することで再度有効にできます。」って。普通、有料モデルにはこういうことはないのに、Openrouterがこのモデルを間違って表示してるのか、それともDeepseekが実際に提出されたデータでトレーニングしてるのかな?

Open Routerって本当にオープンなの?「メイン」のリポジトリがアーカイブされてるし、小さめのプロジェクトがいくつかあるだけなんだけど。APIクライアントのバインディングだけがオープンで、コアのルーティングサービスはクローズなのかな?

面白いね。モデルがまだまだ進化してるから、専用のハードウェアがあまり注目されてないんだね。ほとんど汎用のプラットフォームで大きなスケーリングの進展が見られるし。