世界を動かす技術を、日本語で。

DeepSeek-v3.1 リリース

概要

  • DeepSeek-V3.1 の発表と主要アップデート
  • Think/Non-Think のハイブリッド推論モード導入
  • API・ツール・エージェント の強化
  • 長文コンテキスト対応オープンソース重み の公開
  • 価格改定情報 と割引終了時期の案内

DeepSeek-V3.1: エージェント時代への第一歩

  • DeepSeek-V3.1、新たなAIエージェント時代への進化
  • ハイブリッド推論 :Think(思考)・Non-Think(非思考)を1モデルで両立
  • DeepSeek-V3.1-Think、従来モデル(DeepSeek-R1-0528)より高速な解答生成
  • ポストトレーニング によるツール利用・マルチステップエージェントタスク強化
  • DeepThinkボタン でThink/Non-Thinkを簡単切替、https://chat.deepseek.com/ で体験可能

APIアップデート

  • deepseek-chat :Non-Think(非思考)モード用APIエンドポイント
  • deepseek-reasoner :Think(思考)モード用APIエンドポイント
  • 128Kコンテキスト 両モードでサポート
  • Anthropic API形式 対応、詳細:https://api-docs.deepseek.com/guides/anthropic_api
  • Strict Function Calling (ベータ)対応API、詳細:https://api-docs.deepseek.com/guides/function_calling
  • APIリソース拡充 と操作性向上

ツール・エージェント機能強化

  • SWE / Terminal-Bench でのパフォーマンス向上
  • 複雑な検索タスク でのマルチステップ推論強化
  • 思考効率 の大幅向上

モデルアップデート

  • V3.1 Base :840Bトークンによる継続事前学習、長文対応力強化
  • トークナイザー・チャットテンプレート 更新、新設定:https://huggingface.co/deepseek-ai/DeepSeek-V3.1/blob/main/tokenizer_config.json
  • V3.1 Base オープンソース重み公開:https://huggingface.co/deepseek-ai/DeepSeek-V3.1-Base
  • V3.1 オープンソース重み公開:https://huggingface.co/deepseek-ai/DeepSeek-V3.1

価格改定と割引終了

  • 新価格体系 :2025年9月5日16:00(UTC)より適用、オフピーク割引終了
  • それまで現行価格 でAPI提供
  • 価格詳細ページ :https://api-docs.deepseek.com/quick_start/pricing/

Hackerたちの意見

参考までに、こちらがターミナルベンチのリーダーボードです: https://www.tbench.ai/leaderboard GPT-5やClaude 4、GLM-4.5には全然及ばないけど、他のオープンウェイトモデルと比べるとそこそこ良い感じ。ベンチマークだけじゃ全体像はわからないから、実際にどれくらい良いかは時間が経てばわかるね。

リストにあるDeepSeek R1は、古いモデルで置き換えられたやつだよ。アップデート: 理解した。

個人的な経験としては、高品質な結果を出してくれるよ。

エージェントによるね。ランク5と15はClaude 4 Sonnetで、これが15位に近い感じ。

正直、AnthropicやOpenAIみたいな会社は、特定のベンチマーク用にカスタムエージェントを作ってるよ。

ゴミみたいなベンチマークだね。「エージェントツール」とモデルの混合が不一致すぎる。意味のあるベンチマークを提示したいなら、エージェントツールは同じにして、モデルを本当に比較できるようにしないと。これに反対するベンチマークもたくさんあるけど、個人的にはほとんどのベンチマークはクソだと思う。自分でモデルを使って、自分の問題を適用してみて、どれだけうまくいくか見てみて。

でも、価格がヤバすぎるよ。財布が痛まないならSOTAなんてどうでもいい。

ハイブリッド推論モデルだよ。ツール呼び出しには強いけど、全てを深く考えすぎない感じ。ただ、標準のJSONフォーマットじゃなくて、古いツールフォーマットをランダムに使うことが多いみたい。V3のトレーニングセットにはそういうのがたくさんあるんだろうね。

どんなフォーマット? JSONのスキーマがあるからこそ、これらのLLMがデコーダーレベルで構造化された出力を強制できるんじゃないの? どんなフォーマットでもできるとは思うけど、なんでJSONから逸れるの?

厳密な(ベータ)関数呼び出し試した? https://api-docs.deepseek.com/guides/function_calling

Qwen3 235B 2507 Reasoning(俺が好きなやつ)やgpt-oss-120Bには劣るみたいだね: https://artificialanalysis.ai/models/deepseek-v3-1-reasoning 価格: https://openrouter.ai/deepseek/deepseek-chat-v3.1

今のところ、Qwen3 2507モデルはローカルでのトップクラスだよ。もしGPUがあって、約32GBのRAMが使えるなら、A3Bモデルはペアプログラミングタスクにぴったりだよ。

関係ないけど、いろんなモデルやプロンプト、ハードウェアの組み合わせでのトークン毎秒の価格をまとめたチャートがあったらいいな。

これだね:https://pricepertoken.com/

ローカルで動かすために、いくつかGGUF作ったよ! ダイナミック2bit(2bit MoE、残りは6-8bit)で良いパフォーマンスを出すには、RAM + VRAMが250GB以上必要だね。SSDオフロードもできるけど、遅くなるよ。 ./llama.cpp/llama-cli -hf unsloth/DeepSeek-V3.1-GGUF:UD-Q2_K_XL -ngl 99 --jinja -ot ".ffn_.*_exps.=CPU" 実行方法や最適なパラメータについての詳細はここにあるよ: https://docs.unsloth.ai/basics/deepseek-v3.1

ところで、unsloth(クソPythonライブラリ)がapt-getをsudoで実行しようとして失敗するのはなんでだろう(俺のnixosでは)。どうやって使えばいいの?

過去6ヶ月で使った中で、これが一番ハルシネートするみたい。

今回は「悪いデータ」を「借りた」のかな?

V3とQwen3 Coderの中間くらいだね。 https://brokk.ai/power-ranking?version=openround-2025-08-20&...

gpt-5 Miniはどのプロバイダーからも無料なの?

安い!百万トークンあたり$0.56で、出るときは百万トークンあたり$1.68だね。

前の価格から大幅に上がったね:$0.27/$1.10

SWEベンチの検証スコアは66%だって。Claude Sonnet 4は67%。この1%の差が統計的に意味があるかはわからないな。ハイプが収まった後、1週間くらい様子を見てみるつもり。

このモデルを使ってるよ。