「DeepSeek」はスケールで安価だが、ローカルで運用すると高価な理由

2025年6月1日原文(seangoedecke.com)

概要

DeepSeek-V3 のようなモデルは、 大規模運用では高速・低コスト だが、 ローカル実行では非効率
バッチ推論 による スループットとレイテンシのトレードオフ が存在
GPU効率 は 大きな行列演算（GEMM） で最大化
Mixture-of-Experts（MoE）モデル や 多層モデル は大きなバッチサイズが必要
個人利用では高効率化が困難 な仕組み

DeepSeek-V3の高速・低コストな運用とローカル実行の非効率性

DeepSeek-V3 は 大規模なバッチ推論 を前提とした設計
GPUは大きな行列演算（GEMM） を得意とし、多数のリクエストを一括処理することで 最大効率 を発揮
個人利用や小規模環境 ではバッチサイズが小さくなり、 GPUリソースが非効率 に
バッチ推論 により 多数ユーザーのリクエストをまとめて処理、1リクエストごとに処理するより遥かに高速
ローカル実行 では 1ユーザー分のリクエストしか溜まらず、バッチ化の恩恵を受けられない

AIモデルの応答遅延とスループットのトレードオフ

スループット（処理能力） と レイテンシ（応答速度） は トレードオフ関係
バッチサイズを大きく すると スループットは向上 するが レイテンシは増加
バッチサイズを小さく すると レイテンシは減少 するが スループットは低下
ユーザーリクエストを一定時間（例：200ms）収集 し まとめて処理、効率優先の設計
バッチ推論 は 複数ユーザーのトークン を同時に処理する仕組み

バッチ推論とGPU効率化の仕組み

GPUは大きな行列演算（GEMM） を一度に行うことで 最大効率 を発揮
1トークンずつ処理 するより 複数トークンをまとめて処理 した方が圧倒的に高速
リクエストごとにキューにトークンを格納 し、 GPUサーバーがバッチ単位で一括処理
バッチサイズの調整 で スループットとレイテンシのバランス を最適化
大規模運用では大量のリクエストが常にキューに溜まるため高効率

Mixture-of-Expertsモデルのバッチ依存性

Mixture-of-Experts（MoE）モデル は 多数の「エキスパート」層 を持つ特殊構造
各エキスパート は 割り当てられたトークンのみ処理
バッチサイズが小さいとエキスパートが十分に活用されず非効率
大きなバッチサイズ で 全エキスパートをフル活用 し 高スループット を実現
DeepSeek-V3 のようなモデルは 高バッチ・高レイテンシ運用が必須

多層モデルとパイプラインバブル問題

大規模モデル では 多数のトランスフォーマ層 を 複数GPUで分担処理
各GPUが一部の層を担当 し パイプライン化
小さなバッチサイズだと「パイプラインバブル」 （GPUのアイドル時間）が発生
バッチサイズを大きく し パイプライン全体を効率化
バッチ収集ウィンドウ を広げることで バブルを回避

なぜバッチ推論が不可欠なのか

Attentionステップのバッチ処理 には 同じ形状（シーケンス長）のトークンが必要
ユーザーごとにシーケンス長が異なるため、 完全な連続処理は困難
AttentionとFFNを同時に大きなGEMMで処理 することで メモリ効率も向上
バッチ推論の仕組み上、複数ユーザーのリクエストが常に必要

OpenAIやAnthropicの高速応答の理由

MoE構造や層数を抑えた効率的アーキテクチャの可能性
独自の高度な推論最適化技術の導入
必要以上に大量のGPUリソース投入による高速化
DeepSeek-V3のようなモデルは構造上、個人利用では効率化が難しい

まとめ

GPUは大きなGEMMで高効率、 バッチ推論が必須
バッチサイズ（収集ウィンドウ） による スループットとレイテンシの調整
MoEモデルや多層モデル は 大きなバッチサイズが不可欠
個人利用ではバッチ化が困難なため非効率
大規模サービスでこそ真価を発揮する設計

Hackerたちの意見

時間を節約したいなら、バッチ推論が答えだよ。要するに、複数の人の「プロンプト」を同時にモデルインスタンスに通すってこと。モデルインスタンスを厳密にタイムシェアする代わりにね。これが、温度を0に設定しても、固定のシードを使っても、サービスを利用したときに返信にバラつきが出る理由なんだ。他のプロンプトと一緒にバッチ処理されるから、自分のプロンプトだけをコントロールできないんだよね。これってデータ流出攻撃のベクトルになり得るのかな？多分、そこまで「調査」してないけど。

└

他のプロンプトと一緒にバッチ処理されるなんでバッチ処理がバラつきにつながるの？

└

複数の人の「プロンプト」を同時にモデルインスタンスに通すってこと。自分はプロバイダーがすべてのモデルでそうしてると思ってた。これってこの（ファミリーの？）モデルだけに通用するの？

└

他の人のプロンプトと混ざると、すごい攻撃ベクトルになりそうだね。

└

すごい、まるでDeepseekの素晴らしいパフォーマンスは賢いエンジニアたちの最適化の結果みたいだね。

└

平均バッチサイズはどれくらい？

└

バッチ処理。そうだね。ローカルで役立つことの一つは、特定のコンテンツを評価して、それがハルシネーションしていないか確認したいときだね。だから、3回か5回、あるいは…バッチサイズ回投げるんだ。）バッチ処理が最初からあったのは興味深いけど、人々がそれを理解するのには時間がかかるんだね。

自分はMLの研究者でもエンジニアでもないから、話半分に聞いてほしいけど、この投稿にはちょっと混乱してる。Deepseek V3/R1は、通常のローカルモデルに比べてサイズが大きすぎて、ローカルで動かすのは高くつくんだ。アクティブなパラメータの数はフルモデルサイズより明らかに少ないけど、それは計算要件を助けるだけで、メモリ要件には関係ない。複数のH100がない限り、V3/R1はローカルで実用的なスタントとしてしか動かせないし、モデルの一部または全部が低帯域幅のメモリに保存されてる。Deepseek V3のサイズをプロプライエタリなフロンティアモデルと比べることはできないよね、だってそのモデルのサイズもアーキテクチャも全然わからないから。比較されてるモデルは「スケールで高価」だから、ローカルでは全く動かせないけど、ローカルで安く動かせるとは思えないよね？ここで言われてるのとは逆の効果が期待されるはずじゃない？MoEはローカル/シングルユーザーのシナリオにはいいトレードオフだと思う。バッチ処理が難しくて効率が悪いってデメリットは関係ないからね。 > 大きなバッチはレイテンシを上げる、ユーザーのトークンがバッチが十分に満たされるまで200ms待つことがあるけど、フィードフォワードステップでより大きくて効率的なGEMMを可能にすることでスループットを向上させる本当に掛け算される行列が大きいの？自分の考えでは、バッチ処理の目的は大きな入力行列を得ることじゃないと思ってる。ボトルネックをメモリ帯域幅から計算に移すことが目的だと思う。行列はすでに全体のモデルやレイヤーのサイズよりもずっと小さく分割されてるから、HBMからSRAMに重みの一部をロードして、そのスライスの掛け算をして、すべてのタイルが処理されたら結果を集計するって感じ。バッチ処理を使うと、同じ重みで複数の計算ができるから、メモリ帯域幅あたりの効果的なFLOPSが増えるんだ。 > OpenAIとAnthropicのモデルがすぐに応答するってことは、つまり：それって本当に事実なの？投稿には、3つのプロバイダーのファーストトークンまでの時間に関する数字が全くないよ。

└

こんにちは、投稿したのは僕です！自分もMLの研究者じゃなくて、ただ興味があるエンジニアだから、いくつかのことを間違えてるかもしれない。 > MoEはローカル/シングルユーザーのシナリオにはいいトレードオフだと思う。バッチ処理が難しくて効率が悪いってデメリットは関係ないからね。言いたかったのは、シングルユーザーのシナリオでは、GPUあたりのスループットが劇的に悪化するってこと。マルチユーザーのバッチ処理の利点を享受できないから（もし彼らが何らかの形で大規模な並列推論リクエストをしていない限り、だと思う）。 > 本当に掛け算される行列が大きいの？自分の考えでは、バッチ処理の目的は大きな入力行列を得ることじゃないと思ってる。ボトルネックをメモリ帯域幅から計算に移すことが目的だと思う。自分の理解では、ボトルネックをメモリから計算に移すために大きな入力行列が必要なんだ。全くバッチ処理をしないと、掛け算されるサイズが小さくなる（重みは同じだけど、重みと掛け算する次のトークンデータは1xdimになるから、バッチサイズx dimではなくなる）。だから、GPUが十分に活用されず、推論はメモリ操作に時間を使いすぎて、掛け算に使う時間が減る。 > 投稿には、3つのプロバイダーのファーストトークンまでの時間に関する数字が全くない。具体的な数字を探すべきだったけど、DeepSeekや他のモデルを試した人は、DeepSeekが明らかに遅いって気づくと思う。

エキスパートの混合はより大きなバッチサイズを必要とするそれとも、低バッチサイズ（理想的には=1）のためのAppleシリコン。統一メモリは、通常のGPUよりも帯域幅/FLOPSが低いため、モデルが遅くなる代わりに大きなモデルを動かすことを可能にする。でも、MoEは毎回少数のパラメータしか計算しないから、計算ニーズは低いんだ。Macでのシングルバッチ推論に対して、Deepseekの良い速度を報告してる人も見たことあるよ。でも、多くの人にとっては、十分なメモリを得るのにお金がかかるから、まだ高いって感じる。ある意味、MoEモデルはMac（または同様のマシン）にぴったりだよね。対照的に、アップグレードしたRAMサイズのMacを注文して、VRAMに収まる密なモデルを動かすのは非常に苦痛だ。

簡潔に説明すると： - 高いスパース性は、各行列の掛け算が十分な算術強度を持つために、非常に大きなバッチサイズ（同時に処理されるリクエストの数）が必要になる。 - そんなに大きなバッチサイズでは、HBMに重みやMLA/KVキャッシュを収めるために、かなりの数のGPU（タイプによっては8-16台）が必要になる。でも、8-16台のGPUしかないと、合計スループットが低すぎて、多くの個々のユーザーリクエストがほとんどのアプリケーションにとって受け入れられないほど遅くなる。だから、良いユーザー体験のためには256台くらいのGPUが必要だね。

└

16台のH100（2ノード）で運用してるよ。リクエストごとに50〜80トークン/秒出てるし、合計で数千も見たことある。TTFTはかなり安定してる。使えるクラウドサービスより速いよ。

Hacker Newsで議論の続きを見る

ハクソク