自分はMLの研究者でもエンジニアでもないから、話半分に聞いてほしいけど、この投稿にはちょっと混乱してる。Deepseek V3/R1は、通常のローカルモデルに比べてサイズが大きすぎて、ローカルで動かすのは高くつくんだ。アクティブなパラメータの数はフルモデルサイズより明らかに少ないけど、それは計算要件を助けるだけで、メモリ要件には関係ない。複数のH100がない限り、V3/R1はローカルで実用的なスタントとしてしか動かせないし、モデルの一部または全部が低帯域幅のメモリに保存されてる。Deepseek V3のサイズをプロプライエタリなフロンティアモデルと比べることはできないよね、だってそのモデルのサイズもアーキテクチャも全然わからないから。比較されてるモデルは「スケールで高価」だから、ローカルでは全く動かせないけど、ローカルで安く動かせるとは思えないよね?ここで言われてるのとは逆の効果が期待されるはずじゃない?MoEはローカル/シングルユーザーのシナリオにはいいトレードオフだと思う。バッチ処理が難しくて効率が悪いってデメリットは関係ないからね。 > 大きなバッチはレイテンシを上げる、ユーザーのトークンがバッチが十分に満たされるまで200ms待つことがあるけど、フィードフォワードステップでより大きくて効率的なGEMMを可能にすることでスループットを向上させる 本当に掛け算される行列が大きいの?自分の考えでは、バッチ処理の目的は大きな入力行列を得ることじゃないと思ってる。ボトルネックをメモリ帯域幅から計算に移すことが目的だと思う。行列はすでに全体のモデルやレイヤーのサイズよりもずっと小さく分割されてるから、HBMからSRAMに重みの一部をロードして、そのスライスの掛け算をして、すべてのタイルが処理されたら結果を集計するって感じ。バッチ処理を使うと、同じ重みで複数の計算ができるから、メモリ帯域幅あたりの効果的なFLOPSが増えるんだ。 > OpenAIとAnthropicのモデルがすぐに応答するってことは、つまり: それって本当に事実なの?投稿には、3つのプロバイダーのファーストトークンまでの時間に関する数字が全くないよ。