世界を動かす技術を、日本語で。

標準GPUによるリアルタイムLLM推論:リクエストあたり3,000トークン/秒

概要

  • AI推論の高速化 により、GPUで専用ハードウェア並みの速度を実現
  • 単一リクエストLLMデコード速度 最適化の重要性と、そのボトルネックがFLOPSではなく メモリ帯域幅 である理由を解説
  • 従来のソフトウェアスタック が速度を制限している現状と、その限界突破方法を提示
  • アーキテクチャ・エンジン・カーネルの協調設計 による速度向上事例を紹介
  • Kogの公開プレビュー で実際に高速推論を体験可能

AI推論高速化の本質とKogのアプローチ

  • AI inference をGPU上で極限まで高速化し、専用推論カードと同等の速度領域へ
  • ソフトウェアスタック全体の最適化 とアーキテクチャ/エンジン/カーネルの協調設計による実現
  • playground.kog.ai でライブデモを提供
  • 企業やAIラボ、ソブリンAI購入者が既存の データセンターGPU で利用可能
  • 既存スタックの非最適化 が主な制限要因であり、GPUの本来の性能を引き出せていない現状

単一リクエストLLMデコード速度の重要性

  • AIエージェント においては、単一リクエストのデコード速度がボトルネック
  • 推論ベンチマークには「スループット」「初期トークンまでの時間」「リクエストごとのデコード速度」が存在
  • シーケンシャルなエージェント処理 では、デコード速度が体験・生産性を左右
  • 例:50,000トークン生成時、100 tokens/s なら8分、3,000 tokens/s なら20秒未満
  • 知能×反復速度 こそが今後のプロダクティビティフロンティア

GPU推論の速度制限要因:メモリ帯域幅

  • バッチサイズ1 時、自己回帰型デコードは行列-ベクトル演算が支配的
  • 各トークン生成ごとに 全アクティブ重み がGPU内部メモリ階層を通過
  • 速度上限:tokens/s ≤ 有効メモリ帯域幅 ÷ (β × アクティブ重みバイト数 + KVキャッシュ)
  • 低バッチデコードは演算強度が低く、FLOPSよりもメモリ帯域幅が律速
  • 例:8×NVIDIA H200ノードで約30.7TB/s、8×AMD MI300Xノードで約33.6TB/sの帯域幅
  • 2Bパラメータモデルなら、理論上は7,700~8,400 tokens/sが上限
  • 新世代GPU(Rubin, MI450) で帯域4倍、より大規模モデルや少数GPUで同速度が可能に

標準推論スタックのボトルネックとKogの工夫

  • 標準スタック では、カーネル起動・クリーンアップなどのオーバーヘッドでマイクロ秒単位の損失が蓄積
  • 例:カーネル起動4.5µs×10カーネル×25層=1,125µs/トークン→速度上限約890 tokens/s
  • Kog独自のPersistent Monokernel 方式で、カーネル境界・CPUスケジューリングなどのオーバーヘッドを排除
  • GPU常駐型プログラム で全デコードパスを一括実行、同期や通信も最適化
  • KCCL通信プリミティブ やトポロジー認識型メモリアクセスなど独自技術を多数実装

Kog Inference Engineの特徴とイノベーション

  • モデル・ランタイム・GPUコードの三位一体設計 による最大速度追求
  • PyTorchやTriton等の汎用フレームワークに依存せず、 低レベル手書きGPUコード で実装
  • Monokernelランタイム :1つのGPUプログラムで全処理(MatMul, attention, normalization, routing, sampling, communication)をカバー
  • 同期・通信・プリフェッチ・実行順序 まで細かく制御
  • 全てのマイクロ秒損失源を徹底的に排除 し、理論帯域幅に近い速度を実現

まとめ:今後の展望と体験方法

  • AI推論の高速化 はメモリ帯域最適化とソフトウェア協調設計が鍵
  • Kogの技術プレビュー で、既存データセンターGPU上での高速単一リクエスト推論を実体験可能
  • 今後のGPU進化 でさらに大規模モデルや高バッチサイズにも対応可能
  • プロダクトやユーザー体験 を根本から変える新たな推論基盤の提案

Hackerたちの意見

すごく面白いかもしれないけど、27Bモデル以上で本当にうまくいくか判断するのは難しいね。2Bモデルでもかなりいい速度出せるし。

ありがとう!OPのブログの最後のセクションで、どうやって大きなモデルにスケールするかを説明してるよ。

これはすごく興味深いね。エキゾチックなハードウェアなしでそのレートが出せる可能性がある。でも、比較があまり公平じゃないと思う。2Bモデルと、たぶん何百倍も大きいフロンティアモデルを比べてるし。それに、15000トークン/秒の推論を持ってるタラスが比較から外れてるのも怪しいよね。このフレームワークと、今のところ約30Bの有用なモデルとの比較を見たいな。

おそらく、小さいモデルがGPUを突っつくために設計されたファズァーの最適化を早くしてるんだろうね。スタックを短くしてるから、スケールアップすると思ってるみたい。

Deepseek v4 Proで1Kトークン/秒出したんだって。ちょっとクールだね。

いいポイントだね。ベンチマークではできるだけ公平を心がけたけど、完璧ではないのは確かだ。Taalasは専用ハードウェアのセクションに追加すべきだったね。彼らはFP16の時に3ビット量子化を使ってるし、モデルをカードに直接焼き付けてるから。私たちの技術プレビューはスピードに関するもので(だから小さな密なモデルにしたんだ、実装が楽だったから)、でも数学的には大きなフロンティアMoEモデルを同じスピードでサポートできるようになってるよ。 - バッチサイズ1では、GPT-OSS-120Bは5.1Bのアクティブパラメータを持ってる - FP8では、私たちの2BモデルのFP16と同じくらいのサイズ(5.1GB対4GB)。 - DeepSeek V4 Flashは混合FP4/FP8で13Bだから、4GBの約3倍くらいと考えればいいかな。理論的には、MI300X/H200で1,000トークン/秒以上、次世代GPUでは最大4kに達する可能性があるよ。詳しい数学はブログの最後をチェックしてね: https://blog.kog.ai/real-time-llm-inference-on-standard-gpus...

論理的誤謬って面白そうだね?まるで毎日疑わしい主張が出てこないみたいに?

スタンダードGPU > 8× NVIDIA H200

もちろん、データセンターに依存してるか、自分の敷地の隅に設置されることになるよね。時代についていこうぜ… /s

GrogやCerebrasみたいなカスタムチップじゃないからね。1つのGPUチップが3k tpsに達すると思ってた?

タイトルに「スタンダードGPU」って書いてあったから、一瞬ワクワクしたけど、記事自体を読んだら…

「スタンダードGPU」って読んで、何を考えてたの?

「データセンターGPU」か「NvidiaとAMDのGPU」って言うべきだったね。

もっと技術的で研究に興味がある人向けにフォローアップ: Monokernelの深掘り(GPUエンジニアリング): http://blog.kog.ai/building-a-single-kernel-latency-optimize... 遅延テンソル並列処理(研究): http://blog.kog.ai/delayed-tensor-parallelism-for-faster-tra... スピードを試すためのプレイグラウンド: http://playground.kog.ai

DTPは新しいモデルをそれに合わせて訓練する必要がある独自のアーキテクチャ選択みたいだね?既存のモデルの推論をそのまま動かすことはできないってことか。

すごく期待できそう!いくつか質問があるんだけど、新しいオープンウェイトモデルの場合、推論エンジンのためにモデルコードや最適化を手動で適応させる必要があるの?確かに、エージェント的なワークフローではBS=1が王様だけど、こういうシステムは動的バッチ処理で複数のリクエストを同時に処理するよね。スケールすると思う?オープンソースにする予定はあるの?リリースおめでとう!

ありがとう!感謝してるよ。質問に答えると: - はい、全てのモデルコードを(同じロジックを保ちながら)CUDA/HIPとアセンブリで書き直して、各GPUタイプに最適化してるよ。確かにかなり手間がかかるけど、こういう結果を得るための代償だと思う。 - バッチ処理の質問はいいね。エージェントシステムでは、逐次的な思考や反復と複数の解を並行して探ることのトレードオフがあるかもしれない。また、ユースケースによっては、複数の独立したタスクが並行して動いていることもある。少量のバッチ処理はサポートする予定だけど、スピードとのトレードオフがすぐに出てくるよ。ユースケースに合わせて選んでね。それに、リクエストにすごく早く応答できるから、高いバッチ数がなくてもたくさん処理できるし、複数のノードでのスケーリングも可能だよ。 - オープンソース化については、まだ決めかねてる。私たちは小さなスタートアップで、知的財産を手放すのは自分たちの足を撃つことになるかもしれないって言われてる。一方で、コミュニティや私たちにとって大きな利益になるかもしれない…どうなるか見てみよう。

H200は全然標準的なGPUじゃないね。

タイトルから「標準データセンターGPU」をうっかり抜かしちゃったんじゃないかな。これ、修正が必要かも。俺の「標準」GPUはまだ3090だし。

デモは絶対試してみて! https://playground.kog.ai/ 未来のプレビューみたいだよ。

デモは速いし、予想通りすごくバカみたい。飲酒習慣をやめる方法を聞いたら、フォローアップのメッセージ一つで8%のABVを試してみることを勧めてきた。笑える。

今すぐCerebras Coderのサブスクリプションでかなり速いものが手に入るよ。でも、最後にチェックしたときの彼らのベストモデルはちょっと古いGLM 4.7だったかな。 https://inference-docs.cerebras.ai/models/overview もしDeepSeek V4 FlashとProが彼らのハードウェアで動けば、たとえ1000トークン/秒未満でも、彼らが提供するサブスクリプションでかなりの成果を上げられると思う。トークン制限がかなり寛大だったからね。

Taalasの https://chatjimmy.ai/ もそんな感じだね。

これめっちゃクールだね。しばらくの間、メモリ帯域幅とTPSの関係が消費者向けカードでは小さいモデルにしか効かないって嘆いてたけど、データセンターのハードウェアでは全然ダメだった。でも、推論エンジンの実装に気を使えば、その関係が復活できるのが素晴らしい。

すべては相対的だって分かってるけど、> 8× AMD MI300X GPU と 8× NVIDIA H200 の 2,100 を考えると、やっぱりすごいなって思う。これだけの計算能力があっても、目的からすると「ローエンド」扱いなんだよね。