ハクソク

世界を動かす技術を、日本語で。

標準GPUによるリアルタイムLLM推論：リクエストあたり3,000トークン/秒

2026年5月29日原文(blog.kog.ai)

概要

AI推論の高速化 により、GPUで専用ハードウェア並みの速度を実現
単一リクエストLLMデコード速度 最適化の重要性と、そのボトルネックがFLOPSではなく メモリ帯域幅 である理由を解説
従来のソフトウェアスタック が速度を制限している現状と、その限界突破方法を提示
アーキテクチャ・エンジン・カーネルの協調設計 による速度向上事例を紹介
Kogの公開プレビュー で実際に高速推論を体験可能

AI推論高速化の本質とKogのアプローチ

AI inference をGPU上で極限まで高速化し、専用推論カードと同等の速度領域へ
ソフトウェアスタック全体の最適化 とアーキテクチャ/エンジン/カーネルの協調設計による実現
playground.kog.ai でライブデモを提供
企業やAIラボ、ソブリンAI購入者が既存の データセンターGPU で利用可能
既存スタックの非最適化 が主な制限要因であり、GPUの本来の性能を引き出せていない現状

単一リクエストLLMデコード速度の重要性

AIエージェント においては、単一リクエストのデコード速度がボトルネック
推論ベンチマークには「スループット」「初期トークンまでの時間」「リクエストごとのデコード速度」が存在
シーケンシャルなエージェント処理 では、デコード速度が体験・生産性を左右
例：50,000トークン生成時、100 tokens/s なら8分、3,000 tokens/s なら20秒未満
知能×反復速度 こそが今後のプロダクティビティフロンティア

GPU推論の速度制限要因：メモリ帯域幅

バッチサイズ1 時、自己回帰型デコードは行列-ベクトル演算が支配的
各トークン生成ごとに 全アクティブ重み がGPU内部メモリ階層を通過
速度上限：tokens/s ≤ 有効メモリ帯域幅 ÷ (β × アクティブ重みバイト数 + KVキャッシュ)
低バッチデコードは演算強度が低く、FLOPSよりもメモリ帯域幅が律速
例：8×NVIDIA H200ノードで約30.7TB/s、8×AMD MI300Xノードで約33.6TB/sの帯域幅
2Bパラメータモデルなら、理論上は7,700～8,400 tokens/sが上限
新世代GPU（Rubin, MI450） で帯域4倍、より大規模モデルや少数GPUで同速度が可能に

標準推論スタックのボトルネックとKogの工夫

標準スタック では、カーネル起動・クリーンアップなどのオーバーヘッドでマイクロ秒単位の損失が蓄積
例：カーネル起動4.5µs×10カーネル×25層＝1,125µs/トークン→速度上限約890 tokens/s
Kog独自のPersistent Monokernel 方式で、カーネル境界・CPUスケジューリングなどのオーバーヘッドを排除
GPU常駐型プログラム で全デコードパスを一括実行、同期や通信も最適化
KCCL通信プリミティブ やトポロジー認識型メモリアクセスなど独自技術を多数実装

Kog Inference Engineの特徴とイノベーション

モデル・ランタイム・GPUコードの三位一体設計 による最大速度追求
PyTorchやTriton等の汎用フレームワークに依存せず、 低レベル手書きGPUコード で実装
Monokernelランタイム ：1つのGPUプログラムで全処理（MatMul, attention, normalization, routing, sampling, communication）をカバー
同期・通信・プリフェッチ・実行順序 まで細かく制御
全てのマイクロ秒損失源を徹底的に排除 し、理論帯域幅に近い速度を実現

まとめ：今後の展望と体験方法

AI推論の高速化 はメモリ帯域最適化とソフトウェア協調設計が鍵
Kogの技術プレビュー で、既存データセンターGPU上での高速単一リクエスト推論を実体験可能
今後のGPU進化 でさらに大規模モデルや高バッチサイズにも対応可能
プロダクトやユーザー体験 を根本から変える新たな推論基盤の提案

Hackerたちの意見

すごく面白いかもしれないけど、27Bモデル以上で本当にうまくいくか判断するのは難しいね。2Bモデルでもかなりいい速度出せるし。

└

ありがとう！OPのブログの最後のセクションで、どうやって大きなモデルにスケールするかを説明してるよ。

これはすごく興味深いね。エキゾチックなハードウェアなしでそのレートが出せる可能性がある。でも、比較があまり公平じゃないと思う。2Bモデルと、たぶん何百倍も大きいフロンティアモデルを比べてるし。それに、15000トークン/秒の推論を持ってるタラスが比較から外れてるのも怪しいよね。このフレームワークと、今のところ約30Bの有用なモデルとの比較を見たいな。

└

おそらく、小さいモデルがGPUを突っつくために設計されたファズァーの最適化を早くしてるんだろうね。スタックを短くしてるから、スケールアップすると思ってるみたい。

└

Deepseek v4 Proで1Kトークン/秒出したんだって。ちょっとクールだね。

└

いいポイントだね。ベンチマークではできるだけ公平を心がけたけど、完璧ではないのは確かだ。Taalasは専用ハードウェアのセクションに追加すべきだったね。彼らはFP16の時に3ビット量子化を使ってるし、モデルをカードに直接焼き付けてるから。私たちの技術プレビューはスピードに関するもので（だから小さな密なモデルにしたんだ、実装が楽だったから）、でも数学的には大きなフロンティアMoEモデルを同じスピードでサポートできるようになってるよ。 - バッチサイズ1では、GPT-OSS-120Bは5.1Bのアクティブパラメータを持ってる - FP8では、私たちの2BモデルのFP16と同じくらいのサイズ（5.1GB対4GB）。 - DeepSeek V4 Flashは混合FP4/FP8で13Bだから、4GBの約3倍くらいと考えればいいかな。理論的には、MI300X/H200で1,000トークン/秒以上、次世代GPUでは最大4kに達する可能性があるよ。詳しい数学はブログの最後をチェックしてね: https://blog.kog.ai/real-time-llm-inference-on-standard-gpus...

└

論理的誤謬って面白そうだね？まるで毎日疑わしい主張が出てこないみたいに？

スタンダードGPU > 8× NVIDIA H200

└

もちろん、データセンターに依存してるか、自分の敷地の隅に設置されることになるよね。時代についていこうぜ… /s

└

GrogやCerebrasみたいなカスタムチップじゃないからね。1つのGPUチップが3k tpsに達すると思ってた？

タイトルに「スタンダードGPU」って書いてあったから、一瞬ワクワクしたけど、記事自体を読んだら…

└

「スタンダードGPU」って読んで、何を考えてたの？

Hacker Newsで議論の続きを見る