全てのGPUを購入したので、徹底的にそのGPUを活用します。

概要

Llama-70B の推論をH100 GPU上で 高スループット で実行するmegakernelの公開
計算・メモリ・通信 の各オペレーションを積極的に重複させて、GPUの各種リソースを同時活用
Tokasaurus inference engine に統合することで、 SGLang より 22%以上高いスループット を実現（ShareGPTベンチマーク65,536プロンプトで測定）
コードは 研究目的 での公開であり、 コンパイラバージョンやGPU構成に依存、サポートなし
アイデアや手法の参考用としての意図

Llama-70Bの大規模バッチ推論 に特化したmegakernel設計
データ並列・テンソル並列 のハイブリッド（sequence parallel）アプローチ
- 一部処理は データ並列、一部は テンソル並列 で実行
通信コスト隠蔽のための工夫
- O projectionを データ並列 化し、 分散転置 操作で通信トラフィックを1/8に削減（8GPU時）
- O projection重複 によるメモリ消費増（GPUごとに9GB増加）、最大バッチサイズ約15%減
命令セットの再設計
- RMS norm＋all-gather、QKV matmul＋RoPE、Attention＋分散転置、O-proj matmul＋residualなど 複数処理を融合した命令
- 低レイテンシ用megakernel では主に 行列×ベクトル、高スループットでは 行列×行列 へ最適化
- 再計算による融合 はスループット重視では非効率、 データ依存性管理 が重要

SM（Streaming Multiprocessor）内外での重複実行
- SM内： 命令間パイプライン化 でメモリ転送と計算を重複
- 複数SM間： 計算集約型・メモリ集約型命令の同時スケジューリング
- 複数GPU間： 通信コストを専用スレッドで隠蔽 し、他スレッドは次命令へ進行
megakernelのインタプリタ型抽象化 は、 低レイテンシ・高スループット両用途で再利用可能

参考用コード・詳細設計・ベンチマーク結果 はGitHubリポジトリ参照