予想外に速いAI生成カーネル、まだ公開するつもりではなかった

概要

KernelBench （2024年12月リリース）のタスクセットアップを利用
- torchコードをもとにLLMがカスタムカーネルを生成し高速化を目指す
- 参照はデフォルトで FP32、許容誤差1e-02で低精度も許容
- 問題ごとにサイズを固定し、 サイズ特化最適化 を評価
- 参照コードと生成コードをランダム入力で 数値一致検証
一般的な最適化ループ
- モデルがカーネルを逐次修正し、 正しさと性能を検証 しながら改良
- アイデアの多様性不足や 局所最適化 への陥りやすさが課題

自然言語による最適化アイデア生成
- 各ステップで直接カーネルを生成せず、自然言語で 最適化アイデア を出力
- そのアイデアから新たなコードバリアントを実装
各ステップでの分岐探索
- 1ステップごとに複数の実装を生成し、 最良カーネルを次ラウンドのシード に
- 大規模並列探索 により多様な方向性を同時に模索
結果： 構造化された探索的最適化ループ を実現し、従来よりも新規性の高い最適化案を発見

torch参照基準：1.41ms
ラウンドごとの最適化案と性能推移
- CUDAカーネルへの単純置換、 7.02ms（20.1%）
- Read-onlyキャッシュ利用、 7.54ms（18.8%）
- FP16 Tensor-Core GEMM変換、 3.46ms（41.0%）
- cp.asyncによるダブルバッファリング、 3.67ms（38.7%）
- 既存の良好なGEMMカーネルをシードに、 3.46ms（41.0%）
- k_idx分解インデックスの共有メモリ事前計算、 1.91ms（74.9%）
- N次元GEMMインデックスの共有メモリキャッシュ、 1.37ms（103.6%）
- ワープ単位の共有メモリバッファによる出力並列化、 1.38ms（102.9%）
- 入力座標の共有メモリキャッシュ、 1.37ms（103.6%）
- Bフラグメントのソフトウェアパイプライン、 1.36ms（105.1%）
- N次元GEMM分解の出力アドレス計算再利用、 1.07ms（133.6%）
- half WMMAのhi/lo分解省略、 1.21ms（117.4%）
- Kループのダブルバッファリング、 1.01ms（141.2%）
- half2によるベクトル化共有メモリ書き込み、 0.795ms（179.9%）
最終コードは高度なCUDA技術を駆使し、手書きが困難なレベル

強力な 推論力 と 並列探索 の組み合わせが最適化を大きく前進
AlphaEvolve や Gemini 2.5 Pro Deep Think の示す通り、賢い探索と分岐戦略で大規模再学習不要な場合も
本手法は 合成データ生成 の質向上にも寄与し、今後のモデル訓練にも有用
依然として課題も存在
- FP16 Matmul: torch.matmul比52%
- FP16 Flash Attention: torch.nn.functional.scaled_dot_product_attention比9%
FP32 は近年のハードウェアで最適化が遅れがちで、FP16/BF16対応の最適化が今後の焦点
探索予算が限られる中でも着実に性能向上 を実現し、AIによるカーネル最適化の将来性に期待