ところで、いくつか訂正があるよ。TurboQuantの論文は2025年4月にArxivに提出されたんだ: https://arxiv.org/abs/2504.19874 現在の「TurboQuant」実装は圧縮率が約3.8倍から4.9倍で(高い方はGSM8Kのパフォーマンスにかなりの影響が出る)、ベースラインの速度は約80-100%(改善なし、逆行)だよ: https://github.com/vllm-project/vllm/pull/38479 注意してない人には、これとvLLMの進行中の議論を送る価値があるかもね: https://github.com/vllm-project/vllm/issues/38171 それとllama.cppも。TurboQuantは悪くないけど、魔法の弾丸ではないよ。個人的にはDMSを試していて、こっちの方がもっと可能性があると思ってるし、いろんな量子化スキームと組み合わせられると思う。kvcacheの最大の節約は、改善されたモデルアーキテクチャにあるね。Gemma 4のSWA/globalハイブリッドは最大10倍のkvcacheを節約できるし、MLA/DSA(後者はグローバルアテンションの計算を助ける)も同様だし、線形やSSMレイヤーを使うとさらに節約できる。ただ、これらはメモリの需要を減らすわけではない(ジェボンズの逆説など)。今のところ、私のコーディングツールでは、月に約10-15Bのキャッシュトークンを使ってる(数ヶ月前は5-8Bだった)。多分、私は平均より上だと思うけど、特に変なことをしているとは思ってないし、今年はメインストリームの開発者やエージェントが増えているから、消費したいトークンの数に本当に限界はないと思う。