世界を動かす技術を、日本語で。

トランスフォーマーは三つのプロジェクションを必要とするか?QKVバリアントの体系的研究

概要

  • Transformer のQKV(クエリ・キー・バリュー)分割の役割を再評価
  • 投影共有(Projection Sharing) の有効性を複数タスクで検証
  • Q-K=V 共有でメモリ消費を大幅削減しつつ精度維持
  • GQA/MQA との組み合わせでさらなる効率化実現
  • エッジデバイスでの 実用的な推論 を可能にする新知見

TransformerにおけるQKV投影共有の体系的評価

  • Transformer の標準的なQKV分割構造の再考
  • Q(クエリ)、K(キー)、V(バリュー)の 3つの投影 の役割の個別検証
  • 投影共有制約 の3パターンを提案
    • Q-K=V(キー・バリュー共有)
    • Q=K-V(クエリ・キー共有)
    • Q=K=V(全投影共有)
  • 対称的なアテンションマップ問題に対し、 2次元位置エンコーディング で非対称性を付与

多様なタスクでの実験結果

  • 合成タスク、画像認識(MNIST, CIFAR, TinyImageNet, 異常検知)、言語モデリング で広範な評価
  • Q-K=V変種は 従来型QKV Transformerと同等以上 の性能を発揮
  • 言語モデリングでは、Q-K=Vで KVキャッシュ50%削減、パープレキシティ劣化はわずか3.1%
  • GQA-4との併用で87.5%削減、MQA併用で96.9%削減 を達成
  • 実機(エッジデバイス)での推論が現実的に

投影共有の理論的考察

  • Q-K=Vでは キーとバリューが類似表現空間 を占有可能
  • アテンションは 低ランク領域 で動作
  • 一方、Q=K-Vは アテンション方向性が失われる ため性能劣化
  • 投影共有は ウェイトタイイング(重み共有) の新たな応用例

エッジ推論・メモリ効率化への応用可能性

  • 投影共有は 推論時メモリ消費の定量的削減 に直結
  • 特に エッジデバイス での大規模モデル運用に有用
  • コードは 公開済み (論文内URL参照)
  • ICML 2026にて 採択済み研究

Hackerたちの意見

トランスフォーマーを過剰に複雑にしてたってことが判明したら、めっちゃ面白いよね。でも、コードリポジトリが欠けてるのが残念…

でも、アイデアは湧いてくるね。

著者へのヒント:線形代数(あるいは他の数学のほとんど)を話すときは、普通の慣習に従ってね。この場合、-(マイナス記号)は引き算を意味するのが普通だよ。「そしてまた」って意味じゃないから、特に行列を表す二つの変数の間に挟むときはね。論文を読んでて、1章と2章、3章の一部で頭を抱えながら進んで、やっと気づいたんだけど、「Q-K=V」ってのは「QからKを引いたらVになる」って意味じゃないんだよね(頭を抱えてたのは、彼らの説明や対称性のコメントが「QからKを引いたらVになる」って考えると全然意味がわからなかったから)。もし「KがVに等しい」って言いたいなら、「K=V」って書いてほしいな :) Q-K=Vに沿った形で、クエリ、キー、バリューのアテンション行列にもっと一般的な線形制約を課すことに意味があるのか、ちょっと気になる。面白い論文だと思うよ。K=Vがこれほど機能するとは驚きだね。クエリがバリューの予測みたいになって、アテンションヘッドがその予測に最も近い(ソフトマックス化された)バリューを返すようなモデルを強制してるみたい。シーケンスが短くて次元が高いから、面白い結果がマージされたキー/バリュー空間に収まる余地がたくさんあるのかも。

うん、あの変な表記は私も混乱したよ。彼ら自身の制限にも、実験が小さすぎるって書いてあるしね。今後どうなるのかすごく気になるけど、正直ハードウェアが買えないわ(笑)。

実際、論文の最後から二番目のページで、彼らはこの問題について議論している。Q-K=Vモデルにおけるパフォーマンスとシーケンス長の増加との間には明確な相関関係がある。512、1024、2048の長さの間でn=3のサンプルに制限されているが、コンテキストが増えるにつれて劣化が5.4%から2.2%に減少していて、短いシーケンスがK=Vが受け入れられる理由ではない可能性が高いことを示唆している。

それ、私も混乱した。n-タプル表記の方が読みやすくて、数学的にも正確だったと思う。例えば、(Q=K, V)とか、(Q, K=V)とか、(Q=K=V)みたいにね。

数学の論文じゃないからね。

数学モードで組版されてないから、ハイフンがマイナスに対応するとは期待できないよ。

え?なんでQ=K=Vを使わなかったの?

コンマを使うだけで済んだのに、なんでそれができなかったんだろうね?

こういうアブレーションスタディはいつも良いね。ただ、ここでの言語モデルの結果がどれくらい一般化できるかは疑問だな。彼らの1.2Bモデルは10Bトークンで訓練されていて、これはチンチラの計算最適数の半分にも満たないんだ。現代の過剰訓練された1B LLMは約10Tトークン(1000倍)で訓練されてるから、これが重要なんだ。自分の経験から言うと、標準アテンションの簡略化や代替手段は、訓練不足の状態では問題なさそうに見えるけど、過剰訓練になると遅れが出ることがある。アテンションは初めからあまり誘導バイアスがないから、表現力が本当に発揮されるまでにはかなりの訓練が必要なんだ。著者たちを責めるつもりはないけど、長い訓練はお金がかかるから、指摘しておく価値はあるね。それに、Q=K-Vのケースについての推論ベンチマーク結果を報告しなかったのが残念だな。個人的には、これが最も理論的に興味深いケースだと思うから。

注意の誘導バイアスを特に燃焼させる合成物が役立つかもしれないね。つまり、注意が通常よりも早く収束するのを助けるってことかな?

これはデータポイントだね。ハードウェアに制約がある環境では、膨大なトークン数でのトレーニングはあまり気にしないかもしれないし、小さいデバイスではアーキテクチャを簡素化できるのはいいことだよね。これが数兆トークンにスケールする証拠ではないけど、スケールアップした実験を試す価値があるってことは示してると思う。

QKVが使われる理由はわかるけど、ベクトルのペアを新しいベクトルと重要性フィールドに変えるもっと良いメカニズムがあるはずだと思っちゃう。幾何学的には、アテンションのプロセスをたくさんのベクトルを拾って、いろんな次元で回転させたり押しつぶしたりして、すべてを通り抜けられる隙間を見つける感じかな。その隙間を利用して、欲しいものを分けるってイメージ。厳密には正確じゃないかもしれないけど、バナナの束でそれをやったら、束を曲げて全部を真っ直ぐにできれば、もっと簡単に道を見つけられると思う。賢い複雑な操作と、絶対にたくさんの単純な操作とのトレードオフはいつもあるよね。

なんか一般相対性理論と重力が時空を曲げるのを思い出すな。今、私が変なこと言ってるのは分かってるけど、モデルは頭の中でうまくはまるんだよね。

「もっと良いメカニズムがあるはずだと思ってしまう。」 大事なのは、単体でどれだけ優れているかじゃなくて、巨大なデータセットやスーパーコンピュータにどれだけスケールするかだよね。今のところ、注意は一番スケールしやすい。最も「 brute force 」的なメカニズムだし。

「賢い複雑な操作と、絶対的にたくさんの愚かな操作とのトレードオフは常にある。」 注意をもっと専門的にすると、逆に一般性が失われてしまうから、LLMが普遍的な近似器としては悪化しちゃうんだよね。

Gemma-4のE2B/E4Bモデルは、他のレイヤーからK-Vキャッシュを再利用するんだけど、これは「転置」された方法で行われるんだ。単一のレイヤー内でQ/K/V行列を再利用するのではなく、異なるレイヤー間で再利用するって感じ。

Vが共線であるのは明らかだけど、視覚のためのカメラ位置のような追加の直交射影がトランスフォーマーを改善するかどうかも問題だったんだよね。

同じ注意メカニズムが実際にはあまり重要じゃないってことになっても驚かないな。シグモイドやReLU、GELUの動きと同じで、計算の速さだけが重要なんじゃないかな。QKVはGPUでの計算がかなり得意だし。

これはずっと考えてたことだよ。注意から重要なのは、横の比較が行われていることだと思う。ある程度の並列計算と、ある程度のグローバルな比較が必要なんだよね。あとは基本的にパラメータやスケールの問題だと思う。(これは理論上の話で、実際にはモデルアーキテクチャのアルゴリズムの詳細で小さな安定性や効率の改善がたくさん積み重なることがあるけどね。)

ちょっと関連があるのが、注意をカーネルスムージングに例えたブログ記事だよね。https://bactra.org/notebooks/nn-attention-and-transformers.h... (前にhttps://news.ycombinator.com/item?id=38756888で話題になったやつ)

トランスフォーマーのコアコンセプトにまだ人々が実験しているのを見るのは面白いね。