トランスフォーマーは三つのプロジェクションを必要とするか？QKVバリアントの体系的研究

2026年6月5日原文(arxiv.org)

概要

Transformer のQKV（クエリ・キー・バリュー）分割の役割を再評価
投影共有（Projection Sharing） の有効性を複数タスクで検証
Q-K=V 共有でメモリ消費を大幅削減しつつ精度維持
GQA/MQA との組み合わせでさらなる効率化実現
エッジデバイスでの 実用的な推論 を可能にする新知見

TransformerにおけるQKV投影共有の体系的評価

Transformer の標準的なQKV分割構造の再考
Q（クエリ）、K（キー）、V（バリュー）の 3つの投影 の役割の個別検証
投影共有制約 の3パターンを提案
- Q-K=V（キー・バリュー共有）
- Q=K-V（クエリ・キー共有）
- Q=K=V（全投影共有）
対称的なアテンションマップ問題に対し、 2次元位置エンコーディング で非対称性を付与

多様なタスクでの実験結果

合成タスク、画像認識（MNIST, CIFAR, TinyImageNet, 異常検知）、言語モデリング で広範な評価
Q-K=V変種は 従来型QKV Transformerと同等以上 の性能を発揮
言語モデリングでは、Q-K=Vで KVキャッシュ50%削減、パープレキシティ劣化はわずか3.1%
GQA-4との併用で87.5%削減、MQA併用で96.9%削減 を達成
実機（エッジデバイス）での推論が現実的に

投影共有の理論的考察

Q-K=Vでは キーとバリューが類似表現空間 を占有可能
アテンションは 低ランク領域 で動作
一方、Q=K-Vは アテンション方向性が失われる ため性能劣化
投影共有は ウェイトタイイング（重み共有） の新たな応用例

エッジ推論・メモリ効率化への応用可能性

投影共有は 推論時メモリ消費の定量的削減 に直結
特に エッジデバイス での大規模モデル運用に有用
コードは 公開済み （論文内URL参照）
ICML 2026にて 採択済み研究

Hackerたちの意見

トランスフォーマーを過剰に複雑にしてたってことが判明したら、めっちゃ面白いよね。でも、コードリポジトリが欠けてるのが残念…

└

でも、アイデアは湧いてくるね。

著者へのヒント：線形代数（あるいは他の数学のほとんど）を話すときは、普通の慣習に従ってね。この場合、-（マイナス記号）は引き算を意味するのが普通だよ。「そしてまた」って意味じゃないから、特に行列を表す二つの変数の間に挟むときはね。論文を読んでて、1章と2章、3章の一部で頭を抱えながら進んで、やっと気づいたんだけど、「Q-K=V」ってのは「QからKを引いたらVになる」って意味じゃないんだよね（頭を抱えてたのは、彼らの説明や対称性のコメントが「QからKを引いたらVになる」って考えると全然意味がわからなかったから）。もし「KがVに等しい」って言いたいなら、「K=V」って書いてほしいな :) Q-K=Vに沿った形で、クエリ、キー、バリューのアテンション行列にもっと一般的な線形制約を課すことに意味があるのか、ちょっと気になる。面白い論文だと思うよ。K=Vがこれほど機能するとは驚きだね。クエリがバリューの予測みたいになって、アテンションヘッドがその予測に最も近い（ソフトマックス化された）バリューを返すようなモデルを強制してるみたい。シーケンスが短くて次元が高いから、面白い結果がマージされたキー/バリュー空間に収まる余地がたくさんあるのかも。

└

うん、あの変な表記は私も混乱したよ。彼ら自身の制限にも、実験が小さすぎるって書いてあるしね。今後どうなるのかすごく気になるけど、正直ハードウェアが買えないわ（笑）。

└

実際、論文の最後から二番目のページで、彼らはこの問題について議論している。Q-K=Vモデルにおけるパフォーマンスとシーケンス長の増加との間には明確な相関関係がある。512、1024、2048の長さの間でn=3のサンプルに制限されているが、コンテキストが増えるにつれて劣化が5.4%から2.2%に減少していて、短いシーケンスがK=Vが受け入れられる理由ではない可能性が高いことを示唆している。

└

それ、私も混乱した。n-タプル表記の方が読みやすくて、数学的にも正確だったと思う。例えば、(Q=K, V)とか、(Q, K=V)とか、(Q=K=V)みたいにね。

└

数学の論文じゃないからね。

└

数学モードで組版されてないから、ハイフンがマイナスに対応するとは期待できないよ。

└

え？なんでQ=K=Vを使わなかったの？

└

コンマを使うだけで済んだのに、なんでそれができなかったんだろうね？

こういうアブレーションスタディはいつも良いね。ただ、ここでの言語モデルの結果がどれくらい一般化できるかは疑問だな。彼らの1.2Bモデルは10Bトークンで訓練されていて、これはチンチラの計算最適数の半分にも満たないんだ。現代の過剰訓練された1B LLMは約10Tトークン（1000倍）で訓練されてるから、これが重要なんだ。自分の経験から言うと、標準アテンションの簡略化や代替手段は、訓練不足の状態では問題なさそうに見えるけど、過剰訓練になると遅れが出ることがある。アテンションは初めからあまり誘導バイアスがないから、表現力が本当に発揮されるまでにはかなりの訓練が必要なんだ。著者たちを責めるつもりはないけど、長い訓練はお金がかかるから、指摘しておく価値はあるね。それに、Q=K-Vのケースについての推論ベンチマーク結果を報告しなかったのが残念だな。個人的には、これが最も理論的に興味深いケースだと思うから。

└

注意の誘導バイアスを特に燃焼させる合成物が役立つかもしれないね。つまり、注意が通常よりも早く収束するのを助けるってことかな？

Hacker Newsで議論の続きを見る

ハクソク