著者へのヒント:線形代数(あるいは他の数学のほとんど)を話すときは、普通の慣習に従ってね。この場合、-(マイナス記号)は引き算を意味するのが普通だよ。「そしてまた」って意味じゃないから、特に行列を表す二つの変数の間に挟むときはね。論文を読んでて、1章と2章、3章の一部で頭を抱えながら進んで、やっと気づいたんだけど、「Q-K=V」ってのは「QからKを引いたらVになる」って意味じゃないんだよね(頭を抱えてたのは、彼らの説明や対称性のコメントが「QからKを引いたらVになる」って考えると全然意味がわからなかったから)。もし「KがVに等しい」って言いたいなら、「K=V」って書いてほしいな :) Q-K=Vに沿った形で、クエリ、キー、バリューのアテンション行列にもっと一般的な線形制約を課すことに意味があるのか、ちょっと気になる。面白い論文だと思うよ。K=Vがこれほど機能するとは驚きだね。クエリがバリューの予測みたいになって、アテンションヘッドがその予測に最も近い(ソフトマックス化された)バリューを返すようなモデルを強制してるみたい。シーケンスが短くて次元が高いから、面白い結果がマージされたキー/バリュー空間に収まる余地がたくさんあるのかも。