概要
- Attention Residuals (AttnRes) は、Transformerの標準残差結合を置き換える新手法
- 各層が過去の表現を入力依存のAttentionで集約 することが可能
- Block AttnRes により大規模モデルでも実用的なメモリ消費を実現
- 全体的な性能向上 と、特に多段推論・コード生成で顕著な改善
- 学習安定性の向上 や勾配分布の均一化も実現
Attention Residuals (AttnRes) 概要
- AttnRes は、Transformerの標準的な残差結合を 入力依存のAttention機構 で拡張する手法
- 各層が 過去すべての層の出力 を重み付きで集約できる特徴
- 従来の残差結合は 全層出力を固定重みで加算 するため、層が深くなるほど寄与が希薄化
- PreNormにおける 出力の発散問題 や寄与の希薄化を緩和
- 各層で softmax attention により、前層出力を選択的に集約
- $\mathbf{h}l = \sum{i=0}^{l-1} \alpha_{i \to l} \cdot \mathbf{v}_i$
- $\alpha_{i \to l}$は 各層ごとに学習される疑似query $\mathbf{w}_l$ で計算
Block AttnRes
-
Full AttnRes は全層にattentionを適用するが、 O(Ld) のメモリコストが課題
-
Block AttnRes は層を N個のブロック に分割し、各ブロック内は従来残差、ブロック間のみattentionを適用
-
8ブロック程度で Full AttnResの大部分の恩恵 を維持しつつ、実用的な計算コスト
-
PyTorch風の疑似コード で実装例を提示
- block_attn_res関数 でブロック表現間のattention集約を実装
- forward関数 で、各ブロック境界ごとに新ブロック開始・attention適用を制御
結果と評価
- Scaling Laws :AttnResは全計算予算においてベースラインを安定して上回る
- Block AttnResは、 1.25倍の計算量で学習したベースラインと同等の損失
- 下流タスク性能 (Kimi Linear 48B / 3B, 1.4Tトークン)
- MMLU :73.5 → 74.6
- GPQA-Diamond :36.9 → 44.4(+7.5, 多段推論)
- HumanEval :59.1 → 62.2(+3.1, コード生成)
- C-Eval :79.6 → 82.5
- 全カテゴリで一貫した性能向上 を確認
- 学習ダイナミクス
- AttnResは PreNormの発散を抑制
- 出力の大きさが層を通じて安定
- 勾配ノルムも層ごとに均一化
論文・引用情報
- arXivプレプリント :arXiv:2603.15031
- 公式実装リポジトリ :Attention Residuals (AttnRes)
- 引用形式
- @misc{chen2026attnres, title = {Attention Residuals}, author = {Kimi Team and Chen, Guangyu ...}, year = {2026}, archiveprefix = {arXiv}, eprint = {2603.15031}, primaryclass = {cs.CL}
まとめ
- AttnRes はTransformerの残差結合を根本的に拡張する新技術
- 大規模化・深層化でも安定した学習と性能向上 を実現
- 実運用可能なBlock AttnRes も提案し、幅広い応用が期待される