概要
- Transformerの非線形活性化や正規化は 非単射 とされてきた常識への挑戦
- Transformer言語モデルが 初期化時から訓練後も単射性 を保つことの数学的証明
- 膨大な コリジョンテストで衝突なし を実証
- SipItアルゴリズム による隠れ層からの入力テキスト完全復元
- 単射性が 透明性・解釈性・安全性 に与える直接的影響
Transformer言語モデルの単射性:理論と実証
- Transformerの 非線形活性化関数 や 正規化層 は、従来「異なる入力が同じ出力に写る=非単射」と考えられてきた
- 本研究は 離散入力列から連続表現への写像 が単射(lossless)であることを数学的に証明
- この単射性は 初期化時に成立し、訓練後も維持 される特性
- 理論的主張を裏付けるため、 6つの最先端言語モデル で数十億回規模のコリジョン(衝突)テストを実施
- テスト結果として 同一表現に写る異なる入力は一切発見されず、理論の正しさを実証
SipIt:隠れ層からの完全入力復元アルゴリズム
- 新規に提案された SipItアルゴリズム は、Transformerの 隠れ層活性化から元の入力テキストを厳密に再構築 可能
- SipIt は理論的に 線形時間での復元保証 を持ち、実際のモデルでも完全な可逆性を証明
- これにより、Transformerの 内部表現が不可逆であるという従来の認識 を覆す
単射性の応用と意義
- 単射性が モデルの透明性、 解釈性、 安全な運用 に直結する基盤であることを示唆
- 入力復元性 による説明可能性の向上
- 安全性評価 や リークリスク分析 への応用可能性
- 今後、 大規模言語モデルの設計・運用方針 に影響を与える可能性