言語モデルは単射であり、したがって可逆である

2025年10月30日原文(arxiv.org)

概要

Transformerの非線形活性化や正規化は 非単射 とされてきた常識への挑戦
Transformer言語モデルが 初期化時から訓練後も単射性 を保つことの数学的証明
膨大な コリジョンテストで衝突なし を実証
SipItアルゴリズム による隠れ層からの入力テキスト完全復元
単射性が 透明性・解釈性・安全性 に与える直接的影響

Transformer言語モデルの単射性：理論と実証

Transformerの 非線形活性化関数 や 正規化層 は、従来「異なる入力が同じ出力に写る＝非単射」と考えられてきた
本研究は 離散入力列から連続表現への写像 が単射（lossless）であることを数学的に証明
この単射性は 初期化時に成立し、訓練後も維持 される特性
理論的主張を裏付けるため、 6つの最先端言語モデル で数十億回規模のコリジョン（衝突）テストを実施
テスト結果として 同一表現に写る異なる入力は一切発見されず、理論の正しさを実証

SipIt：隠れ層からの完全入力復元アルゴリズム

新規に提案された SipItアルゴリズム は、Transformerの 隠れ層活性化から元の入力テキストを厳密に再構築 可能
SipIt は理論的に 線形時間での復元保証 を持ち、実際のモデルでも完全な可逆性を証明
これにより、Transformerの 内部表現が不可逆であるという従来の認識 を覆す

単射性の応用と意義

単射性が モデルの透明性、 解釈性、 安全な運用 に直結する基盤であることを示唆
- 入力復元性 による説明可能性の向上
- 安全性評価 や リークリスク分析 への応用可能性
今後、 大規模言語モデルの設計・運用方針 に影響を与える可能性

Hackerたちの意見

この論文のタイトルは好きじゃないな。多くの人は言語モデルを、分布を生成するものとして考えてるんじゃなくて、トークンを生成するものとして考えてると思うから（実際、論文はそれが可逆だって主張してるけどね）。それに、著者の貢献声明には笑っちゃったよ。[0] https://x.com/GladiaLab/status/1983812121713418606

└

そうだね、自動生成されたブログ投稿からプロンプトを逆エンジニアリングできたら面白いけど、実際はそうじゃないんだよね。

└

それでも、技術的には正しいよ。モデルは次のトークンの尤度分布を生成して、その後サンプリング戦略を適用してトークンのシーケンスを生成するんだ。

└

ネタバレだけど、論文を開きたくない人のために、寄稿の声明はこうだよ：「平等な貢献；著者の順番はマリオカートで決定された。」人生のもっと多くの対立がマリオカートで解決されればいいのに。

└

でも、同じモデルで与えられたテキストに対して自己回帰を再実行するだけで、妥当な分布のセットを再構築できると思うよ。正確なプロンプトを逆算するわけじゃないけど、役立つ近似が得られるかもしれない。

「私たちは、6つの最先端の言語モデルに対して数十億回の衝突テストを行い、この結果を経験的に確認し、衝突は観察されませんでした。」これ、間違ってる気がする。彼らは（他にもいろいろ使ってるけど）GPT2を使ってるけど、かなり大きな空間ベクトルを持ってるんだよね。それに、衝突の閾値を2つのベクトルのl2距離が10^-6未満と恣意的に定義してる。出力が正規化されてるから、これは単位球の表面の信じられないほど小さなパッチに相当する。直感的に言うと、そんな高次元の空間では、2つのランダムベクトルは基本的に直交してると思う。こういう制約の下で、2つの入力が同じ出力にマッピングされる確率は天文学的に小さいと思う（10^10000分の1以下とか）。sha256でハッシュ衝突を見つける確率よりも悪いよ。彼らの主張は、数十億の例をテストして確認できるようなものには思えないけど、詳しい計算を見てみたいな。論文には確実にそれが欠けてる。

└

GPT-2が使ってる潜在空間は768次元だと思う（つまり、埋め込みベクトルはそれだけの成分を持ってる）。

└

高次元空間の性質は、直感的に逆転可能性の主張を支持している気がするんだけど、どう思う？つまり、> 「これらの制約の下で、2つの入力が同じ出力にマッピングされる確率は天文学的に小さいと思う。」

└

読んでみると、彼らがやったことはバースデーパラドックスを信じてのサニティチェックみたいだね。要するに、「偶然で直交ベクトルが一度出るのはいいけど、何十億回も試して毎回直交ベクトルが出るなら、偶然って説明はちょっと無理があるよね」って感じ。

└

高次元空間についてのあなたの直感が羨ましいな、私は全くないから（「ここにはドラゴンがいる」以外は）。あなたの直感は大体正しいと思うよ。空間の大きさを考えると、何十億回の衝突テストはかなり不十分に感じるから。 > 直感的に言うと、そんな高次元空間では、2つのランダムベクトルは基本的に直交している。ここでの直感は何？大数の法則？直交性は距離とどう関係してるの？ |a-b|^2の展開 = |a|^2 + |b|^2 - 2 = 2 - 2、ユニットベクトルが基本的に直交しているなら、だいたい2になる？ > 出力が正規化されているから、それはユニット球の表面の信じられないほど小さなパッチに対応するんだ。高次元ベクトル空間のユニット球の表面についての直感も全くないよ。消えてしまうと思う。おそらく、このパッチも面積の観点から消えてしまうんだろうけど、その用語がゼロに近づく相対的な速度はどうなるんだろう？

└

直感的に言うと、そんな高次元の空間では、2つのランダムなベクトルは基本的に直交してる。これが、ディープラーニングやLLMが効果的な主な理由でもあるんだ。数千次元のベクトルだけでは、人間の知識をすべて表現するには全然足りないけど、実際にはもっと高次元、潜在的には無限次元のベクトルの投影として機能するからね。小さい方のベクトルは、実際には投影として機能するんだ。なぜなら、そんな2つのベクトルはほぼ常に直交してるから。

私の理解では、彼らは「ユニークなプロンプトごとにユニークな最終状態がある」と主張してるんだよね。有限状態のLLMと、原理的には任意の数のユニークなプロンプトを入力できる能力を考えると、これは明らかに間違ってるんじゃない？彼らの「ほぼ確実に」はかなり重要な役割を果たしてると思う。より重要な結果は、ユニークなプロンプトの数に応じたLLM状態の衝突確率を示すべきだよ。今のところ、彼らは「ほぼ確実にダーツボードの的に当たらない」って言ってるだけ。たぶん本当だけど、あまり意味がないよね。でも、もしかしたら彼らの結論を誤解してるかも。

Hacker Newsで議論の続きを見る

ハクソク

言語モデルは単射であり、したがって可逆である

概要

Transformer言語モデルの単射性：理論と実証

SipIt：隠れ層からの完全入力復元アルゴリズム

単射性の応用と意義

Hackerたちの意見