概要
- 本ページは ベクトル量子化 の基礎概念と、その応用技術の要点を解説
- 8つの重要なアイデアを ミニデモ形式 で紹介
- MSE(平均二乗誤差)、 内積、 バイアスと分散 などの数学的基礎
- 高次元空間 や 量子化 に関する直感的説明
- 実際の 研究系譜 や技術の発展経緯も整理
§0 · ジャーゴンデコーダー:8つの基本アイデア
- ベクトル :順序付きの数値リスト、空間上の矢印表現
- 長さ(ノルム)と内積 :ノルムは$\sqrt{x_1^2+x_2^2+\dots}$、内積$\langle x,y\rangle$は二つのベクトルの方向一致度
- 平均二乗誤差(MSE) :誤差を二乗して平均化、外れ値に強いペナルティ
- バイアス vs. 分散 :推定値の平均が真値と一致すればアンバイアス、分散はばらつきの大きさ
- 回転行列 :空間を剛体回転、長さと角度を保存
- 中心極限定理(CLT) :多数の独立な乱数の和はガウス分布に収束
- 高次元集中 :高次元球面上のランダムな座標はほぼ$\pm 1/\sqrt{d}$付近に集まる
- 1次元量子化 :$2^b$個のレベルへ丸める、ビット数が増えると誤差が急減
■ チートシート(1文まとめ)
- ベクトル :原点からの矢印/数値リスト
- 長さ・内積 :ノルム$\sqrt{\sum x_i^2}$、方向一致度
- MSE :平均二乗誤差
- アンバイアス :推定平均が真値と一致
- 回転 :長さ・角度を保存する基底変換
- CLT :独立乱数の和はガウス分布に近づく
- 高次元集中 :ランダム単位ベクトルの成分は$\pm 1/\sqrt d$に集中
- 量子化 :$2^b$レベルへ丸め、1ビット増で誤差1/4
§0.9 · 系譜と先行研究
- DRIVE(NeurIPS 2021) :1ビット量子化の回転+符号+スケール手法を提案
- MSE最適スケールとアンバイアススケールの導出
- ランダム回転にHadamard変換を利用し計算効率化
- EDEN(ICML 2022) :任意ビットへ拡張、Lloyd-Max符号本設計
- 標準正規分布用の1ビット・2ビットコードブックを導出
- アンバイアスなスケール設計(EDEN, Theorem 2.1)
- TurboQuant(2025) :残差チェーンやKV-cache応用、QJL(2024)との関連
■ アイデアと出典対応
- ランダム回転/分布解析 :DRIVE (2021)
- Hadamard変換 :DRIVE (2021), EDEN (2022)
- Lloyd-Max符号本 :EDEN (2022)
- アンバイアスなスケール :DRIVE (2021), EDEN (2022)
- bビットパイプライン :EDEN (2022)
- QJL残差アンバイアス :TurboQuant (2025), QJL (2024)
§1 · ベクトル量子化とは
- ベクトル量子化 :$\mathbf{x}\in\mathbb{R}^d$(例:OpenAIの1536次元埋め込み)を、各座標$b$ビットで圧縮し、復元$\tilde{\mathbf{x}}$が元$\mathbf{x}$に近いようにする技術
- 近さの指標 :MSE歪み$D_{\text{mse}} = \mathbb{E}\big[,|\mathbf{x} - \tilde{\mathbf{x}}|2^2,\big]$や内積誤差$D{\text{prod}} = \mathbb{E}\big[,|\langle\mathbf{y},\mathbf{x}\rangle - \langle\mathbf{y},\tilde{\mathbf{x}}\rangle|^2,\big]$
- 内積誤差の重要性 :Attentionや最近傍探索で内積が使われるため
- アンバイアス推定器 :$\mathbb{E}[\langle\mathbf{y},\tilde{\mathbf{x}}\rangle] = \langle\mathbf{y},\mathbf{x}\rangle$を満たすことが望ましい
■ 用語解説
- MSE歪み :元ベクトルと復元の平均二乗誤差(§0.3参照)
- 内積 :ベクトルの方向一致度(§0.2参照)、Attentionの計算本体
- 推定器 :データを近似値$\hat s$に変換するルール
- アンバイアス推定器 :平均的に真値と一致、個々の推定値はノイジーでも平均は正確(§0.4参照)
明白な量子化法
-
各座標を$[-1, 1]$内の$2^b$等間隔レベルに丸める
-
2次元例:ベクトル先端をドラッグすると、$2^b \times 2^b$グリッドの最近傍点にスナップ
-
3次元例:3軸に$2^b$レベルで$2^{3b}$スナップ点
-
高次元例:各座標ごとに同様の量子化、グリッドは不可視だが誤差は座標ごとに発生
- スパイク入力 :全体の大きさが1座標に集中すると、グリッドの隙間で誤差が最大になる
- 他の座標は0付近で、情報量が少ないのに多くのレベルを消費
■ 要点・次章案内
- 固定グリッドは全座標が均等な場合は誤差小、スパースな場合は誤差大
- 次章(§2)では、現実の埋め込みでの不均一性への対策と、そのコストを解説
§2 · なぜナイーブ法は失敗するか
- 実データの特徴 :現実の埋め込みはフラットでなく、特定座標が突出する傾向
- 固定グリッドの課題 :外れ値をクリップするか、ほとんどのレベルを無駄遣いするかの二択
- 実用量子化手法(GPTQ, AWQ, KIVI, KVQuantなど) :小ブロックごとに$(\min, \max)$やスケール・ゼロ点を計算し、フル精度でサイド情報として保存
- トレードオフ :各ブロックのデコードにはスケール情報が必須になり、ストレージや計算コストが増加