トークン化に対する厳しい教訓が迫っている

2025年6月24日原文(lucalp.dev)

概要

LLMのトークナイゼーション廃止 が望ましい理由と実現可能性の高まりを解説
トークナイゼーションの役割と脆弱性、およびその問題点を分析
Byte Latent Transformer など新しいアプローチの可能性とメカニズムを紹介
従来のBPEやバイトレベル手法 の限界と課題を整理
今後の設計空間と研究動向 に焦点を当てた議論

トークナイゼーションなきLLMの世界：実現可能性とその意義

LLM（大規模言語モデル） の発展において、 トークナイゼーション は長らく不可欠な仕組み
Byte-Pair Encoding（BPE） などの手法が主流だが、 情報損失や効率性の問題 を抱える現状
理想的なトークナイザー は、圧縮率と表現の粒度の最適バランスを実現する必要
実際には、 タスクごとに最適なトークン設計 が難しく、 「グリッチトークン」 などの問題も発生
サブワード分割の設計ミス やモデル能力とのミスマッチも、性能の足かせとなる

トークナイゼーションの問題点と歴史

BPEトークナイザー の設計は、 効率性のための情報切り捨て を招く場合が多い
OpenAIの「SolidGoldMagikarp」トークン現象 や、 GPT2の数字・スペースの扱い問題 など、具体的な失敗例多数
問題発覚後は パイプライン修正や自動検出 で対処するが、根本的な解決には至らず
マルチモーダル分野 でも、各モダリティごとに独自トークナイザーを設計する必要があり、 外部依存・複雑化 が進行

トークナイゼーションの「無視」と「削除」は可能か

現状のトークナイゼーション問題 は、 Chain of ThoughtやRAG、推論型モデル の工夫で一部緩和
それでも トークナイザー設計の最適化 が進んでおらず、 モデル能力の上限を制約
GoogleのByT5 はトークナイザーを完全に除去し、 バイトレベルでの学習 を実現
- 性能は維持 できるが、 学習・推論コスト増大 というトレードオフ
State Space Model（SSM） 系の MambaByte など、 新アーキテクチャ も登場
- 入力長依存の問題 や 推論ステップ増加 など、課題も残存

「学習可能なトークナイゼーション」への道

BPEの発展形 として、 確率的マージやカリキュラム学習 などの改良案が提案
- しかし 本質的な解決策 とは言えず、 スケーリング性能の向上 も限定的
トークナイザー自体をモデルと共同で最適化 するアプローチが理想
- 実運用では 適用の難しさ が課題

設計空間の最前線と今後

Transformer系アーキテクチャ では、 バイトレベル効率化 が研究の焦点
ダウンサンプリング／アップサンプリング や FLOPS配分、 デコード戦略 など、設計選択肢が拡大
Perplexityの代替指標 として Bits-per-byte（BPB） が利用される傾向
- BPB(x)=ℒCE(x) / [ln(2)・nbytes] という数式で評価
Byte Latent Transformer などの新方式が、 トークナイザーの限界突破 を目指す

このように、 従来型トークナイゼーション の問題認識と、 バイトレベルや学習型トークナイザー への潮流が明確化。今後は 効率性・汎用性・スケーラビリティ の観点から、 より一般的な表現学習 が進展する見通し。

Hackerたちの意見

トークン化について考えると、次のトークンを予測する際に理論的なボトルネックがあることに気づいた。例えば、15,000個のユニークなトークンがあるとしよう（最近のオープンモデルに基づいて）。さらに、埋め込みの次元が1,000だと仮定すると、出力には最大1,000の自由度（またはランク）があることになる。モデルは15,000個のトークンの中から1つをトップトークンとして選べるけど、_確率分布_の表現力は1,000のユニークな線形成分に制限されているんだ。

└

実際には、そこには組み合わせの力があると思う。もしxとyの2次元だけで何かを埋め込むと想像すると、実際には無限の概念をエンコードできる。なぜなら、大きな2Dマップ上に分散した異なるクラスターや近隣を想像できるから。もちろん、次元が増えればそれはもっと可能になる。

└

理論的なボトルネックは存在するけど、君が言っているほど制約は厳しくないよ。なぜなら、ほぼ直交するベクトルの数は、周囲の次元数が増えるにつれて指数関数的に増えるから。直交性が異なるベクトルを区別するために重要なんだ。どんな分布もガウス分布の混合として表現できるから、そうした混合でエンコードできる別々の概念の数も指数関数的に増える。

└

君はモデルが次のトークンを予測しようとしていると仮定しているみたいだけど、本当にそうなの？僕はトークン化が入力専用の手段だと思ってたから、最大で50,000個のユニークな入力トークンが利用できるけど、出力は生のテキストや合成音声、画像だと思ってた。出力はトークンじゃないから、出力に制限はないよね。

└

重要な洞察は、完全に直交していないベクトルでも異なる特徴を表現できるということだ。例えば、85度から95度の間のように、ほぼ直交している場合だね。こうしたノイズを許容すれば、次元の数に対してフィットできるベクトルの数が指数関数的に増える。12288次元（GPT-3のサイズ）では、40億以上のほぼ直交するベクトルをフィットさせることができるよ。[1]: https://www.3blue1brown.com/lessons/mlp#superposition

└

制限のいくつかの側面を探る博士論文： https://era.ed.ac.uk/handle/1842/42931 ボトルネックのあるニューラルネットワークにおける非argmax出力の検出と防止、アンドレアス・グリバス（2024）

└

（私はしばらく前に学界を離れたので、これが無意味かもしれないけど）確か、これは非線形性がモデルにより表現力を与えるから、正しくないと思う。15kから1kへの変換は、めったにアフィンマップじゃなくて、通常は非常に非線形だよ。

逆に言えば、大規模な計算を問題に投じることで、よりシンプルで一般的な解決策の存在を隠すこともできる。一般的な手法は時間が経つにつれて勝つ傾向があるけど、もし一つのパラダイム（例えばLLM）に固執して、基盤となる構造を探求するのをやめたら、本当にそれが最も一般的な方法だと言えるのかどうか、確信が持てないよね。

└

計算理論に基づく分析を通じて確信が持てるよ。例えば、https://arxiv.org/abs/2503.03961 や https://arxiv.org/abs/2310.07923 などね。これによって、モデルが解決できる問題のクラスがわかるし、十分に深いトランスフォーマーと考えの連鎖があれば、非常に大きなクラスの問題を理論的に解決できることが示されている。

└

俺の考えでは、探索と活用の観点から見ると、最も報酬をもたらす行動に大半の努力を注ぎつつ、少しだけ他の行動を探索するのはかなり合理的だと思う。で、その行動が他の行動と比べてあまり実を結ばなくなったら、以前の探索から得たリソースを使って、もっと探索に力を入れるって感じかな。

└

コンピュータサイエンスにはこういうトリビアルな例がたくさんあるよね。最適化された並列SIMDマージソートを使えば、10兆件のレコードをすごく早くソートできるけど、ハードウェアを増やせばバブルソートでも同じくらい早くソートできる。AIの本当の苦い教訓は、私たちが何をやっているのか本当に分かっていないってこと。モデルをハッキングして、うまく訓練できるアーキテクチャを探しているけど、なぜそれがうまくいくのかは完全には理解していない。だから、最適なものを設計することもできないし、どれくらい良い解決策が得られるかも分からない。

そうだね、ネットワークをもっと深くしよう。ハンマーしか持っていないときは…トークンをより意味的に関連付ける変換層が、その後のネットワーク全体を最適化して、コンテキストウィンドウの実効サイズを増やすのは理にかなってるよね。今のモデルが知能を持つのを妨げている主な障害の一つは、コンテキストウィンドウのサイズだし。一方で、現在のモデルはトレーニングに国のGDPの中央値に相当するコストがかかっていて、その価値には全然達していない。「力任せで問題が解決しないなら、もっと力を入れなきゃ」という言葉は、冗談として聞くべきだよ。

Hacker Newsで議論の続きを見る

ハクソク