苦い教訓は誤解されている

2025年8月29日原文(obviouslywrong.substack.com)

概要

AI分野 で長年信じられてきた「Bitter Lesson」は 計算資源 ではなく データ こそが本質
Scaling Laws によれば、計算量はデータ量の 2乗に比例
データ不足 が現在のAI進化の最大ボトルネック
今後の進化は データ創造（Alchemist） か アーキテクチャ改良（Architect） が鍵
計算資源増強 だけでは限界、研究戦略の再考が必要

Bitter Lesson再考：本当に重要なのはデータ

AI研究の金字塔 Rich Suttonの「Bitter Lesson」、多くが誤読
一般的解釈：「 計算資源を活用する汎用的手法が最強」
実際は、 計算資源よりも大量かつ高品質なデータ が不可欠
Scaling Laws （特にChinchilla論文）で、計算量CはデータDの 2乗に比例（C ~ D²）
GPU等の計算資源を倍増 しても、 データを40%増やさなければ無駄 に終わる現実

データの限界と新たな壁

インターネット全体 を既に学習済み、 新たな質の高いデータ源が枯渇
Epoch AIの調査： 有用な事前学習用テキスト・コードは約10兆トークン
GitHub等も有限資源、高品質データの枯渇が目前
GPT-6級のモデル では、必要なデータ量が更に膨大
データ不足 がモデル規模拡大と計算資源投下の 根本的制約

Bitter Lessonの誤解と現実

Bitter Lesson は長期的な歴史観での法則、 現時点での戦略ではない
データが固定されている状況下では、 アーキテクチャの改良 が重要性を増す
アーキテクト （Architect）と アルケミスト （Alchemist）、2つの進化路線

Architect（アーキテクト）の道：アーキテクチャ改良

モデル内部構造の革新 で、同じデータからより多くの知能を引き出す
例：
- Mamba ：O(L²)ボトルネック打破、長文コンテキスト対応
- HRM（Hierarchical Reasoning Model） ：条件付き計算で複雑な推論を効率化
- QwenのParScale ：メモリ効率と計算効率を両立
20-30%の安定した性能向上 が続く実績

Alchemist（アルケミスト）の道：データ創造

モデル自身が新たな高品質データを生成
例：
- AlphaGoの自己対戦 ：未知の戦略を自ら創出
- RLHFやDPO ：モデルへの好み・行動の合成データ生成
- Agentic Feedback Loop ：APIやツールとの相互作用で長期推論データ獲得
大当たり（劇的進化）と大外れ（失敗）のリスクが大きい

2つの道の共存と今後の戦略

アーキテクトとアルケミストは対立せず、相互補完関係
- 新構造（例：Mamba）が新しいデータ生成（例：DreamerV3）を可能に
研究リーダーの役割 は単一の未来を予測することではなく、 多様な可能性に備えたポートフォリオ設計
アルケミスト路線 ：高リスク・高リターン、突破すれば一気に覇権
アーキテクト路線 ：堅実な成長、リスクは低いが劇的変化は少ない

結論：AI研究の新たな指針

計算資源（GPU等）を増やすだけでは限界
データ創造 と アーキテクチャ革新 の両輪が今後のAI進化のカギ
Bitter Lessonの真意 を再認識し、 柔軟な研究戦略 が求められる

Hackerたちの意見

私が直面している問題は、すべてのデータが人間によって生成されていて、人間のエラーが多いことです。電話番号のタイプミスのことを言っているわけではなく、クリティカルシンキングや推論、意味や実用的な見落としなどの根本的なエラーについてです。しかもそれが長文の非構造化テキストの中にあります。これはまさにLLMのドメインの問題ですが、既存のデータに収束しようとするのは、ノイズに収束しようとするようなものです。市場のチャンスは、人々がやっていることとやろうとしていることのギャップにあります。私はこのニッチでそのギャップを狭めるための非常に専門的なアプローチを開発していて、今のところ顧客はそれを気に入っています。もっとデータや計算を投げつけても、このギャップが埋まるとは思えません。ただ、私のアプローチの出力を使って、ギャップを低コストで埋めるためのベースモデルをトレーニングすることはできるかもしれませんが、すぐに経済的に価値があるとは思えません。

└

これは、情報を持たないステークホルダーが盲目的にLLMを押し付けようとする時に、私がいつも言っていることです：データが問題なんだよ。現在のデータは、完全にそれに依存している業界の外ではゴミで、エラーだらけで、LLMには不透明な構造をしています。AI戦略が成功する可能性を持つためには、データはクリーンで新鮮でなければなりません。そうでなければ、お金を燃やしているようなものです。問題にもっと計算やデータを投げても、AGIが魔法のように現れることはありません。その高みを目指すためには、まず私たちを妨げている大きな傷を解決しなければなりません。

└

これは、検証可能な報酬が特定のドメインでうまく機能する理由の一つです。信号を抽出してそれをRLループのために検証する方法を見つけることは、多くのニッチな分野で非常に人気が出るでしょう。

└

人間が作ったデータを研究する時は、宗教などの教義からのバイアスや、古い情報が新しい情報に取って代わられること、嘘や誤情報、フィクションなどの要素に常に気をつける必要があるよ。全部を無批判に受け入れるわけにはいかないからね。

サットンのエッセイが誤解されているとは思わないけど、OPの結論には同意します。トランスフォーマーのスケーリング限界に達していると思います。私たちの最大のトランスフォーマーのパラメータ数Nは、今や兆単位になっていて、これは世界中で利用可能なトレーニングデータのトークン数Dも同じく兆単位なので、計算予算C = 6N × Dとなり、D²のオーダーになります。OpenAIとGoogleが最初にこのトランスフォーマーの「スケーリング法則」を示しました。与えられた計算予算Cに対して、データDを増やさずに計算を追加することはできません。OPが言うように、もしGPUの数を2倍にしたいなら、パラメータとトレーニングトークンの数も1.41倍に増やさなければなりませんが… すでにトレーニングトークンが足りません。私たちは、(1) 異なるスケーリング法則を持つ新しいアーキテクチャを発見するか、(2) 学習に貢献できる新しい合成データを計算する必要があります（夢のようなものです）。

└

それとも、(3) 現実世界と相互作用するモデルはどうですか？もちろん、あなたの(1)と(2)にも同意します。

└

これは事前トレーニングのステップに当てはまります。後で行われる強化学習のステップで、もっと計算やモデルのパラメータが役立つかもしれないという進展はどうでしょう？今のところ、RLのステップはサンプリングにしか役立っていない、つまり、与えられた可能な返信の出力を最適化するだけで、他のものには役立っていない（一般的なサンプリング方法で多くの返信を生成し、その返信の正しさを検証できれば、RLが助けるのはすでにモデルの出力に潜在的に含まれているものを選ぶことだという論文もあります）となると、これは無駄です。でも、もしかしたらRLの進展がLLMに与える影響は、AlphaZeroのモデルがチェスや囲碁に与えた影響のようになるかもしれません。

└

与えられた計算予算Cに対して、データDを増やさずに計算を追加することはできません。 > 私たちは、(1) 異なるスケーリング法則を持つ新しいアーキテクチャを発見するか、(2) 学習に貢献できる新しい合成データを計算する必要があります（夢のようなものです）。もちろん、できますよ。これは問題ではありません。例えば、今や8年前のAlphaZero [0] や、合成データを使った現代のRLトレーニング、例えばDeepSeek-R1-Zero [1] を見てください。 [0] https://en.m.wikipedia.org/wiki/AlphaZero [1] https://arxiv.org/abs/2501.12948

└

これ、すごくシンプルに見えるけど、全然理解できてない… C = D^2 で、計算を2倍にしたら、2C ==> 2D^2 になる。どうやって元の著者は2D^2から1.41Dを得たの？

事実には異論はないけど、その…トーンが理解できない？90年代から00年代にかけてデナードスケーリング（シングルコア性能）が失敗し始めた時、「そんなスケーリングを信じるなんて馬鹿だった」と思った人はいなかったと思う。確かに、人々は従順だったし（今でもCrysisを動かすことについてのミームがあるけど）、結局のところ「無料のランチはもうない」という結論になった。進歩が一方向に進む中でボトルネックに達したので、改善するための別の方向を選ぶ時が来た（マルチスレッドが今やほぼ標準になっている）。あまり違いが見えないんだけど？

なんでトレーニングにもっとデータが必要なのか、よくわからないんだよね。すでに全ての本や雑誌、研究論文、新聞、その他のメディアをデジタル化してるとして、なんでこの「第二のインターネット」が必要なんだろう？法的な問題は置いといて、人類の知識はもう全部トレーニングに使える状態にあるんじゃないの？

└

ルネサンスから近代初期（1400-1800年）のほとんどの資料が手に入らないことを忘れないで。ネオラテン語で出版されてて、古いフォントが使われてるから、デジタル化されてるのはたったの10%くらいだし。アラビア語のコーパスもほとんどないだろうし、サンスクリット語なんてほとんどないよね。古典中国語も不足してると思う。英語に翻訳されてるのは1%くらいだし。

Hacker Newsで議論の続きを見る

ハクソク