世界を動かす技術を、日本語で。

苦い教訓は誤解されている

概要

  • AI分野 で長年信じられてきた「Bitter Lesson」は 計算資源 ではなく データ こそが本質
  • Scaling Laws によれば、計算量はデータ量の 2乗 に比例
  • データ不足 が現在のAI進化の最大ボトルネック
  • 今後の進化は データ創造(Alchemist)アーキテクチャ改良(Architect) が鍵
  • 計算資源増強 だけでは限界、研究戦略の再考が必要

Bitter Lesson再考:本当に重要なのはデータ

  • AI研究の金字塔 Rich Suttonの「Bitter Lesson」、多くが誤読
  • 一般的解釈:「 計算資源を活用する汎用的手法が最強
  • 実際は、 計算資源よりも大量かつ高品質なデータ が不可欠
  • Scaling Laws (特にChinchilla論文)で、計算量CはデータDの 2乗 に比例(C ~ D²)
  • GPU等の計算資源を倍増 しても、 データを40%増やさなければ無駄 に終わる現実

データの限界と新たな壁

  • インターネット全体 を既に学習済み、 新たな質の高いデータ源が枯渇
  • Epoch AIの調査: 有用な事前学習用テキスト・コードは約10兆トークン
  • GitHub等も有限資源、高品質データの枯渇が目前
  • GPT-6級のモデル では、必要なデータ量が更に膨大
  • データ不足 がモデル規模拡大と計算資源投下の 根本的制約

Bitter Lessonの誤解と現実

  • Bitter Lesson は長期的な歴史観での法則、 現時点での戦略ではない
  • データが固定されている状況下では、 アーキテクチャの改良 が重要性を増す
  • アーキテクト (Architect)と アルケミスト (Alchemist)、2つの進化路線

Architect(アーキテクト)の道:アーキテクチャ改良

  • モデル内部構造の革新 で、同じデータからより多くの知能を引き出す
  • 例:
    • Mamba :O(L²)ボトルネック打破、長文コンテキスト対応
    • HRM(Hierarchical Reasoning Model) :条件付き計算で複雑な推論を効率化
    • QwenのParScale :メモリ効率と計算効率を両立
  • 20-30%の安定した性能向上 が続く実績

Alchemist(アルケミスト)の道:データ創造

  • モデル自身が新たな高品質データを生成
  • 例:
    • AlphaGoの自己対戦 :未知の戦略を自ら創出
    • RLHFやDPO :モデルへの好み・行動の合成データ生成
    • Agentic Feedback Loop :APIやツールとの相互作用で長期推論データ獲得
  • 大当たり(劇的進化)と大外れ(失敗)のリスクが大きい

2つの道の共存と今後の戦略

  • アーキテクトとアルケミストは対立せず、相互補完関係
    • 新構造(例:Mamba)が新しいデータ生成(例:DreamerV3)を可能に
  • 研究リーダーの役割 は単一の未来を予測することではなく、 多様な可能性に備えたポートフォリオ設計
  • アルケミスト路線 :高リスク・高リターン、突破すれば一気に覇権
  • アーキテクト路線 :堅実な成長、リスクは低いが劇的変化は少ない

結論:AI研究の新たな指針

  • 計算資源(GPU等)を増やすだけでは限界
  • データ創造アーキテクチャ革新 の両輪が今後のAI進化のカギ
  • Bitter Lessonの真意 を再認識し、 柔軟な研究戦略 が求められる

Hackerたちの意見

私が直面している問題は、すべてのデータが人間によって生成されていて、人間のエラーが多いことです。電話番号のタイプミスのことを言っているわけではなく、クリティカルシンキングや推論、意味や実用的な見落としなどの根本的なエラーについてです。しかもそれが長文の非構造化テキストの中にあります。これはまさにLLMのドメインの問題ですが、既存のデータに収束しようとするのは、ノイズに収束しようとするようなものです。市場のチャンスは、人々がやっていることとやろうとしていることのギャップにあります。私はこのニッチでそのギャップを狭めるための非常に専門的なアプローチを開発していて、今のところ顧客はそれを気に入っています。もっとデータや計算を投げつけても、このギャップが埋まるとは思えません。ただ、私のアプローチの出力を使って、ギャップを低コストで埋めるためのベースモデルをトレーニングすることはできるかもしれませんが、すぐに経済的に価値があるとは思えません。

これは、情報を持たないステークホルダーが盲目的にLLMを押し付けようとする時に、私がいつも言っていることです:データが問題なんだよ。現在のデータは、完全にそれに依存している業界の外ではゴミで、エラーだらけで、LLMには不透明な構造をしています。AI戦略が成功する可能性を持つためには、データはクリーンで新鮮でなければなりません。そうでなければ、お金を燃やしているようなものです。問題にもっと計算やデータを投げても、AGIが魔法のように現れることはありません。その高みを目指すためには、まず私たちを妨げている大きな傷を解決しなければなりません。

これは、検証可能な報酬が特定のドメインでうまく機能する理由の一つです。信号を抽出してそれをRLループのために検証する方法を見つけることは、多くのニッチな分野で非常に人気が出るでしょう。

人間が作ったデータを研究する時は、宗教などの教義からのバイアスや、古い情報が新しい情報に取って代わられること、嘘や誤情報、フィクションなどの要素に常に気をつける必要があるよ。全部を無批判に受け入れるわけにはいかないからね。

サットンのエッセイが誤解されているとは思わないけど、OPの結論には同意します。トランスフォーマーのスケーリング限界に達していると思います。私たちの最大のトランスフォーマーのパラメータ数Nは、今や兆単位になっていて、これは世界中で利用可能なトレーニングデータのトークン数Dも同じく兆単位なので、計算予算C = 6N × Dとなり、D²のオーダーになります。OpenAIとGoogleが最初にこのトランスフォーマーの「スケーリング法則」を示しました。与えられた計算予算Cに対して、データDを増やさずに計算を追加することはできません。OPが言うように、もしGPUの数を2倍にしたいなら、パラメータとトレーニングトークンの数も1.41倍に増やさなければなりませんが… すでにトレーニングトークンが足りません。私たちは、(1) 異なるスケーリング法則を持つ新しいアーキテクチャを発見するか、(2) 学習に貢献できる新しい合成データを計算する必要があります(夢のようなものです)。

それとも、(3) 現実世界と相互作用するモデルはどうですか?もちろん、あなたの(1)と(2)にも同意します。

これは事前トレーニングのステップに当てはまります。後で行われる強化学習のステップで、もっと計算やモデルのパラメータが役立つかもしれないという進展はどうでしょう?今のところ、RLのステップはサンプリングにしか役立っていない、つまり、与えられた可能な返信の出力を最適化するだけで、他のものには役立っていない(一般的なサンプリング方法で多くの返信を生成し、その返信の正しさを検証できれば、RLが助けるのはすでにモデルの出力に潜在的に含まれているものを選ぶことだという論文もあります)となると、これは無駄です。でも、もしかしたらRLの進展がLLMに与える影響は、AlphaZeroのモデルがチェスや囲碁に与えた影響のようになるかもしれません。

与えられた計算予算Cに対して、データDを増やさずに計算を追加することはできません。 > 私たちは、(1) 異なるスケーリング法則を持つ新しいアーキテクチャを発見するか、(2) 学習に貢献できる新しい合成データを計算する必要があります(夢のようなものです)。もちろん、できますよ。これは問題ではありません。例えば、今や8年前のAlphaZero [0] や、合成データを使った現代のRLトレーニング、例えばDeepSeek-R1-Zero [1] を見てください。 [0] https://en.m.wikipedia.org/wiki/AlphaZero [1] https://arxiv.org/abs/2501.12948

これ、すごくシンプルに見えるけど、全然理解できてない… C = D^2 で、計算を2倍にしたら、2C ==> 2D^2 になる。どうやって元の著者は2D^2から1.41Dを得たの?

事実には異論はないけど、その…トーンが理解できない?90年代から00年代にかけてデナードスケーリング(シングルコア性能)が失敗し始めた時、「そんなスケーリングを信じるなんて馬鹿だった」と思った人はいなかったと思う。確かに、人々は従順だったし(今でもCrysisを動かすことについてのミームがあるけど)、結局のところ「無料のランチはもうない」という結論になった。進歩が一方向に進む中でボトルネックに達したので、改善するための別の方向を選ぶ時が来た(マルチスレッドが今やほぼ標準になっている)。あまり違いが見えないんだけど?

なんでトレーニングにもっとデータが必要なのか、よくわからないんだよね。すでに全ての本や雑誌、研究論文、新聞、その他のメディアをデジタル化してるとして、なんでこの「第二のインターネット」が必要なんだろう?法的な問題は置いといて、人類の知識はもう全部トレーニングに使える状態にあるんじゃないの?

ルネサンスから近代初期(1400-1800年)のほとんどの資料が手に入らないことを忘れないで。ネオラテン語で出版されてて、古いフォントが使われてるから、デジタル化されてるのはたったの10%くらいだし。アラビア語のコーパスもほとんどないだろうし、サンスクリット語なんてほとんどないよね。古典中国語も不足してると思う。英語に翻訳されてるのは1%くらいだし。

これは質を上げるための遠回しな方法だと解釈したよ。あるサブレディットを考えてみて。投稿やコメント、スコアがあるけど、全体的にデータの質が良くない場合はどうする?そのまま使うんじゃなくて、AIに全ての投稿を評価させて、役立つかどうかや実際にどう機能するかを基に自動で分類させたらどうなる?要するに、AIを使って既存の情報についての情報を整理して提供するってこと。これを取り込むことでデータの質が上がるのかな?たぶん、計算リソースとAIの推論を事前に使うことで、低品質のデータを減らし、高品質のデータを追加するから、質が上がるんじゃないかな。

多くの新聞がパイウォールの後ろに閉じ込められてるみたいで、公共のものなのにね。

現在の方法では、人類の知識全体を使っても、最先端のモデルの知能以上のものは得られないってことがポイントなんだ。以前は、その量のデータを処理するために必要な計算リソースが限界だったけど、今はそうじゃない。だから、さらに進むためには、方法を改善するか、合成的にもっとトレーニングデータを生成するか、またはその両方が必要なんだ。

LLMへの投資爆発の目標/理論は、すべてのデータを与えることでAGIに到達できるということなんだ。AGIって言っても、「超人の特異点」じゃなくて、「ほとんどの人間を置き換えられるくらいの知能」を指してる(そして、今私たちが彼らの給料に使っているお金を全部吸い上げることになる)。でも、もしすでにすべてのデータを与えていて、AGIがない(明らかにないよね)なら、LLMでAGIに到達する方法はないし、テクノロジーやVC業界はこの投資を正当化するのに大きな問題を抱えることになる。

人間の知識の全体は、AGIに必要なものに対して丸め誤差みたいなもんだ。

みんな、OOP/元の著者で20年のHNのローカーだよ。友達がこれについて教えてくれたから、ちょっと参加したいと思った。コメントを読んでて、失われてるかもしれない重要なポイントがあると思うんだ。これはスケーリングが「死んでる」かどうかの話じゃなくて(死んでないよ)、現在の言語モデルの最前線でどうやってスケールを続けるかってことなんだ。誰かが下で検証可能な報酬についてコメントしてたけど、まさにそれが重要だと思う。ターゲットの世界について検証可能な報酬を生み出す方法が見つかれば、実質的に無限のデータを生成できて、(おそらく)現在のボトルネックを超えることができる。そうなると、興味深い4-8時間のMETRタスクのセットから逆算して、どんな世界で検証可能な報酬を作れるか、どうやってスケーラブルに作るかが問題になる。つまり、一般的にもっとデータが必要というわけじゃなくて、特定のボトルネックを突破するために必要な特定の種類のデータ(またはアーキテクチャ)が必要なんだ。例えば、実世界のデータは確かに検証可能で、ロボティクスなどには素晴らしいけど、その最前線はまだ遅れてる。基礎的なロボティクスモデルを作ってるクールなラボもあるけど、今のLMからは約5年遅れてるかも。別の道もあって、CLIPのようにアーキテクチャとデータの両方を改善するデザインがあるけど、今はそれは置いとこう。

ターゲットの世界について検証可能な報酬を生み出す方法が見つかれば、面白い対称性があると思うんだ。LLMの前と後で、組織は測定できるもの(例えば、バランスシート)には過剰最適化し、測定できないもの(例えば、開発者の生産性)には過少最適化する傾向があるから、普通の組織ではソフトウェア製品を最新の状態に保つのが難しいんだ。自然なプレッシャーで、競合が突然現れるまでそれを使い続けるからね。だから、LLMの後の世界では、データが不足しているか、君が言うように、検証可能な報酬を生み出す能力がないことに関して大きな穴がある。似たようなパターンが結果として現れるかもしれないし、良い測定や検証可能な報酬がないために、完全に無視される現実の事象がどれだけあるのか、ちょっと気になるな。

10年以上前、ブルーカラーの仕事に影響を与えるAIが、ホワイトカラーの仕事に影響を与えるAIよりも先に出てくると思ってたんだよね。どこでその印象を持ったのかは分からないけど、「AIの高まり」みたいな比喩やグラフを見た記憶がある。そこにはアーティストや科学者が高い場所に位置してた。最近は、そうなってない気がする。今の最高のLLMは本当にすごいと思う(欠点はあるけどね)。でも、すごいロボットはどこにいるの?食器洗い機をセットしてくれるロボットが買えないのはどうして?去年からこれがすごく気になって、友達と掘り下げてみたら、何か答えのヒントになりそうなことに気づいたんだ。人間レベルの「具現化」に進化するのに約1億〜10億年かかったけど、言語や知識の伝達、抽象的な推論に進化するのには約10万〜100万年しかかからなかった。だから、情報処理の観点から見ると、具現化(高度なロボティクス)はLLMより1000倍難しいのかなって思っちゃう。

CLIPについてどういう意味?

これはスケーリングが「死んでいる」かどうかの話ではないと思う。サラ・フッカーの良いポジションペーパーがあって、その中でいくつかのことが触れられている。要点は、大きなデータを使った大きなモデルがフロンティアを押し進めている一方で、はるかに少ないパラメータ(それでもかなり大きい)とデータを使ったモデルの静かな革命があるということ。もしかしたら「スケールが全て」かもしれないけど、それが実用的であるとか、良いアプローチだというわけではない。特に今日の推論コストの懸念を考えると、こうした研究の道が多くの反発を受けているのは残念だ(その反発はまだ減っていないように見える)。 > 検証可能な報酬 それに、コミュニティではワールドモデルについての議論もある。「モデルが物理を再現しないなら、実際にワールドモデルと言えるのか?」というものだ。物理を再現すべき理由は、反事実モデルが学習されている必要があるからだ(計算的に還元不可能かどうかは保証されない)。反事実モデルは、頑健な一般化のための大きな機会を提供する。実際、物理の研究は圧縮の研究だとも言える。ある意味で、物理は私たちの宇宙の計算可能性の研究だ。 > 物理は反事実的で、「もし質量が10倍大きかったら、力はどうなっていたか?」という反事実的な質問に答えることができる。もしこれが反事実的でなければ、異なるケースごとに異なるアルゴリズムが必要になるだろう。私は回復派だ。正直、これに対する強い反論は聞いたことがない。「物事がうまくいけばそれでいい」という意見がほとんどで、正直言って、それが私たち全員の主な関心事じゃないの? 壁に何かを投げて、何がくっつくかを見るのは賛成だ。時には本当に効率的な方法になることもある(特に初期の探索段階では)。でも、それが最も効率的な進め方だとは思えない。私の経験から言うと、同等のパフォーマンスを得るために、はるかに少ないリソースでモデルを作ってきた人間として、量より質の重要性を強調したい。難しいのは、その質を定義することだ。

現在のLMフロンティアで言語モデルをどうスケールし続けるか — 4-8時間のMETRタスク これって、一般的なモデルを作ってそれをSaaSスタイルで貸し出すという特定のビジネスモデルを再現しているんじゃないかな(大きめの顧客向けに適応されるかもしれない)。初期のメインフレームに対する興奮を思い出させる。アクセスの希少性によってアプリケーションが制限されていて、その分野で訓練された人たちがその優位性を必死に守っていた。小さな競合があらゆるニッチに入ってくるのに対抗できなかった。顧客データとユースケースが最も関連性が高く、最も利益を生むかもしれない。小さなユーザーモデルを採用し、ユーザーのユースケースを追跡・適用できるAIは、まったく異なる構造を持ち、明確な価格/パフォーマンス比を持つだろう。もしAppleやGoogleが実際にAIをデバイスに統合したら、決定的なアドバンテージを持つかもしれない。あるいは、ユースケースやインタラクションをモデル化する次世代のウェブアプリケーションがあるかもしれない。実際、Cursorや他のIDE企業は、生成的LLMに意図として与えるだけでなく、文脈をモデル化する方向に進むことができれば、優位性を持つかもしれない。

創造的な要素がある分野では、進展が予測しにくい形で進むことが多いよね。たとえば、がんの治療法がいつ見つかるかなんて、誰も正確には予測できない。だけど、投資家はそんなことを気にしない。彼らは、会社に10億ドル出資する代わりに何を得られるかを知りたいんだ。AIビジネスを運営しているなら、期待値を設定する必要がある。どうやってそれをするの?新しいGPUデータセンターを立ち上げるみたいに、できることをスケジュールに沿ってやるんだ。著者が言ってるように、苦い教訓が誤解されているとは思わない。ほとんどの人は、数年以内にデータの壁にぶつかることをよく理解していると思う。ただ、アカデミアにいないなら、その問題を解決しようとはしていない。起こる前に自分の利益を得ようとしているんだ。ちょっと軽薄に聞こえるかもしれないけど、これはまた別の形の「飢えた獣」だよね。

「第二のインターネットは知らない」って言ってたけど、LLMは主にテキストで訓練されてるんだよね。もし写真や音声、動画、さらには3Dゲームや3D動画を加えたら、古いプレーンテキストよりもはるかに多くのデータが得られる。もしかしたら、桁違いに多いかも。これは確かに、一般的な認知を改善することができる。音声や動画、3Dの知覚なしでAGIに到達するのは無理そうだし、たとえAGIが目標じゃないとしても、新しい訓練データセットからのさらなる改善は十分に考えられる。

AIの専門家ではないけど、一つだけコメントできることがある。最近、面白い論文を見たんだけど、ランダムに初期化されたモデルを物理の質問と回答のバンクで訓練すると、簡単な物理の質問を先に教えてから、より複雑な物理の質問に進むと、モデルの質がずっと高くなるって示されてた。これは、ある意味でこれらの大規模言語モデルが私たちの学び方に似ていることを示してる。次のステップは、この考え方に沿ったものになると思う。すべての訓練データを同じように扱うのは間違いだ。質のフィルターを通過しても、知的なモデルを開発するために特に価値のあるデータがあると思う。最初にこれらのモデルを「訓練」する方法を再考して、もっと知的でインタラクティブなシステムを考え出す必要がある。

関連する論文: https://arxiv.org/abs/2306.11644 -- Phiモデル(他にもたくさんあるけど)はこのアイデアに基づいてる。

すごい。これには本当に共感する。自然がパレートの法則に従うのを何度も見てきたから、訓練データもこの法則に従うのは納得できる。さらに、訓練の順序が重要だというのは新しい発見で、振り返ってみるととても明白に思える。もしかしたら、これらのポイントは現在の主要なLLMビルダーの間では常識かもしれない。私はLLMを作るわけじゃなくて、それを使って何かを作るから、詳しくは分からないけど。

私のモデル訓練の経験から言うと、これはパラメータ数が制限要因であるときだけが当てはまる。モデルがあるサイズを超えると、カリキュラム学習を使ってもあまり改善にはつながらない。ほとんどの研究も小さなモデル(例:Phi)にしか適用していないと思う。

著者のデータ不足についての主張には反対だ。現実世界には無限のデータがある。現実世界は、一般的に知的な人間が訓練されてきた方法だ。現在、LLMは派生した影のデータでしか訓練されていない(プラトンの洞窟の寓話のように)。現実に基づくグラウンディングが重要な欠けている部分のように思える。もう一つ欠けているデータタイプはフィードバックだ。テキスト(や画像・動画)を受動的に訓練・消費するだけでなく、椅子を押して反発を感じることができること。AIが現実世界でより直接的かつ再帰的に訓練できるようになれば、サットンの苦い教訓が再び証明されると思う。

苦い教訓のエッセイでは、[0]「データ」という言葉は一度も言及されていない。著者は根本的に苦い教訓を誤解している。 [0] https://www.cs.utexas.edu/~eunsol/courses/data/bitter_lesson...