AIには新しいアイデアはなく、新しいデータセットがあるだけです。

2025年6月30日原文(blog.jxmo.io)

概要

AI進歩 は過去15年、特に直近5年で急速に進展
進歩の源泉 は新しいアイデアよりも新しいデータソースの活用にあり
大きなブレークスルー は既存理論の応用と新データ利用によって生まれる傾向
技術革新 よりもデータの質と量がAI性能に大きく影響
今後の課題 は未開拓データ（動画、ロボットなど）の活用方法にあり

AI進歩の現状と「Moore's Law for AI」論

AIは近年急速に進化、特にここ5年の進歩は目覚ましい現象
進歩は必然的に見える が、大きなパラダイムシフトは稀な存在
一部研究者は 「AI版ムーアの法則」 を提唱、AIの能力が指数関数的に向上すると主張
ただし 完全自律型エージェント の実現は2025年時点でも非現実的との見解
年々 AIは賢く・高速・低コスト化 し、進歩の終わりが見えない状況

AI進歩の原動力：研究とシステム革新

AI研究の中心 はMIT、Stanford、CMUなどの大学と、Meta、Googleなどの企業
システム面の革新 がコスト低減や性能向上を牽引
近年の主なシステム面ブレークスルー：
- 2022年：Stanfordの FlashAttention でメモリ効率向上
- 2023年：Googleの speculative decoding で推論高速化
- 2024年：インターネットコミュニティによる Muon で新たな最適化手法
- 2025年：DeepSeekの DeepSeek-R1 でオープンソース高性能モデル登場
研究成果はグローバルかつ分散的 に公開・共有され、毎月進歩が加速

最近のAI進歩への懸念と停滞感

最新の巨大モデル（Grok 3、GPT-4.5） は前世代比で性能向上が限定的
数学オリンピック等の難関タスク では依然として低得点（5％）に留まる
大規模ブレークスルー の頻度は鈍化傾向

AIの歴史的ブレークスルーと共通点

代表的な4つのパラダイムシフト：
1. Deep Neural Networks （2012年、AlexNet）
2. Transformers + LLMs （2017年以降、BERT・GPT）
3. RLHF （2022年、InstructGPT）
4. Reasoning （2024年、OpenAI O1・DeepSeek R1）
これらは 過去の理論・技術の新応用 による成果
教師あり学習・強化学習 は1940～90年代から存在

ブレークスルーの本質：新データソースの活用

各ブレークスルーは 新たなデータ源の大規模利用 で実現
- 画像認識： ImageNet
- 言語モデル： インターネット全体のテキスト
- RLHF： 人間のフィードバック
- Reasoning： 検証者（計算機・コンパイラ等）
進歩のたびに 未利用データの発掘・効率化競争 が発生

技術革新よりもデータが重要な理由

モデルや学習法の工夫 よりも、 データの量と質 がAI性能に直結
例： SSM（State Space Model） はTransformer以外の構造だが、同じデータで同等性能
データセットの情報量に限界 があり、学習手法の工夫だけでは突破できない壁

The Bitter Lessonと今後の展望

「The Bitter Lesson」 ：新手法よりも大規模データ利用が本質的
次のパラダイムシフト は新学習法ではなく、 新データ源の開拓 がカギ
有望な新データ源：
- 動画データ（YouTube等） ：テキストより遥かに膨大かつリッチな情報
- ロボットによる実世界データ ：センサーやカメラからの大規模データ収集
言語データは枯渇傾向、今後は動画や実世界データが焦点

結論：AI進歩の鍵は「新しいデータ源」

AIの真の進歩 は新規データの発掘と活用方法に依存
新しい学習手法やモデル 開発よりも、 未開拓データ の獲得・利用が重要
次世代AI は動画やロボットデータなど、よりリッチな情報源へのアクセスが不可欠

Hackerたちの意見

自己対戦からの強化学習/AlphaWhatever？いや、データセットだけだと思う。 :)

└

https://en.wikipedia.org/wiki/TD-Gammon

└

あと、実際に役立つ長いコンテキストとかのアーキテクチャの話ね。Gemini 2.5がやったことは、前のモデルと比べて長いコンテキストでの有用な結果が桁違いに進んでる。Gemini 2.5が「ただの」Gemini 1のデータが良くなった版だったら、かなり驚くよ。

└

完全に指定されたゼロサムゲームと現実世界には大きな違いがあるよ。簡単な例えで言うと、次の文を何度も読み上げて、毎回違う言葉を強調してみて。「私は彼女が私のお金を盗んだとは決して言わなかった」意味がどう変わるか、そしてそれがしばしばユニークであることに気づく？それがフレーム問題とその逆、仕様問題へのレンズなんだ。上記の問題はすぐにタワー完全になり、最近の研究ではRLが既存のパターンの重みを強化または増加させていることが示唆されている。オープンドメインのフレーム問題や類似の課題はHALTと同等であり、有用な情報を抽出する新しい方法を見つけることが一般化にとって重要になると思う。合成データは役立つけど、特にタワー問題に関しては完全な解決策ではないね。

確かに、人間の知能を再現するシステムを想像すると、「データセットを変える」ってのは、異なるモデルを持つために必要なことを要約した良い表現かも。結局、私たちの記憶やトレーニング、教育、バックグラウンドなんかが、問題解決能力の大きな要素だからね。

それには敬意を表して反対するわ。すべての「新しい」アイデアは古いアイデアから来てる。AIは、今までアクセスできなかった古いアイデアに速さと新しい視点でアクセスするための道具なんだ。革新は隙間の中にある：古いアイデアの穴や交差点、接点を認識すること。革新は巨人の肩の上で行われると言われているから、AIは巨人の肩に上がるためのエレベーターになるのかな？それは道具をどう使うかにかかってる。

└

その通り！もし科学に同じゲートキーピングの論理を適用したらどうなるか想像できる？他の誰かの科学的な成果やその派生物を使うことができなかったら、進歩は全くないよね。ここで見た唯一の正当な防御は、知的財産権や著作権侵害に関するものだけど、正直どうでもいい。

└

古いアイデアにアクセス？うん。新しい視点で？必ずしもそうじゃない。LLMは新しい視点でデータを解釈するのを手伝うことができるかもしれないけど、実際にはまだ新しい分野の仕事にはあまり得意じゃない。ほとんどのことと同じように、真実はその中間にあるんだ。LLMは特定の種類や特定の側面の研究を加速する手段としては役立つけど、他のことにはあまり役立たない。

└

記事はAIの革新に取り組むことと、より良いデータを集めることに焦点を当てることについて話してるね。新しいアイデアの重要なブレークスルーがあった一方で、これらのシステムの性能を向上させるための最良の方法の一つは、より良いデータを集めることなんだ。データが改善の主要な手段だと思ってる人がどれくらいいるか。数十年前のAIのトークを思い出すよ、サイクルはこうだ：データが増える -> レイヤーが増える -> 繰り返す… まあ、君のコメントがこの2つの改善の道にどう関係してるのかはよくわからないけど。

└

私は敬意を表して反対します。「新しい」アイデアはすべて古いアイデアから来ているんです。ベンゼン環の構造に関する洞察は、夢の中で得られたもので、以前には見られなかったけど、自分の尾を噛む蛇として想像されたんだ。

└

もし人間が人類が今まで生み出したすべての分野の本や出版物を読んで、全く新しいものを思いつけなかったら、想像しづらいよね。

時々、技術的進歩と科学的進歩の違いに混乱することがあるよね。科学が進歩すると、新しいS字曲線が開かれて、信じられない速さで進むけど、やがては収穫逓減の地域に入る。人々は進歩が遅くなったと文句を言うけど、実際はずっと遅かったんだよ。S字曲線の指数関数的な立ち上がりの間は、新しいことが起こってないのに気づかなかっただけで、ただひたすら最適化してたんだ。

Hacker Newsで議論の続きを見る

ハクソク