概要
- AI進歩 は過去15年、特に直近5年で急速に進展
- 進歩の源泉 は新しいアイデアよりも新しいデータソースの活用にあり
- 大きなブレークスルー は既存理論の応用と新データ利用によって生まれる傾向
- 技術革新 よりもデータの質と量がAI性能に大きく影響
- 今後の課題 は未開拓データ(動画、ロボットなど)の活用方法にあり
AI進歩の現状と「Moore's Law for AI」論
- AIは近年急速に進化、特にここ5年の進歩は目覚ましい現象
- 進歩は必然的に見える が、大きなパラダイムシフトは稀な存在
- 一部研究者は 「AI版ムーアの法則」 を提唱、AIの能力が指数関数的に向上すると主張
- ただし 完全自律型エージェント の実現は2025年時点でも非現実的との見解
- 年々 AIは賢く・高速・低コスト化 し、進歩の終わりが見えない状況
AI進歩の原動力:研究とシステム革新
- AI研究の中心 はMIT、Stanford、CMUなどの大学と、Meta、Googleなどの企業
- システム面の革新 がコスト低減や性能向上を牽引
- 近年の主なシステム面ブレークスルー:
- 2022年:Stanfordの FlashAttention でメモリ効率向上
- 2023年:Googleの speculative decoding で推論高速化
- 2024年:インターネットコミュニティによる Muon で新たな最適化手法
- 2025年:DeepSeekの DeepSeek-R1 でオープンソース高性能モデル登場
- 研究成果はグローバルかつ分散的 に公開・共有され、毎月進歩が加速
最近のAI進歩への懸念と停滞感
- 最新の巨大モデル(Grok 3、GPT-4.5) は前世代比で性能向上が限定的
- 数学オリンピック等の難関タスク では依然として低得点(5%)に留まる
- 大規模ブレークスルー の頻度は鈍化傾向
AIの歴史的ブレークスルーと共通点
- 代表的な4つのパラダイムシフト:
- Deep Neural Networks (2012年、AlexNet)
- Transformers + LLMs (2017年以降、BERT・GPT)
- RLHF (2022年、InstructGPT)
- Reasoning (2024年、OpenAI O1・DeepSeek R1)
- これらは 過去の理論・技術の新応用 による成果
- 教師あり学習・強化学習 は1940~90年代から存在
ブレークスルーの本質:新データソースの活用
- 各ブレークスルーは 新たなデータ源の大規模利用 で実現
- 画像認識: ImageNet
- 言語モデル: インターネット全体のテキスト
- RLHF: 人間のフィードバック
- Reasoning: 検証者(計算機・コンパイラ等)
- 進歩のたびに 未利用データの発掘・効率化競争 が発生
技術革新よりもデータが重要な理由
- モデルや学習法の工夫 よりも、 データの量と質 がAI性能に直結
- 例: SSM(State Space Model) はTransformer以外の構造だが、同じデータで同等性能
- データセットの情報量に限界 があり、学習手法の工夫だけでは突破できない壁
The Bitter Lessonと今後の展望
- 「The Bitter Lesson」 :新手法よりも大規模データ利用が本質的
- 次のパラダイムシフト は新学習法ではなく、 新データ源の開拓 がカギ
- 有望な新データ源:
- 動画データ(YouTube等) :テキストより遥かに膨大かつリッチな情報
- ロボットによる実世界データ :センサーやカメラからの大規模データ収集
- 言語データは枯渇傾向、今後は動画や実世界データが焦点
結論:AI進歩の鍵は「新しいデータ源」
- AIの真の進歩 は新規データの発掘と活用方法に依存
- 新しい学習手法やモデル 開発よりも、 未開拓データ の獲得・利用が重要
- 次世代AI は動画やロボットデータなど、よりリッチな情報源へのアクセスが不可欠