世界を動かす技術を、日本語で。

AIには新しいアイデアはなく、新しいデータセットがあるだけです。

概要

  • AI進歩 は過去15年、特に直近5年で急速に進展
  • 進歩の源泉 は新しいアイデアよりも新しいデータソースの活用にあり
  • 大きなブレークスルー は既存理論の応用と新データ利用によって生まれる傾向
  • 技術革新 よりもデータの質と量がAI性能に大きく影響
  • 今後の課題 は未開拓データ(動画、ロボットなど)の活用方法にあり

AI進歩の現状と「Moore's Law for AI」論

  • AIは近年急速に進化、特にここ5年の進歩は目覚ましい現象
  • 進歩は必然的に見える が、大きなパラダイムシフトは稀な存在
  • 一部研究者は 「AI版ムーアの法則」 を提唱、AIの能力が指数関数的に向上すると主張
  • ただし 完全自律型エージェント の実現は2025年時点でも非現実的との見解
  • 年々 AIは賢く・高速・低コスト化 し、進歩の終わりが見えない状況

AI進歩の原動力:研究とシステム革新

  • AI研究の中心 はMIT、Stanford、CMUなどの大学と、Meta、Googleなどの企業
  • システム面の革新 がコスト低減や性能向上を牽引
  • 近年の主なシステム面ブレークスルー:
    • 2022年:Stanfordの FlashAttention でメモリ効率向上
    • 2023年:Googleの speculative decoding で推論高速化
    • 2024年:インターネットコミュニティによる Muon で新たな最適化手法
    • 2025年:DeepSeekの DeepSeek-R1 でオープンソース高性能モデル登場
  • 研究成果はグローバルかつ分散的 に公開・共有され、毎月進歩が加速

最近のAI進歩への懸念と停滞感

  • 最新の巨大モデル(Grok 3、GPT-4.5) は前世代比で性能向上が限定的
  • 数学オリンピック等の難関タスク では依然として低得点(5%)に留まる
  • 大規模ブレークスルー の頻度は鈍化傾向

AIの歴史的ブレークスルーと共通点

  • 代表的な4つのパラダイムシフト:
    1. Deep Neural Networks (2012年、AlexNet)
    2. Transformers + LLMs (2017年以降、BERT・GPT)
    3. RLHF (2022年、InstructGPT)
    4. Reasoning (2024年、OpenAI O1・DeepSeek R1)
  • これらは 過去の理論・技術の新応用 による成果
  • 教師あり学習・強化学習 は1940~90年代から存在

ブレークスルーの本質:新データソースの活用

  • 各ブレークスルーは 新たなデータ源の大規模利用 で実現
    • 画像認識: ImageNet
    • 言語モデル: インターネット全体のテキスト
    • RLHF: 人間のフィードバック
    • Reasoning: 検証者(計算機・コンパイラ等)
  • 進歩のたびに 未利用データの発掘・効率化競争 が発生

技術革新よりもデータが重要な理由

  • モデルや学習法の工夫 よりも、 データの量と質 がAI性能に直結
  • 例: SSM(State Space Model) はTransformer以外の構造だが、同じデータで同等性能
  • データセットの情報量に限界 があり、学習手法の工夫だけでは突破できない壁

The Bitter Lessonと今後の展望

  • 「The Bitter Lesson」 :新手法よりも大規模データ利用が本質的
  • 次のパラダイムシフト は新学習法ではなく、 新データ源の開拓 がカギ
  • 有望な新データ源:
    • 動画データ(YouTube等) :テキストより遥かに膨大かつリッチな情報
    • ロボットによる実世界データ :センサーやカメラからの大規模データ収集
  • 言語データは枯渇傾向、今後は動画や実世界データが焦点

結論:AI進歩の鍵は「新しいデータ源」

  • AIの真の進歩 は新規データの発掘と活用方法に依存
  • 新しい学習手法やモデル 開発よりも、 未開拓データ の獲得・利用が重要
  • 次世代AI は動画やロボットデータなど、よりリッチな情報源へのアクセスが不可欠

Hackerたちの意見

自己対戦からの強化学習/AlphaWhatever?いや、データセットだけだと思う。 :)

https://en.wikipedia.org/wiki/TD-Gammon

あと、実際に役立つ長いコンテキストとかのアーキテクチャの話ね。Gemini 2.5がやったことは、前のモデルと比べて長いコンテキストでの有用な結果が桁違いに進んでる。Gemini 2.5が「ただの」Gemini 1のデータが良くなった版だったら、かなり驚くよ。

完全に指定されたゼロサムゲームと現実世界には大きな違いがあるよ。簡単な例えで言うと、次の文を何度も読み上げて、毎回違う言葉を強調してみて。「私は彼女が私のお金を盗んだとは決して言わなかった」意味がどう変わるか、そしてそれがしばしばユニークであることに気づく?それがフレーム問題とその逆、仕様問題へのレンズなんだ。上記の問題はすぐにタワー完全になり、最近の研究ではRLが既存のパターンの重みを強化または増加させていることが示唆されている。オープンドメインのフレーム問題や類似の課題はHALTと同等であり、有用な情報を抽出する新しい方法を見つけることが一般化にとって重要になると思う。合成データは役立つけど、特にタワー問題に関しては完全な解決策ではないね。

確かに、人間の知能を再現するシステムを想像すると、「データセットを変える」ってのは、異なるモデルを持つために必要なことを要約した良い表現かも。結局、私たちの記憶やトレーニング、教育、バックグラウンドなんかが、問題解決能力の大きな要素だからね。

それには敬意を表して反対するわ。すべての「新しい」アイデアは古いアイデアから来てる。AIは、今までアクセスできなかった古いアイデアに速さと新しい視点でアクセスするための道具なんだ。革新は隙間の中にある:古いアイデアの穴や交差点、接点を認識すること。革新は巨人の肩の上で行われると言われているから、AIは巨人の肩に上がるためのエレベーターになるのかな?それは道具をどう使うかにかかってる。

その通り!もし科学に同じゲートキーピングの論理を適用したらどうなるか想像できる?他の誰かの科学的な成果やその派生物を使うことができなかったら、進歩は全くないよね。ここで見た唯一の正当な防御は、知的財産権や著作権侵害に関するものだけど、正直どうでもいい。

古いアイデアにアクセス?うん。新しい視点で?必ずしもそうじゃない。LLMは新しい視点でデータを解釈するのを手伝うことができるかもしれないけど、実際にはまだ新しい分野の仕事にはあまり得意じゃない。ほとんどのことと同じように、真実はその中間にあるんだ。LLMは特定の種類や特定の側面の研究を加速する手段としては役立つけど、他のことにはあまり役立たない。

記事はAIの革新に取り組むことと、より良いデータを集めることに焦点を当てることについて話してるね。新しいアイデアの重要なブレークスルーがあった一方で、これらのシステムの性能を向上させるための最良の方法の一つは、より良いデータを集めることなんだ。データが改善の主要な手段だと思ってる人がどれくらいいるか。数十年前のAIのトークを思い出すよ、サイクルはこうだ:データが増える -> レイヤーが増える -> 繰り返す… まあ、君のコメントがこの2つの改善の道にどう関係してるのかはよくわからないけど。

私は敬意を表して反対します。「新しい」アイデアはすべて古いアイデアから来ているんです。ベンゼン環の構造に関する洞察は、夢の中で得られたもので、以前には見られなかったけど、自分の尾を噛む蛇として想像されたんだ。

もし人間が人類が今まで生み出したすべての分野の本や出版物を読んで、全く新しいものを思いつけなかったら、想像しづらいよね。

時々、技術的進歩と科学的進歩の違いに混乱することがあるよね。科学が進歩すると、新しいS字曲線が開かれて、信じられない速さで進むけど、やがては収穫逓減の地域に入る。人々は進歩が遅くなったと文句を言うけど、実際はずっと遅かったんだよ。S字曲線の指数関数的な立ち上がりの間は、新しいことが起こってないのに気づかなかっただけで、ただひたすら最適化してたんだ。

完全に同意するよ。そして同時に、人々がS字カーブと指数関数の違いを理解していないことに気づいた。特定の間隔では、ほとんど同じに見えることがあるからね。

最新のLLMは、ただいろんな数字を掛け算したり足し算したりしてるだけだよ… バビロニア人も4000年前にやってたことだし。

君はただの波の相互作用の集まりなんだ。意味はすべて付けられてる。これを、ゲーデルの生成器みたいに考えるのが好きなんだ。プリンキピアの新しい形式的表現を見つけたように、概念空間をインデックス化する方法があるから、隙間に何が見つかるかわからないよ。

でも、それは粘土のテーブルの上での話で、1原子厚の壁で隔てられた半導体の電子監獄の中ではないよね。その方法には微妙な違いがあると思わない?

自信を持って言えるけど、今は初期の段階にいるんだ。AIは言語と視覚の2つの主要な分野で驚くべき進歩を遂げた。GPT-4やClaudeのような大規模言語モデル(LLM)や、CLIPやDALL·Eのような視覚モデルを使って、詩を生成したり、コードを書いたり、写真を説明したり、さらには人間のような会話をする機械を見てきた。でも、これがどんなに印象的でも、全体像を見失うのは簡単なんだ。人工知能が何であるかの表面をかすめただけだからね。だって、テキストと画像の2つのモダリティしかスケールしてないんだから。それは、読書と視覚をマスターしたから人間の知能をモデル化したと言ってるようなもので、触覚、味覚、嗅覚、運動、記憶、感情、そして私たちの認知を豊かにするすべてのものを無視してる。人間の知能はマルチモーダルなんだ。私たちは世界をこうやって理解してる:触覚(表面の質感、圧力のフィードバック、肌の温もり)、嗅覚と味覚(記憶、危険、快楽、さらには創造性に深く結びついてる)、自己受容(自分の体が空間のどこにいるかの感覚 — どう動いてバランスを取るか)、感情や内的状態(空腹、痛み、快適さ、恐怖、モチベーション)。これらは現在のLLMや視覚トランスフォーマーでは全く捉えられていない。全然近くもない。それでも、私たちの認知的な生活はそれに依存してる。言語と視覚は始まりに過ぎない — 最初にデジタル化できた部分であって、知能にとって最も中心的なものではない。AIの本当のフロンティアは、人々が生きる混沌とした豊かな感覚の世界にある。新しいハードウェア(センサー)、新しいデータ表現(トークンを超えて)、経験から理解を育てる新しいモデルのトレーニング方法が必要なんだ。

AIの本当のフロンティアは、人々が生きる混沌とした豊かな感覚の世界にある。新しいハードウェア(センサー)、新しいデータ表現(トークンを超えて)、経験から理解を育てる新しいモデルのトレーニング方法が必要なんだ。ドクター・フーが言ったように、ダーレクは機械の中の脳じゃなくて、彼ら自身が機械なんだ!人間も同じだよ。私たちは本当に全身なんだ、ただ運転してるだけじゃない。

うん、でも新しいアイデアはあるの?それともただの願望?

言語や視覚は始まりに過ぎない — 最初にデジタル化できた部分で、知能にとって最も重要なわけではない。 それにはちょっと異議あり。触覚はすごいスキルをもたらすけど、言語、映像、音声があればオンラインでのやり取りには十分なんだ。タイピングや指差しに触覚を使うのは、もっと効率的で効果的なインターフェースがないからだよね。もちろん、他の感覚が面白くないわけじゃないけど、触覚や広範な自己受容、嗅覚を統合すれば「リアルな」行動がたくさん解放されるだろうけど、君のコメントは知能についてだったからね。人間と猿や他の動物を比べると、私たちを特別にしているのは「残りの」感覚ではなく、音声、映像、言語の領域にしっかりあるんだ。

言語と視覚は始まりに過ぎない.. 我々が持っているアーキテクチャに基づくと、それが終わりにもなり得る。ここ数年、LLMについてのニュースがたくさんあったけど、AIの他の分野で目を引くようなブレイクスルーはあったの?

有機的な適応と記憶の持続性、これが必要な二つの大きな進歩だと思う。人間の神経ネットワークはダイナミックで、変化したり再編成されたり、成長したり切り離されたりする。LLMは固定的で、コンテキストに依存してるんだよね。正しい答えを与えても、それが正しい答えだと「学習」するわけじゃなくて、システムにフィードバックして何ヶ月も訓練しないといけない。もしそれが限られた期間だけの正しい答えだったらどうするの?インテリジェントな機械を作るには、リアルタイムで自分自身を訓練して、記憶する能力が必要だね。

AIのトレーニングって、今はデータセットを覚えさせるプロセスなんだよね。データセットについて考えたり、結論を導き出したりするわけじゃない。多分、特定のトピックについてはその分野の博士号を持ってる人よりも多くの事実を覚えられるけど、博士号の人はそのトピックについて考えるのが得意だよね。

もうちょっと複雑なんだよね。データセットを機械が使えるヒューリスティックに変換して、入力に対して満足できる結果を出すことが重要なんだ。時には、これらのヒューリスティックが人間にとって驚きで、新しい方法で問題を解決することもある。「考える」って言葉は広すぎて使いにくいけど、AGIにはまだまだ遠いってことは明らかだよ。

そのトピックについては博士号を持ってる人よりも多くの事実を覚えられる それならノートも同じだね。

だから博士号を持ってる人たちが教科書を手元に置いておくのかもしれないね。全部を覚えておく必要はないから。モデルがすでにどこかに書かれている事実を暗記する必要があるのはなぜ?

ジョン・カーマックが探求していることはかなり興味深いよ。モデルをトレーニングして、2Dゲームを超人的なレベルでプレイさせてから、未経験のレベルや別の2Dゲームをプレイさせるんだ。転送機能はマイナスなんだよね。だから、私の定義では、知能は発展していなくて、狭い範囲のタスクに対する専門知識だけがあるってこと。ASIのビジョンで大衆を怖がらせるのは簡単だけど、人間よりも早く新しい2Dゲームを習得できる一般的な知能を構築するのはずっと難しいみたい。

「転送機能がマイナス」ってどういう意味か説明してくれない? 同じモデルを使って、2つの状況でテストしたか気になってるんだ。1) ゲームAで超人的なレベルに持っていってから、Aに似たゲームBを提示する。2) Aを提示せずにBを提示する。もし1)が2)よりも大して良くなければ、あまり「知識」を持っていないか、単に正しくプログラムされていないのかもしれないね。

これはモデルが大きくなりすぎてオーバーフィッティングしてるケースかもしれないし、制約をかけることでより一般的なヒューリスティックを学ばせることができるかもしれないね。制約なしの「最高の」AIは、ゲームをクリアするための小さなヒューリスティックのセットではなく、レコードのスピードランを再生するようなものになっちゃうみたいだけど、後者の方が未経験のコンテンツに対しては明らかに重要だよね。

彼はこの結論に適切なモデルを使っていないし、最先端のモデルも使っていないし、さらに2Dゲーム用の高価な基盤モデルも持っていない。これはただの楽しいプロジェクトだよ。真剣に映像や視覚を扱うなら、一般的なゲームに意味のある方法でノイズを加えられる確率的潜在空間が必要なんだ。veo3はAIが2Dや3Dゲームを一般化できることを証明していると思う。プロンプトの制約の下でビデオを生成するのは、基本的にゲームをプレイすることだよ。veo3に数秒間どんなゲームでもプレイさせるようにプロンプトを与えれば、たとえ微調整されていなくても、だいたい意味が通じると思うよ。

あなたが言ってるのは、おそらくメタ強化学習のことだと思う。ジョン・カーマックがこれに注目しているのは素晴らしいけど、これは新しい研究分野じゃないよね。

なんで人々がこんな風に考えるのか理解できない。目標を達成する方法はいくらでもあるはずだよ。ジョン・カーマックはAIの専門家じゃないのに、なんで急に基準になってるの?

モデルがそのアタリや2Dビデオゲームを超人的なレベルでプレイしたという主張について疑問に思ってたんだけど、明らかに人間がモデルができる前に超人的なレベルに達していたのを覚えてる。普通のプレイヤーと比べて超人的だったんだろうけど、ゲームを極めるのに異常な時間をかけた人とは違うよね。

これはオーバーフィッティングの例みたいに聞こえるね。根本的にはこれが機械学習だよ。

学位を取得したとき、ソフトウェアシステムがそのレベルの専門知識を持つことができるなんて考えは、SFの世界に relegated されてた。そこに到達するのは信じられない人間の偉業で、正直、少しの畏敬の念があると生活がもっと楽しくなるよね。生活の質に焦点を当てるのは少ないけど、彼がこの研究に使ってるモデルがそれ以上のことができるとは思わない。これって本当に明らかになることなの?

モデルが「本当に知的」かどうかっていう疑問は、AGIについて理論を考えてる学者には興味深いかもしれないけど、LLMから有用なものを得てる大多数の人にはあまり関係ないよね。今の道がAGIに繋がるかどうかなんて気にしない。もしClaude 4で止まったとしても、私は使い続けるよ。それに、わかるよ、うるさくて非合理的なAGIの人たちについて文句を言うのは楽しい。でも、日常生活で人々がこれらをどう使ってるかの議論の方がずっと面白い。

新しいアイデアが出てきてるし、人々は視覚モデルを構築する新しい方法を見つけて、それを言語モデルに応用したり、その逆もやってる(拡散のように)。コネクショニズムの元々のアイデアは、ニューラルネットワークがどんな関数でも表現できるってこと。これは基本的な数学的事実だから、楽観的でいるべきだよ。ニューラルネットは何でもできるようになるはず。どのニューラルネットかって?今のところ、いくつかの生産的なアーキテクチャに人々はつまずいているけど、科学というよりは錬金術に近い感じがする。新しいアイデアや新しいデータが出てこない理由はないよ。生物学はそれをやったし、人間もやるだろう。> 我々は、発見がオープンに共有される分散型のグローバルな科学の活動に従事している。多分、発見は共有されているけど、会社のイメージを良くするためのものだけだよね。でも、方法論はもう共有されていない。

モデルアーキテクチャに関わって論文を読んでるなら、新しいアイデアがあふれてることを知らないわけがないよね。でも、面白い結果を出すのはほんの一部なんだ。pytorchみたいなライブラリが実験的な開発を妨げてるんじゃないかって思う。みんなが使うのは、すぐに使えるソリューションばかりで、基本的な概念を考えなくなってる。そういうソリューションが素晴らしいのは分かるけど、それで解決された部分が本当にあるのかは疑問だな。他の誰かのトークナイザーや、誰かのビジョンモデルを使ってモデルカードのチェックボックスを埋めるためだけに使ってるモデルはどれくらいあるんだろう?

そんなことを考えない人たちは、pytorchなしで実験的に開発することもないだろうね。

それが人間の世界のごく普通のあり方だよね。ある瞬間に基盤層が知的探求に対してROIを生まないと、たとえばVC資金で過剰補償できて他のところで進展があるから、行く人は少なくなる。でも、他の領域が限界利益に達すると、優れた頭脳は自分の努力に対して大きな利益が得られる場所を探し始める。だから、次の世代のPyTorchや基盤技術も進化していくんだ。