世界を動かす技術を、日本語で。

アンドレイ・カルパティ – AGIはまだ10年先です

概要

  • Andrej KarpathyがAIとAGIの進化、強化学習の限界、今後の課題について語る内容
  • AGIの実現にはまだ10年程度かかるという見解
  • 強化学習(RL)は現状では不十分だが、他の方法も課題が多い
  • 過去15年のAI研究の大きな転換点や失敗例の振り返り
  • 人間や動物の学習とAIの違い、今後の教育や自律エージェントの展望

Andrej Karpathyエピソード要約

  • Andrej Karpathy がAIの進化や課題、今後の展望について語るインタビュー内容
  • 強化学習(RL)は現状では不十分 だが、他のアプローチも多くの課題を抱える現状
  • AGI(汎用人工知能)の実現 にはまだ約10年は必要との見解
  • AI研究の歴史的な転換点や、 過去の過大評価・過小評価の例 の振り返り
  • 人間や動物の学習プロセス とAIの違い、今後の教育や自律エージェントの可能性についての考察

AGIはまだ10年先

  • 現在のLLM(大規模言語モデル)やエージェント は非常に印象的だが、実用レベルには未到達
  • 継続学習やマルチモーダル機能 など、欠けている要素が多い
  • 人間の社員やインターンのような働き ができるAIには、まだ多くの技術的課題
  • 直感的に10年程度かかる と予測、過去のAI進化の経験則に基づく判断
  • 進化の歩みは早いが、課題解決には時間が必要 という現実

強化学習(RL)の課題

  • Atariやゲーム環境での強化学習 は一時的なブームだったが、本質的なAGIには不十分
  • 現実世界での知識労働や複雑なタスク には、単純な強化学習は適さない
  • OpenAI Universeプロジェクト など、早すぎた試みの失敗例
  • 現代ではLLMの上にエージェントを構築 する流れが主流
  • 適切な表現力・事前学習の重要性 が認識されるようになった経緯

AI研究の歴史と転換点

  • Geoff Hintonのもとでのディープラーニング黎明期 からの流れ
  • AlexNetによる画像認識の大転換、その後のタスク特化型ニューラルネットの普及
  • エージェント志向の強化学習への流れ と、その限界の認識
  • LLMの登場による表現力の飛躍的向上 が次の大きな転換点
  • AI分野の“地殻変動”は定期的に起きてきた という実感

人間・動物の学習とAIの違い

  • 動物は進化によって生まれつき多くの機能を備えている (例:生まれてすぐ走るシマウマ)
  • AIは人間の模倣やインターネット上のデータによる学習 が中心
  • AIは“動物”ではなく“デジタルな霊”のような存在 という比喩
  • 進化と学習のプロセスの違い により、AIと生物の知能は本質的に異なる
  • 動物的なAIの構築は理想的だが、現実的には困難 との見解

今後の展望と教育の未来

  • AIエージェントの能力向上にはまだ多くの課題
  • 教育分野でのAI活用や自律エージェントの未来 への期待
  • 経済成長や社会への影響は徐々に現れる (例:2%のGDP成長に溶け込むAGI)
  • 過度な楽観や悲観ではなく、着実な技術進歩への期待
  • 今後もAI分野の“地殻変動”に注目

Hackerたちの意見

50%の失業率の世界に住むことになっても、「本当のAGI」について議論し続けるんだろうね。

今このメッセージを読んでる人の生涯のうちにAGIは見られないって、俺は人生の全資産を賭けてもいいよ。これには、投稿日からずっと後にこのメッセージを読む人も含まれる。もちろん、これがどうやってこの賭けを果たすかっていう面白い問題を提起するんだけど。

あなたが正しければ、賭ける必要はないよ。

俺の1ドルと君の資産、賭けてみる? :)

NVIDIAをショートするのがいいかも。

定義によるけど、ある定義のもとではもう実現してるかもしれない。その例として、多くの思考タスクで平均以上の人間を超えることができてるってこと。

長い時間がかかる理由は、これは「ナインの行進」だからなんだ。どのナインも同じ量の作業が必要で、どのナインも同じくらいの労力がかかる。デモを見て、何かが90%の確率でうまくいくと、それは最初のナインに過ぎない。次に二つ目のナイン、三つ目のナイン、四つ目のナイン、五つ目のナインが必要になる。テスラに5年くらいいたけど、たぶん3つか2つのナインを経験した。何かは分からないけど、複数のナインの反復があった。まだまだナインは残ってると思う。これはAIの進歩を理解するための重要な方法だと思う。能力の向上は特定の固定ベンチマークに対しては指数関数的に見えることが多いけど、次のステップの難しさもまた指数関数的で、広い視点で見ると純粋な線形改善になる。

これはすごい引用で、ソフトウェア開発全般に本当に当てはまるね。

ハハ、俺はよく最初の90%の作業を終わらせてから、次の90%の作業に移るって話をするんだよね…

Facebookで働いてたときに、「この旅は1%しか終わってない」っていうスローガンがあって、これがすごくいいアイデアを表してたな。

走ることに関する古くからの格言を思い出すな。マラソンは二つのパートで成り立ってる:最初の20マイルと、最後の10キロ(6.2マイル)で、ここが一番疲れて痛いときなんだよね。

最近見たリッチ・サットンとのインタビューで、AGIは単に9を足すだけの問題じゃないって印象を受けた。インタビュアーは、言語を理解するには世界のモデルが必要だって当たり前のように考えてたけど、サットンはその前提をすぐに否定したんだ。彼が懐疑的なのは正しいかもしれないね。

彼の言い方も結構好きだな。ただ、ある時点からはAI自体が開発に貢献するようになる—つまり、9を足すことになるんだ。それが他のシステム(以前のドメイン特化型MLも含めて)との違いで、AGIへの道なんだよね。だから、2年以内に急速な加速が始まることが期待できるんだ。

無限に大きい小さな数字。アカデミアは自分を再発見した。世代交代によるエントロピーの副産物である信号減衰は、あまり保証がない。オッカムの剃刀;カーパシーは未来を知っているのか、それとも手作業を避けようとする自己選択的な生物なのか?彼の発言はノストラダムスに似てる。これは「終わりが近い」という有害なポジティブさの形だ。「天国は存在する、そこに行くためにはこの作業をしなきゃいけない。」物理学は常に勝つし、統計学は物理学じゃない。ギャンブラーの誤謬;統計的な確率の改善は、実際の確率を改善しない。確率は変わらない。これは自分の人生で他に何もする気がない人たちの約束に過ぎないから、道を進み続けよう。

いろんなことを考えるのにいい方法だね。パレート効率ってやつ。80/20の法則、努力の20%で80%の成果が得られる。でも、ほとんどの時間はその最後の20%を得るために使われるんだ。人はこれが自然界でフラクタルのように成り立っていることに気づかないことが多い。だから、残りの20%の中でも同じことが言える。20%の時間(20% * 80% = 16% -> 36%)で80%を得る(80% * 20% => 96%)を何度も繰り返す。80/20の数字は実際には現実的じゃない(または一定じゃない)けど、いいガイドにはなる。最近、テクノロジーもこれに苦しんでると思う。「速く動いて物を壊す」ってのは、ほとんどのところまで行くためのいい方法だけど、その過程で破壊の跡を残して、何百万もの小さなことを棚上げしちゃう。誰かが戻ってきて片付ける必要がある。棚上げされたことを再訪する必要もある。どんな小さなことでも、私たちは大きな問題を小さなものに分解することで解決するからね。だから、大きな問題は多くの小さなものの合計であり、すぐに無視されるべきじゃない。9のアナロジーのように、99.9%の時間は年間9時間のダウンタイムでもある。これは1e9のうちの1e6のケース。100万のケースは小さな問題じゃない。スケールは素晴らしくて、私たちの分野を素晴らしいものにしたけど、それは両刃の剣でもある。これも人々が苦しんでることだと思う。平均以上になるのはすごく簡単だし、平均以上のレベルに達することもある。ちょっと努力するだけで平均以上になれることが多い。でも、罠は、ある分野では平均以上がマスタリーに近いけど、他の分野では平均以上がスキルゼロに近いこともあるってこと。例えば、1億ドル持ってると、あなたの富はホームレスの人に近いよりも億万長者に近いと感じる。でも、1億ドルの時点では、あなたは億万長者にかなり近いと感じるけど、実際には何も持ってない人よりもずっと上にいるだけで、曲線は指数関数的なんだ。

人間はどれくらい「9」がいるのかってことだね。

たくさんの人が線が上がってるのを見ると、指数関数的だと思っちゃうよね。でも実際は、ほとんどの場合ロジスティックなんだよね。

今やNvidiaが最も価値のある会社になったから、実際のAGIについての話は、ハイプトレインを動かす大量のドルによって消されてしまうだろうね。これらの会社のほとんどは、AGIが近い将来に達成可能だという考えに基づいて価値が構築されてる。AGIが近すぎると、現在のリーダーが勝つ可能性が高すぎるし、遠すぎると支出のレベルが持続不可能に見える。

これらの企業の価値は、AGIが近い将来に実現可能だという考えに基づいている。果たしてそうなのか?それとも、ホワイトカラーの仕事が自動化されるという考えに基づいていて、企業は中堅の給与を得ている労働者を置き換える技術に数万ドルを喜んで支払うということなのか?

その通り。5~10年のタイムラインで、中国との新たな宇宙競争の公式ができあがる。7兆ドルをくれ、さもなくば中国が世界を支配することになる。この2024年の話は、誰もが忘れた古代の歴史のように感じるね。

AGIがなくても、AIがものすごい経済的価値を提供することは可能だよ。

エージェンシー。人文学を学んでたら、「エージェント的」なAIの提案がどれだけすごいか分かるはず。自然界では、エージェンシーは死の結果なんだ。死ぬことでフィードバックループが強力に閉じるからね。カジュアルなエージェンシーの概念(ジェンセン・ファンの生成的 > エージェント的 > ロボティックな主張を考えてる)って、ちょっとおかしいよね。簡単にスピードランできるものじゃないし。(リゾット作りながらこのポッドキャストのかなりの部分を聞いたんだけど、「この評論家たちを聞いてることで、俺はバカになってるのかな?」って思った。一般的に、俺たちのインターネットコンテンツ(メタコンテンツやメタメタコンテンツも含めて)が、適切な品質管理なしに絶対に膨大になってきてる気がする。もっとインターネットの死が必要かも。)

AGIの定義にどれくらい近いと彼は見積もってるの?

少なくとも、分布外のタスクを平均的な人間レベルのパフォーマンスでこなすことができる。

今のところのベストな定義は、サム・アルトマンに1000億ドルをもたらすものってことかな。

AI研究者やコンピュータサイエンスの人たちが人間の脳とAI/コンピュータの比較を始めると、いつも変な気分になる。なんで、私たち(コンピュータサイエンスを勉強しただけの人間)が生物学や神経科学、進化について十分に理解しているという前提があるんだろう?議論は楽しんでるけど、心の中でいつも思うんだ。「…忘れないで、今は2人のCS専攻が神経科学について話してるんだ」って。

「なぜ、私たち(CSを勉強してきた人間)が生物学や神経科学、進化について十分に理解しているという前提があるの?傲慢だよ。」

大学時代に同じような比較をしていた経験から言うと、結局は概念モデルの可用性に帰着すると思う。脳がXをするなら、コンピュータもXに似たことをする可能性が高いし、XはYとZのステップを通じて再現できるかもしれない。脳が化学反応で動いている機械であって、厳密な電気処理ではないことに気づいてからは、そういう比較をするのがずっとためらわれるようになった。

再定義はさておき、完全なAIは商業的に実現可能な核融合エネルギーやコスト効率の良い量子コンピューティング、完全自動運転車と並んで、急速に進化している技術だけど、いつも10年か20年先の話だよね。

核融合エネルギーはこれまで以上に近づいている気がする。5年前には、AGIがまだ数十年先だと思っていた専門家もたくさんいたし、AGIが10年以内に実現するという信頼できる専門家の意見は、実際の進展を示しているよね。

人間がそんな難しい問題を解決した最後の例って何だろう?宇宙旅行とか?

核融合と同じように、世界を革命的に変えるけど、結局はいつも…もう一つの10年先って感じ。

核融合は30年先、AGIはもっと近いよ。

問題を考えるとき、意識的に可能性のツリー(またはグラフ)を探るんだ。これには「状態」を追跡するためのメンタルスペースが必要だよ。全部頭の中に入らないときは、紙にメモを取ると助かることもある。プロセスはこんな感じ:- いくつかの可能性を生成する - 直感に基づいてランク付けする(これ、無意識に起こるかも!) - 可能性Pnを追ったらどうなるか考える - Pnをスタックにプッシュする - 死んだらリコースかスタックをポップする。LLMはそれぞれのステップを単独で行うのはかなり得意だと思うけど、全体のプロセスとしてはうまくいかない感じ。