世界を動かす技術を、日本語で。

リッチ・サットンのAIによる創造性と発見

2026年6月10日原文(twitter.com)

概要

  • 本稿は、 Generative AI真の発見や創造性 を持つか否かについての新たな視点を提示
  • 教師あり学習 によるGenerative AIは「良い部分は新しくなく、新しい部分は良くない」
  • 科学や数学の分野では、 模倣AI だけでは不十分
  • 発見(Discovery) には 評価(Evaluation)選択的保持 が不可欠
  • AIに 創造性と発見力 を持たせるための今後の課題を提言

Generative AIの限界と評価

  • Generative AI(大規模言語モデル、画像・動画生成AIなど)は、人間や現実のデータを模倣するAI
  • これらのAIは多くの例から「モデル」を作成し、 模倣的な出力 を生成
  • 新規性と良さ の両立が困難
    • 良い出力は新しくなく、新しい出力は良くない傾向
  • 実用面では、 模倣で十分な利便性 や効率性を発揮
  • 事実や要約 を求める場面では新規性は不要
  • 創作や娯楽 分野では新規性が求められるが、実際どれほど創造的かは検証困難
  • 出力の新規性は多くの場合 確率的な選択 によるもの
  • 結論として、Generative AIは「良い」と「新しい」を同時に実現できないが、それでも 変革的技術 であることに変わりはない

科学・数学分野におけるAIの創造性

  • 科学や数学 では「良いだけ」「新しいだけ」のAIでは不十分
  • 本当に必要なのは 真の創造性と発見力
  • Generative AI(模倣AI)だけでは 科学的発見 には至らない
  • 他方、AlphaGo・AlphaZero・AlphaFold・Claude-Codeなどは 本当の発見 を成し遂げたAI
  • これらのAIは 強化学習や探索・計画アルゴリズム など、模倣を超えた仕組みを持つ
  • 評価(Evaluation)選択的保持(Selective retention) が創造性の本質

発見(Discovery)の本質

  • 発見とは「多くのことを試し、うまくいったものを残す」プロセス
    • 進化論、科学的方法、日常の学習にも共通
  • 心理学では「道具的学習」「オペラント条件付け」、機械学習では「強化学習」と呼ばれる
  • 本質は 変異(Variation)・評価(Evaluation)・選択的保持(Selective retention) の3ステップ
  • これらが 教師あり学習や単純なGenerative AI には欠如
  • Generative AIは 評価 の仕組みが訓練後には存在せず、 選択的保持 もできない
  • 新規性は生まれても、評価されなければ 創造性や発見には至らない

人間とAIの協働による発見

  • Generative AIの出力を人間が評価し、選ぶことで「人間+AI」の形で発見が成立
  • 明確な目的や報酬がある場合、AI自身が評価・選択し、自律的な発見が可能

深層学習と創造性

  • バックプロパゲーション(誤差逆伝播法)は一見決定論的だが、初期重みの ランダム性 が重要
  • しかし、変異は初期化時のみで、学習が進むと新たな発見能力が失われやすい
  • 著者のグループによる「continual backpropagation」では、使用頻度の低いニューロンを再初期化し 持続的な変異 を実現

今後のAI創造性への提言

  • 創造性と発見力は、 教師あり学習パターン認識予測 だけでは不十分
  • 発見には 評価と選択的保持 が不可欠
  • AIに 目的や評価基準 を与えることで、 自律的な創造性と発見 が可能
  • AI科学者 の力を最大化するため、目標を共有し、AI自身が創造・評価・発見できる仕組みの構築が重要

まとめと呼びかけ

  • Generative AIは模倣には優れるが、 本当の発見や創造性は別の仕組みが必要
  • 今後は「評価」と「選択的保持」を取り入れたAI開発が求められる
  • 完全自律的な創造性と発見 の自動化に向けて、さらなる挑戦を呼びかけ

Hackerたちの意見

彼の言ってることがよくわからないな。要するに、a) 目標(「センス」のあるもの)をトレーニングステップに直接組み込む新しい基盤アルゴリズムが必要ってこと?それとも b) トレーニングされたモデルを目標に向けて進める必要があるってこと?もしa)なら、彼はそんなアルゴリズムを提案してないし、抽象的な目標をどうやって定量化するのかもわからない。彼がそんなアルゴリズムを提案したのを見落としたのかな?もしb)なら、すでに存在するよね。AlphaEvolveとか、彼が言ったことのいくつかを見ればわかるし。ちょっと皮肉っぽく言うと、/goalって打って放っておけばいいんじゃない?それに、彼が言ってることは、LLMが良いことや新しいことをできないっていうのは明らかに間違ってると思う。もしできるなら、「それは新しくない、派生的だ」って言えるよね。例えば、LLMでプログラミング言語を作って、それが自分の目的に合ってたら、それは新しくて良いってことじゃない?FORTRAN以外の言語は新しくないの?すべてが派生的で、LLMをループに入れて、LLMが色々試すのを評価させることもできる。彼がこんなに間違ってるとは思えないから、何か誤解してるのかも。

LLMは地図を持ってるけど、肥沃な土地と不毛な土地を見分けられないんだよね。例えば、Anthropicの新しいモデルはどうやって有望な「薬」を生成するの?モデルに埋め込まれた知識を超えて、AlphaFoldの推論パラダイムを取り入れてるからだよ。単独では、Claudeはタンパク質分析法を設計することはできないだろうね。

彼のYouTubeのプレゼンの一つで、「デザイナー」の時代に入ってるって言ってた気がする。https://youtu.be/ThFq87Rp21s?si=SrKj72_X8bjnB6ED 35分あたり。

いや、彼が言ってるのは、私たちはそれを持っていて、もっと使うべきだってことだと思う。AlphaGoは潜在的な手を評価して反復する時に発見を使ってるし、Claude Codeもスクリプトを生成してそれが機能するかどうかを評価する時に発見を使ってる。彼が言いたいのは、AIシステムにも科学やエンジニアリングのために自分たちで評価と反復をさせるべきだってことだよ。要するに、エンジニアリングをエンジニアリングのために活用しようってこと。

何か見落としてるかもしれないけど、この議論は元々の事前トレーニングの時代(例えばGPT 1-4)にしか当てはまらないように思える。ポストトレーニングや強化学習のパラダイムは明らかに変化、評価、選択的保持を行ってるよね?

トランスクリプトは、検証可能な報酬を用いた強化学習(RLVR)などのポストトレーニングステップを見落としているようだね(でも、リッチ・サットンがそんなことを知らないとは思わないけど;RLVRには非常に限られた評価アプローチがある)。これが、キーンテックがデビッド・シルバーの言葉にある「言葉にできない知能」アプローチに傾く前触れなのかな。

でも、RLVRは基本的な分布を超えることはまだできないんだ。内部でモードを探すだけ。つまり、評価や保持はできるけど、変化や「計画」はできない。LLMを使えないわけじゃないよ。Alpha evolveはまさにそれをやってる。外部のシンプルな進化計画者を使ってるけどね。彼が言いたいのは、私たちの計画者はまだ「バカ」だから、改善が必要だってこと。クラウドコードでLLMを反復的にガイドすると、あなたが外部の計画者になる。それも機能するよ。

彼がAlphaGoやこれらのGAIモデルが直面する問題を提示する方法には問題があるように思える。AlphaGoは外部から厳しい評価を受けてるけど、それを自分で考え出したわけじゃない。GAIモデルが外部から厳しい評価を受けると、シンプルなプログラミングタスクから最前線の数学(最近の予想の反証)まで、さまざまな分野で成功することができる(それが多くの分野で成功するという素晴らしい特徴の一つ)。特にこれらの分野では、解決策が非常に複雑でも評価はそれほど複雑ではないことが多い。発見や「進化的」なトレース選択も起こっているし。だから、AlphaGoと比較するのは変だと思う。AlphaGoは自分とは独立した外部の厳しい評価を受けているから。GAIがそんな評価を受ければ、素晴らしい結果を示すこともできるはず。だけど、もっと奇妙なのは、多くのケースで革新や前進には本当に新しいアイデアは必要なくて、むしろ異なる方法や戦術、アイデアを重ね合わせる高品質な実行が必要だってこと。多くの分野で私たちの集合知は非常に希薄で複雑だから、高品質にツールやモデル、アイデアを再結合できること(彼が選択的であると言っているように)は非常に強力だと思う。そんな場合、有限な探索の範囲(時間やリソース)で1%の「良い選択」と3%の「良い選択」は全く違う、比べ物にならない。最も重要なのは、上記のどれも知能についてではなく、私たちが抱える重要で価値のある問題に対する不毛な解決策の農業に過ぎないってこと。AGIや知能に関する議論のほとんどは、この単純な事実を見落としているように思える。(飛行機が鳥のように飛べないとか、潜水艦が泳げないのは役に立つかどうかには全く関係ない)。最後に、これが私たち一般人が一生の中で直面する問題に対して、平均的により良い結果を出せないと思う?科学や医学の学位を与える時、60-70%の試験結果で一般的な問題とされるものに対して、私たちはどう考えるべきか、どう人間の知能を定義すべきか?

(飛行機が鳥のように飛べないとか、潜水艦が魚のように泳げないっていうのは、役に立つことには全く関係ないからね)。ちょっと思い出してほしいのは、飛行機には鳥と同じように翼があって、潜水艦には魚の浮き袋のような空気タンクがあるってこと。一部の鳥は、あまり羽ばたかずに飛ぶこともあるよ、例えばアルバトロスとか。

MLがクリエイティブだったり発見をすることができないとは思わない。クリエイティビティや発見は、結局のところ、正しい一見無関係な概念を同時に考えることだと思う(アルゴリズム的思考はもっと明らかに関連する概念)。もしLLMでなくても、他のモデルがランダムなアイデアを生成して、それをランク付けして、ベストなものを出力することができる。でも、人間の方がそれが得意だと思うし、MLはアルゴリズム的思考が得意だと思う。「得意」というのは、より効率的で、私たちが楽しんでやることができるってこと。私たちはまた、特に自分自身にとって、何が主観的に魅力的かをより正確にランク付けできると思う。MLはプログラミングよりも一般化を必要とするタスクに最適化されるべきだと思うけど、まだ論理的なものが多い。ソフトウェア開発、翻訳、アートや発見のためのツールなどがそうだね。

「クリエイティブ」って言葉をAIについて話すときは、すごく具体的に使わないといけないよね。AIはアートを作れるのかって?感覚的に心地よいものは作れるけど、アートって最終的には人間の感情や気持ちを伝えることだから。人間同士でもアートの理解は普遍的じゃないし、「感情や気持ち」、つまりアートは特定のグループの共有された信念や経験に深く結びついてることが多い。数学や科学みたいな主観的でない分野でクリエイティブになれるのか?アインシュタインは創造的な思考実験から一般相対性理論を導き出したけど、もしAIが実験で発見された問題を解決するために異なる数学的枠組みを試して、一般相対性理論の場の方程式をポンと出したら、それはクリエイティブなのかな?多分そうかもしれないけど、同じ意味ではないよね。

彼の創造性の定義はクローズドループで、つまり生成された概念はシステム自体にとって新しいものでなければならない、観察者にとってではなく。

Hacker Newsで議論の続きを見る