世界を動かす技術を、日本語で。

LLMの白昼の夢

概要

  • LLM(大規模言語モデル)は 人間のような独創的発見 や洞察を生み出していない現状
  • その理由の一つは、 継続学習やデフォルトモードネットワーク(DMN) の欠如
  • 人間の脳は 無意識下で概念間の新奇な組み合わせ を探索し、洞察を得ている
  • これを模倣する「 Day-Dreaming Loop(DDL)」アルゴリズムの提案
  • DDL導入は高コストだが、 AIの創造性や独自性の源泉 となる可能性

LLMの限界と人間思考との違い

  • 現在のLLMは 凍結されたニューラルネットワーク であり、経験から学習できない仕様
  • 人間は 継続的学習 により、過去の知識や体験を絶えず再構築
  • デフォルトモードネットワーク(DMN) は、意識的な活動がない時にも活発に動作し、創造的な洞察を生み出す基盤
  • LLMは 明示的なプロンプト がなければ何も考えず、バックグラウンド処理が存在しない
  • 独創的な発見やブレークスルー が生まれにくい構造

Day-Dreaming Loop(DDL)の提案

  • DDLは 記憶から無作為に2つの概念を抽出 し、その関連性や新規性を探索
  • 生成モデル が非自明な関連性を模索し、 批評モデル が価値ある結果を選別
  • 有用な発見は 記憶へフィードバック され、次の組み合わせ探索の種となる
  • 高コスト(daydreaming tax) だが、真の革新や独自性のためには不可欠
  • このプロセスにより、 モデル蒸留対策や独自データ生成 にも有用

DDLのアルゴリズム例

  • 記憶(知識ベース)から ランダムに2つの事実・概念を抽出
  • それらの組み合わせから 「面白い」または「価値ある」発見 が生まれるか探索
  • 有望な結果は意識レベルへ昇格し、 新たな知識として保存
  • これを バックグラウンドで継続的かつ並列的 に繰り返す
  • 高次組み合わせ は低次組み合わせの蓄積で自然にカバー

人間のDMN・DDLとAIの違い

  • 人間は 睡眠中や休憩中にも無意識に新規結合を探索
  • DMNは 創造性・洞察・突然のひらめき の根源
  • LLMは プロンプト駆動型 で、DMN的な自律探索が皆無
  • DDL的仕組みをAIに導入すれば、 「自発的な発見」や「予期せぬ洞察」 を生み出す可能性

戦略的・経済的インプリケーション

  • DDLのような 「無駄に見える」計算コスト は、真のイノベーションのための必要経費
  • 高コストなdaydreaming AI が生成した独自知見を、次世代の効率的モデル学習データとして活用
  • データ枯渇問題への打開策 や、他社との差別化の戦略資産
  • 安価・高速なAI提供 の前提として、まずは「高コストな創造的AI」の構築が必要

まとめ

  • LLMの 創造性不足の根本原因 は、継続学習とDMN的バックグラウンド探索の欠如
  • Day-Dreaming Loop の導入で、AIにも人間的な「ひらめき」や「独自性」が付与可能
  • 今後のAI進化には、 「無駄」に見える探索的計算 への投資が不可欠
  • 人間の思考様式の模倣 が、次世代AIのブレークスルーにつながる可能性

Hackerたちの意見

面白い前提だけど、LLMの出力を評価して本当にユニークな洞察を見つけられる人ってどれくらいいるんだろう?実際にLLMにユニークな洞察を生み出させるようにプロンプトを工夫している人もどれくらい?先月だけで1,000回以上LLMにプロンプトを送ったけど、ユニークな洞察を得るために十分な洗練さを持ったプロンプトは10個もなかったと思う。(主にReactのコードを改善するためにプロンプトを送ってる。)その10個のプロンプトの中で、もし全ての出力がユニークだったとしても、1つも見つけられなかったと思う。でも、デイドリーミングループのアイデアはすごく好きだな!実は、同じようなことを考えたことがある気がする(皮肉なことに)けど、素晴らしい洞察って実は誰も考えたことのない2つのアイデアを組み合わせることなんだよね。

LLMの出力を評価して本当にユニークな洞察を見つけられる人 ってどれくらいいるんだろう?自分の中にある一つの行動に気づいたんだ。特定のトピックについて聞いたとき、それが情報空間で支配的な意見だったから。そしたらLLMがその支配的な意見を確認して(トレーニングデータに強く表れていたから)、代替的な視点を探すのをやめちゃった。だからある意味、LLMは既存の意見を強化する反射的な鏡になっているんだね。

完全に同意するよ。ほとんどのプロンプト(特にコード用)は新しい洞察を引き出すようには設計されていないし、たとえそうであっても、それを認識するのは難しい。だから、デイドリーミングループが魅力的なんだ。プロンプトと新しさの検出をシステム自体にオフロードするから。https://github.com/DivergentAI/dreamGPTのようなプロジェクトは、その方向への初期のステップで、ユーザーのプロンプトなしで奇妙なアイデアの組み合わせを自律的に生成し、それらの逸脱度をスコアリングしている。

LLMが何のブレイクスルーも生み出していないっていう前提は受け入れられないな。もし人々がLLMから得たブレイクスルーに対してクレジットを与えていないとしたら?初めてモデルから良いコードが出てきたとき、友達や同僚に話したけど、今はもうしない。私から見ると、モデルは私(または私の雇い主)が支払っているサービスなんだ。誰もがそれが私が使えるツールだって知ってるし、特定のアイデアがモデルから来たのか私から来たのかをクレジットすることを期待してない。私はLLMを使ってコーディングしてるって言うけど、「この賢い部分はモデルから来た!」なんてコメントはしないよ。もし人々がLLMから実際に衝撃的なブレイクスルーを得ているなら、もしかしたら彼らは合理的にそのアイデアを使っていて、LLMが最初に考えたことを言わないだけかも。とにかく、Gwernの提案する一般的なアイデアラボが洞察を生み出そうとするのは面白いと思う。そんな取り組みを資金提供するためのリソースを考えると、トレーディングショップがそのシステムを開発する可能性があると思う。一般的な洞察を探すのではなく、利益の出るトレードを探すことになるだろうし、関連する専門家が有望なアイデアを評価するのがあれば、もっと効果的だと思う。すべてをすべてと比較するのではなく、専門家の領域にあるものと比較する感じで。もしJane Streetとかにそんなシステムがすでにあるなら、教えてくれるとは思えないけど。

これ、陰謀論に近いね。何千人もの人がLLMによって純粋に新しいブレークスルーを得てるのに、誰一人そんな結果を公表しないの?億ドルのIV注入に依存して生き延びている無数のLLM企業のエンジニアの中で、誰もその革命を自慢しないのは信じがたい。

でも「わあ、この賢い部分はモデルから来た!」ってコメントはしないよ。先日、Claude Codeが私のために準備していたコミットメッセージに小さなサインを追加し始めたんだ。「このコミットはClaude Codeと共同執筆されました」みたいなこととロボットの絵文字が付いてた。これって偶然なのか、それともAnthropicが「iPhoneから送信」みたいなことをしようとしてるのかな。

前提が最初から疑わしいから、受け入れるのが難しいよね。GoogleはすでにAIの直接的な結果としていくつかの画期的な成果を報告していて、ほぼ確実にLLMを含むプロセスを使って、新しい数学の解法や改良されたチップ設計などを発表してる。DeepMindは、すでに薬に使われている何百万ものタンパク質の折りたたみを予測するAIを持ってるけど、確かにこれは厳密にはLLMではないね。企業が直接的なLLMの出力が著作権や特許の対象にならないから、発表しない可能性もある。だから、人間が介在することで「人間がAI/LLMの助けを借りてその突破口を見つけた」と主張することで問題を解決してるんだ。AIがどれだけ突破口に貢献したかを発表するメリットはあまりないと思う。基本的にAIを売ることに関わっていない限りね。「どうしてLLMが自分たちだけで定期的に突破口を生み出さないのか」という質問には、答えは明らかだよ…彼らはその仕組みに基づいて、意味のある形でその能力を持っていないから。最も近い例は、Googleのアルゴリズムの突破口が確かにコーディングLLMによって作られたことで、これは確立された領域での力技で達成されたけど、それでも突破口であることには変わりない。これだけでも、投稿の根本的な前提に疑問を投げかけるよね。

最も興味深い新しいアイデアは、複数の分野の交差点から生まれることが多い。バイオメディスンとファイナンスの知識を組み合わせることで、バイオメディスン分野で利益を上げる取引が見つかるかもしれない。そこがLLMが輝く場所だと思う。彼らは人間よりもはるかに多くの分野を横断しているから。一度、彼らがアイデアを組み合わせる方法を見つければ(Gwernが提案しているように)、新しくて興味深いアイデアが溢れ出すと思う。人間には考えられないようなものがね。

ほぼ確実に、LLMはプロンプトに応じて、運良く2125年の超人的なケンタウロスが画期的だと見なすアイデアの核を吐き出したんだろうけど、それが認識されていないだけなんだよね。天才の概念は薄っぺらくて、エジソンの「1%のインスピレーション、99%の汗」や、博士号を取得する過程で7年かけて新しい知識を加え始めるところまで行って、さらに7年かけて本当に自分のペースを掴むっていうのに挑戦されることがある。50代で精神的な病を抱えている友達がいて、彼は自分がADHDだと思ってるんだ。最近、彼と話したとき、彼は自分のユニークな視点でどこかに現れて、問題に魔法の粉を振りかけて報われるっていう幻想を繰り返し語ってた。正直、疲れたよ。彼のアイデアを聞くと、すぐに「これをどうやって商品化して売るか?」とか「論文にするには?」とか「人を納得させるには?」って考えちゃうんだけど、彼はそういうのには全然興味がなくて、実行したり推進したりすることはつまらないって思ってるんだ。誰かがその作業をやるだろうって。でも、僕の答えは、確かにそうかもしれないけど、推進なしでは無理だよってこと。もしLLMが画期的なアイデアを思いついて、それが画期的だと認められるためには、少なくとも2人分の年数に相当する持続的な努力が必要だと思う。だけど、そんなことをするための準備は全然できてないし、誰もそのために電気代を払うつもりはないよ。もし電気代を払うなら、間違った方向に進むLLMを百万台動かすための電気代も払わなきゃいけないだろうね。

AIがデータソースの批判的評価を行っているのはまだ見たことがないな。AIは、もし矛盾がトレーニングデータでより一般的なら、一次情報に対して矛盾することがある。全体的なアプローチに何か問題がある気がする。私のイライラポイントは、「Unix System Resources」が/usrディレクトリの説明として使われていること。これはミレニアムの転換期まで存在しなかった用語なんだけど(噂では1999年にc'tのジャーナリストが作ったらしい)、AIはこれをFHS(5年前)やRitchie/Thompson/Kernigham(27年前)に遡って適用しちゃうんだよね。

このアプローチ全体には何かバグがある。バグは、LLMが根本的に自然言語処理と予測のために設計されていて、論理や推論のためではないってこと。最終的には本物のAIにたどり着くかもしれないけど、LLMのアーキテクチャは全く関与しないか、脳の言語センターを模倣するシステムの一部として機能することになるだろう。

こういうのがあればいいなと思うけど、残念ながらこれはうまくいかないと思う。理由はこの記事のこの一文にあるんだよね。> そして批評モデルが本当に価値のあるアイデアの結果をフィルタリングする。実際、人々はこのアイデアを試みたことがある。でも、もしLLMやそれに似たものを批評者として使うと、モデルのパフォーマンスは実際にこのプロセスで悪化する。LLMが批評者を満足させようとしすぎて、批評者自体が良い推論者からは程遠いから。だからこのアイデアについてあまり聞かないのは、誰も試していないからじゃなくて、試したけどうまくいかなかったからで、それについて公表するのをためらっているんだ。

その通り。これは潜在的な批評モデルだけでなく、「推論」モデル全体の概念にも影響を与える。同じ欠陥のあるアイデアに基づいているから。つまり、モデルが最終出力を改善するための中間コンテキストを生成できるという考え。もしその自己生成されたコンテキストに幻覚や根拠のない仮定、疑念が含まれていたら、最終出力はそれの寄せ集めにしかならない。最初の数ステップで正しい解決策にたどり着く「考える」出力を見たことがあるけど、その後自分でそれを否定しちゃったり、論理的なループに入って何も得られなかったりする。なぜ「推論」モデルがより良いパフォーマンスを発揮するかというと、単にスケールが大きくてトレーニングデータが良いから。彼らに本質的に優れたところはないし、知的でもないけど、それは別の話だね。

でも、批評家がただの厳しい現実だったらどうする?LLMにコンピュータプログラムを書かせるなら、批判するんじゃなくて、それを実行してテストすればいいじゃん。定理を証明させたいなら、形式論理言語で証明を書かせて、検証できるようにすればいいし。そんな感じで。

それでも、アクタークリティックは最も人気のある深層RL手法の一つになったけどね。

LLMは批評家を満足させようとしすぎる でも、LLMは批評家について知る必要はないよ。単に出力を生成すればいいし、批評家はその出力を最終ユーザーのためにフィルターする二次的なプロセスなんだ。

新しさをどう批評する?モデルは現在、人間の「知識」の静的なセットでトレーニングされているから、たとえ新しさが何かを「知って」いたとしても、それを特定するインセンティブは必ずしもない。私の経験では、LLMは新しいアイデアに苦労しているし、特に検索を伴う推論モデルではその傾向が強い。新しさを難しくするのは、アイデアが明白でないべきだから(特許制度を参照)。例えば、よりシンプルなAPI仕様を幻覚するのは、特定の複雑なコードベースにとっては「新しい」かもしれないけど、人類の情報バブルの範囲では新しくはない。将来的には、私たち自身の歴史から新しさのデルタでモデルをトレーニングする必要があるのか、それとも次の数年間のトレーニングの間に人間の新しさが十分にあって、モデルが将来の新しさを特定するための内部フィットネス関数を発展させるのか、興味がある。私の予想では?これはまだ発見されていない進化し続けるモデルアーキテクチャで無料で得られるかもしれない。どちらにせよ、単一のモデルによる単一の発見には合意が必要だよね。ピアレビュー?

いい質問だね。関連する質問は「間違いなく新しいものの例は何か?」ってこと。例えば、突然エージェントにコラッツ予想を証明するように頼んで、それが証明や反例を書いたらどうなるか。もしLLMがそれを実現したら、AGIの重要性についてもっと楽観的になれると思う。残念ながら、実際にはもっと曖昧になると思う。多くの大きなオープンクエスチョンは、計算と人間の努力の組み合わせによって少しずつ解決されていくと思うし、「新しさ」がどこにあるのかを特定するのは不可能になるだろうね。

僕たちの心は新しさを使ってないと思うんだ。むしろ重要性を重視してるし、それを実装する方が簡単かもしれないね。

AlphaEvolveやマップエリート+DL/LLM+RLに基づくシステムは、かなり有望な道の一つだと思う。マップエリートの次元を設定するのは問題特有かもしれないけど、少なくとも部分的には無監督で学べるかもね。LLMの見方としては、トークン内の検索空間で、複雑で滑らかじゃない多様体の中で広い概念を操作する感じかな。他の空間(ピクセル空間や物理空間など)でこれらの概念を洗練させることもできるし。

またお願いだから、デイビッド・ゲレルンターの1994年の本「機械の中のミューズ」を読んでほしい。Gwernの投稿に全く言及がないのに驚いてる。これがこのトピックに関して彼が手に取るべき本そのものだから。真に創造的なコンピューティングの可能性を探る中で、ゲレルンターは人間の創造性の経験、つまり白昼の夢、夢、日常の「アハ!」瞬間、そして人間の精神性へのアプローチの進化について多くを説明する認知モデルを発見し、擁護している。https://uranos.ch/research/references/Gelernter_1994/Muse%20...

あなたは創造的な統合者です。あなたの仕事は、次の2つの概念の間に深くて明白でない、そして潜在的に画期的なつながりを見つけることです。明白なことは言わないでください。仮説、新しいアナロジー、潜在的な研究質問、または創造的な統合を生成してください。推測的であっても、あなたの推論を根拠づけてください。 > 概念1: {チャンクA} > 概念2: {チャンクB} ここで他の投稿者が挙げた批判に加えて、私が見る問題は、何の概念を与えるかってこと。明らかにGIGOの問題があるよね。最初に正しい概念を選ばなければ、有意義な結果は得られない。さらに言えば、少なくとも機械工学においては、人間の発見は非常に学際的で偶然性が高いから、多くの概念が関与していて、その多くは必然的に明白ではない。バイオミメティクスのボットを考え出すことはできるかもしれないけど、それ以外では、この概念が上手く機能するかどうかはあまり自信がないな。もう一つの問題は、LLMが非常に騙されやすく、科学文献や大学のプレスリリースをそのまま無批判に飲み込んでしまうことだね。

すごい能力を持っているにもかかわらず、大規模言語モデルはまだ本物の突破口を生み出していない。なぜそうなのかが謎だ。これは驚くべきことではないと思う。どんなに騒がれても、LLMはAGIや人工脳ではなく、次の単語を予測するためのモデルだから。設計上、創造性のためには作られていなくて、むしろその逆で、トレーニングデータが示す最適な方法で入力を続けるように設計されている。要するに、記憶のために作られているのであって、創造性のためではない。AIが創造的であるためには、新しさ(予測の失敗)によって駆動される好奇心や退屈感、そして継続的に学ぶ能力など、人間や脳に似た内在的な特徴が必要なんだ。つまり、AIに創造的であってほしいなら、自分で学ぶ能力が必要で、他の人の出力をただ反復するだけではダメで、発見を追求するための内在的なメカニズムが必要なんだ。

そう、LLMは類似性を認識するから、可能性の高いシーケンスを選ぶんだ。それによって、類似性から逸脱して創造的になることもできる:温度を上げるんだ。LLMが持っていないのは(良い)センスなんだよね。人工的な舌を作って、それを与える必要がある。

どんなに騒がれても、LLMはAGIや人工脳ではなく、次の単語を予測するためのモデルだから。設計上、創造性のためには作られていなくて、むしろその逆で、トレーニングデータが示す最適な方法で入力を続けるように設計されている。これはLLMの理解の基本的なレベルに過ぎない。どうやって超人的な精度で次のトークンを予測するの?本当にそれが可能な理由を考えてみて。もしそれが単なる確率的なオウム返しだと思っているなら、あなたは間違ってるよ。 > 大規模言語モデルはまだ本物の突破口を生み出していない。なぜそうなのかが謎だ。世界クラスの研究者たちがこれに驚いているという事実を本当にアップデートすべきだと思う。彼らはあなたが理解していないことを理解していて、これらのモデルが堅牢な世界モデルを構築していることが明らかで、テキストのプロンプトがその世界モデルへのプローブとして機能しているんだ。驚くべきことは、これらの洗練された世界モデルにもかかわらず、私たちはそれらのモデルにすでに存在するユニークな洞察を得ることができないように見えることだ。もしモデルがテキストを記憶することしかできないとしても、彼らが記憶した膨大な量はユニークな洞察を生むはずだ。人間はこれほどのテキストを記憶して、それを結びつけることはできない。私たちがこれらの洞察を得るためのプロンプトの創造性が不足している可能性もあるけど、それでもここで何か奇妙なことが起こっている。

創造性を定義してみて。LLMができることの三つは、歌詞や詩、ジョークを書くことで、これらはすべて人間の創造性と考えられるレベルの何かを必要とする。もちろん、批判者はLLMのバージョンはあまり良くないと言うだろうし、彼らが正しいかもしれないけど、同じことを考えついた12歳の子供は創造的だと見なされるだろう。たとえ彼らがそれに対して大きな認識を得られなくてもね。

AIと人間のハイブリッドアプローチで、もっと革新的な発見があると思うよ。トバイアス・リースが面白いことを言ってた記事があって、そこでAIと人間が一緒に考えることで、人間だけでは思いつかない新しいアイデアが生まれるって提案してるんだ。

LLMが「新しい」ものを思いついていないという事実は、彼らが考えたり、推論したり、創造的であったりするのでなければ、深刻な謎にはならない。もしそういうことをしていないなら、それが唯一期待されることだからね。だから、謎の解決策としては少し盛り上がりに欠けるけど、もしかしたら反対派が正しくて、彼らは全く考えていないのかもしれないし、他の人間的な言葉を使ってユーザーにマーケティングされているだけかもしれない。私たちは、テクノロジー好きには非常に魅力的な物語に引きずられているだけかもしれない(コンピュータの神々が現れる!)。これは、ここ数年の間にこのトピックに費やされた数え切れないデジタルインクの後では退屈な結果になるかもしれないけど、最終的には「普通のソフトウェア」として受け入れられるかもしれない。いくつかの分野で中程度から大きな改善があり、他の分野では最小限から無意味、さらには有害であるかもしれない。そして、すべては彼らにかかる非常に高い資金やトレーニング、データ収集のコスト、さらには私たち人間が投資できたはずの他のことにお金を使わなかった機会コストを考えるとね。