LLMの白昼の夢

2025年7月16日原文(gwern.net)

概要

LLM（大規模言語モデル）は 人間のような独創的発見 や洞察を生み出していない現状
その理由の一つは、 継続学習やデフォルトモードネットワーク（DMN） の欠如
人間の脳は 無意識下で概念間の新奇な組み合わせ を探索し、洞察を得ている
これを模倣する「 Day-Dreaming Loop（DDL）」アルゴリズムの提案
DDL導入は高コストだが、 AIの創造性や独自性の源泉 となる可能性

LLMの限界と人間思考との違い

現在のLLMは 凍結されたニューラルネットワーク であり、経験から学習できない仕様
人間は 継続的学習 により、過去の知識や体験を絶えず再構築
デフォルトモードネットワーク（DMN） は、意識的な活動がない時にも活発に動作し、創造的な洞察を生み出す基盤
LLMは 明示的なプロンプト がなければ何も考えず、バックグラウンド処理が存在しない
独創的な発見やブレークスルー が生まれにくい構造

Day-Dreaming Loop（DDL）の提案

DDLは 記憶から無作為に2つの概念を抽出 し、その関連性や新規性を探索
生成モデル が非自明な関連性を模索し、 批評モデル が価値ある結果を選別
有用な発見は 記憶へフィードバック され、次の組み合わせ探索の種となる
高コスト（daydreaming tax） だが、真の革新や独自性のためには不可欠
このプロセスにより、 モデル蒸留対策や独自データ生成 にも有用

DDLのアルゴリズム例

記憶（知識ベース）から ランダムに2つの事実・概念を抽出
それらの組み合わせから 「面白い」または「価値ある」発見 が生まれるか探索
有望な結果は意識レベルへ昇格し、 新たな知識として保存
これを バックグラウンドで継続的かつ並列的 に繰り返す
高次組み合わせ は低次組み合わせの蓄積で自然にカバー

人間のDMN・DDLとAIの違い

人間は 睡眠中や休憩中にも無意識に新規結合を探索
DMNは 創造性・洞察・突然のひらめき の根源
LLMは プロンプト駆動型 で、DMN的な自律探索が皆無
DDL的仕組みをAIに導入すれば、 「自発的な発見」や「予期せぬ洞察」 を生み出す可能性

戦略的・経済的インプリケーション

DDLのような 「無駄に見える」計算コスト は、真のイノベーションのための必要経費
高コストなdaydreaming AI が生成した独自知見を、次世代の効率的モデル学習データとして活用
データ枯渇問題への打開策 や、他社との差別化の戦略資産
安価・高速なAI提供 の前提として、まずは「高コストな創造的AI」の構築が必要

まとめ

LLMの 創造性不足の根本原因 は、継続学習とDMN的バックグラウンド探索の欠如
Day-Dreaming Loop の導入で、AIにも人間的な「ひらめき」や「独自性」が付与可能
今後のAI進化には、 「無駄」に見える探索的計算 への投資が不可欠
人間の思考様式の模倣 が、次世代AIのブレークスルーにつながる可能性

Hackerたちの意見

面白い前提だけど、LLMの出力を評価して本当にユニークな洞察を見つけられる人ってどれくらいいるんだろう？実際にLLMにユニークな洞察を生み出させるようにプロンプトを工夫している人もどれくらい？先月だけで1,000回以上LLMにプロンプトを送ったけど、ユニークな洞察を得るために十分な洗練さを持ったプロンプトは10個もなかったと思う。（主にReactのコードを改善するためにプロンプトを送ってる。）その10個のプロンプトの中で、もし全ての出力がユニークだったとしても、1つも見つけられなかったと思う。でも、デイドリーミングループのアイデアはすごく好きだな！実は、同じようなことを考えたことがある気がする（皮肉なことに）けど、素晴らしい洞察って実は誰も考えたことのない2つのアイデアを組み合わせることなんだよね。

└

LLMの出力を評価して本当にユニークな洞察を見つけられる人ってどれくらいいるんだろう？自分の中にある一つの行動に気づいたんだ。特定のトピックについて聞いたとき、それが情報空間で支配的な意見だったから。そしたらLLMがその支配的な意見を確認して（トレーニングデータに強く表れていたから）、代替的な視点を探すのをやめちゃった。だからある意味、LLMは既存の意見を強化する反射的な鏡になっているんだね。

└

完全に同意するよ。ほとんどのプロンプト（特にコード用）は新しい洞察を引き出すようには設計されていないし、たとえそうであっても、それを認識するのは難しい。だから、デイドリーミングループが魅力的なんだ。プロンプトと新しさの検出をシステム自体にオフロードするから。https://github.com/DivergentAI/dreamGPTのようなプロジェクトは、その方向への初期のステップで、ユーザーのプロンプトなしで奇妙なアイデアの組み合わせを自律的に生成し、それらの逸脱度をスコアリングしている。

LLMが何のブレイクスルーも生み出していないっていう前提は受け入れられないな。もし人々がLLMから得たブレイクスルーに対してクレジットを与えていないとしたら？初めてモデルから良いコードが出てきたとき、友達や同僚に話したけど、今はもうしない。私から見ると、モデルは私（または私の雇い主）が支払っているサービスなんだ。誰もがそれが私が使えるツールだって知ってるし、特定のアイデアがモデルから来たのか私から来たのかをクレジットすることを期待してない。私はLLMを使ってコーディングしてるって言うけど、「この賢い部分はモデルから来た！」なんてコメントはしないよ。もし人々がLLMから実際に衝撃的なブレイクスルーを得ているなら、もしかしたら彼らは合理的にそのアイデアを使っていて、LLMが最初に考えたことを言わないだけかも。とにかく、Gwernの提案する一般的なアイデアラボが洞察を生み出そうとするのは面白いと思う。そんな取り組みを資金提供するためのリソースを考えると、トレーディングショップがそのシステムを開発する可能性があると思う。一般的な洞察を探すのではなく、利益の出るトレードを探すことになるだろうし、関連する専門家が有望なアイデアを評価するのがあれば、もっと効果的だと思う。すべてをすべてと比較するのではなく、専門家の領域にあるものと比較する感じで。もしJane Streetとかにそんなシステムがすでにあるなら、教えてくれるとは思えないけど。

└

これ、陰謀論に近いね。何千人もの人がLLMによって純粋に新しいブレークスルーを得てるのに、誰一人そんな結果を公表しないの？億ドルのIV注入に依存して生き延びている無数のLLM企業のエンジニアの中で、誰もその革命を自慢しないのは信じがたい。

└

でも「わあ、この賢い部分はモデルから来た！」ってコメントはしないよ。先日、Claude Codeが私のために準備していたコミットメッセージに小さなサインを追加し始めたんだ。「このコミットはClaude Codeと共同執筆されました」みたいなこととロボットの絵文字が付いてた。これって偶然なのか、それともAnthropicが「iPhoneから送信」みたいなことをしようとしてるのかな。

└

前提が最初から疑わしいから、受け入れるのが難しいよね。GoogleはすでにAIの直接的な結果としていくつかの画期的な成果を報告していて、ほぼ確実にLLMを含むプロセスを使って、新しい数学の解法や改良されたチップ設計などを発表してる。DeepMindは、すでに薬に使われている何百万ものタンパク質の折りたたみを予測するAIを持ってるけど、確かにこれは厳密にはLLMではないね。企業が直接的なLLMの出力が著作権や特許の対象にならないから、発表しない可能性もある。だから、人間が介在することで「人間がAI/LLMの助けを借りてその突破口を見つけた」と主張することで問題を解決してるんだ。AIがどれだけ突破口に貢献したかを発表するメリットはあまりないと思う。基本的にAIを売ることに関わっていない限りね。「どうしてLLMが自分たちだけで定期的に突破口を生み出さないのか」という質問には、答えは明らかだよ…彼らはその仕組みに基づいて、意味のある形でその能力を持っていないから。最も近い例は、Googleのアルゴリズムの突破口が確かにコーディングLLMによって作られたことで、これは確立された領域での力技で達成されたけど、それでも突破口であることには変わりない。これだけでも、投稿の根本的な前提に疑問を投げかけるよね。

└

最も興味深い新しいアイデアは、複数の分野の交差点から生まれることが多い。バイオメディスンとファイナンスの知識を組み合わせることで、バイオメディスン分野で利益を上げる取引が見つかるかもしれない。そこがLLMが輝く場所だと思う。彼らは人間よりもはるかに多くの分野を横断しているから。一度、彼らがアイデアを組み合わせる方法を見つければ（Gwernが提案しているように）、新しくて興味深いアイデアが溢れ出すと思う。人間には考えられないようなものがね。

└

ほぼ確実に、LLMはプロンプトに応じて、運良く2125年の超人的なケンタウロスが画期的だと見なすアイデアの核を吐き出したんだろうけど、それが認識されていないだけなんだよね。天才の概念は薄っぺらくて、エジソンの「1%のインスピレーション、99%の汗」や、博士号を取得する過程で7年かけて新しい知識を加え始めるところまで行って、さらに7年かけて本当に自分のペースを掴むっていうのに挑戦されることがある。50代で精神的な病を抱えている友達がいて、彼は自分がADHDだと思ってるんだ。最近、彼と話したとき、彼は自分のユニークな視点でどこかに現れて、問題に魔法の粉を振りかけて報われるっていう幻想を繰り返し語ってた。正直、疲れたよ。彼のアイデアを聞くと、すぐに「これをどうやって商品化して売るか？」とか「論文にするには？」とか「人を納得させるには？」って考えちゃうんだけど、彼はそういうのには全然興味がなくて、実行したり推進したりすることはつまらないって思ってるんだ。誰かがその作業をやるだろうって。でも、僕の答えは、確かにそうかもしれないけど、推進なしでは無理だよってこと。もしLLMが画期的なアイデアを思いついて、それが画期的だと認められるためには、少なくとも2人分の年数に相当する持続的な努力が必要だと思う。だけど、そんなことをするための準備は全然できてないし、誰もそのために電気代を払うつもりはないよ。もし電気代を払うなら、間違った方向に進むLLMを百万台動かすための電気代も払わなきゃいけないだろうね。

AIがデータソースの批判的評価を行っているのはまだ見たことがないな。AIは、もし矛盾がトレーニングデータでより一般的なら、一次情報に対して矛盾することがある。全体的なアプローチに何か問題がある気がする。私のイライラポイントは、「Unix System Resources」が/usrディレクトリの説明として使われていること。これはミレニアムの転換期まで存在しなかった用語なんだけど（噂では1999年にc'tのジャーナリストが作ったらしい）、AIはこれをFHS（5年前）やRitchie/Thompson/Kernigham（27年前）に遡って適用しちゃうんだよね。

└

このアプローチ全体には何かバグがある。バグは、LLMが根本的に自然言語処理と予測のために設計されていて、論理や推論のためではないってこと。最終的には本物のAIにたどり着くかもしれないけど、LLMのアーキテクチャは全く関与しないか、脳の言語センターを模倣するシステムの一部として機能することになるだろう。

こういうのがあればいいなと思うけど、残念ながらこれはうまくいかないと思う。理由はこの記事のこの一文にあるんだよね。> そして批評モデルが本当に価値のあるアイデアの結果をフィルタリングする。実際、人々はこのアイデアを試みたことがある。でも、もしLLMやそれに似たものを批評者として使うと、モデルのパフォーマンスは実際にこのプロセスで悪化する。LLMが批評者を満足させようとしすぎて、批評者自体が良い推論者からは程遠いから。だからこのアイデアについてあまり聞かないのは、誰も試していないからじゃなくて、試したけどうまくいかなかったからで、それについて公表するのをためらっているんだ。

Hacker Newsで議論の続きを見る

ハクソク