世界を動かす技術を、日本語で。

思考の幻想:推論LLMの限界を理解する [pdf]

概要

このテキストには判読不能な文字列が含まれており、内容の特定や翻訳が困難です。 おそらくデータが破損しているか、エンコーディングに問題が発生しています。 読みやすい日本語や英語のテキストを再送信してください。 もし特定の技術情報や記事の作成を希望される場合は、テーマやキーワードを明記してください。 適切な内容をいただければ、要件に沿った記事を作成できます。

ファイル破損・エンコーディングエラーについて

  • 判読不能な文字列 が含まれるデータ
  • エンコーディング の問題や ファイル破損 の可能性
  • 内容の特定・翻訳 ができない状態
  • 再送信依頼テーマの明記 を推奨
  • 正しいデータ があれば、 記事作成翻訳 が可能

正しいデータの送信方法

  • テキスト形式 での再送信
  • PDFやWord などのファイル形式の場合は テキスト抽出 を推奨
  • エンコーディング をUTF-8に指定
  • 内容やテーマ を明確に記載
  • 技術記事の場合 は、 対象技術や用途 を明記

まとめ

  • 本内容は 読み取り不可
  • 再送信 または テーマ指定 を依頼
  • 技術記事作成や翻訳正しいデータ提供 が前提
  • ご協力をお願いいたします

ご不明点やご要望があれば、具体的にご記入ください。

Hackerたちの意見

LLMが簡単なタスクで一番うまく機能するってのと、LRMが中程度の複雑さのタスクで一番良いっての、そしてどちらも実際の複雑なタスクには成功しないってのは、知っておくといいね。

サルカズムを感じるかどうかわからないな。

こういうの、よく見るんだよね。質問をちゃんと定義もしないで投げかける論文。>「これらのモデルは一般化可能な推論ができるのか、それとも異なる形のパターンマッチングを利用しているのか?」推論を定義して、一般化可能を定義して、パターンマッチングを定義して。さらに、追加のクレジットとして、あなたが定義した一般化可能な推論が人間にもできることを示してみて。

人間があなたが定義した一般化可能な推論を行えることを示す。 私は「その能力を曲線にプロットする」ことも追加したい。私の直感では、SotAモデルはすでに多くの分野で中央値の人間の能力を超えていると思う。

この論文の文脈では、「一般化可能な推論」とは、パズルを解く方法を見つけ、その方法を任意の複雑さのパズルインスタンスに適用できることを意味すると思う。

みんなが「AGIはすぐそこだ!」って言ってた頃を思い出すな。ガートナーのハイプサイクルがこういうのをうまく捉えてるのが面白いよね。

自動運転車に似てるよね。どちらもすぐそこにあるけど、曲がることができない。

LLMは「ジュニア開発者」のように扱い続けることになるだろうね、永遠に。

進捗は80%くらいまで来てると思う。簡単な部分は終わったけど、難しい部分は本当に難しくて、進展には何年もかかる。

何が変わったと思う?状況は数年後のAGIにとってまだかなり期待できると思うけど、もっと良くなってるかもしれない。こういう論文は、エンジニアリングの努力をどこに向けるべきかを示している学術的なものだし、克服されたものよりも簡単な課題が比較的少ないように見える。例えば、機械学習がハノイの塔を解決できることは知ってるよね。バドゥクのように根本的に複雑ではない。次に克服すべき壁は、もっと低いフェンスみたいなものだよ。それに、AIはすでにチューリングテストを通過してるし(少なくとも、あまりにも理路整然としていて合理的だから失敗する可能性が高い)。私たちはすでにAGIを達成したというかなり良い議論があって、今はAGIに人間レベルや超人レベルの知能を達成するために取り組んでいるところなんだ。

確かに、技術のシグモイド曲線は、変曲点の直前で最も急激に上昇するから、革新がどの時点で鈍化するかを予測するのは難しいよね。初代ボーイング747が登場したのは1968年で、初めての有人飛行からたった65年後のことだよ。当時の人に、次の57年間で民間航空が根本的にあまり変わらないって言ったら、誰も信じなかっただろうね。

…でも、それって、2年前の話じゃない?もしGPT2からAGIに10年で進化したら、それでもめちゃくちゃ早いって感じるよ。

「確率的オウム」という言葉を覚えているし、みんながそれは高級なマルコフ連鎖や行き止まりだと言っていた。エージェンティックコーディングが登場してからはあまり聞かなくなったね。

標準的なベンチマーク(例えば、数学の問題)ではなく、複雑さを体系的に変えられる制御可能なパズル環境を採用します。これは非常に賢い選択だと思う。これを選んだ人たちに拍手! > 私たちは三つのパフォーマンスレジームを特定します:(1) 標準モデルがLRMを驚くほど上回る低複雑度タスク、(2) LRMでの追加の思考が利点を示す中程度の複雑度タスク、(3) 両モデルが完全に崩壊する高複雑度タスク。これは興味深い!こういうレジームの「マッピング」をもっと見たい!私が見たいのは(ここにいる誰かがこの効果を見たかは分からないけど)、これらの複雑さのレジームがタスクの経済的価値にどう結びつくかってこと。そうするには、評価はパズルを超えないといけないけど、タスクの複雑さはまだ制御可能である必要がある。

著者たちが言いたいのは、モデルが全知であると同時に、ちょっと鈍いってことだと思う。そして、彼らが共通して問いかけようとしているのは、これが永遠に続くのかってこと。こういう質問が本当に説得力を持って定量化されたのを見たことがないし、面白いけど、このPDFがそれをうまくやっているかは疑問だな。少なくとも、反対意見を黙らせるには不十分だと思う。AIのマキシマリストは、モデルが実際には鈍さを減らしていると考え続けるだろうし、AI懐疑派は、これらの明らかな進展が「全知」の「増加」の副産物に過ぎないと考え続けるだろうね。このグループ間で人々が移動し始めるには、もっと鋭い刃物が必要だと思う。でも、まあ、これは重要な問いだから、全知でありながら鈍いモデルが「超人的な支援」に終わるのではなく、「人工超知能」に至ることはないってことを考えると、経済的には「SaaSの再挑戦」になるってことだよね。だから、著者たちが最終的に成功することを願ってる。

全知でありながら鈍い状態が人間の知能で頭打ちになる理由はないよね。

AIのマキシマリストは、モデルが実際に鈍さを減らしていると考え続けるだろう。 私はAIの進歩に対して楽観的(でもちょっと怖い)なんだけど、ここ数年でほんの少し鈍さが減っただけだと思う。でも、実際の能力は、知識やセンス、文脈、ツールなどのおかげで大きく向上している。怖いのは、推論やエージェンシーの能力がまだ足りない気がすること。つまり、今の状態から一歩か二歩のブレークスルーで、ちょっと全知的で、すごく早く考えることができるようになるかもしれないってこと。そうなったら、本当に恐ろしいよ。AIが人間を出し抜くことができるって想像できている人は少ないと思う。例えば、今のAIが人間よりも詩を作るのが得意だとしたら、質もそこそこ良くて、超速いってことだよね。まるで、自分より遥かに賢い人と話しているとき、その人が6手先を読んでいて、自分の思考を誘導していることに気づくような感じ。これが全てのスケールで起こるんだ。この「より良い推論 + エージェンシー」は、今の最前線の研究者たちにとっても最優先事項だから、ブレークスルーはそう遠くないかもしれない。別の言い方をすると、今のLLMはほとんどの分野でスナップジャッジメントが得意な人間の中で最高のレベルに達していると思う(テキストから雰囲気を推測するのは特に得意だろうね)。でも、彼らは以下の点でちょっと苦手だと思う:1. 長期間にわたるステップバイステップの推論や戦略立案 2. 専門的な戦略的な人間があまり考えずに行動できるような瞬時の判断。長期的な思考が得意になるには、もっと大きなアーキテクチャの変更が必要かもしれない(例えば、既存の素晴らしい「システム1」トランスフォーマーモデルを補完する「システム2」推論アーキテクチャ)。一方で、もっと良いトレーニングデータやアルゴリズムがあれば、モデルが十分な戦略的センスやエージェンシーの直感を発展させて、最適解に素早く到達できるかもしれない。もちろん、問題が本当に難しくて簡単なブレークスルーがないかもしれないし、今の私たちがアクセスできる計算能力の100,000倍が必要かもしれない。でも、確実性はないけど、恐ろしいブレークスルーが可能だと思う。

著者たちが捉えようとしている直感は、彼らがモデルを全知でありながら鈍いと思っていることだと思う。私たちはこの技術に人間の形容詞を当てはめて、私たちが発明した巧妙なトリックを擬人化している。これらのツールには「全知」でも「鈍い」でもない。彼らには機知がないし、考えたり推論したりもしない。大規模な「推論」モデルがすることは、最終的な答えを生成するためのコンテキストとして使用するデータを生成することだけだ。つまり、合成データに基づいてリアルタイムで調整している。これは巧妙なトリックだけど、幻覚のようなこれらのモデルが抱える根本的な問題を解決するわけではない。「推論」プロセスにゴミが含まれていたり、ループにハマったりすると、最終的な答えもゴミになる。モデルが最初の「推論」ステップで正しい答えに近づくことがあるけど、その後無意味な「でも待って!」というフォローアップステップでそれを台無しにするのを見たことがある。最終的な答えは、「推論」フェーズで生成されたゴミのごちゃ混ぜになってしまう。私たちがこれらのツールを擬人化し続けるのは、気分が良くなるからだ。これは願望的な思考で、マーケティングにはうまくいくし、投資家をワクワクさせ、さらなる盛り上がりを生む。実際には、私たちは10年前と同じくらい人工知能から遠い。今あるのは、問題に対して投げかけることのできる膨大な計算能力を活用できる非常に優れたパターンマッチャーと確率的データ生成器だけだ。これは非常に役立つ可能性があるけど、人間の特性を当てはめると議論が混乱するだけだ。

図1の右下では、複雑さが増すにつれて正しい答えが後になって見つかる様子が示されているよね。説明の中では、誤った回答においてLRMが早い段階で間違った答えに焦点を当てて、自己修正する前にトークンが尽きてしまうことが多いとも書かれている。これは明らかで、単にスケーリングの問題だと思う(トークンの予算が大きければ、より複雑なタスクに対する能力が向上する)。何か見落としてる?

私たちは、LRMが正確な計算に限界があることを発見しました。彼らは明示的なアルゴリズムを使用せず、パズル間で一貫して推論できないようです。AIのLLM/LRMは、知的な自動化やIAとして位置付けられる論理、最適化、制約プログラミングの遠い親戚からの助けが必要なようです。[1],[2],[3],[4] [1] 論理、最適化、制約プログラミング:実りあるコラボレーション - ジョン・フッカー - CMU (2023) [動画]: https://www.youtube.com/live/TknN8fCQvRk [2] 「私たちは本当に計算方法を知らない!」 - ジェラルド・サスマン - MIT (2011) [動画]: https://youtube.com/watch?v=HB5TrK7A4pI [3] Google OR-Tools: https://developers.google.com/optimization [4] MiniZinc: https://www.minizinc.org/

テスト環境(ハノイの塔、チェッカーのジャンプ、川渡り、ブロックワールド)は、著者がコードを書くことを許可していれば、どのLLMでも簡単に完璧に解決できたと思う。「LLMは20桁の数字を掛け算できない」っていうのとどう違うのか、正直よくわからない。ちなみに、ほとんどの人間もできないけど、私は一度(ペンと紙を使って)やってみたけど、どこかで常に間違えてしまった。

人間はできない 人間ができない理由と、LLMができない理由は全く異なる。LLMはしばしば掛け算をすることができないが、多くの人間は単にやりたくないだけだ。

私は「LLMは20桁の数字を掛け算できない」というのとどう違うのか、正直よくわからない。ちなみに、ほとんどの人間もできないけど、私は一度(ペンと紙を使って)やってみたけど、どこかで常に間違えてしまった。人間はコンピュータが登場する前にミサイルや精密工学(ジェット機など)を作り出していた。人間は考える時間を増やし、より良い戦略を発明し、もっと紙を使うことで、そういったことを信頼性高く行うことができる。私たちの脳はそのような計算をするために作られてはいないけど、一般的な知能は持っているもので問題を賢く解決できる。

大規模言語モデルをポリシー教師として強化学習エージェントの訓練に利用する >この論文では、LLMベースの教師エージェントからの指示を使って、より小さく専門的な学生RLエージェントを訓練する新しいフレームワークを紹介します。教師エージェントからのガイダンスを取り入れることで、学生エージェントはLLMの事前知識を自分のモデルに凝縮できます。その結果、学生エージェントは大幅に少ないデータで訓練できるようになります。さらに、環境からのフィードバックを使った追加の訓練を通じて、学生エージェントは目標タスクを達成するために教師エージェントを超える能力を持つようになります。 https://arxiv.org/abs/2311.13373

普通のLLMを使うとき、私は一般的に「すべての知識を持っていて、ただタイプを始めて進むだけなら、これを考えずにできるだろうか?」と考えるようにしている。考えるLLMは考えることができるけど、しばしば「本当の答え」を「話す」前に一度に大きなバッチでしか考えられないことが多い。これを修正して、両方の間を切り替えられるようにする必要があると思う。私の以前のフレームワークでは、「すべての知識を持っていて、考えた後にタイプを始めることしかできないなら、これを解決できるだろうか?」と言っていた。より大きな問題に対しては、答えはノーだと思う。紙やホワイトボードが必要だ。それがあれば、考え、書き出し、出力し、反復し、ドラフトし、また反復できる。エージェンティックAIはそこに向かっているように思う。

LLMが何ができるのか混乱する理由の一つは、言語を使っているからだと思う。で、「推論の痕跡」を見てみると、そこにあるトークンは人間っぽく見えるけど、実際に起こっていることは私たちにはとても異質なものなんだ。これは「大規模言語モデルの生物学」や「安全性の整合性は単なる数トークン以上に深く考えるべきだ」で示されている。技術が何をできて何をできないのか、特にそれを使ってシステムを設計するのがすごく難しい。全体が部分の合計以上になるようなシステムをどう作るかも考えているけど、彼らの能力に常に混乱しているからだと思う。仕組みや動作を理解しているのに、言語の使い方はまるで魔法のように感じる。自分自身に考え方を思い出させるために、https://punkx.org/jackdoe/language.html も書いた。こういう研究は素晴らしいと思うし、トークンの使い方やそれを使ってどうシステムを構築するかを理解するために、もっと努力を注がなきゃいけない。 [1]: https://transformer-circuits.pub/2025/attribution-graphs/bio... [2]: https://arxiv.org/pdf/2406.05946