世界を動かす技術を、日本語で。

チェーン・オブ・ソートAIの推論は幻想なのか?

概要

  • Chain-of-thought(CoT)推論 に関する論文への批判的考察
  • Arizona State University の論文の主張と問題点の指摘
  • 人間の推論 との比較とAI推論の本質論
  • 小規模モデルの限界と 言語の役割 強調
  • 良いAI推論論文の判断基準の提案

Chain-of-Thought Reasoning論文批判

  • Chain-of-thought(CoT)推論 に関する研究論文の多くが、「AIの推論は本物か?」という最も興味深くない問いに終始する傾向
  • AppleのIllusion of Thinking論文Arizona State University の「Is Chain-of-Thought Reasoning of LLMs a Mirage?」がその代表例
  • Arizona State論文の主張
    • CoT推論は 訓練データの分布内 では有効だが、分布が少しでも変化すると脆弱
    • LLMは 流暢だが論理的に矛盾した推論 を生成することがある
    • 推論は 訓練データのパターン模倣 に過ぎず、本質的な論理推論とは異なると結論
  • 論文の実験
    • 約60万パラメータの 小型Transformerモデル を使用
    • 「A B C D [M1]」→「B C D E」(M1: 各文字を一つ進める)などの 単純な変換タスク
    • CoT形式 での学習と大量の自動評価
    • 訓練にない組み合わせや形式の変化に弱い傾向を確認

批判的考察:AI推論の本質

  • 言語の役割
    • 推論には 人間の言語使用 が不可欠
    • 「A B C D [M1] → B C D E」のような単純計算は推論ではなく 計算処理
    • AI推論モデルの本質は「Wait」「Hold on」など 思考の方向転換 を可能にする言語的枠組み
    • 言語を使わない単純タスクでは本物の推論は評価できない
  • モデルサイズの問題
    • 60万パラメータ級のモデルは 複雑な推論能力 を持たない
    • 推論は 大規模モデル で初めて現れる「創発的能力」
    • 小型モデルの結果を 大規模モデル に一般化するのは不適切
  • 人間の推論との比較
    • 論文の「AIは表層的な推論しかできない」という批判は 人間にも当てはまる
    • 人間も ヒューリスティックやテンプレート に依存し、時に本質から外れた推論を行う
    • 「理想的な推論者」は 現実には存在しない抽象概念
    • 人間の推論の現実 と比較せずAIだけを批判するのは不公平

良いAI推論論文の見分け方

  • 「AIの推論は偽物」 と主張する論文は、必ず 人間の推論能力の評価「本物の推論」定義 を明示するべき
  • 推論タスク が「複数のアプローチを考慮する必要がある」ものか、単なる 計算処理 かを確認
  • 良い論文の条件
    • 人間推論との比較哲学的定義 の明確化
    • 多様な解法が存在 するタスク(数学や言語パズル等)で評価
    • 過度な一般化や哲学的主張 を避ける慎重な結論

結論・まとめ

  • AI推論が「本物」かどうかは 哲学的問題 であり、機械学習論文で軽率に扱うべきではない
  • 小型モデルの結果単純タスク だけでAI推論の本質を断じるのは不十分
  • 人間の推論の現実 を踏まえた上で、AI推論の評価基準を慎重に設定する必要
  • 言語・モデルサイズ・人間比較 の観点を重視した研究が今後の鍵

Hackerたちの意見

やっと!この論文についてのいい意見だね。arstechnicaの記事があちこちに貼られてたけど、コメントのほとんどが確認バイアスに満ちてて、細かいところを見落としてるのが多かった。4層のトイモデルでテストされたってことをね。もっと深く掘り下げて、良い発見かどうかの視点を提供してくれる投稿を読むのは嬉しいよ。

「4層のトイモデルでテストされた」それが結果にどう影響すると思う?同じアルゴリズムが小さいスケールで動いてるだけだよね。4層モデルはあまり良くないと思うけど、推論がそれを改善するの?スケールが推論の使い方に影響を与える理由はあるの?

面白いけど、理想的ではないと思うな。モデルがもっと線形でなくて、潜在空間で時間をかけて処理できれば、もっと思考に近いものが得られると思う。各層にリザーバーをフックでつけて遊んでみたけど(主にオーバーフィッティングが起きた)、潜在空間が豊かなインタラクションの場なのに、モデルの文脈や記憶がトークンとして固定されてるのは制限に感じる。時間をかけた思考が重要な場面で、モデルがトークンを出す前に少し考えることができればいいのに。簡単な問題ではないけど、興味深いね。

同意!私はAIエンジニアでも研究者でもないけど、潜在空間の100Bとかのパラメータを最大1Mトークンにシリアライズするのは奇妙だなって思ってた。

「面白いけど、理想的ではないと思う。」モデルがもっと線形でなくて、潜在空間で時間をかけて処理できれば、もっと思考に近いものが得られると思う。やめて、これがAIの支配を招くんだよ。

彼らはすでに分岐思考を取り入れて、最適なものを選んでる。最終的には、全体の応答が分岐して、いくつかの指標によって分岐が生成されたり削除されたりすることになる。ただ、今はパフォーマンスの理由でそれが実現できないだけなんだ。

AIを使うときは「コンテキストが重要」って言うけど、「推論」モデルはAIを使ってコンテキストを生成してるだけで、論理や哲学の意味での推論じゃないんだ。ミラージュ、何でも呼び方はあるけど、推論という言葉を使うときの人々の意図とはかなり違う。人々が嫌がる出力を生成することを「幻覚」と呼ぶのと同じくらいおかしいよ。

あなたはOPが指摘しているのと同じ間違いをしてるよ。「コンテキストを生成する」ってのは、人間の推論とも同じだと思う。例えば「これを推論してみよう」って言ったとき、すべての選択肢を詳しく探ってから判断を下すでしょ。それがAIの推論者がやってることとまったく同じに感じる。

それでも、彼らの問題解決能力は向上するんだよね。

「人間はただのLLMだよ、ブラ」っていう議論に多くの人が引っかかってるのが信じられないけど、その根本的な問題が少しわかってきた気がする。技術を「深く」研究してる人たちは、その枠組みだけで世界を見てるから、すべてがそのように機能するはずだと勘違いしちゃうんだよね。もし彼らが、例えば幼児発達などを含むもっと広い視野を持っていたら、この枠から外れた考えができて、その議論がどれだけ馬鹿げているか理解できたかもしれない。

彼らはそれをファジングモデルって呼ぶべきだね。いろんなコンテキストの反復を試して、トリップするトークンに当たるまで走り回ってるだけなんだ。

みんな、この手のことがどう機能するかの適切なアナロジーを議論するために、すごく長い道のりを行くよね。面白いとは思うけど、私の好みでは「友達とハイになる」感じかな。どう機能するかの一部はよく理解されている(実際、今はかなりの部分がね)、でも結果の一部はまだ驚きがある。だけど、よく理解されている部分も驚くべき部分も、あまり信用できないポップな認知科学の用語を借りて議論しているし、新しくて違うものに適した用語を使っていない!脳とは全然違う、新しいものなんだ。考えるのか推論するのか?誰が知ってるって、パスしてくれ。彼らはYタスクでXパフォーマンスを出す、Z評価に従ってね。理解を追求しているなら、資金集めやクリックのためじゃなくて、そうやってMLモデルの能力を議論するんだ。

「コンピュータが考えられるかという問いは、潜水艦が泳げるかという問いと同じくらい重要で意味のあるものだ。」 -- エドスガー・W・ダイクストラ, 1983年11月24日

でも、ここでの話題は、いくつかの技術が進歩的かどうかってことだよね(記事で言及されている非生産的な焦点についての興味深い平行線もあるし)。

その平行線には同意できないな。潜水艦は水中を移動できるけど、それを泳ぐって呼ぶかどうかは面白い質問じゃないし、潜水艦の機能を明らかにもしない。思考や推論については、正確な定義はないけど、今のところLLMや機械は、私たちが思考と呼ぶ多くの人間の行動を再現できないことは確かだよね。機械が現在どんなタスクを達成できるかっていうのは、重要な質問だし、今LLMが注目されているのは、機械が以前はできなかったタスクを達成しているからだと思う。機械がやっていることを「思考」と呼ぶかどうかは、ある意味で常に疑問が残るかもしれないけど、それはあまり面白くない言葉の問題だよね。意味のある質問に迫るためには、思考の意味をもっと正確に、あるいは高解像度で地図にする必要があるかもしれないけど、重要なのは機械がどんな機能を果たせるか、どんなタスクを達成できるかで、「思考」と呼ぶかどうかはあまり重要じゃない気がする。もしかしたらそれがダイクストラの言いたかったことかもしれないけど、文脈がないと判断しづらいね…

よく見落とされがちな注意点は、ソフトウェアが本来やるべきことをやっているかどうかだけを気にすればいいってこと。そう考えると、LLMはただのバグだらけで、何年もそうだった。LLMは本当に言っていることをやっているの?「幻覚」と「彼らは推論するのか」は気を散らす要素だ。彼らは失敗する。バグだらけなんだ。

思考の連鎖って、LLMのレモンからもっと絞り取ろうとしてる方法に過ぎないと思う。今は限界利益にぶつかってる段階だと思うから、真剣な改善を見るには別の基盤モデルに移行する必要があるんじゃないかな。

いわゆる「スケーリング法則」は、収穫逓減を表している。どうして「リソースを指数的に増やせばエラーが線形で減る」って、いい兆候だと思われるの?

記事の批判には納得できないな。彼らも感情や少ない引用を使ってるし。> 小さなモデルで研究が必要なのは理解してるけど、推論は出現的な能力だってわかってるよね! (...) たとえ彼らが測定しているのが推論だと認めたとしても、1B、10B、100Bモデルに結果が一般化するとは全く納得できない。応用研究の基本的な部分は、現実の現象を単純化して理解を深めることなんだ。こんなに多くのパラメータで、そんな単純な問題に対して、LLMが十分に大きくないからといって分布外でパフォーマンスできないと否定するのは、独立した研究の価値を損なうことになる。明日、パラメータが倍のモデルが同じ行動を示すかどうかはわからないけど、その発見はこの研究の上に成り立つことになるし。あと、あなたはどうやって推論が出現的だと知ってるの?100Bのパラメータに圧縮されたウェブのバージョンの上で合理化してるだけじゃないの?

論理や推論について、バイブコーディングという言葉にすごく執着しているグループと議論している時点で、もう負けてると思う。

果物バエを使った心理実験をしているような気がする。安いからって人間に結果を当てはめるのは、ほぼ同じだけど小さいからって。ごめん、でもここでの幻覚は著者たちのものだけだよ。スケールアップしたときに面白い結果が出るってこと、もう一度言わなきゃいけないの?この努力は、何かをスケールアップしながら結果をプロットしたら面白いと思うけど。

最初に、推論にはおそらく言語の使用が必要だということ。AIモデルが「本当に」推論できるとは思わなくても、シミュレーションされた推論も人間の言語での推論でなければならない。それは無理な仮定だよ。LLMの場合、潜在空間からポイントをランダムなトークンに変換して情報を失うのは無駄に思える。実際、近い将来、MLLMが「考える」や「推論する」ことが、単語を一つも出さずに行われるのが普通になると思う。 > AIの推論が「本物」の推論なのか、それともただの蜃気楼なのかは面白い問いかもしれないけど、主に哲学的な問題だね。「本物」の推論が何かを明確に定義することに依存する。これは「哲学的な」問題ではなく(著者が言いたかったのはおそらく「実際には重要でない」ってこと)、もし推論が事前に計算された答えの合理化に過ぎないなら、あるいはモデルの状態を更新するための計算手段に過ぎないなら、人間の視点から思考の連鎖の質を改善することに焦点を当てるのはあまり意味がないね。

すべての推論が言語を必要とするわけじゃない。象徴的な推論は言語を使うけど、車を運転して物にぶつからないようにするリアルタイムの空間推論は言語的じゃないみたい。キャビネットを回転させて階段を通過させる方法を考えるのも、言語を必要としないように思える。誰かに解決策を伝えるためには言語が必要だけど(図やモデルの方が便利な場合もある)。

私が抱えていた一番難しい問題の解決策は、寝た後や散歩中に考えていない時にしか出てこなかったことが多い。もしかしたら、私の脳がやっていたことは推論とは違う何かだったのかも?

この分野ではほとんど素人だけど、なぜ確率的なテキスト変換器に推論を教えようとしているのかわからない。誰がそのアプローチがうまくいくと思うの?もっと明白なアプローチは、何らかの象徴的論理エンジンに結びつけることだと思ってた。普通の言語の文を、そのエンジンが決定論的に解析できる構文に変換するかもしれない。これは著者が軽視しているプラトン的な推論の理想だと思うけど、推論の本質は命題を評価する際に論理を適用することだと思う。LLMは命題の要素を生成するように訓練されるかもしれないけど、論理を適用するにはランダムすぎる。

実際、近い将来、MLLMが「考える」や「推論する」ことが、単語を一つも出さずに行われるのが普通になると思う。何かを出力することになるけど、それが計算を増やす唯一の方法だからね。トークンを出力して、その後すべてのコンテキストと次のトークンが再びLLMに流される。ユーザーに提示されることはないかもしれないけど、それはまた別の話。

これは「哲学的な」(著者が言いたかったのはおそらく「実際には重要でない」)問題ではない。私はそうは思わなかった。哲学が正当なものであるかどうかに依存すると思う。

あなたはモデルが何を生み出すべきかという視点から見ているけど、実際にはモデルの設計を決めるのは、効率的に大規模にトレーニングできるデータなんだよね。出力は、トレーニングの逆のようなもの。AIには「オートコンプリート」になってほしくないけど、テキストはたくさんあるし、文のすべての接頭辞を同時にトレーニングする効率的な方法がある。トークンの埋め込みベクトルを正確に保持する実験もあったけど、結果は「まあまあ」だった。おそらく、モデルがトレーニングされた入力フォーマットではなかったからだろうね。テキストとは完全に別のベクトル「ニューラリーズ」でトレーニングされたモデルがうまく機能する可能性もあるけど、トレーニングにはジレンマがある。内部表現はモデルがトレーニングされるまで有用な意味で存在しないから、モデルに与えるものがない。さらに、モデルがトレーニングされると内部表現も安定しないんだ。

連続空間が離散空間よりも思考に優れているとは限らないよね。

潜在空間の推論者は実在するし、正直言って、すでに新しいモデルが広範な推論合成でトレーニングされる中で、潜在空間の推論者が埋め込まれ始めていると思う。Othello-GPTが動きだけで潜在空間にボードを構築できるなら、指数的に大きなトランスフォーマーは、かなりの数のトレースを与えられたら、潜在空間に推論者を構築できるのかな?

「本当の推論」とか「シミュレートされた推論」って概念は全然意味がないと思うんだ。LLMの推論は人間の推論の一部と見なせるし、もっと役立つ比較は「本物 vs 偽物」じゃなくて、LLMの推論に何が欠けているかを考えることだと思う。それを追加するには(たぶん全く新しいアーキテクチャが必要で、LLMやトランスフォーマーじゃない)人間らしくて能力のあるものになるんじゃないかな。人間の推論や皮質機能は予測に基づいているように見えるけど、LLMとは多くの違いがあって、まず私たちは自分の経験や予測の失敗と成功から継続的に学ぶってことがある。人間の推論は基本的に「もしも」の予測を連鎖させるもので、一般的な知識や特定の問題解決のステップに基づいて学んだ予測結果に基づいている。たぶん、人間がやることとLLMがやることの違いは、例えば数学の問題に取り組むとき、RLで訓練された推論LLMが以前にうまくいった推論ステップを連結する時にはあまりないかもしれない。でも、違いが出るのは、LLMがそのステップを最初にどうやって学んだか、そして推論が失敗したときに何が起こるかだよね。人間の場合、これらは本質的に同じことなんだ。私たちは予測して試してみて、予測の失敗(感覚的なフィードバックなど)から学んで、次回の文脈に特化した予測を更新する。もし推論や予測が行き詰まったら、思いつくことを全部試してみて、全部失敗したら、好奇心や退屈(もっとあるかも?)の本能が働いて、問題を探求して学んで再挑戦する。好奇心や探求は、模倣や他の知識源からの知識の積極的な追求(または受け取り)を通じて知識を得ることにもつながる。LLMはもちろん学ぶ能力がないから(文脈内学習を除いては - それは貧弱な代替品)、基本的に事前に訓練されたものに制限されているし、事前訓練は無限に変化する世界の解決策にはならない。だから、LLMが「本当の」推論をしていないと言うよりも、推論の基盤が予測であることを認める方が生産的だと思う。ただし、LLM(というか将来の認知アーキテクチャ - トランスフォーマー層のスタックじゃなくて!)には、継続的・段階的な学習、学習状況に自分をさらけ出すための好奇心のような本能的な特性、作業記憶や認知の反復・ループ(視床皮質ループなど)など、たくさんの追加機能が必要なんだ。

「推論にはおそらく言語の使用が必要だということです。AIモデルが「本当に」推論できるとは思わなくても、シミュレートされた推論も人間の言語での推論でなければなりません。この仮定は人間にも当てはまらないと主張します。言語での推論は最も「派手」な種類の推論で、他の人と最も簡単に共有できるものです。なぜなら、私たちはそれを言葉にして、書き留めて、発表することができるからです。でも、私は自分の人生を頭の中で常にナレーションしているわけではないことは確かです。LLMの推論の痕跡のように。多くの推論は視覚的に行われます。つまり、あるシーンを想像して、それがどう展開するかを考えることです。他の状況では、「ふと浮かぶ」自発的なアイデアがあるんです。つまり、無意識のプロセスやおそらく何らかの関連が関与しています。それらは言語を使っていません。

LLMのチェイン・オブ・ソート推論は蜃気楼なのか?データ分布の視点 - https://news.ycombinator.com/item?id=44872850 - 2025年8月(130件のコメント)

普通の「チャット」LLMは、人間とロボットの会話についての物語を徐々に拡張するドキュメント生成器なんだ。そう考えると、「チェイン・オブ・ソート」は基本的に同じことだけど、フィルムノワールのスタイリングツイストがあるように思える。LLMは、ドキュメントに「言葉にしない」テキストの追加層を含めるようにトレーニングされていて、LLMが他の記憶や目標を持っていないことを補う連続性の源になってる。「アッシリアの首都?それは危険な質問だった、特にこの町では。でも家賃は払わなきゃいけないし、引き出しの中のボトルは空だった。私はケースを取った。」

うわー、今は思考を再構築するチェーンが欲しいな。チャットとCoTを組み合わせて、このスタイルに合わせてくれるやつ。

[追記] 重要な部分を省略してしまったことに気づきました。もし通常のバージョンがすでに「推論」をしていなかったら… なぜこの種の調整がそれを変え、本当の推論をもたらすと期待するのでしょうか?コアアルゴリズムは本当に変わっていないし、私たちはただ(隠れた)ドキュメントを変えて、異なるスタイルで手がかりの密度を高めて、より効果的に人間が気づかずに嫌がらないような出力を作っているだけです。 [0] 特に真実や虚偽についての意識や配慮なしに「良い響き」のものを作ること。

でも、人々は最も興味深くない質問を繰り返し聞いています。これって、すごく変な言い回しだと思うのは私だけ?もし人々が好奇心から何かをすることを強いられているなら、それは「興味深い」の定義そのものじゃないの?