チェーン・オブ・ソートAIの推論は幻想なのか？

2025年8月14日原文(seangoedecke.com)

概要

Chain-of-thought（CoT）推論 に関する論文への批判的考察
Arizona State University の論文の主張と問題点の指摘
人間の推論 との比較とAI推論の本質論
小規模モデルの限界と 言語の役割 強調
良いAI推論論文の判断基準の提案

Chain-of-Thought Reasoning論文批判

Chain-of-thought（CoT）推論 に関する研究論文の多くが、「AIの推論は本物か？」という最も興味深くない問いに終始する傾向
AppleのIllusion of Thinking論文 や Arizona State University の「Is Chain-of-Thought Reasoning of LLMs a Mirage?」がその代表例
Arizona State論文の主張
- CoT推論は 訓練データの分布内 では有効だが、分布が少しでも変化すると脆弱
- LLMは 流暢だが論理的に矛盾した推論 を生成することがある
- 推論は 訓練データのパターン模倣 に過ぎず、本質的な論理推論とは異なると結論
論文の実験
- 約60万パラメータの 小型Transformerモデル を使用
- 「A B C D [M1]」→「B C D E」（M1: 各文字を一つ進める）などの 単純な変換タスク
- CoT形式 での学習と大量の自動評価
- 訓練にない組み合わせや形式の変化に弱い傾向を確認

批判的考察：AI推論の本質

言語の役割
- 推論には 人間の言語使用 が不可欠
- 「A B C D [M1] → B C D E」のような単純計算は推論ではなく 計算処理
- AI推論モデルの本質は「Wait」「Hold on」など 思考の方向転換 を可能にする言語的枠組み
- 言語を使わない単純タスクでは本物の推論は評価できない
モデルサイズの問題
- 60万パラメータ級のモデルは 複雑な推論能力 を持たない
- 推論は 大規模モデル で初めて現れる「創発的能力」
- 小型モデルの結果を 大規模モデル に一般化するのは不適切
人間の推論との比較
- 論文の「AIは表層的な推論しかできない」という批判は 人間にも当てはまる
- 人間も ヒューリスティックやテンプレート に依存し、時に本質から外れた推論を行う
- 「理想的な推論者」は 現実には存在しない抽象概念
- 人間の推論の現実 と比較せずAIだけを批判するのは不公平

良いAI推論論文の見分け方

「AIの推論は偽物」 と主張する論文は、必ず 人間の推論能力の評価 や 「本物の推論」定義 を明示するべき
推論タスク が「複数のアプローチを考慮する必要がある」ものか、単なる 計算処理 かを確認
良い論文の条件
- 人間推論との比較 や 哲学的定義 の明確化
- 多様な解法が存在 するタスク（数学や言語パズル等）で評価
- 過度な一般化や哲学的主張 を避ける慎重な結論

結論・まとめ

AI推論が「本物」かどうかは 哲学的問題 であり、機械学習論文で軽率に扱うべきではない
小型モデルの結果 や 単純タスク だけでAI推論の本質を断じるのは不十分
人間の推論の現実 を踏まえた上で、AI推論の評価基準を慎重に設定する必要
言語・モデルサイズ・人間比較 の観点を重視した研究が今後の鍵

Hackerたちの意見

やっと！この論文についてのいい意見だね。arstechnicaの記事があちこちに貼られてたけど、コメントのほとんどが確認バイアスに満ちてて、細かいところを見落としてるのが多かった。4層のトイモデルでテストされたってことをね。もっと深く掘り下げて、良い発見かどうかの視点を提供してくれる投稿を読むのは嬉しいよ。

└

「4層のトイモデルでテストされた」それが結果にどう影響すると思う？同じアルゴリズムが小さいスケールで動いてるだけだよね。4層モデルはあまり良くないと思うけど、推論がそれを改善するの？スケールが推論の使い方に影響を与える理由はあるの？

面白いけど、理想的ではないと思うな。モデルがもっと線形でなくて、潜在空間で時間をかけて処理できれば、もっと思考に近いものが得られると思う。各層にリザーバーをフックでつけて遊んでみたけど（主にオーバーフィッティングが起きた）、潜在空間が豊かなインタラクションの場なのに、モデルの文脈や記憶がトークンとして固定されてるのは制限に感じる。時間をかけた思考が重要な場面で、モデルがトークンを出す前に少し考えることができればいいのに。簡単な問題ではないけど、興味深いね。

└

同意！私はAIエンジニアでも研究者でもないけど、潜在空間の100Bとかのパラメータを最大1Mトークンにシリアライズするのは奇妙だなって思ってた。

└

「面白いけど、理想的ではないと思う。」モデルがもっと線形でなくて、潜在空間で時間をかけて処理できれば、もっと思考に近いものが得られると思う。やめて、これがAIの支配を招くんだよ。

└

彼らはすでに分岐思考を取り入れて、最適なものを選んでる。最終的には、全体の応答が分岐して、いくつかの指標によって分岐が生成されたり削除されたりすることになる。ただ、今はパフォーマンスの理由でそれが実現できないだけなんだ。

AIを使うときは「コンテキストが重要」って言うけど、「推論」モデルはAIを使ってコンテキストを生成してるだけで、論理や哲学の意味での推論じゃないんだ。ミラージュ、何でも呼び方はあるけど、推論という言葉を使うときの人々の意図とはかなり違う。人々が嫌がる出力を生成することを「幻覚」と呼ぶのと同じくらいおかしいよ。

└

あなたはOPが指摘しているのと同じ間違いをしてるよ。「コンテキストを生成する」ってのは、人間の推論とも同じだと思う。例えば「これを推論してみよう」って言ったとき、すべての選択肢を詳しく探ってから判断を下すでしょ。それがAIの推論者がやってることとまったく同じに感じる。

└

それでも、彼らの問題解決能力は向上するんだよね。

└

「人間はただのLLMだよ、ブラ」っていう議論に多くの人が引っかかってるのが信じられないけど、その根本的な問題が少しわかってきた気がする。技術を「深く」研究してる人たちは、その枠組みだけで世界を見てるから、すべてがそのように機能するはずだと勘違いしちゃうんだよね。もし彼らが、例えば幼児発達などを含むもっと広い視野を持っていたら、この枠から外れた考えができて、その議論がどれだけ馬鹿げているか理解できたかもしれない。

└

彼らはそれをファジングモデルって呼ぶべきだね。いろんなコンテキストの反復を試して、トリップするトークンに当たるまで走り回ってるだけなんだ。

└

みんな、この手のことがどう機能するかの適切なアナロジーを議論するために、すごく長い道のりを行くよね。面白いとは思うけど、私の好みでは「友達とハイになる」感じかな。どう機能するかの一部はよく理解されている（実際、今はかなりの部分がね）、でも結果の一部はまだ驚きがある。だけど、よく理解されている部分も驚くべき部分も、あまり信用できないポップな認知科学の用語を借りて議論しているし、新しくて違うものに適した用語を使っていない！脳とは全然違う、新しいものなんだ。考えるのか推論するのか？誰が知ってるって、パスしてくれ。彼らはYタスクでXパフォーマンスを出す、Z評価に従ってね。理解を追求しているなら、資金集めやクリックのためじゃなくて、そうやってMLモデルの能力を議論するんだ。

Hacker Newsで議論の続きを見る

ハクソク