世界を動かす技術を、日本語で。

推論モデルはうまく推論するが、やがてそうでなくなる

概要

本論文は、 大規模言語モデル(LLMs) の推論能力の限界を検証。 従来のベンチマークの 複雑性不足 を指摘し、新たな Deep Reasoning Dataset(DeepRD) を提案。 DeepRDにより、 推論問題の複雑性を段階的に拡張 し評価を実施。 LRMsは一定の複雑性を超えると 性能が急激に低下 し、汎化性に課題があることを発見。 現状の有用性と 今後の課題 を明確化。

大規模言語モデル(LLMs)と推論能力の課題

  • LLMs は推論タスクで大きな進展を示すが、 複雑な推論問題 では深刻な性能低下
  • トランスフォーマー やLLMsは、問題の複雑性が一定以上になると 致命的な失敗 を起こす傾向
  • 近年は Large Reasoning Models(LRMs) として、段階的な論証や自己検証を促すファインチューニングが注目
  • NLGraph 等のベンチマークでLRMsが卓越した性能を示す例もあるが、実際の問題複雑性は限定的
  • 数学・物理・医学・法学など 高度な推論分野 での汎用性にも疑問

Deep Reasoning Dataset(DeepRD)の開発と評価手法

  • 現行ベンチマークの複雑性の限界を補うため、 DeepRD を新規作成
  • DeepRDは 無制限に複雑性を拡張可能なデータ生成手法 を採用
  • グラフ接続問題や自然言語による証明計画など、 多様な推論課題 に対応
  • DeepRDにより、モデルの 複雑性ごとの性能変化 を精密に測定

実験結果と考察

  • LRMs は複雑性が一定水準を超えると 性能が急激に低下
  • トレーニング分布内の例には対応できるが、分布外の高複雑性には 汎化できない
  • 実世界の大規模知識グラフや証明データセットの分布と比較
    • 多くの現実例はLRMsの成功領域内
    • しかし「ロングテール」な高複雑性問題で 失敗リスクが顕在化

今後の展望と課題

  • LRMs は短期的には有用性が高いが、 複雑性の壁 に直面
  • トレーニング分布を超える 一般化能力 の向上が今後の主要課題
  • 新たな 推論手法やモデル設計 の必要性
  • ベンチマークの多様化と 現実的な複雑性評価指標 の確立が重要

参考情報

  • 論文タイトル: arXiv:2510.22371 [cs.AI]
  • 著者:Revanth Rameshkumar
  • 公開日:2025年10月25日
  • 主題分野: 人工知能(AI)、計算と言語(CL)
  • DOI/URL:arXiv:2510.22371

Hackerたちの意見

でも、ちょっと複雑な論理問題になると、私は大失敗しちゃうんだよね。

でも、自分が失敗しそうだってわかってるから、反応しなかったり、もっと成功する可能性が高い人に問題を振ったりするんじゃない?

そう思う? ただ「これは無理だ」って言って止まっちゃうだけじゃない?

壁に釘を打とうとするときも大失敗するけど、ハンマーにはもっと頑張ってほしいと思ってる。

そうだけど、君はコンピュータじゃないよね。別の人間を作る意味はないよ。もうたくさんいるし。

数学の形式論理みたいに、モデルが構造的で検証可能な方法で推論できるようになるのかな。

それには、もう古典的なプログラミングがあるよ。形式論理の数学にはすごく向いてる。

もうそれをやってるよ。コンピュータ上で実行されるすべてのコード、特にループのないニューラルネットワークは、単にブール演算を行っているだけなんだ。実際、コンピュータはブール演算以外のことはできないんだよ。

この論文が言いたいポイントは、既存のベンチマークが推論の複雑さに対して比較的低い複雑さしか持っていないから、新しいデータセットDeepRDを作って、恣意的に大きな推論の複雑さを示したってことだね。そして、既存のモデルが十分に複雑な問題には対応できないことを示した。複雑さは、問題をグラフとしてモデル化して、あるソースノードからターゲットノードに行くために必要なトラバーサルを決定することで作られたグラフの複雑さから定義される。私の主な批判は、この問題がモデルを大きくして強化学習を続けても持続する証拠がないと思うこと。最近のコーディングエージェントみたいなハーネスを使って、十分なツールを使えば、モデルはその推論ベンチマークでずっと先に進めると思う。そうじゃなければ、推論問題が完全に単一のコンテキストウィンドウ内で行われるなら、十分に複雑な推論問題はモデルには難しすぎるってことになるね。

ここでの証拠の負担は君にあるよ。彼らはLRMがこれらの問題にスケールできないことを証明する必要はない。彼らの主張は、現在のモデルがこれらの問題に対処できないということだけだから。他の人たちはこれを挑戦として受け入れるだろうし、彼らがそれを克服する可能性は高いと思う。これが科学の進め方だよ。

じゃあ、答えはもう数兆ってこと?

「この問題がモデルを大きくしていくうちに持続する証拠はないと思う」 どれくらい大きくすればいいの? 2倍? 3倍? 10倍? 100倍? どれくらい大きくなればスケールアップがすべてを解決するの? だって、2倍大きくなるってことは、メモリと計算が2倍必要になるってことだよ。コストが倍になるか、容量が半分になるか。もし価格が倍になったら、みんなこの技術にお金を払うのかな? ちなみに、今でも多くのものが赤字で運営されてるんだよ。もし2倍じゃ足りなかったら? 10倍大きなモデルに誰が払うの? そんなモデルを現実的に運用することができるの? それとも、すごく高価なPoCとして短期間だけ使うことになるの? それに、10倍で解決するとは限らないよね。40倍が必要だったら? 100倍? あ、もちろん、大きなモデルはトレーニングにもっとデータが必要だよね。インターネットは巨大だけど、有限なんだ。幾何学的に成長すると、sizeof(internet)もいつかは尽きるし…実際、もう尽きてるかもしれないね。 [1] [2] スケールアップが全然機能しないってことがわかったらどうする? 限界利益の低下のせいで。あ、待って、もうそれはわかったみたいだね:[3] [1]: https://observer.com/2024/12/openai-cofounder-ilya-sutskever... [2]: https://biztechweekly.com/ai-training-data-crisis-how-synthe... [3]: https://garymarcus.substack.com/p/confirmed-llms-have-indeed...

問題は、どれだけトレーニングしても、任意のサイズの問題に一般化できないことなんだ。確かに、視野を広げることはできるけど、常に問題を解決できるものは作れないよ(リソースが許せば、だけど、それがここでの問題じゃない)。

「問題をグラフとしてモデル化し、あるソースノードからターゲットノードに行くために必要なトラバーサルを決定することによって作成されたグラフの複雑さ」 面白そうだね:解決策がわかっているときに問題を形式化する。LLMはそれができないみたいだけど、もしできたら、自分たちの問題解決が不十分なところを評価するんじゃない?

説明は結構シンプルだと思うよ。前のコメントでも言ったけど、問題は自分たちが何を求めているのかわからないことだと思う。もしLLMが控えめな論理ルールを一貫して適用できるようになれば、それは成功だね。

それはかなり大きな「もし」だね。LLMは設計上、GoFAIの推論エンジンとは全く異なるから。LLMを推論エンジンにハックしようとするのが意味があるかどうかもかなり議論の余地があるし、ただ推論エンジンを使えばいいんじゃないかな。あるいは、LLMが推論エンジンに委ねるようにすれば、翻訳者としての強みを活かせると思う。

論文を読んで混乱したのは、すべての論理的ステップが示されていること。基本的には、関連する事実がすべてリンクとして明示的に提供されたとき、モデルがどれだけ遠く、どれだけ複雑なチェーンを正しく追えるかをチェックしているんだ。だから、「推論」よりもシンプルなんだよね。これは必ずしも悪いことではなく、推論をよりシンプルでコントロールしやすいサブプロブレムに絞り込んでいるから。

彼らは自分たちが知っていることをかなりよく理解していると思うけど、それを超えて、彼らが知っていることから何が推論できるかに関しては、深刻な能力不足があるね。彼らはトレーニングデータを繰り返すのは得意だけど、それについて考えるのは苦手なんだ。問題は、彼らが止まらなかったり、「わからない」と言わなかったりすること(明示的に促されない限り)。ただ適当に作り上げて、自信満々に表現するんだよね。

返答の中の各トークンにはランダム性があるんだ。つまり、非決定的ってこと。トレーニングデータの中で何かを設定しても、ナンセンスな結果や逆の結果、危険な結果が出る可能性がある。そういう結果を見直すように設定しているから、その可能性は低いかもしれないけど、十分な反復を経ても、非決定的な答えが確実に何かを解決したり推論したりすることはできないんだ。完璧じゃないように設計されているからね。

これをテストするのに良い方法は、画像を提供してモデルに次に何が起こるか、またはxが起こるかを予測させることだと思う。彼らはルーブ・ゴールドバーグマシンで見事に失敗するよ。専用の予測モデルを開発すれば、データの外挿に大いに役立つと思う。人間の潜在意識には、様々な放物線的予測や重力、運動量、その他の素早い思考の経路が詰まっていて、これらの計算を埋め込んでいるんだ。

よく考えるミームを見たんだけど、1960年代から大猿たちは手話を学んで人間とコミュニケーションを取ってきたんだ。でもその間に、人間に質問をしたことは一度もないし、新しいことを学ぼうともしない。理論的には、彼らは自分たちが知らないことを知っている存在がいることを知らないらしい。AIはデジタル世界の大猿みたいなもんだと思ってる。

昨日codexからこれが届いたんだけど、「終わらなかった。変更は出荷されなかった。」って。これ、初めてじゃないんだよね。

問題は、トレーニングデータに「わからない」があまり含まれていないことだね。

彼らはトレーニングデータを繰り返すのが得意で、それについて考えるわけじゃない。これは驚くべきことじゃないよね。結局、言語モデルがやっていることの核心は、トレーニングデータに基づいて統計的にありそうなシーケンスを生成することだから。

公平に言うと、彼らのトレーニングデータに何が含まれているのか、実際にはわからないんだよね。だから、成功を「トレーニングセットに含まれている」とし、失敗を「トレーニングセットに含まれていない」と割り当てるだけ。でも、これはあまり現実的じゃない。だって、トレーニングセットに確実に含まれているものでも、ひどくつまずくことがあるし、逆にトレーニングセットに含まれていないもので成功することもあるから。

簡単だよ。LLMのRAGパイプに一度に40KB以上を取り込まないようにすれば、ハルシネーションがかなり減る。できれば最初は取り込まない方がいいし、一度に40KB以上は絶対にやらない方がいい。これが、nftablesの120KBのparser_bison.yファイルをクリーンなセクションに分けて扱う方法を学んだやり方なんだ。突然、nftablesのCLI構文の完全に決定論的なLL(1)のセマンティックパスが目の前に現れて(それを検証するのに数時間かかった)、100%でテストジェネレーターは今や相対的に簡単にクレイジーなテストケースを生成できるようになった。ジョー・ウォルシュの「Life's Been Good To Me」を思い出すね。

なんで40kbなの?

要約から: > 一部は、数学、物理学、医学、法律などの推論集約型の分野で一般化された推論や革新ができると主張している。しかし、推論問題の複雑さをより注意深くスケールさせることで、既存のベンチマークは実際には限られた複雑さを持っていることを示している。 誰か、ここでの「推論」と「複雑さ」の定義を簡単に説明してくれない? グラフ問題に焦点を当てているようだけど、論文を全部読んだわけじゃないから深く理解してないんだ。いくつかの部分はこの質問に答えているみたいだけど(例えば、セクション5やイントロダクション)、もっと簡単な定義があるかもしれない。彼らが言ってる「計算の複雑さ」って意味じゃないよね?それに「推論」って具体的に何なの?哲学的論理や自然言語の議論に適用できる厳密な論理は知ってるけど、物理的世界に関する質問の答えを評価するための普遍的な尺度には既に合意しているのかな?それとも数学的推論のこと?こういうのを混ぜると、AIの「ベンチマーク」に関してはいつもモヤモヤする。でも、どうやら人々はこれに価値を見出しているみたい。私の質問は新しくないのは分かってるけど、数学の領域を離れると、正しい「推論」が何であるかがすぐに曖昧になる気がする。人は説得力があって明らかな論理的誤謬を避けられるけど、それでも間違った結論を出したり、想定された目標に反する結論を出したりすることがあるよね。

数学的・形式的な領域でも、推論の意味は見た目ほど明確じゃない。推論の活動の結果は、明確に定義されたルールに従って評価できる形式的な議論になるかもしれないけど、そこに至るまでの実際のプロセスは、LLMの内部で起こっていることと同じくらい不透明なんだ。あなたが示唆しているように、特定の問題のクラスを解決する能力の観点から推論を定義しなければならない可能性が高いけど、そのプロセスの性質は指定しないままにすることになるかもしれないね。

具体的にどんな推論能力が現実のアプリケーションに重要なのか、誰も知らないよね。しかも、誰もそのことについて話さない。だってつまらないし、対立を生まないから。代わりに、賢い人たちがバカみたいなコメントを投稿して、この論文が無価値だってことを理解するのを妨げてる。論文が無価値な理由は、クリックベイトのタイトルだから。ブログの投稿はそれで評価が下がるのに、なんでこれがそうならないの? 暗黙の主張は無価値だよ。合成グラフをうまく扱えないことが、現実の問題を解決できないことにはならない。これ、完全に間違い。現実の例との関連性は全くないし、ただ無限のグラフにモデルを失ってるだけ。

「暗黙の主張は無価値だ。合成グラフをうまく扱えないことが現実の問題を解決できないことにはならない。これは間違いだ。」 この発言は、ストローマンを攻撃する辞書的な定義そのものだよ。私たちに売られる新しいモデルは、古いモデルよりも合成ベンチマークでパフォーマンスが良いという理由で売られている。この論文は、同じLLMがそのベンチマークでかなり悪いパフォーマンスを示すことを示している。もし著者が何か間違っているなら、方法論を批判するのはいいけど、なぜそのトピック自体の関連性を理解するのが難しいのかはわからないな。もしベンチマークがそんなに無価値なら、LLMの会社にそれを言ってこいよ。

これは推論の複雑さや難易度をスケールする唯一の論文じゃないよ。CogniLoadベンチマークもそういうことをやってるし(推論の長さや気を散らす比率をスケールすることも含めて)。LLMにコンテキストにある情報だけで推論させると(つまり、事前学習に基づかない)、問題が難しくなるにつれて推論性能が大幅に低下することがわかるんだ(つまり、LLMが隠れ状態で同時にもっと多くの情報を保持する必要があるから)。でも、彼らにとっての一番の課題は長さなんだ。 https://arxiv.org/abs/2509.18458 免責事項:私はCogniLoadの主な著者なので、質問があれば気軽に聞いてね。