推論モデルはうまく推論するが、やがてそうでなくなる

2025年10月31日原文(arxiv.org)

概要

本論文は、 大規模言語モデル（LLMs） の推論能力の限界を検証。従来のベンチマークの 複雑性不足 を指摘し、新たな Deep Reasoning Dataset（DeepRD） を提案。 DeepRDにより、 推論問題の複雑性を段階的に拡張 し評価を実施。 LRMsは一定の複雑性を超えると 性能が急激に低下 し、汎化性に課題があることを発見。現状の有用性と 今後の課題 を明確化。

大規模言語モデル（LLMs）と推論能力の課題

LLMs は推論タスクで大きな進展を示すが、 複雑な推論問題 では深刻な性能低下
トランスフォーマー やLLMsは、問題の複雑性が一定以上になると 致命的な失敗 を起こす傾向
近年は Large Reasoning Models（LRMs） として、段階的な論証や自己検証を促すファインチューニングが注目
NLGraph 等のベンチマークでLRMsが卓越した性能を示す例もあるが、実際の問題複雑性は限定的
数学・物理・医学・法学など 高度な推論分野 での汎用性にも疑問

Deep Reasoning Dataset（DeepRD）の開発と評価手法

現行ベンチマークの複雑性の限界を補うため、 DeepRD を新規作成
DeepRDは 無制限に複雑性を拡張可能なデータ生成手法 を採用
グラフ接続問題や自然言語による証明計画など、 多様な推論課題 に対応
DeepRDにより、モデルの 複雑性ごとの性能変化 を精密に測定

実験結果と考察

LRMs は複雑性が一定水準を超えると 性能が急激に低下
トレーニング分布内の例には対応できるが、分布外の高複雑性には 汎化できない
実世界の大規模知識グラフや証明データセットの分布と比較
- 多くの現実例はLRMsの成功領域内
- しかし「ロングテール」な高複雑性問題で 失敗リスクが顕在化

今後の展望と課題

LRMs は短期的には有用性が高いが、 複雑性の壁 に直面
トレーニング分布を超える 一般化能力 の向上が今後の主要課題
新たな 推論手法やモデル設計 の必要性
ベンチマークの多様化と 現実的な複雑性評価指標 の確立が重要

参考情報

論文タイトル： arXiv:2510.22371 [cs.AI]
著者：Revanth Rameshkumar
公開日：2025年10月25日
主題分野： 人工知能（AI）、計算と言語（CL）
DOI/URL：arXiv:2510.22371

Hackerたちの意見

でも、ちょっと複雑な論理問題になると、私は大失敗しちゃうんだよね。

└

でも、自分が失敗しそうだってわかってるから、反応しなかったり、もっと成功する可能性が高い人に問題を振ったりするんじゃない？

└

そう思う？ただ「これは無理だ」って言って止まっちゃうだけじゃない？

└

壁に釘を打とうとするときも大失敗するけど、ハンマーにはもっと頑張ってほしいと思ってる。

└

そうだけど、君はコンピュータじゃないよね。別の人間を作る意味はないよ。もうたくさんいるし。

数学の形式論理みたいに、モデルが構造的で検証可能な方法で推論できるようになるのかな。

└

それには、もう古典的なプログラミングがあるよ。形式論理の数学にはすごく向いてる。

└

もうそれをやってるよ。コンピュータ上で実行されるすべてのコード、特にループのないニューラルネットワークは、単にブール演算を行っているだけなんだ。実際、コンピュータはブール演算以外のことはできないんだよ。

この論文が言いたいポイントは、既存のベンチマークが推論の複雑さに対して比較的低い複雑さしか持っていないから、新しいデータセットDeepRDを作って、恣意的に大きな推論の複雑さを示したってことだね。そして、既存のモデルが十分に複雑な問題には対応できないことを示した。複雑さは、問題をグラフとしてモデル化して、あるソースノードからターゲットノードに行くために必要なトラバーサルを決定することで作られたグラフの複雑さから定義される。私の主な批判は、この問題がモデルを大きくして強化学習を続けても持続する証拠がないと思うこと。最近のコーディングエージェントみたいなハーネスを使って、十分なツールを使えば、モデルはその推論ベンチマークでずっと先に進めると思う。そうじゃなければ、推論問題が完全に単一のコンテキストウィンドウ内で行われるなら、十分に複雑な推論問題はモデルには難しすぎるってことになるね。

└

ここでの証拠の負担は君にあるよ。彼らはLRMがこれらの問題にスケールできないことを証明する必要はない。彼らの主張は、現在のモデルがこれらの問題に対処できないということだけだから。他の人たちはこれを挑戦として受け入れるだろうし、彼らがそれを克服する可能性は高いと思う。これが科学の進め方だよ。

└

じゃあ、答えはもう数兆ってこと？

└

「この問題がモデルを大きくしていくうちに持続する証拠はないと思う」どれくらい大きくすればいいの？ 2倍？ 3倍？ 10倍？ 100倍？どれくらい大きくなればスケールアップがすべてを解決するの？だって、2倍大きくなるってことは、メモリと計算が2倍必要になるってことだよ。コストが倍になるか、容量が半分になるか。もし価格が倍になったら、みんなこの技術にお金を払うのかな？ちなみに、今でも多くのものが赤字で運営されてるんだよ。もし2倍じゃ足りなかったら？ 10倍大きなモデルに誰が払うの？そんなモデルを現実的に運用することができるの？それとも、すごく高価なPoCとして短期間だけ使うことになるの？それに、10倍で解決するとは限らないよね。40倍が必要だったら？ 100倍？あ、もちろん、大きなモデルはトレーニングにもっとデータが必要だよね。インターネットは巨大だけど、有限なんだ。幾何学的に成長すると、sizeof(internet)もいつかは尽きるし…実際、もう尽きてるかもしれないね。 [1] [2] スケールアップが全然機能しないってことがわかったらどうする？限界利益の低下のせいで。あ、待って、もうそれはわかったみたいだね：[3] [1]: https://observer.com/2024/12/openai-cofounder-ilya-sutskever... [2]: https://biztechweekly.com/ai-training-data-crisis-how-synthe... [3]: https://garymarcus.substack.com/p/confirmed-llms-have-indeed...

Hacker Newsで議論の続きを見る

ハクソク