概要
本論文は、 大規模言語モデル(LLMs) の推論能力の限界を検証。 従来のベンチマークの 複雑性不足 を指摘し、新たな Deep Reasoning Dataset(DeepRD) を提案。 DeepRDにより、 推論問題の複雑性を段階的に拡張 し評価を実施。 LRMsは一定の複雑性を超えると 性能が急激に低下 し、汎化性に課題があることを発見。 現状の有用性と 今後の課題 を明確化。
大規模言語モデル(LLMs)と推論能力の課題
- LLMs は推論タスクで大きな進展を示すが、 複雑な推論問題 では深刻な性能低下
- トランスフォーマー やLLMsは、問題の複雑性が一定以上になると 致命的な失敗 を起こす傾向
- 近年は Large Reasoning Models(LRMs) として、段階的な論証や自己検証を促すファインチューニングが注目
- NLGraph 等のベンチマークでLRMsが卓越した性能を示す例もあるが、実際の問題複雑性は限定的
- 数学・物理・医学・法学など 高度な推論分野 での汎用性にも疑問
Deep Reasoning Dataset(DeepRD)の開発と評価手法
- 現行ベンチマークの複雑性の限界を補うため、 DeepRD を新規作成
- DeepRDは 無制限に複雑性を拡張可能なデータ生成手法 を採用
- グラフ接続問題や自然言語による証明計画など、 多様な推論課題 に対応
- DeepRDにより、モデルの 複雑性ごとの性能変化 を精密に測定
実験結果と考察
- LRMs は複雑性が一定水準を超えると 性能が急激に低下
- トレーニング分布内の例には対応できるが、分布外の高複雑性には 汎化できない
- 実世界の大規模知識グラフや証明データセットの分布と比較
- 多くの現実例はLRMsの成功領域内
- しかし「ロングテール」な高複雑性問題で 失敗リスクが顕在化
今後の展望と課題
- LRMs は短期的には有用性が高いが、 複雑性の壁 に直面
- トレーニング分布を超える 一般化能力 の向上が今後の主要課題
- 新たな 推論手法やモデル設計 の必要性
- ベンチマークの多様化と 現実的な複雑性評価指標 の確立が重要
参考情報
- 論文タイトル: arXiv:2510.22371 [cs.AI]
- 著者:Revanth Rameshkumar
- 公開日:2025年10月25日
- 主題分野: 人工知能(AI)、計算と言語(CL)
- DOI/URL:arXiv:2510.22371