少ないほど豊かに：小さなネットワークによる再帰的推論

2025年10月8日原文(alexiajm.github.io)

概要

Tiny Recursion Model (TRM) は、わずか 7Mパラメータ の小型ニューラルネットワークで ARC-AGI競技 において高スコアを達成
大規模モデルに依存せず、 再帰的推論 によって高難度タスクも解決可能
TRMは HRM の複雑さを排除し、再帰的推論をシンプルに実装
モデルの小型化と パラメータ効率性 を両立
詳細は論文や コード で確認可能

Tiny Recursion Model (TRM) の概要

TRM は再帰的推論モデルで、 ARC-AGI-1で45%、 ARC-AGI-2で8% のスコアを記録
7Mパラメータ という非常に小型なニューラルネットワーク構成
大規模基盤モデル や高額な学習コストへの依存を排除
再帰的推論 によって少ないリソースでも高難度タスクを解決
LLM（大規模言語モデル）依存 からの脱却を提案

TRMの着想と特徴

Hierarchical Reasoning Model (HRM) の成果に着目し、さらにシンプル化を目指す
HRM は生物学的議論や階層構造に依存し複雑だが、TRMはそれらを排除
再帰的推論 の本質のみを抽出し、 脳モデル や 数学的定理、 階層構造 を不要とする
小型モデルによる 新たな方向性の模索 を重視
再帰的自己更新 で解答精度を段階的に向上

TRMの動作原理

入力質問 x、初期解答 y、潜在変数 z を埋め込みとして用意
最大 K回まで、解答 y の改善ステップを繰り返す
各ステップで
- n回、質問 x ・現在の解答 y ・現在の潜在変数 z をもとに z を再帰的に更新（再帰的推論）
- 現在の解答 y と更新後の z から新たな y を生成
この再帰プロセスにより、 前回の誤り修正 や 解答の段階的向上 が可能
パラメータ効率性 と 過学習抑制 を両立

TRMの意義

モデルサイズ拡大 が必須という常識への疑問提起
小型・高効率モデルによる 新しいAI研究の方向性
リソース制約下 でも実用的なAIシステムの開発促進
オープンソース として論文および コード を公開
- 論文: https://arxiv.org/abs/2510.04871
- コード: https://github.com/SamsungSAILMontreal/TinyRecursiveModels

Hackerたちの意見

要約：階層的推論モデル（HRM）は、異なる周波数で再帰する2つの小さなニューラルネットワークを使用した新しいアプローチです。この生物にインスパイアされた方法は、数独や迷路、ARC-AGIのような難解なパズルタスクで、大規模言語モデル（LLM）を上回ります。小さなデータ（約1000例）で小さなモデル（2700万パラメータ）を使って訓練されています。HRMは小さなネットワークで難しい問題を解決する大きな可能性を秘めていますが、まだよく理解されておらず、最適ではないかもしれません。私たちは、Tiny Recursive Model（TRM）を提案します。これは、わずか2層の小さなネットワークを使った、はるかにシンプルな再帰的推論アプローチで、HRMよりもはるかに高い一般化能力を達成します。TRMは700万パラメータで、ARC-AGI-1で45%、ARC-AGI-2で8%のテスト精度を達成し、ほとんどのLLM（例：Deepseek R1、o3-mini、Gemini 2.5 Pro）よりも高い結果を出しています。

└

「700万パラメータで、TRMはARC-AGI-1で45%、ARC-AGI-2で8%のテスト精度を達成し、ほとんどのLLM（例：Deepseek R1、o3-mini、Gemini 2.5 Pro）よりも高い結果を出しています。」これは単独で見るとかなり魅力的だね。何か裏があるのかな？

「700万パラメータで、TRMはARC-AGI-1で45%、ARC-AGI-2で8%のテスト精度を達成し、ほとんどのLLM（例：Deepseek R1、o3-mini、Gemini 2.5 Pro）よりも高い結果を出しています。」これはすごいね。余談だけど、表面的にはジェフ・ホーキンズの「知能について」に出てくる階層的時間記憶を思い出させる。スパース性の要素はないけど、階層的で時間的な側面は関連してるね。

└

現在のLLMアプローチの弱点は、スパース性の欠如だと思う。

わお、https://arxiv.org/abs/2506.21734（前にHNに投稿されたやつ）の結果が確認されただけじゃなく、一般化もできるの？興味深いね。これが実際のユースケースでどうなるか気になる。革命的かもしれないし、何兆円ものAIデータセンターの設備投資の価値が一瞬で無くなるかも。それは面白いけど、長くは続かないかもね。

└

AIバブルが、AIがあまりにも優秀で効率的になりすぎて弾けるのは面白いかも。

└

「HRM」に関する言及は、この分析なしでは不完全だよ：https://arcprize.org/blog/hrm-analysis ここにあるのはHRMの簡略版のように見えるね。おそらくこの分析からのアブレーションスタディに基づいてるかも。HRMは通常のトランスフォーマーLLMのように一般的に適用できるわけではないことに注意が必要だね。少なくとも、誰もまだ典型的な生成AIタスクに適用する方法を見つけていない。まだ論文を読んでるところだけど、このバージョンも似たようなものだと思う。HRMと同じタスクを例に使ってるから。空間推論タスクにはかなり得意かもしれないけど（ARC-AGIとARC-AGI-2はどちらも空間推論のベンチマークだから）、それを超えるにはもっと一般的な能力を持つアーキテクチャに統合する必要があるね。

└

それに加えて、数兆ドルの未処理のAIデータセンターの設備投資の価値が一瞬で無くなるかもしれないね。GPU計算はテキスト推論だけじゃないから。動画生成の需要は、ブレイクスルーがあっても、しばらくは飽和しないと思う。

└

ジェボンズの逆説がここに当てはまると思う。安いAI/ワット＝需要が増える。

└

それに加えて、数兆ドルの未処理のAIデータセンターの設備投資の価値が一瞬で無くなるかもしれないね。彼らはこのアイデアを採用して、もっと能力のある巨大なモデルのトレーニングを続けると思う。

みんな、ARC-AGIの主催者が書いたHRMについての投稿をしっかり読んだ方がいいよ：https://arcprize.org/blog/hrm-analysis 同じデータ拡張や「テストタイムトレーニング」の設定で、普通のトランスフォーマーも結構いい感じで、報告された「ブレイクスルー」HRMに近い結果を出してる。ざっと見た感じ、この論文はARC-AGIで自分を比較するために似た設定を使ってるみたい。私も優れた推論性能を持つ小さなモデルを信じたいけど、まずはARC-AGIが何をテストしてるのか、商業用LLMが互いに比較するために使う一般的な設定が何か、HRMとこの論文が評価に使ってる専門的な設定が何かを理解する必要がある。あのベンチマークの名前は、HRMやこの論文で見たように、盛り上がりを生む要素があるね。

└

正確には「バニラトランスフォーマー」じゃなくて、「再帰を持つトランスフォーマー風アーキテクチャ」だね。これは遊び心のあるアイデアだけど、このアプローチには明らかに強みがある。ただ、実際の「より良いトランスフォーマー」ではないみたい。そんなに盛り上がるほどの価値はないと思う。

Hacker Newsで議論の続きを見る

ハクソク