世界を動かす技術を、日本語で。

少ないほど豊かに:小さなネットワークによる再帰的推論

概要

  • Tiny Recursion Model (TRM) は、わずか 7Mパラメータ の小型ニューラルネットワークで ARC-AGI競技 において高スコアを達成
  • 大規模モデルに依存せず、 再帰的推論 によって高難度タスクも解決可能
  • TRMは HRM の複雑さを排除し、再帰的推論をシンプルに実装
  • モデルの小型化と パラメータ効率性 を両立
  • 詳細は 論文コード で確認可能

Tiny Recursion Model (TRM) の概要

  • TRM は再帰的推論モデルで、 ARC-AGI-1で45%ARC-AGI-2で8% のスコアを記録
  • 7Mパラメータ という非常に小型なニューラルネットワーク構成
  • 大規模基盤モデル や高額な学習コストへの依存を排除
  • 再帰的推論 によって少ないリソースでも高難度タスクを解決
  • LLM(大規模言語モデル)依存 からの脱却を提案

TRMの着想と特徴

  • Hierarchical Reasoning Model (HRM) の成果に着目し、さらにシンプル化を目指す
  • HRM は生物学的議論や階層構造に依存し複雑だが、TRMはそれらを排除
  • 再帰的推論 の本質のみを抽出し、 脳モデル数学的定理階層構造 を不要とする
  • 小型モデルによる 新たな方向性の模索 を重視
  • 再帰的自己更新 で解答精度を段階的に向上

TRMの動作原理

  • 入力質問 x、初期解答 y、潜在変数 z を埋め込みとして用意
  • 最大 K回 まで、解答 y の改善ステップを繰り返す
  • 各ステップで
    • n回、質問 x ・現在の解答 y ・現在の潜在変数 z をもとに z を再帰的に更新(再帰的推論)
    • 現在の解答 y と更新後の z から新たな y を生成
  • この再帰プロセスにより、 前回の誤り修正解答の段階的向上 が可能
  • パラメータ効率性過学習抑制 を両立

TRMの意義

  • モデルサイズ拡大 が必須という常識への疑問提起
  • 小型・高効率モデルによる 新しいAI研究の方向性
  • リソース制約下 でも実用的なAIシステムの開発促進
  • オープンソース として 論文 および コード を公開
    • 論文: https://arxiv.org/abs/2510.04871
    • コード: https://github.com/SamsungSAILMontreal/TinyRecursiveModels

Hackerたちの意見

要約:階層的推論モデル(HRM)は、異なる周波数で再帰する2つの小さなニューラルネットワークを使用した新しいアプローチです。この生物にインスパイアされた方法は、数独や迷路、ARC-AGIのような難解なパズルタスクで、大規模言語モデル(LLM)を上回ります。小さなデータ(約1000例)で小さなモデル(2700万パラメータ)を使って訓練されています。HRMは小さなネットワークで難しい問題を解決する大きな可能性を秘めていますが、まだよく理解されておらず、最適ではないかもしれません。私たちは、Tiny Recursive Model(TRM)を提案します。これは、わずか2層の小さなネットワークを使った、はるかにシンプルな再帰的推論アプローチで、HRMよりもはるかに高い一般化能力を達成します。TRMは700万パラメータで、ARC-AGI-1で45%、ARC-AGI-2で8%のテスト精度を達成し、ほとんどのLLM(例:Deepseek R1、o3-mini、Gemini 2.5 Pro)よりも高い結果を出しています。

「700万パラメータで、TRMはARC-AGI-1で45%、ARC-AGI-2で8%のテスト精度を達成し、ほとんどのLLM(例:Deepseek R1、o3-mini、Gemini 2.5 Pro)よりも高い結果を出しています。」これは単独で見るとかなり魅力的だね。何か裏があるのかな?

「700万パラメータで、TRMはARC-AGI-1で45%、ARC-AGI-2で8%のテスト精度を達成し、ほとんどのLLM(例:Deepseek R1、o3-mini、Gemini 2.5 Pro)よりも高い結果を出しています。」これはすごいね。余談だけど、表面的にはジェフ・ホーキンズの「知能について」に出てくる階層的時間記憶を思い出させる。スパース性の要素はないけど、階層的で時間的な側面は関連してるね。

現在のLLMアプローチの弱点は、スパース性の欠如だと思う。

わお、https://arxiv.org/abs/2506.21734(前にHNに投稿されたやつ)の結果が確認されただけじゃなく、一般化もできるの?興味深いね。これが実際のユースケースでどうなるか気になる。革命的かもしれないし、何兆円ものAIデータセンターの設備投資の価値が一瞬で無くなるかも。それは面白いけど、長くは続かないかもね。

AIバブルが、AIがあまりにも優秀で効率的になりすぎて弾けるのは面白いかも。

「HRM」に関する言及は、この分析なしでは不完全だよ:https://arcprize.org/blog/hrm-analysis ここにあるのはHRMの簡略版のように見えるね。おそらくこの分析からのアブレーションスタディに基づいてるかも。HRMは通常のトランスフォーマーLLMのように一般的に適用できるわけではないことに注意が必要だね。少なくとも、誰もまだ典型的な生成AIタスクに適用する方法を見つけていない。まだ論文を読んでるところだけど、このバージョンも似たようなものだと思う。HRMと同じタスクを例に使ってるから。空間推論タスクにはかなり得意かもしれないけど(ARC-AGIとARC-AGI-2はどちらも空間推論のベンチマークだから)、それを超えるにはもっと一般的な能力を持つアーキテクチャに統合する必要があるね。

それに加えて、数兆ドルの未処理のAIデータセンターの設備投資の価値が一瞬で無くなるかもしれないね。GPU計算はテキスト推論だけじゃないから。動画生成の需要は、ブレイクスルーがあっても、しばらくは飽和しないと思う。

ジェボンズの逆説がここに当てはまると思う。安いAI/ワット=需要が増える。

それに加えて、数兆ドルの未処理のAIデータセンターの設備投資の価値が一瞬で無くなるかもしれないね。 彼らはこのアイデアを採用して、もっと能力のある巨大なモデルのトレーニングを続けると思う。

みんな、ARC-AGIの主催者が書いたHRMについての投稿をしっかり読んだ方がいいよ:https://arcprize.org/blog/hrm-analysis 同じデータ拡張や「テストタイムトレーニング」の設定で、普通のトランスフォーマーも結構いい感じで、報告された「ブレイクスルー」HRMに近い結果を出してる。ざっと見た感じ、この論文はARC-AGIで自分を比較するために似た設定を使ってるみたい。私も優れた推論性能を持つ小さなモデルを信じたいけど、まずはARC-AGIが何をテストしてるのか、商業用LLMが互いに比較するために使う一般的な設定が何か、HRMとこの論文が評価に使ってる専門的な設定が何かを理解する必要がある。あのベンチマークの名前は、HRMやこの論文で見たように、盛り上がりを生む要素があるね。

正確には「バニラトランスフォーマー」じゃなくて、「再帰を持つトランスフォーマー風アーキテクチャ」だね。これは遊び心のあるアイデアだけど、このアプローチには明らかに強みがある。ただ、実際の「より良いトランスフォーマー」ではないみたい。そんなに盛り上がるほどの価値はないと思う。

TRMの論文はこのブログ記事に触れてるね。HRMの分析をじっくり読む必要はないと思うよ。TRMはHRMと比べて解明されてるから、アブレーションがやりやすいんだ。arcprizeのHRMブログ記事の本当の価値は、アブレーションテストの重要性を強調してるところだと思う。ARC-AGIはどんなモデルにとってもチャレンジになるはずだったんだけど、大きな言語モデルの推論能力が必要だという前提が、ちょっと間違ってるみたい。HRMとTRMはARC-AGIのサンプルの小さなデータセットで特別に訓練されてるってこと?それとも、どの違いを指摘してるの?

github https://github.com/SamsungSAILMontreal/TinyRecursiveModels

もしそれが再帰的なものであれば、帰納法を適用してハノイの塔を6レベル以上解決できるのかな?

まず、ハノイの塔を教師あり学習の問題としてフレーム化する必要があるよ。モデルをトレーニングするための入力-出力ペアを何にするかによって、君の質問への答えは変わると思う。

教育目的でHRMを実装して、経路探索で良い結果が出たんだけど、その後アブレーション実験を始めたら、ARC-AGIチームと同じ結論に至ったよ(HRMアーキテクチャ自体は大きな役割を果たさなかった):https://github.com/krychu/hrm ちょっと残念だったな。潜在空間推論のアイデアには何かあると思う。

全体的に、このトランスフォーマーRNNがすごく好きだな。基本的には、エネルギーランドスケープを学んで解に落ち着くEBMみたいなもので、離散的な問題を滑らかな凸問題にリラックスさせる感じ。ニューラルセルオートマトンやフローマッチング/拡散みたいな他の反復的手法を思い出すよ。この方法は制御問題に対して有望に見えるね。状態空間を転がり降りていく感じで、各ステップは有効なアクションに制約されるんだ。

一度また、有限インパルス応答(FIR)フィルタ(従来のLLM)と無限インパルス応答(IIR)フィルタ(再帰モデル)の類似性について考えさせられるな。あんまり良い例えでもオリジナルな比喩でもないけど。とにかく、FIRだと、少ないIIR係数で得られるフィルタカットオフ性能と同じようにするには、たくさんの係数が必要なんだ。例えば、ウィンドウ設計法を使ってIIRをFIRに変換できるけど、矩形ウィンドウ関数を使うと再帰を展開して、ある有限の深さで止めることになる。TRMを展開すると、伝統的なLLMアーキテクチャの多くの繰り返しアテンション+フィードフォワードブロックが得られるけど、グローバルフィードバック部分はないんだ。真のIIRとは違って、TRMは有限のカットオフを実装してるから、その意味では伝統的なFIR/LLMに近いかも。だから、TRMネットワークを同じように展開したバージョンと比較するのは面白いかもしれないね。でも、もしかしたらこれは寝不足の頭から出た狂った妄想かも。