階層的推論モデル

2025年7月27日原文(arxiv.org)

概要

HRM（Hierarchical Reasoning Model） は、AIの推論課題に革新をもたらす新しいリカレントアーキテクチャ
人間の脳の階層的・多時間スケール処理 に着想を得て設計
高速かつ安定した学習・推論 を、少量データで実現
大規模モデルやCoT手法を凌駕 する性能を示す
一般知能・普遍的計算 への進化を示唆

HRM（Hierarchical Reasoning Model）の概要

HRM は、複雑な目標志向型タスクのための 階層型リカレントモデル
高次モジュール が抽象的な計画を担当、 低次モジュール が迅速な詳細計算を担当
単一のフォワードパス で逐次推論を実行、中間過程の明示的監督不要
パラメータ数2,700万 という小規模でありながら、 1,000サンプルのみで学習可能
事前学習やChain-of-Thought（CoT）データ不要 で高精度を実現

HRMの特徴と強み

人間の脳の階層的処理 を模倣した設計
計算深度 を確保しつつ、 学習の安定性・効率性 を両立
タスク分解の堅牢性 や 推論速度の向上 を実現
データ効率性 が高く、 大規模データ不要
CoT手法の脆弱性や高レイテンシ を克服

実験結果とベンチマーク

Sudoku や 大規模迷路の最適経路探索 など、複雑な推論タスクでほぼ完璧な性能
Abstraction and Reasoning Corpus（ARC） ベンチマークで、 大規模LLMや長文脈モデルを上回る成果
普遍的計算能力 と 汎用推論システム への可能性を示唆

今後の展望

HRMの拡張による更なる性能向上 への期待
AIの一般知能化 や 少量データでの高精度学習 の実現
多様な推論課題 ・ 現実世界の課題解決 への応用可能性

Hackerたちの意見

ざっと要約とイントロを見た感じ、階層的推論（HRM）モデルの結果はすごいね。 > たった1,000の入力-出力例を使って、事前学習やCoTの監視なしで、HRMは最先端のLLMでも解けない問題を解決できるようになるんだ。例えば、複雑な数独パズル（Sudoku-Extreme Full）でほぼ完璧な精度を達成したり、30x30の迷路で最適な経路を見つけたりする。最先端のCoT手法は完全に失敗する（精度0%）のにね。Abstraction and Reasoning Corpus (ARC) AGI Challenge 27,28,29では、公式データセット（約1000例）だけを使ってゼロからトレーニングしたHRMが、27Mパラメータと30x30のグリッドコンテキスト（900トークン）で40.3%のパフォーマンスを達成して、o3-mini-high（34.5%）やClaude 3.7 8Kコンテキスト（21.2%）のような大手CoTベースのモデルを大きく上回ったんだ。これ、じっくり読んでみるつもり。HNにシェアしてくれてありがとう！

└

その通り！ > それは、抽象的でゆっくりした計画のための高レベルモジュールと、迅速で詳細な計算のための低レベルモジュールという、相互依存する2つの再帰モジュールを使っているんだ。この構造のおかげで、HRMはパラメータが少なくても（2700万）トレーニングの安定性と効率を保ちながら、かなりの計算深度を達成できるんだ。 > HRMは、数独エクストリームや迷路ハード、Abstraction and Reasoning Corpus（ARC-AGI）などの難しいベンチマークで、CoT手法が完全に失敗する中で優れた成績を収めている。例えば、数独パズルの96%を解決し、ARC-AGI-2で40.3%の精度を達成して、Claude 3.7やDeepSeek R1のような大きなモデルを超えている。え、どういうこと？どうやって？コンピュータが必要だし、座ってやらないと。

└

1000データポイントで「ゼロから」トレーニングされた27Mパラメータモデルには、めっちゃ懐疑的だわ。同様に、彼らのデータ準備を使って「ゼロから」トレーニングされた他のモデルとの比較がないのも信じられない。代わりに、彼らは3rdパーティのLLMとだけ厳密に比較してるけど、それはもっと一般的な目的のもので、トレーニングセットにその1000の例が含まれてないかもしれない。これ、なんかオーバーフィットっぽい匂いがする。

このHRMモデルがすぐにMoEと統合されるんじゃないかと心配してる。強力なLLMを開発するための経済的プレッシャーが大きいから、1ヶ月以内にできると思う。論文は数独解決のような問題だけを研究していて、質問応答や他のLLMの応用については触れてないし、今後の応用や現在のLLMとの融合についてのセクションも省かれてる。誰でもこの分野で働いている人は応用を想像できると思うけど、HRMモデルとMoEを融合させるための詳細は次の論文になるかも。論文はざっと読んだだけで、専門家じゃないから、他の人がなぜ新しい構造について議論しないのか説明できると思う。とにかく、私の投稿はその複雑さや変化を予測するのが不可能なことに対する無知な喜びに過ぎない。編集：より一般的なアイデアとして、Mixture of Expertは概念のクラスターに関連していて、今はそれらの概念が把握されるのにかかる時間で関連付けられるクラスターを考慮する必要がある。つまり、モデルは潜在空間で各概念の深さ、層の数、必要な時間を推定することになる。密な数学の本と新聞の短編小説では読み方を適応させるのと同じように。

└

この点についてはちょっと疑わしいな。数独ソルバー以外の応用を示さず、欠点についても議論していないから。

└

このHRMは、少数のルールが複雑に相互作用するパズルを解くために特別に設計されているんだ。ルールの数が少ないから、小さなモデルでも学習できる。モデルが小さいから、すべての相互作用を解決するためにループ内で何度も実行できる。一方、言語モデルは大量の任意のフレーズとそれらの関係を保存する必要があるから、同じように小さなモデルではうまくいかないと思う。幸いなことに、比較的少ないステップで十分な結果が得られることが多いけど、HRMスタイルのループでLLMサイズのモデルを使おうとしたら、めちゃくちゃ遅くなるから、すぐに誰かが試すとは思えない。少なくとも1ヶ月以内には無理だね。もしかしたら、LLMに小さなHRMを付けて、時々制約満足タスクを解決するハイブリッドができるかもしれない。

これをざっと見た感じ、MoE LLMシステム（自己回帰型、拡散型、エネルギー型、混合型に関わらず）がHRMのレイアウトを複製するネストされたアーキテクチャを持つことができない理由はないと思う。これらを異なる方法で組み合わせることで、効率や品質に関する新しいベンチマークが得られるはずで、興味深いね。

「Tステップを完了した後、Hモジュールはサブ計算の結果（最終状態L）を取り入れ、自身の更新を行う。このHの更新はLモジュールに新しいコンテキストを確立し、実質的にその計算経路を「再起動」し、異なる局所的平衡に向けて新しい収束フェーズを開始する。」つまり、低レベルのRNNを底まで行かせて、出力を高レベルモジュールで評価し、低レベルRNNのための新しいコンテキストを生成するってことだね。これを繰り返す。低レベルのRNNはバックプロパゲーションを繰り返し、高レベルは定期的に低レベルのRNNを促してより良い出力を得る。ループの中のループ。構成。もう一つ興味深い部分は、 > 「神経科学的証拠は、これらの認知モードが特に前頭前野やデフォルトモードネットワークのような領域内で重なり合う神経回路を共有していることを示している。これは、脳がタスクの複雑さや潜在的な報酬に応じて、これらの回路の「実行時間」を動的に調整することを示している。」 > 上記のメカニズムに触発されて、HRMに適応的な停止戦略を組み込んで、「速くて遅い思考」を可能にしているんだ。必要な推論の深さと利用可能なデータに基づいてリソースを動的にバランスさせるスケジューラー。論文がリアルな脳との類似点を引用しているのが好きだな。AGIは、私たちが開発しているプリミティブが極端な複雑さに組み合わさることで解決されると信じている。多くの協力し、競争し、コミュニケーションを取り、同時に専門的な「モジュール」を利用するからね。人間の脳もこの複雑さを持っているに違いないと思う。進化が低電力の組織を使って認知を達成する唯一の現実的な方法だから。

└

hlm/llmの分割を読んだ瞬間、人間の脳を思い出した。

疑いを持つことを勧めるよ。この研究はいくつかの非常に興味深いアイデアを持っているけど、特に時間をかけたバックプロパゲーションのコストを避けることに関して。ただ、ピアレビューを受けていないようだね。結果のセクションは変だ。評価をどのように行ったかの詳細が含まれていないし、数値は表紙の図にしかない。ARC2の結果は（その図とは逆に）リーダーボードのトップではなく、現在19%でHRMは5%だよ。

└

疑念は実験を繰り返して結果を比較することで最もよく表現されるよね。俺はやる気だし、来月は10日間の休みがある。著者からフルソースやデータとか、何が手に入るか気になるな。

└

著者のコードは https://github.com/sapientinc/HRM にあるよ。AI/MLの分野では、動作するコードがあるプレプリントを、コードなしの査読済みの研究よりも常に重視する。たとえプレプリントがあまり編集されてなくてもね。誰でもプレプリントとその公開コードをレビューできるから、選ばれた少数のレビュアーが疲れ果てて、低賃金で、厳しいスケジュールの中でやってるのとは違う。もし著者の主張が正しければ、その研究は認識されるだろうし、逆に主張が間違ってれば、最終的には無視されることになる。資格なんて基本的に関係ないよ。オープンソースで分散型のグローバルレビューだと思って。確かにごちゃごちゃしてるし、誰も管理してないけど、従来の査読よりもずっと良く機能するんだ！

Hacker Newsで議論の続きを見る

ハクソク