世界を動かす技術を、日本語で。

階層的推論モデル

概要

  • HRM(Hierarchical Reasoning Model) は、AIの推論課題に革新をもたらす新しいリカレントアーキテクチャ
  • 人間の脳の階層的・多時間スケール処理 に着想を得て設計
  • 高速かつ安定した学習・推論 を、少量データで実現
  • 大規模モデルやCoT手法を凌駕 する性能を示す
  • 一般知能・普遍的計算 への進化を示唆

HRM(Hierarchical Reasoning Model)の概要

  • HRM は、複雑な目標志向型タスクのための 階層型リカレントモデル
  • 高次モジュール が抽象的な計画を担当、 低次モジュール が迅速な詳細計算を担当
  • 単一のフォワードパス で逐次推論を実行、中間過程の明示的監督不要
  • パラメータ数2,700万 という小規模でありながら、 1,000サンプルのみで学習可能
  • 事前学習やChain-of-Thought(CoT)データ不要 で高精度を実現

HRMの特徴と強み

  • 人間の脳の階層的処理 を模倣した設計
  • 計算深度 を確保しつつ、 学習の安定性・効率性 を両立
  • タスク分解の堅牢性推論速度の向上 を実現
  • データ効率性 が高く、 大規模データ不要
  • CoT手法の脆弱性や高レイテンシ を克服

実験結果とベンチマーク

  • Sudoku大規模迷路の最適経路探索 など、複雑な推論タスクでほぼ完璧な性能
  • Abstraction and Reasoning Corpus(ARC) ベンチマークで、 大規模LLMや長文脈モデルを上回る成果
  • 普遍的計算能力汎用推論システム への可能性を示唆

今後の展望

  • HRMの拡張による更なる性能向上 への期待
  • AIの一般知能化少量データでの高精度学習 の実現
  • 多様な推論課題現実世界の課題解決 への応用可能性

Hackerたちの意見

ざっと要約とイントロを見た感じ、階層的推論(HRM)モデルの結果はすごいね。 > たった1,000の入力-出力例を使って、事前学習やCoTの監視なしで、HRMは最先端のLLMでも解けない問題を解決できるようになるんだ。例えば、複雑な数独パズル(Sudoku-Extreme Full)でほぼ完璧な精度を達成したり、30x30の迷路で最適な経路を見つけたりする。最先端のCoT手法は完全に失敗する(精度0%)のにね。Abstraction and Reasoning Corpus (ARC) AGI Challenge 27,28,29では、公式データセット(約1000例)だけを使ってゼロからトレーニングしたHRMが、27Mパラメータと30x30のグリッドコンテキスト(900トークン)で40.3%のパフォーマンスを達成して、o3-mini-high(34.5%)やClaude 3.7 8Kコンテキスト(21.2%)のような大手CoTベースのモデルを大きく上回ったんだ。これ、じっくり読んでみるつもり。HNにシェアしてくれてありがとう!

その通り! > それは、抽象的でゆっくりした計画のための高レベルモジュールと、迅速で詳細な計算のための低レベルモジュールという、相互依存する2つの再帰モジュールを使っているんだ。この構造のおかげで、HRMはパラメータが少なくても(2700万)トレーニングの安定性と効率を保ちながら、かなりの計算深度を達成できるんだ。 > HRMは、数独エクストリームや迷路ハード、Abstraction and Reasoning Corpus(ARC-AGI)などの難しいベンチマークで、CoT手法が完全に失敗する中で優れた成績を収めている。例えば、数独パズルの96%を解決し、ARC-AGI-2で40.3%の精度を達成して、Claude 3.7やDeepSeek R1のような大きなモデルを超えている。え、どういうこと?どうやって?コンピュータが必要だし、座ってやらないと。

1000データポイントで「ゼロから」トレーニングされた27Mパラメータモデルには、めっちゃ懐疑的だわ。同様に、彼らのデータ準備を使って「ゼロから」トレーニングされた他のモデルとの比較がないのも信じられない。代わりに、彼らは3rdパーティのLLMとだけ厳密に比較してるけど、それはもっと一般的な目的のもので、トレーニングセットにその1000の例が含まれてないかもしれない。これ、なんかオーバーフィットっぽい匂いがする。

このHRMモデルがすぐにMoEと統合されるんじゃないかと心配してる。強力なLLMを開発するための経済的プレッシャーが大きいから、1ヶ月以内にできると思う。論文は数独解決のような問題だけを研究していて、質問応答や他のLLMの応用については触れてないし、今後の応用や現在のLLMとの融合についてのセクションも省かれてる。誰でもこの分野で働いている人は応用を想像できると思うけど、HRMモデルとMoEを融合させるための詳細は次の論文になるかも。論文はざっと読んだだけで、専門家じゃないから、他の人がなぜ新しい構造について議論しないのか説明できると思う。とにかく、私の投稿はその複雑さや変化を予測するのが不可能なことに対する無知な喜びに過ぎない。編集:より一般的なアイデアとして、Mixture of Expertは概念のクラスターに関連していて、今はそれらの概念が把握されるのにかかる時間で関連付けられるクラスターを考慮する必要がある。つまり、モデルは潜在空間で各概念の深さ、層の数、必要な時間を推定することになる。密な数学の本と新聞の短編小説では読み方を適応させるのと同じように。

この点についてはちょっと疑わしいな。数独ソルバー以外の応用を示さず、欠点についても議論していないから。

このHRMは、少数のルールが複雑に相互作用するパズルを解くために特別に設計されているんだ。ルールの数が少ないから、小さなモデルでも学習できる。モデルが小さいから、すべての相互作用を解決するためにループ内で何度も実行できる。一方、言語モデルは大量の任意のフレーズとそれらの関係を保存する必要があるから、同じように小さなモデルではうまくいかないと思う。幸いなことに、比較的少ないステップで十分な結果が得られることが多いけど、HRMスタイルのループでLLMサイズのモデルを使おうとしたら、めちゃくちゃ遅くなるから、すぐに誰かが試すとは思えない。少なくとも1ヶ月以内には無理だね。もしかしたら、LLMに小さなHRMを付けて、時々制約満足タスクを解決するハイブリッドができるかもしれない。

これをざっと見た感じ、MoE LLMシステム(自己回帰型、拡散型、エネルギー型、混合型に関わらず)がHRMのレイアウトを複製するネストされたアーキテクチャを持つことができない理由はないと思う。これらを異なる方法で組み合わせることで、効率や品質に関する新しいベンチマークが得られるはずで、興味深いね。

「Tステップを完了した後、Hモジュールはサブ計算の結果(最終状態L)を取り入れ、自身の更新を行う。このHの更新はLモジュールに新しいコンテキストを確立し、実質的にその計算経路を「再起動」し、異なる局所的平衡に向けて新しい収束フェーズを開始する。」つまり、低レベルのRNNを底まで行かせて、出力を高レベルモジュールで評価し、低レベルRNNのための新しいコンテキストを生成するってことだね。これを繰り返す。低レベルのRNNはバックプロパゲーションを繰り返し、高レベルは定期的に低レベルのRNNを促してより良い出力を得る。ループの中のループ。構成。もう一つ興味深い部分は、 > 「神経科学的証拠は、これらの認知モードが特に前頭前野やデフォルトモードネットワークのような領域内で重なり合う神経回路を共有していることを示している。これは、脳がタスクの複雑さや潜在的な報酬に応じて、これらの回路の「実行時間」を動的に調整することを示している。」 > 上記のメカニズムに触発されて、HRMに適応的な停止戦略を組み込んで、「速くて遅い思考」を可能にしているんだ。必要な推論の深さと利用可能なデータに基づいてリソースを動的にバランスさせるスケジューラー。論文がリアルな脳との類似点を引用しているのが好きだな。AGIは、私たちが開発しているプリミティブが極端な複雑さに組み合わさることで解決されると信じている。多くの協力し、競争し、コミュニケーションを取り、同時に専門的な「モジュール」を利用するからね。人間の脳もこの複雑さを持っているに違いないと思う。進化が低電力の組織を使って認知を達成する唯一の現実的な方法だから。

hlm/llmの分割を読んだ瞬間、人間の脳を思い出した。

疑いを持つことを勧めるよ。この研究はいくつかの非常に興味深いアイデアを持っているけど、特に時間をかけたバックプロパゲーションのコストを避けることに関して。ただ、ピアレビューを受けていないようだね。結果のセクションは変だ。評価をどのように行ったかの詳細が含まれていないし、数値は表紙の図にしかない。ARC2の結果は(その図とは逆に)リーダーボードのトップではなく、現在19%でHRMは5%だよ。

疑念は実験を繰り返して結果を比較することで最もよく表現されるよね。俺はやる気だし、来月は10日間の休みがある。著者からフルソースやデータとか、何が手に入るか気になるな。

著者のコードは https://github.com/sapientinc/HRM にあるよ。AI/MLの分野では、動作するコードがあるプレプリントを、コードなしの査読済みの研究よりも常に重視する。たとえプレプリントがあまり編集されてなくてもね。誰でもプレプリントとその公開コードをレビューできるから、選ばれた少数のレビュアーが疲れ果てて、低賃金で、厳しいスケジュールの中でやってるのとは違う。もし著者の主張が正しければ、その研究は認識されるだろうし、逆に主張が間違ってれば、最終的には無視されることになる。資格なんて基本的に関係ないよ。オープンソースで分散型のグローバルレビューだと思って。確かにごちゃごちゃしてるし、誰も管理してないけど、従来の査読よりもずっと良く機能するんだ!

疑念なんて言葉じゃ足りないよ。この論文にはたくさんの問題がある。どうして彼らは、単一のタスクでゼロからトレーニングした専門モデルの結果を、汎用推論モデルと比較してるの? 文献では、特別にトレーニングされた小さなモデルで狭い領域のタスクにおいて汎用LLMを上回ることができるって確立されてるのに。意味がある比較は、同じパラメータ数で同じ入力-出力データセットでトレーニングされたバニラトランスフォーマーとの比較だけだったはず。でも、論文にはそんな比較がない。実際、かなり良くなるとは思えない。そういうアーキテクチャの改善は通常は非常に控えめか、一般的には適用できないからね。そして、ARCを混ぜて汎用AIを改善するなんていうのは、正直言って不誠実だよ。おそらく、数分でPyTorchでニューラルネットを作って、o3が1時間かかる単一タスクを超えることができるだろうけど、それがAGIに向けた進展だとは思えない。

まだ査読されていないからって、そんな厳しい立場はちょっと過酷だと思う。元のmamba1とmamba2の論文も査読されてなかったしね。ただ、強い主張には強い証明が必要だし、俺も結果をローカルで再現しようとしてる。

MLの論文には常に懐疑的でいるのがいいと思う。MLのカンファレンスで定期的に発表し始めると、この分野ではもはや伝統的なピアレビューが存在しないことがわかる。論文の量が多すぎて、「ピア」って言っても、実際には自分がレビューを依頼された分野の一部を理解しようとしている学生が多い。カンファレンスのピアレビューは、もはや「雰囲気チェック」みたいなもんだよ。本当のピアレビューは、他の専門家がarXivに提出された主張を独立して検証して、実装を通じて(できれば)その後の研究で引用してくれることだ。このスレッドが本当のピアレビューだね。

どうやらピアレビューはされていないようだ。もう十分だよ。お願いだから。論文とコードはみんなが読んでテストできるようになってる。動くか動かないか、どっちかだ。誰かがそれを基に何かを作るか、そうじゃないか。20ヶ月も待って、3人の匿名の人たちがそれを理解するのを待つ必要はない。

しかし、どうやらピアレビューはされていないようだ。私の観察では、ピアレビューをする人たちは結果を再現しようとしたり、基本的なコード監査をしてデータ漏洩がないか確認したりしない。

自分のことをピアだと思ってる?気軽にレビューしてみて。ピアレビューアーは、通常、いくつかの図がわかりにくいとか、関連する先行研究が引用されてないとか、次にやるべき実験を指摘したりするよね。それがピアレビューアーの仕事の大体の範囲で、実際に君がやったことでもあるけど。

これが正しく理解できていれば、これは1,000の(パズル、解答)ペアの例を見て、数独のルールを学ぶんだって。そしたら、見たことのないパズルを55%の精度で解けるようになる。もし何百万もの例を与えられたら、ほぼ完璧になるらしい。しかも、事前学習なしでこれができるって、すごいよね。対照的に、AlphaZeroみたいなシステムは、囲碁やチェスのルールが組み込まれていて、ルールは学ばずに戦略だけを学ぶんだ。自分で確かめるために、彼らのGitHubリポジトリ[1]に行ってみるよ。[1] https://github.com/sapientinc/HRM

AlphaZeroにはルールが組み込まれてるけど、MuZeroや他の後続はそうじゃなかった。MuZeroはAlphaZeroに匹敵するか、それを超えた上に、特にEfficientZeroバリアントでは、より少ないトレーニングでそれを実現したんだ。アタリの遊び場でも特に注目されてるよ。

追記として、ソースコードを少し触ってみた後: 1. お願いだから、神のためにも、科学的再現性のためにも、ライブラリのバージョンを明示的に指定して、未完成のrequirements.txtの代わりにpyproject.tomlを使ってほしい。2. 1,000の数独の例は手動でコーディングされた順列アルゴリズムで増強されてるから、実際の入力データセットは1,000じゃなくて1,000,000例に近いよ。

認知心理学者として、広い意味でこれがAIにとって必要な方向性だと強く疑っている。ファジートレース理論を見てみて。[1] ファジートレース理論は、記憶(そして一般的な認知)が逐語的な表現から要点レベルの表現まで、複数のレベルで機能することを示唆している。それらが結びついて記憶になる。要点、つまり一般的なアイデアと具体的な詳細を思い出すことで、強力な一般化と柔軟な検索経路が可能になる。[1] https://pmc.ncbi.nlm.nih.gov/articles/PMC4979567/

神経学との関連性には感謝しているし、論文自体は特に警鐘を鳴らすようなものではないと思う。もし私がピアレビューをすることになったら、拒否はしないだろう。ただ、この発見の適用可能性には非常に懐疑的だ。彼らが書いた内容に基づくと、少数の例から制約充足問題のルールを学ぶ普遍的(多分、少なくとも適応可能)な制約充足ソルバーを作ったように見える。もし本当なら(まだ彼らの例を再現して他の何かで試す余裕はないけど)、これはかなりクールだ。ただ、CoTモデルとの比較が理解できない。CoTモデルは原理的には「どんな」複雑なタスクでも解決できる。これは特定のパズルにトレーニングされて、それを解くためのものだ:普遍性を装うわけじゃない。どんなパズルにも適応できるかどうかも明確じゃない。私が読んだ論文の内容や、彼らがテストした例の選び方から判断すると、そうじゃないと思う。これは、Stockfishが現行の最先端LLMよりもずっと賢いと主張するようなもので、チェスで彼らをボコボコにできるから。著者たちはいいアイデアを持っていると思うけど、ちょっと...過剰に宣伝してる気がする。

うん、同意するけど、これはそれ自体が大きなことだよね。著者たちは明らかに盛り上がりを狙ってこういう形にしたんだろうけど、特にモデルのサイズが小さいことを考えると、これは素晴らしい成果だ!特定の問題に対してカスタマイズされたモデルを使いたいな。エネルギーを何倍も消費して、信頼性が低い「一般的に知的」なモデルよりもね。

CoTモデルは原理的には「どんな」複雑なタスクでも解決できる。これにはどんな根拠があるの?数学的な証明はあるの?私には、CoTは現在のLLMの厳しい制限を回避するためのハックに見える。

この再帰モジュールを使って注意ベースのモデルを強化する使い方がすごく好きだし、これは本当にクールな結果だと思う。将来の研究にとっても実りの多い道だね。

これめっちゃ面白いけど、誰かこれがもっと発展したあとのあいまいな推論の状況に一般化できると思ってる人いる?僕は専門家じゃないけど、数独やパズルってすごく定義がはっきりした問題空間に見えるんだよね。