世界を動かす技術を、日本語で。

LLMのための睡眠様統合メカニズム

概要

Transformerベースの大規模言語モデルは長文処理で計算コストが増大する課題。 本研究は「睡眠的統合」メカニズムを提案し、計算効率と推論性能を両立。 モデルは定期的に文脈情報を「高速重み」に変換し、キャッシュをクリア。 この手法は複雑な推論課題で従来モデルを上回る性能を示す。 睡眠期間を延長することで、特に深い推論が必要な場合に大きな性能向上。

Transformerの長文処理における課題と新提案

  • Transformer ベースの大規模言語モデルは 長文タスク で広く利用される現状
  • Attention機構 の計算量が 文脈長 に伴い急増する問題
  • 解決策として 睡眠的統合(sleep-like consolidation) メカニズムの提案
  • モデルは定期的に 直近の文脈 を「 高速重み(fast weights)」へ変換
  • 変換後、 key-valueキャッシュ をクリアしメモリ効率向上

睡眠的統合メカニズムの詳細

  • 睡眠期間(Sleep) 中、モデルは蓄積した文脈に対して N回のオフライン再帰パス を実行
  • State-Space Model(SSM)ブロック 内の高速重みを 学習済みローカルルール で更新
  • 推論時は「睡眠」中に追加計算を行い、 通常時の予測遅延 を維持
  • この設計で 推論の応答速度計算効率 を両立

実験と評価

  • セル・オートマトン多段グラフ検索 など制御された合成タスクで検証
  • 現実的な数学的推論タスク でも評価
  • 従来のTransformerSSM-Attentionハイブリッドモデル が失敗する課題で優位性確認
  • 睡眠期間N を増やすと性能向上、特に 深い推論 が必要な例で顕著

今後の展望と意義

  • 長文・複雑推論タスク における計算効率化の新しいアプローチ
  • 睡眠的統合メカニズム の導入により、モデルの 拡張性実用性 向上
  • 今後はさらに多様なタスクや現実世界データへの適用が期待

Hackerたちの意見

これって単にコンテキストの剪定や最適化じゃないの?

要約を読む限り、実際にはもっと深いことをやってるみたいだね。モデルの一部で重みを更新してるのかな?

いや、実際には圧縮の前にコンテキストに基づいて重みをトレーニングしてるんだよ。コンテキストはコンテキストで、これはモデルを永続的な重みと柔軟な重みに分けて、定期的に更新してるって感じ。

lettaチームの関連するプレプリントだよ。 https://arxiv.org/abs/2504.13171 テスト時の計算をスケールさせることが、大規模言語モデル(LLM)が難しい問題を解決するための重要な要素として浮上してきたけど、高いレイテンシと推論コストが伴うんだ。私たちは「スリープタイム計算」を導入することで、モデルがクエリが提示される前にコンテキストについてオフラインで「考える」ことを可能にする。ユーザーがどんなクエリを尋ねるかを予測して、役立つ量を事前に計算することで、テスト時の計算要件を大幅に削減できる。私たちの手法の効果を示すために、2つの推論タスク - Stateful GSM-SymbolicとStateful AIMEの修正版を作成した。スリープタイム計算を使うことで、Stateful GSM-SymbolicとStateful AIMEで同じ精度を達成するために必要なテスト時の計算量を約5倍削減できることがわかった。また、スリープタイム計算をスケールさせることで、Stateful GSM-Symbolicで最大13%、Stateful AIMEで最大18%の精度向上が可能になる。さらに、Multi-Query GSM-Symbolicを導入し、これにより各コンテキストに対して複数の関連クエリを含めることができる。Multi-Query GSM-Symbolicを使って同じコンテキストに関する関連クエリ間でスリープタイム計算を分散させることで、クエリあたりの平均コストを2.5倍削減できる。さらに、スリープタイム計算が最も効果的なタイミングを理解するための追加分析を行い、ユーザーのクエリの予測可能性がスリープタイム計算の効果とよく相関していることがわかった。最後に、現実的なエージェント的なSWEタスクにスリープタイム計算を適用するケーススタディを行った。

最近のコンテキストを高速重み状態に書き込むために定期的に停止するアイデアは面白いけど、E2E-TTT[1]がやってた時の方が好きだったな。もっと柔軟でエレガントな継続的学習アプローチだと思う。要するに「モデルがトレーニングデータを覚えられるの知ってる?じゃあ、その最近のコンテキストをトレーニングデータみたいに扱って、(主に)トレーニングに使ったプロセスで(いくつかの)重みを更新したらどうなる?」って感じ。結果的に、すごく物事を覚えるのが得意だけど、新しい見たことのない分布にも適応するのがめっちゃ得意になる。[1]https://arxiv.org/abs/2512.23675

うん、E2E-TTTはこのコメント欄の人たちが想像してるものにかなり近いと思う。 "睡眠"の期間中にモデルの重みが更新されてるかは分からないけど、各トークンの後にMambaモデルが更新する通常のSSM状態だけは更新されてるみたい。彼らは、追い出しが起こる直前にそのSSM状態をもっと使うようにモデルを最適化したんだ。

子供たちが成長する過程で、クールな本を作れば人生の夢を作れるかな?人間の心が自分の夢を実現していると納得する柔軟性はどれくらいあるんだろう?

各モデルは別々のコピーである必要があるか、少なくともその特定のウェイトがすべてのユーザーに対して入れ替え可能でなければならない。マイクロソフトのTayを思い出して。

数ヶ月前に考えたアイデアなんだけど、KVキャッシュがほぼ満杯になったら圧縮を一度行った後、この知識をデータセットに蓄積してオフラインの時間にLoRAを微調整するっていうの。これで三層のメモリシステムができると思う。- 安定した長期記憶(初期の基本重み) - 圧縮とリプレイバッファから作られた中期記憶 - 短期記憶(KVキャッシュ) スリープは、オフラインの時間に一つのメモリ層から別のメモリ層に情報を統合して移すことのためのちょっとしたおしゃれな言葉かもしれない。多分、脳も寝ている間にそんなことをしてるんじゃないかな。

それって崩壊を加速させるだけじゃない?LLMの出力をどれだけ信頼できると思ってるの?信頼できる新しい情報を提供してくれるかどうか。蒸留がうまくいくのは分かるけど、少なくとも私のセッションよりずっと構造的で考えられてると思う。

それはGPUを持つコンピュータのネットワークだから、起きてる時と同時に寝ることができない理由はないよ。バックグラウンドで継続的に「寝ている」プロセスが進行していて、モデルを徐々に更新してるんだ。「考える」プロセスが「無意識」である必要はないし、「寝ている」プロセスが動いている間に。擬人化はすべてを混乱させるよ。「オフラインの時間」なんて存在しない。地球は球体だし、アメリカは宇宙の中心じゃないからね。

ちょっと関連してる https://platform.claude.com/docs/en/managed-agents/dreams

この話題は最近FLANNワークショップで出てきたんだけど、いろんな文脈で定期的に再発見されてるみたい。生物学的な役割については色々推測されてるけど(例えば、Pearlmutter & Houghton)、まだ睡眠に関する決定的な理論はないんだよね。でも、この現象が動物界全体で収束進化してることや、睡眠不足が致命的になることは重要な手がかりだと思う。 [1]: https://flann.cs.yale.edu [2]: https://www.cs.toronto.edu/~hinton/csc2535/readings/ws.pdf [3]: https://arxiv.org/abs/1711.02282 [4]: https://arxiv.org/abs/2006.08381 [5]: https://mural.maynoothuniversity.ie/id/eprint/1653/1/Hamilto...

これは問題を探してる解決策かもしれないから、過剰適合には気をつけた方がいいよ。

二次的な注意コストを気にしなくていいなら、すごいことになるね。いくつかのワークフローがかなり安くなる。

Claudeの自動夢はどうなったの?すごく素晴らしいと思ったんだけど。

渡り鳥みたいに、半分の脳で寝かせるべきだよ。