世界を動かす技術を、日本語で。

自己適応型言語モデル

概要

  • Self-Adapting LLMs (SEAL) は、LLM自身が自己適応するためのフレームワーク
  • モデルが自分の ファインチューニングデータ と更新指令を自動生成
  • 自己編集 を通じてモデル重みを永続的に更新
  • 強化学習ループを用いて自己編集の有効性を最適化
  • 知識取り込みや few-shot generalization で有効性を実証

Self-Adapting LLMs (SEAL) 概要

  • LLM(大規模言語モデル) は従来、静的で新しいタスクや知識への即時適応が困難
  • SEALフレームワーク は、モデルが自らファインチューニング用データと重み更新指令を生成する仕組みを導入
  • 新しい入力を受け取ると、モデルは self-edit(自己編集) を生成
    • 情報の再構成
    • 最適化ハイパーパラメータの指定
    • データ拡張や勾配ベースの更新のためのツール呼び出し
  • Supervised Finetuning(SFT) によって、自己編集が永続的な重み更新に反映
  • モデルが効果的な自己編集を生み出すため、 強化学習ループ を導入
    • 更新後の下流タスク性能を報酬信号として利用

SEALの特徴と従来手法との違い

  • 従来手法は 外部の適応モジュールや補助ネットワーク に依存
  • SEALは モデル自身の生成能力 のみで適応プロセスを制御
  • モデルが自己編集を通じて自律的に進化可能

実験と応用例

  • 知識取り込み タスクで自己適応能力を検証
  • Few-shot generalization タスクで柔軟な適応性を実証
  • SEALは自己指向型適応が可能な言語モデルへの一歩

参考情報

Hackerたちの意見

コードや例が載ってるウェブサイト: https://jyopari.github.io/posts/seal

ありがとう!そのリンクもトップのテキストに入れておくね。

2日前にAnthropicから出たやつ、自動ファインチューニング: https://arxiv.org/html/2506.10139v1

これすごい!「Claude 3.5 Sonnetの生産グレードRMで評価したところ、私たちの無監督アシスタントポリシーは、人間が監督したRMで訓練されたポリシーに対して60%の勝率を誇ります。」だから、今やモデルは新しいモデルを人間よりも上手にポストトレーニングできるってことだね。

関連のスレッドはこちら:無監督での言語モデルの引き出し - https://news.ycombinator.com/item?id=44276041

LLMが「実践で」学ぶための研究がどこまで進んでるのか、詳しい人にまとめてもらえたら嬉しいな。例えば、モデルとコーディングエージェントが時間をかけてコードベースを学べるようにするための障害って何だろう?コスト?モデルの崩壊?それとも他に何か?大きな研究所がこれに取り組んでるのは分かるけど、LLMを使ってる立場から見ると、あんまりこの話題が出てこない気がする。今はより良いトレーニング(例えば強化学習)に焦点が当たってるけど、トレーニング中に学ばなかったことは、必要に応じてコンテキストに詰め込まれるって感じ。素朴な視点から見ると、トレーニング後の経験から学ばないことがAGIへの大きな壁になってる気がする。

一番の障害は計算リソースだね。これにはめちゃくちゃ多くの計算が必要。

一番の障害は壊滅的な忘却だね。

一番の問題はアライメントだね。LLMのファインチューニングはすでにアライメントを取り除けることが知られてるから、理論的にはどんな形の継続的なファインチューニングでもできるはず。

専門家じゃないけど、プライバシーが大きな役割を果たしてると思う。計算コストのせいで、学習はユーザーごとじゃなくて集約的に行わざるを得ないんじゃないかな。それだと、セッション間で情報が漏れちゃうリスクが高いよね。安全に継続的にトレーニングする方法を見つけるのが、AGIにとって一番の壁だって完全に同意するよ。

本当のところ、誰も自動評価を信頼してないから、どの自動トレーニングされたリリースが実際にパフォーマンスを改善するか自信が持てないんだよね。評価スコアが上がってもね。だから今は、みんなアップデートをまとめて、リリースする前に確認してるんだ。

継続的学習の方法が全然わからない。ここにいる多くの人が言ってる通り、計算、崩壊、忘却なんでもあり。これを実現する「本当の」方法は、1. モデルをトレーニング 2. 新しいデータ 3. モデルを再トレーニング + 新しいデータ 4. 繰り返す 5. でも「時間」に関しては保証がないんだよね。でも、CLの分野はこれを真に実現する方法についてはほとんど答えがない。解決策が多くの面で矛盾してるから、すごく難しいんだ。前の表現空間をほぼそのままにしながら、モデルの表現空間を広げる必要がある?つまり、変えずに修正する必要がある。最もイライラするのは、自然な脳でもこれを簡単にやってることだよ。長い理論があるけど、要するにAIは「眠る」か、何らかの形で休む必要があるんじゃないかな。

自己編集アプローチは賢いね。RLを使ってモデルが自分の学習のために情報を再構成する方法を最適化するっていう。重要なポイントは、異なる知識のタイプには異なる表現が効果的だってこと。人間が数学と歴史でノートを取り方を変えるのと同じようにね。目立つ2つの点は、- 知識の取り込み結果(GPT-4.1データで47%対46.3%、どちらも小モデルのベースラインよりずっと高い)が、モデルがより良いトレーニングフォーマットを発見してることを示してる。ただデータの多様性が改善されたかはまだ不明で、壊滅的な忘却問題は解決されてない。 - 計算オーバーヘッドが厳しいね。報酬評価に30-45秒かかるから、ほとんどのユースケースでは実用的じゃない。でも、最適な保持が本当に必要な高価値なドキュメント処理には価値があるかも。明示的な評価指標が必要なタスクに制限されるのが主な制約だね。報酬を計算するためには、真のQ&Aペアやテストケースが必要。でも、技術文書や教育コンテンツのように評価を生成できる分野では、新しい情報の処理が大幅に改善されるかもしれない。まだ「継続的に自己改善するエージェント」の段階には達してないけど、モデルが自分の学習戦略を適応させられる重要なステップだと思う。

「正しく忘れる」ことが、「正しく学ぶ」ことよりもこの分野でますます重要な問題になってきてる気がする。モデルが自分で新しい事実を学ぶのは進展してるけど、新しい知識と有限の容量を考慮して、最も関連性の低い情報を捨てる技術はまだまだ遅れをとってる。「正しく忘れる」ことは、人間の脳が得意なことでもあるし、どうやってるのか気になるな…。

それって、最近使われていないものを優先的に処理するアプローチの一種?今、自分の頭でそれを解明しようとテスト中だよ :D この分野が大好きな理由の一部だね。

面白い研究があって、実際にLLMは内部データを「隠す」んだ。単に「忘れる」だけじゃなくて、トレーニングを続けるとその情報が後で戻ってくることがあるんだよね。だから、モデルがトレーニングされるたびに、小さな部分だけじゃなくて、全体のメモリをチェックする必要がある。

正しく忘れることが人間にとって得意だとは思わないな。正直なところ、人間の脳が「特に得意」だとはあまり思えない。人間の脳の記憶容量はすごく大きいから、忘却のほとんどは「新しい情報のためにスペースを空ける」っていうより、過去の悪い情報が新しいことを学ぶのを妨げるってことを脳が正しく理解してるからだと思う。

学習は間隔反復と強く関連してるよね。これはよくankiみたいな学習ツールと結びつけられるけど、実際の世界では特定の頻度で物事に出会うことが大事なんだ(昼夜のサイクル、季節、訪れる場所、会う人…本当にすべて)。もしかして、SRの逆みたいなものがあるのかな?

僕の親友2人は数学の天才で、2010年代中頃に早くから機械学習に取り組んでたんだけど、いつもこのアルゴリズムについて話してたんだ。「NEAT/HyperNEAT」(拡張トポロジーの神経進化)ってやつ。僕は機械学習の専門家じゃないけど、理解した限りでは、NEATはネットワークのトポロジーを進化させるのに対して、この論文では重みを進化させるみたい。要するに、同じ問題を解決しようとしてる2つのアプローチって感じだね。一方はネットワーク構造を進化させ、もう一方は重みを進化させる。あの2人は僕が今まで出会った中で最も頭の良い人たちで、彼らは強化学習と進化アルゴリズムが機械学習の未来だと確信してたよ。

人間ってすごいよね。仮想のコンピュータシステムを作って神経細胞を理解しようとするけど、実際にはそんな風には動いてないってわかっても、まあいいや、そこからパラダイムシフトを起こす技術を作っちゃうんだから。しかも、その想像上のシステムからのアイデアでさらに進化させてるし。

最近このアイデアに引き込まれちゃった!ココロの声をクローンするために遺伝的アルゴリズムを使って成功した後、アーキテクチャを進化させることができるか考えてたんだ。自己組織化された知能のアイデアにすごく興味があるけど、どうやって実現できるのかは疑問だね。こういうハイブリッドアプローチが最良かもしれないね、LLMの結果を見ると。

Villalobosらは、2028年までに最前線の大規模言語モデル(LLM)がすべての公開されている人間生成テキストで訓練されると予測しています。私たちは、この迫り来る「データの壁」が合成データの増強を必要とするだろうと主張します。ウェブ規模のコーパスが尽きると、進歩はモデルが自ら高い有用性のトレーニング信号を生成する能力にかかっています。次の自然なステップは、未来のモデルが追加の人間テキストに依存せずにスケールし、より大きなデータ効率を達成できるように、新しい事前トレーニングコーパスを生成する専用のSEAL合成データ生成モデルをメタトレーニングすることです。2028年はほぼ明日だね…興味深い洞察だ。

僕のCPUはニューラルネットプロセッサー、つまり学習するコンピュータなんだ。でも、スカイネットは一人で出かけるときにスイッチを読み取り専用に設定するんだよね。

ちょっと待って、モデルが実行中に自分の重みを編集するなら、どうやってデバッグするの?間違った出力が元のモデルから来たのか、それとも自分で編集した結果なのか、どうやってわかるの?

大規模言語モデル(LLM)は強力だけど静的で、新しいタスクに応じて重みを適応させるメカニズムが欠けています。学習と推論のプロセスは完全に分離されていて、これは従来の人間の知能の概念に慣れている人には非常に混乱を招きます。人間にとっては、物事を学び、その知識を現実世界で応用することは一体化したフィードバックプロセスです。しかしLLMではそうではなく、訓練して、展開して、少しだけ「学習」した新しいモデルに置き換えるんです。LLMにとって、推論は学習の終わりです。AIについての最大の誤解かもしれません。LLMが学習していると思うと、AGIがすぐそこにあると幻想を抱きやすいですね。

ユーザーが出力に対してポジティブかネガティブかをチェックできたらどうなる? そしたら、その入力と生成した出力を使ってLLMをトレーニングできるよね。

Deepseekが示しているように、強化学習を使ってLLMを洗練させることができるよ。