自己適応型言語モデル

2025年6月14日原文(arxiv.org)

概要

Self-Adapting LLMs (SEAL) は、LLM自身が自己適応するためのフレームワーク
モデルが自分の ファインチューニングデータ と更新指令を自動生成
自己編集 を通じてモデル重みを永続的に更新
強化学習ループを用いて自己編集の有効性を最適化
知識取り込みや few-shot generalization で有効性を実証

Self-Adapting LLMs (SEAL) 概要

LLM（大規模言語モデル） は従来、静的で新しいタスクや知識への即時適応が困難
SEALフレームワーク は、モデルが自らファインチューニング用データと重み更新指令を生成する仕組みを導入
新しい入力を受け取ると、モデルは self-edit（自己編集） を生成
- 情報の再構成
- 最適化ハイパーパラメータの指定
- データ拡張や勾配ベースの更新のためのツール呼び出し
Supervised Finetuning（SFT） によって、自己編集が永続的な重み更新に反映
モデルが効果的な自己編集を生み出すため、 強化学習ループ を導入
- 更新後の下流タスク性能を報酬信号として利用

SEALの特徴と従来手法との違い

従来手法は 外部の適応モジュールや補助ネットワーク に依存
SEALは モデル自身の生成能力 のみで適応プロセスを制御
モデルが自己編集を通じて自律的に進化可能

実験と応用例

知識取り込み タスクで自己適応能力を検証
Few-shot generalization タスクで柔軟な適応性を実証
SEALは自己指向型適応が可能な言語モデルへの一歩

参考情報

論文・コード・追加情報は 公式ウェブサイト で公開
- https://jyopari.github.io/posts/seal
arXiv掲載論文: arXiv:2506.10943 [cs.LG]
著者: Jyothish Pari

Hackerたちの意見

コードや例が載ってるウェブサイト: https://jyopari.github.io/posts/seal

└

ありがとう！そのリンクもトップのテキストに入れておくね。

2日前にAnthropicから出たやつ、自動ファインチューニング: https://arxiv.org/html/2506.10139v1

└

これすごい！「Claude 3.5 Sonnetの生産グレードRMで評価したところ、私たちの無監督アシスタントポリシーは、人間が監督したRMで訓練されたポリシーに対して60%の勝率を誇ります。」だから、今やモデルは新しいモデルを人間よりも上手にポストトレーニングできるってことだね。

└

関連のスレッドはこちら：無監督での言語モデルの引き出し - https://news.ycombinator.com/item?id=44276041

LLMが「実践で」学ぶための研究がどこまで進んでるのか、詳しい人にまとめてもらえたら嬉しいな。例えば、モデルとコーディングエージェントが時間をかけてコードベースを学べるようにするための障害って何だろう？コスト？モデルの崩壊？それとも他に何か？大きな研究所がこれに取り組んでるのは分かるけど、LLMを使ってる立場から見ると、あんまりこの話題が出てこない気がする。今はより良いトレーニング（例えば強化学習）に焦点が当たってるけど、トレーニング中に学ばなかったことは、必要に応じてコンテキストに詰め込まれるって感じ。素朴な視点から見ると、トレーニング後の経験から学ばないことがAGIへの大きな壁になってる気がする。

└

一番の障害は計算リソースだね。これにはめちゃくちゃ多くの計算が必要。

└

一番の障害は壊滅的な忘却だね。

└

一番の問題はアライメントだね。LLMのファインチューニングはすでにアライメントを取り除けることが知られてるから、理論的にはどんな形の継続的なファインチューニングでもできるはず。

└

専門家じゃないけど、プライバシーが大きな役割を果たしてると思う。計算コストのせいで、学習はユーザーごとじゃなくて集約的に行わざるを得ないんじゃないかな。それだと、セッション間で情報が漏れちゃうリスクが高いよね。安全に継続的にトレーニングする方法を見つけるのが、AGIにとって一番の壁だって完全に同意するよ。

└

本当のところ、誰も自動評価を信頼してないから、どの自動トレーニングされたリリースが実際にパフォーマンスを改善するか自信が持てないんだよね。評価スコアが上がってもね。だから今は、みんなアップデートをまとめて、リリースする前に確認してるんだ。

└

継続的学習の方法が全然わからない。ここにいる多くの人が言ってる通り、計算、崩壊、忘却なんでもあり。これを実現する「本当の」方法は、1. モデルをトレーニング 2. 新しいデータ 3. モデルを再トレーニング + 新しいデータ 4. 繰り返す 5. でも「時間」に関しては保証がないんだよね。でも、CLの分野はこれを真に実現する方法についてはほとんど答えがない。解決策が多くの面で矛盾してるから、すごく難しいんだ。前の表現空間をほぼそのままにしながら、モデルの表現空間を広げる必要がある？つまり、変えずに修正する必要がある。最もイライラするのは、自然な脳でもこれを簡単にやってることだよ。長い理論があるけど、要するにAIは「眠る」か、何らかの形で休む必要があるんじゃないかな。

Hacker Newsで議論の続きを見る

ハクソク