概要
- Self-Adapting LLMs (SEAL) は、LLM自身が自己適応するためのフレームワーク
- モデルが自分の ファインチューニングデータ と更新指令を自動生成
- 自己編集 を通じてモデル重みを永続的に更新
- 強化学習ループを用いて自己編集の有効性を最適化
- 知識取り込みや few-shot generalization で有効性を実証
Self-Adapting LLMs (SEAL) 概要
- LLM(大規模言語モデル) は従来、静的で新しいタスクや知識への即時適応が困難
- SEALフレームワーク は、モデルが自らファインチューニング用データと重み更新指令を生成する仕組みを導入
- 新しい入力を受け取ると、モデルは self-edit(自己編集) を生成
- 情報の再構成
- 最適化ハイパーパラメータの指定
- データ拡張や勾配ベースの更新のためのツール呼び出し
- Supervised Finetuning(SFT) によって、自己編集が永続的な重み更新に反映
- モデルが効果的な自己編集を生み出すため、 強化学習ループ を導入
- 更新後の下流タスク性能を報酬信号として利用
SEALの特徴と従来手法との違い
- 従来手法は 外部の適応モジュールや補助ネットワーク に依存
- SEALは モデル自身の生成能力 のみで適応プロセスを制御
- モデルが自己編集を通じて自律的に進化可能
実験と応用例
- 知識取り込み タスクで自己適応能力を検証
- Few-shot generalization タスクで柔軟な適応性を実証
- SEALは自己指向型適応が可能な言語モデルへの一歩
参考情報
- 論文・コード・追加情報は 公式ウェブサイト で公開
- arXiv掲載論文: arXiv:2506.10943 [cs.LG]
- 著者: Jyothish Pari