世界を動かす技術を、日本語で。

Q学習はまだスケーラブルではない

概要

  • RL(強化学習)のスケーラビリティ は他のAI手法と比べて課題が多い現状
  • 現在の 現実世界での成功例 はほぼオンポリシーRLに依存
  • オフポリシーRL(Q-learning等)は長期的・複雑な課題でスケールしにくい
  • バイアス蓄積問題 がスケーラビリティの根本的障壁
  • ホライズン短縮(n-step return, 階層化等) のみが現状有効な対策

RLはスケールするか?

  • Next-token predictiondiffusioncontrastive learning などの手法は、膨大なパラメータ数やデータ量に対してスケール実績
  • RL(強化学習) も同様にスケールするかという疑問
  • 2016年には AlphaGo などのゲーム分野で超人的な成果を達成
  • 現在は LLM(大規模言語モデル) による数学やコーディングの複雑な推論タスクでも成果
  • しかし、これらの成功は オンポリシーRL(REINFORCE, PPO, GRPO等) に依存
    • オンポリシーRLは常に「新規サンプルロールアウト」が必要
    • 過去のデータ再利用が困難
  • ボードゲームやLLM のように大量データ生成が容易な場合は問題にならない
  • ロボティクス等の現実世界タスク では、データ生成コスト・時間・人的労力が大きな障壁

オフポリシーRLの可能性

  • オフポリシーRL は、いつ・どのポリシーで収集したかに関係なく あらゆるデータを再利用可能
    • サンプル効率が大きく向上
    • 例:Q-learningにより、犬型ロボットが20分で歩行学習
  • Q-learning は最も広く使われるオフポリシーRLアルゴリズム
    • TD損失 を最小化
  • 現実世界タスクでのRL活用 には「Q-learningがスケールするか」が鍵

Q-learningのスケーラビリティの限界

  • 現状、 Q-learningは長期・複雑なタスクにはスケールしにくい
    • スケーラビリティ とは「より多くのデータ・計算・時間で、より困難な長期課題を解ける能力」
    • タスク数の増加(幅方向)は可能でも、タスクの難易度・長さ(深さ方向)は困難
  • AlphaGo, MuZero, OpenAI Five, RL for LLMs などの成功例はすべてオンポリシーRL
  • オフポリシーRL(特に1-step TD learning) で同等規模の現実世界成功例は未確認

Q-learningの根本的な問題点

  • Q-learningの予測ターゲットはバイアスがあり、そのバイアスがホライズン(決定ステップの長さ)に沿って累積
    • 他のスケーラブルな目的(next-token prediction等)ではこの問題が発生しない
  • ホライズンが長くなるほどバイアス蓄積が深刻化
    • より大きな割引率(γ>0.999)を実用で使わない理由
  • ポリシー勾配法(オンポリシー)はこの問題が比較的少ない
    • GAE等で長期ホライズンにも対応しやすい(ただし分散は増加)

実証的スケーリングスタディ

  • OGBench で極めて難易度の高いタスクを設定し、ほぼ無限大のデータを収集
  • 標準的なオフラインRL手法(flow BC, IQL, CRL, SAC+BC) は、1B規模のデータでも全タスク解決に失敗
    • パフォーマンスは最適値のはるか手前で頭打ち
    • モデルサイズ増加・学習時間延長・ハイパーパラメータ調整でも改善せず
  • 唯一有効だったのは「ホライズン短縮」
    • n-step returnや階層型RLでスケーラビリティ・最終性能が大幅向上
    • ホライズン短縮は「定数倍」しか問題を緩和しないため、根本解決ではない

今後の研究課題と展望

  • 本質的にスケーラブルなオフポリシーRL目的関数の発見が最大の課題
    • 任意の長さ・複雑さのホライズンにスケール可能なアルゴリズムが必要
    • robotics, LLM, 汎用エージェント等、幅広い現実世界タスクへの適用が期待
  • 階層型構造の自然な拡張や、シンプルかつスケーラブルな設計が鍵
    • LLMのchain-of-thoughtのようなアプローチ例
  • モデルベースRL との統合も有力候補
    • モデル学習は教師あり学習でスケーラブル
    • モデル内でオンポリシーRLを走らせるアプローチ

この分野の進展が、今後の機械学習のブレイクスルーに直結。 オフポリシーRLのスケーラビリティ は、今まさに研究コミュニティ全体への挑戦状。

Hackerたちの意見

オフポリシー学習の利点は、効果的でない初期の探索から得られたデータが、後の洗練されたポリシーの改善にはあまり役立たないという事実によって根本的に制限されているよね。いくつかの例を考えてみれば明らかだよ:チェスのミス、突発的な動き、パズルを解けないこととか。データがオフポリシーになるのは、そのポリシーがやらないことを説明しているときだけだってことに気づくと、さらに明確になるよ。この問題の解決策は(残念ながら)より良い一般化やサンプル効率の必要性に関連していると思う。

この主張、ちょっと行き過ぎじゃない?オフポリシー学習で20分で歩いた犬の話はどうなるの?それとも、もっと微妙なポイントを言いたいの?

ブログ記事自体は好きだけど、説明されていない略語の使い方が、広いオーディエンスにとって役立つ機会を損なってると思う。ちょっとした指摘だけど、略語や専門用語は説明してほしいな。

こういう内容がすごく良いけど、広範な前提知識が必要であまりアプローチしやすくないブログ記事には、AIツールを使うのがすごく役立つと思う。新しいブラウザのDiaを使ってみたけど、すごく良かったよ。お気に入りのモデルプロバイダーを使ってコピー&ペーストするのもいいね。この方法だと、投稿が簡潔に保たれつつ、AIツールを使って質問したり明確にしたりできる。

実際、これがシャープにした要因だと思う。

結論が「誰かスケールするQ学習法を考えてくれ!」って書いてあるから、明らかに他のRL研究者向けに書かれてるね。

このブログ記事は、Q学習がスケーラブルでない理由の大きな部分が欠けていると思う:ホライズンが増えると、可能な状態の数が(通常)指数関数的に増加するんだ。つまり、そういう状態を扱えるQをトレーニングするためには、指数関数的に増加するデータが必要になるってこと。オンポリシー学習の場合は、近いポリシーの状態だけが重要だから、あまり問題にならないんだ。オンポリシー学習は明示的にその状態だけをサンプルするからね。だから、指数関数的に可能な状態があっても、トレーニングデータは重要なものに集中しているんだよ。

https://news.ycombinator.com/item?id=44280505 そのスレッドが役立つかも?完全に素人だけど、もしかしたら「深い」タスクでも「均一」なものがあって、悪いサンプルでも十分な場合があるのかな?そういうのを「エルゴディック」タスクって呼ぶかな。でも、そうじゃないタスクも確実にあるよね?

メジャーナ1を感じろ

記事のオーバーアプロキシメーションバイアスの分析は正しいと思う。問題は、Q学習のマックスオペレーターによってノイズがタイムステップにわたって増幅されることなんだ。バイアスを減らすためのいくつかの方法、例えば https://arxiv.org/abs/1509.06461 は、RLエージェントのパフォーマンスを改善するのに成功しているよ。研究によると、ネットワークがあまり訪れていない状態では、これがさらに顕著に起こるんだ。指数関数的な状態の数は、もしそれらにパターンがなければ重要だけど、ネットワークが学べる構造があれば、うまく機能するんだ。これは深層学習の強みであって、弱点じゃないよ。重要なのは正しいトレーニング目的を設定することで、記事ではQ学習がそれを満たしていないと言っているね。MuZeroや他のモデルベースのRLシステムが著者の懸念に対する解決策になるかもしれないと思う。MuZeroは以前の軌道を再分析してトレーニング効率を改善できるんだ。モンテカルロ木探索(MCTS)は、モデルを複数ステップ展開してホライズンを減らすための原則的な方法だよ。MCTSのマックスオペレーターも似たような問題を引き起こすかもしれないけど、検索が深く進むことでそれを打ち消すことができるんだ。

これはバニラのレギュラーグリッドと重要サンプリングモンテカルロ積分の違いと本質的には同じ?

この論文は、すでにRLについてかなりのことを知っている前提で書かれているよ。もし本当にRLを掘り下げたいなら、デイビッド・シルバー(Deep Mind)のこのイントロコースが素晴らしいよ: https://youtu.be/2pWv7GOvuf0?si=CmFJHNnNqraL5i0s

このリンクありがとう!

人間は実際に両方やってるよね。自分の行動の結果を探求することでオンポリシーから学ぶけど、オフポリシーでも学ぶことがある。例えば、専門家のデモを見て学ぶとかね(ただ、良い行動と悪い行動を区別できるのが違いで、良い行動のフィルタリングされたリストから学ぶことができる)。ほとんどのオフポリシーRLでは、悪い行動がたくさんあって、それがトレーニングセットに入っちゃうから、トレーニングが遅くなるんだよね。

良い行動と悪い行動を区別できる それはいつもじゃないよ!それが専門家のデモを面白くするところで、初心者レベルの「ベストプラクティス」に従って「完全に間違った」ことをしているのを見て、素晴らしい結果を出すのが面白いんだよね。もちろん、時にはそれがうまくいくってこともあるけど、ただその技術を使ったり、そんなミスをしても許されるくらい上手いってことだよ。

完全に同意するし、素晴らしいまとめだと思う。要するに、動いているターゲットを追いかけてる感じで、ターゲットは自分の動きに応じて変わる。バリューに基づくRLでは、ゼロに絞り込むためのグラウンドトゥルースがないんだ。両方の側に自分の近似が入っている差を最小化している。だけど、絶望的じゃないと思う。実際、RLはかなりうまくいきそうだと思う。これまで欠けていたのは信頼できる世界モデルや前方ダイナミクス関数だったから(そうすれば探求しなくても計画できる)。今はそれが手に入ったんだ。

彼らに効果的だったのは、ホライズンを短くすることだった。私の限られた古い理解では、ガンマ項がそのためのものだと思ってた。未来の価値を指数関数的に割引いて、無視できるくらいのレベルまで(あるいは表現できる差のエプシロン未満まで)減らすってことね。じゃあ、指数関数的割引が足りないのはいつ/なぜなの?

記事に言及されてるよ。でも、本当に長期タスクの場合、小さな割引率を持たない方が合理的かもしれない。例えば、長期タスクで報酬が非常にスパースな場合(行動の1000タイムステップ後に報酬が出るとか)、割引率が0.99でもそれを捉えるのは難しいよ:0.99 ^ 1000 ≈ 4e^-5。基本的に、環境に対して割引率が小さすぎると、特定のクレジット割り当てを学ぶのはほぼ不可能になるんだ。

ディシジョントランスフォーマーやトラジェクトリートランスフォーマーについての言及はないの?どちらもオフラインアプローチで、長期タスクにおいて非常に良い結果を出す傾向があるんだ。アテンションメカニズムのおかげで、クレジット割り当ての問題を回避できるからね。ほとんどの強化学習の研究者は、これらのアプローチを「本物のRL」とは考えていない。なぜなら、コンテキストウィンドウの外でクレジットを割り当てられないから、無限ホライズンタスクを学べないんだ。1m以上のコンテキストウィンドウがあれば、実際にはあまり問題にならないかも?みんなの意見を聞きたいな。DT: https://arxiv.org/abs/2106.01345 TT: https://arxiv.org/abs/2106.02039

TFPはディシジョントランスフォーマーを引用してるけど、トランスフォーマーを使うだけではクレジット割り当ての問題を回避できないよ。トランスフォーマーはシーケンスモデリングの問題を解決するためのアーキテクチャで、RLで発生するクレジット割り当ての問題も含まれる。こういったアーキテクチャは他にもたくさんあるし、クレジット割り当ての問題の難しさはデータのスパースさに関することなんだ。アーキテクチャの選択がそれを「回避」するわけではないよ。

人間が繰り返しのトレーニングで学ぶ長期タスクについて指摘する価値があると思う。私たちはそれを短期のタスクに分けて、後で階層的に組み合わせて学んでるから。

確かに(素直に認めるけど)問題はアルゴリズムよりもアプローチの方が重要な気がする。モデルが最初から長期タスクに取り組めないかもしれないけど、まずは短期のスキルを学んで、それを活用して長期タスクを学ぶって感じだよね。みんながやってるようにチャンク化するんだ。誰も商業用飛行機を飛ばすのを微細な手の動きの連続で学ぶわけじゃない。若い頃はボールを拾うのをそうやって学ぶけど、飛ぶことやスポーツをすることは、学んだスキルや計画の階層から成り立ってるんだ。