Q学習はまだスケーラブルではない

2025年6月15日原文(seohong.me)

概要

RL（強化学習）のスケーラビリティ は他のAI手法と比べて課題が多い現状
現在の 現実世界での成功例 はほぼオンポリシーRLに依存
オフポリシーRL（Q-learning等）は長期的・複雑な課題でスケールしにくい
バイアス蓄積問題 がスケーラビリティの根本的障壁
ホライズン短縮（n-step return, 階層化等） のみが現状有効な対策

RLはスケールするか？

Next-token prediction や diffusion、 contrastive learning などの手法は、膨大なパラメータ数やデータ量に対してスケール実績
RL（強化学習） も同様にスケールするかという疑問
2016年には AlphaGo などのゲーム分野で超人的な成果を達成
現在は LLM（大規模言語モデル） による数学やコーディングの複雑な推論タスクでも成果
しかし、これらの成功は オンポリシーRL（REINFORCE, PPO, GRPO等） に依存
- オンポリシーRLは常に「新規サンプルロールアウト」が必要
- 過去のデータ再利用が困難
ボードゲームやLLM のように大量データ生成が容易な場合は問題にならない
ロボティクス等の現実世界タスク では、データ生成コスト・時間・人的労力が大きな障壁

オフポリシーRLの可能性

オフポリシーRL は、いつ・どのポリシーで収集したかに関係なく あらゆるデータを再利用可能
- サンプル効率が大きく向上
- 例：Q-learningにより、犬型ロボットが20分で歩行学習
Q-learning は最も広く使われるオフポリシーRLアルゴリズム
- TD損失 を最小化
現実世界タスクでのRL活用 には「Q-learningがスケールするか」が鍵

Q-learningのスケーラビリティの限界

現状、 Q-learningは長期・複雑なタスクにはスケールしにくい
- スケーラビリティ とは「より多くのデータ・計算・時間で、より困難な長期課題を解ける能力」
- タスク数の増加（幅方向）は可能でも、タスクの難易度・長さ（深さ方向）は困難
AlphaGo, MuZero, OpenAI Five, RL for LLMs などの成功例はすべてオンポリシーRL
オフポリシーRL（特に1-step TD learning） で同等規模の現実世界成功例は未確認

Q-learningの根本的な問題点

Q-learningの予測ターゲットはバイアスがあり、そのバイアスがホライズン（決定ステップの長さ）に沿って累積
- 他のスケーラブルな目的（next-token prediction等）ではこの問題が発生しない
ホライズンが長くなるほどバイアス蓄積が深刻化
- より大きな割引率（γ>0.999）を実用で使わない理由
ポリシー勾配法（オンポリシー）はこの問題が比較的少ない
- GAE等で長期ホライズンにも対応しやすい（ただし分散は増加）

実証的スケーリングスタディ

OGBench で極めて難易度の高いタスクを設定し、ほぼ無限大のデータを収集
標準的なオフラインRL手法（flow BC, IQL, CRL, SAC+BC） は、1B規模のデータでも全タスク解決に失敗
- パフォーマンスは最適値のはるか手前で頭打ち
- モデルサイズ増加・学習時間延長・ハイパーパラメータ調整でも改善せず
唯一有効だったのは「ホライズン短縮」
- n-step returnや階層型RLでスケーラビリティ・最終性能が大幅向上
- ホライズン短縮は「定数倍」しか問題を緩和しないため、根本解決ではない

今後の研究課題と展望

本質的にスケーラブルなオフポリシーRL目的関数の発見が最大の課題
- 任意の長さ・複雑さのホライズンにスケール可能なアルゴリズムが必要
- robotics, LLM, 汎用エージェント等、幅広い現実世界タスクへの適用が期待
階層型構造の自然な拡張や、シンプルかつスケーラブルな設計が鍵
- LLMのchain-of-thoughtのようなアプローチ例
モデルベースRL との統合も有力候補
- モデル学習は教師あり学習でスケーラブル
- モデル内でオンポリシーRLを走らせるアプローチ

この分野の進展が、今後の機械学習のブレイクスルーに直結。 オフポリシーRLのスケーラビリティ は、今まさに研究コミュニティ全体への挑戦状。

Hackerたちの意見

オフポリシー学習の利点は、効果的でない初期の探索から得られたデータが、後の洗練されたポリシーの改善にはあまり役立たないという事実によって根本的に制限されているよね。いくつかの例を考えてみれば明らかだよ：チェスのミス、突発的な動き、パズルを解けないこととか。データがオフポリシーになるのは、そのポリシーがやらないことを説明しているときだけだってことに気づくと、さらに明確になるよ。この問題の解決策は（残念ながら）より良い一般化やサンプル効率の必要性に関連していると思う。

└

この主張、ちょっと行き過ぎじゃない？オフポリシー学習で20分で歩いた犬の話はどうなるの？それとも、もっと微妙なポイントを言いたいの？

ブログ記事自体は好きだけど、説明されていない略語の使い方が、広いオーディエンスにとって役立つ機会を損なってると思う。ちょっとした指摘だけど、略語や専門用語は説明してほしいな。

└

こういう内容がすごく良いけど、広範な前提知識が必要であまりアプローチしやすくないブログ記事には、AIツールを使うのがすごく役立つと思う。新しいブラウザのDiaを使ってみたけど、すごく良かったよ。お気に入りのモデルプロバイダーを使ってコピー＆ペーストするのもいいね。この方法だと、投稿が簡潔に保たれつつ、AIツールを使って質問したり明確にしたりできる。

└

実際、これがシャープにした要因だと思う。

└

結論が「誰かスケールするQ学習法を考えてくれ！」って書いてあるから、明らかに他のRL研究者向けに書かれてるね。

このブログ記事は、Q学習がスケーラブルでない理由の大きな部分が欠けていると思う：ホライズンが増えると、可能な状態の数が（通常）指数関数的に増加するんだ。つまり、そういう状態を扱えるQをトレーニングするためには、指数関数的に増加するデータが必要になるってこと。オンポリシー学習の場合は、近いポリシーの状態だけが重要だから、あまり問題にならないんだ。オンポリシー学習は明示的にその状態だけをサンプルするからね。だから、指数関数的に可能な状態があっても、トレーニングデータは重要なものに集中しているんだよ。

└

https://news.ycombinator.com/item?id=44280505 そのスレッドが役立つかも？完全に素人だけど、もしかしたら「深い」タスクでも「均一」なものがあって、悪いサンプルでも十分な場合があるのかな？そういうのを「エルゴディック」タスクって呼ぶかな。でも、そうじゃないタスクも確実にあるよね？

└

メジャーナ1を感じろ

└

記事のオーバーアプロキシメーションバイアスの分析は正しいと思う。問題は、Q学習のマックスオペレーターによってノイズがタイムステップにわたって増幅されることなんだ。バイアスを減らすためのいくつかの方法、例えば https://arxiv.org/abs/1509.06461 は、RLエージェントのパフォーマンスを改善するのに成功しているよ。研究によると、ネットワークがあまり訪れていない状態では、これがさらに顕著に起こるんだ。指数関数的な状態の数は、もしそれらにパターンがなければ重要だけど、ネットワークが学べる構造があれば、うまく機能するんだ。これは深層学習の強みであって、弱点じゃないよ。重要なのは正しいトレーニング目的を設定することで、記事ではQ学習がそれを満たしていないと言っているね。MuZeroや他のモデルベースのRLシステムが著者の懸念に対する解決策になるかもしれないと思う。MuZeroは以前の軌道を再分析してトレーニング効率を改善できるんだ。モンテカルロ木探索（MCTS）は、モデルを複数ステップ展開してホライズンを減らすための原則的な方法だよ。MCTSのマックスオペレーターも似たような問題を引き起こすかもしれないけど、検索が深く進むことでそれを打ち消すことができるんだ。

└

これはバニラのレギュラーグリッドと重要サンプリングモンテカルロ積分の違いと本質的には同じ？

この論文は、すでにRLについてかなりのことを知っている前提で書かれているよ。もし本当にRLを掘り下げたいなら、デイビッド・シルバー（Deep Mind）のこのイントロコースが素晴らしいよ： https://youtu.be/2pWv7GOvuf0?si=CmFJHNnNqraL5i0s

Hacker Newsで議論の続きを見る

ハクソク