概要
- Behemoth のような巨大LLMでは、現実世界の物理理解が不十分
- V-JEPA 2 は動画予測で現実の物理を学習
- ロボット制御 においてゼロショット汎化・高速計画を実現
- 言語監督なし でも映像理解でSOTA達成
- カメラ感度や長期計画など、今後の課題も残る
なぜLLMはロボットに弱いのか
- LLM(例:Behemoth) は言語の達人だが、現実の物理操作は苦手
- 3D空間の物理 や物の動き・配置の理解が決定的に不足
- 「考えてから行動」 のプロンプトも現場では効果薄
- 現実世界 でのタスク(例:コップを取る)は依然として困難
動画で学ぶAI:V-JEPA 2の登場
- V-JEPA 2 は言語ではなく 動画 から世界を学習
- 100万時間以上のYouTube動画 で「次に起きること」を予測
- 未知の環境・物体 でもロボットが適応できる汎化力
- 本質:ピクセルではなく表現空間で予測
- 画像の細部でなく、物理的状況の「意味」を捉える
- 3つの核となる構成
- エンコーダー :ViT-g(10億パラメータ)で動画を理解
- プレディクター :マスクされた動画トークンから未来を予測
- 3D-RoPE :3次元位置埋め込みで空間情報を強化
マスキングとデータ拡張
- Tubelets (動画のチャンク)をランダムに隠して予測させる手法
- データ規模 の飛躍
- 200万本 → 2200万本の動画+100万枚の画像
- Something-Something v2、 Kinetics、 HowTo100M、YouTube等を活用
モデル拡張とトレーニング手法
- モデル規模 :300M → 1Bパラメータへ拡大
- プログレッシブ解像度学習 :低解像度から高解像度へ段階的に学習(カリキュラム学習)
- 16フレーム256² → 64フレーム384²
V-JEPA 2-AC:アクション可能な世界モデル
- 物理理解だけでなく、行動予測 も可能に
- V-JEPA 2本体は固定、300Mパラメータのトランスフォーマーを追加
- 学習データ :たった62時間分のロボット動画(成功・失敗問わず生データ)
エネルギー最小化による制御
- 現状把握・目標設定・想像した行動列から最良を選択・実行 を繰り返す
- モデル予測制御(MPC) によるロボット操作
ゼロショット汎化と実績
- 異なる環境・物体・照明 でのロボット運用に成功
- 成功率
- リーチ :100%
- カップ把持 :65%
- ピック&プレース :65-80%
- 従来手法 (拡散モデル等)より圧倒的に高速・高汎化
計画速度とデータ効率
- V-JEPA 2-AC :1アクションあたり16秒で計画完了
- 拡散モデル :4分/アクション
- データ効率 :62時間の動画で十分な汎化性能
言語モデルとの連携と驚きの結果
- V-JEPA 2 を8BパラメータのLLMと組み合わせ
- PerceptionTest:84.0%、 TempCompass:76.9% (SOTA達成)
- 言語監督なし で映像理解モデルが画像-テキスト学習モデルを上回る
制約・課題
- カメラ位置への高い感度 :カメラ角度が少し変わるだけで性能低下
- 長期計画のドリフト :長い行動列では予測が崩れる
- 言語目標の理解不足 :現状は「やってほしいこと」の画像が必要
今後と未来への展望
- 世界モデル が現実世界の物理を理解し、LLMのような汎用性を持つ時代
- 物理理解と行動制御 を兼ね備えたロボットの実現
- 今後の課題 :言語による指示理解、データキュレーション、長期安定性
おまけ:比較・まとめ表
| 特徴 | V-JEPA 2 | Diffusion | BC-Policies | |:-------------|:---------|:----------|:------------| | 物理理解 | ✨ | 🤷 | 🤷 | | 計画速度 | 🚀 | 🐌 | 🐌 | | ゼロショット | ✅ | ❌ | ❌ | | データ効率 | 📈 | 📉 | 😐 | | コーヒー作れる? | 多分 | うーん | まあまあ |
- 詳細 や 可視化 は論文・コード・Twitterなどを参照
- ロボットの進化 とAIの現実世界適応の最前線