1百万時間のYouTube視聴でロボティクスを偶然解決しました

2025年6月30日原文(ksagar.bearblog.dev)

概要

Behemoth のような巨大LLMでは、現実世界の物理理解が不十分
V-JEPA 2 は動画予測で現実の物理を学習
ロボット制御 においてゼロショット汎化・高速計画を実現
言語監督なし でも映像理解でSOTA達成
カメラ感度や長期計画など、今後の課題も残る

なぜLLMはロボットに弱いのか

LLM（例：Behemoth） は言語の達人だが、現実の物理操作は苦手
3D空間の物理 や物の動き・配置の理解が決定的に不足
「考えてから行動」 のプロンプトも現場では効果薄
現実世界 でのタスク（例：コップを取る）は依然として困難

動画で学ぶAI：V-JEPA 2の登場

V-JEPA 2 は言語ではなく動画から世界を学習
100万時間以上のYouTube動画 で「次に起きること」を予測
未知の環境・物体 でもロボットが適応できる汎化力
本質：ピクセルではなく表現空間で予測
- 画像の細部でなく、物理的状況の「意味」を捉える
3つの核となる構成
- エンコーダー ：ViT-g（10億パラメータ）で動画を理解
- プレディクター ：マスクされた動画トークンから未来を予測
- 3D-RoPE ：3次元位置埋め込みで空間情報を強化

マスキングとデータ拡張

Tubelets （動画のチャンク）をランダムに隠して予測させる手法
データ規模 の飛躍
- 200万本 → 2200万本の動画＋100万枚の画像
- Something-Something v2、 Kinetics、 HowTo100M、YouTube等を活用

モデル拡張とトレーニング手法

モデル規模 ：300M → 1Bパラメータへ拡大
プログレッシブ解像度学習 ：低解像度から高解像度へ段階的に学習（カリキュラム学習）
- 16フレーム256² → 64フレーム384²

V-JEPA 2-AC：アクション可能な世界モデル

物理理解だけでなく、行動予測 も可能に
V-JEPA 2本体は固定、300Mパラメータのトランスフォーマーを追加
学習データ ：たった62時間分のロボット動画（成功・失敗問わず生データ）

エネルギー最小化による制御

現状把握・目標設定・想像した行動列から最良を選択・実行 を繰り返す
モデル予測制御（MPC） によるロボット操作

ゼロショット汎化と実績

異なる環境・物体・照明 でのロボット運用に成功
成功率
- リーチ ：100%
- カップ把持 ：65%
- ピック＆プレース ：65-80%
従来手法 （拡散モデル等）より圧倒的に高速・高汎化

計画速度とデータ効率

V-JEPA 2-AC ：1アクションあたり16秒で計画完了
拡散モデル ：4分/アクション
データ効率 ：62時間の動画で十分な汎化性能

言語モデルとの連携と驚きの結果

V-JEPA 2 を8BパラメータのLLMと組み合わせ
PerceptionTest：84.0%、 TempCompass：76.9% （SOTA達成）
言語監督なし で映像理解モデルが画像-テキスト学習モデルを上回る

制約・課題

カメラ位置への高い感度 ：カメラ角度が少し変わるだけで性能低下
長期計画のドリフト ：長い行動列では予測が崩れる
言語目標の理解不足 ：現状は「やってほしいこと」の画像が必要

今後と未来への展望

世界モデル が現実世界の物理を理解し、LLMのような汎用性を持つ時代
物理理解と行動制御 を兼ね備えたロボットの実現
今後の課題 ：言語による指示理解、データキュレーション、長期安定性

おまけ：比較・まとめ表

| 特徴 | V-JEPA 2 | Diffusion | BC-Policies | |:-------------|:---------|:----------|:------------| | 物理理解 | ✨ | 🤷 | 🤷 | | 計画速度 | 🚀 | 🐌 | 🐌 | | ゼロショット | ✅ | ❌ | ❌ | | データ効率 | 📈 | 📉 | 😐 | | コーヒー作れる？ | 多分 | うーん | まあまあ |

詳細や 可視化 は論文・コード・Twitterなどを参照
ロボットの進化 とAIの現実世界適応の最前線

Hackerたちの意見

ちょっと読みづらかったな。ナarrative構造があって、概念の説明がもっと明確だと良かったかも。

└

意図的だね。彼らの返事はこうだろうね。「ナarrative構造や明確な概念の説明が必要なら、yngmi。」

└

ちょっと読みづらかったな。この文体はTwitterやニッチなDiscordでよく見かける。自分はこれをすぐに理解できるようになったけど、あまり見たことがない人には本当に理解しづらいと思う。これは意図的でもある。この文体の雰囲気は、自信を持っているように見せかけて、著者が理解されるかどうか気にしないって感じ。これは一種の自慢で、著者の理解をアピールしつつ、読者が理解できるかどうかは気にしないというスタイル。他の人も言ってるけど、この投稿には真実の大きな歪みや歴史の書き換えがあるのも共通してる。曖昧さや不明瞭さがあるから、著者は大きな主張をすることができるけど、もし誰かが鋭く気づいたら後で逃げられるんだよね。例えば、ブログ記事は「私たち…」って書いてあるけど、著者はチームの一員なの？それとも「私たち」は一般社会を指してるの？

└

記事の視点がしっかりしているといいな。この「私たち」と「彼ら」っていうのは、最悪混乱を招くし、最悪の場合はクリックを増やすための手段か、著者がその作業に関わっているかのように見せかける方法かもしれない。

個人的には、VideoMimicの方がいいプロトタイプだと思う。 https://www.videomimic.net/ https://www.videomimic.net/page1.html

└

少林酔拳の動画でトレーニングしたみたいだね。動画のせいで酔っ払って見えるのか、それとも動画と重力や物理の関係が合ってないからなのか？

この文章にはたくさんの虚偽や歴史の書き換えが含まれてて、読むのがかなり辛い。

母が「YouTubeを一日中見て人生を無駄にしてる」って言ったけど、明らかにまだYouTubeを見足りてないみたい。100万本のYouTube動画、ここに来るぞ！

記事を最後まで読むことができなかった（今、話が進んだね）。

記事は「なんでこんなことをもっと早く考えなかったんだ？」って聞いてるけど、「私たち」って誰のことなんだろうね。ロボティクスのコミュニティは、確かに前からこのことを考えてたよ。2023年のこのサイト（https://robo-affordances.github.io/）も、かなり関連性のある例だし、似たようなアイデアは2016年頃まで遡る記憶があるよ（その多くはV-JEPA2論文に引用されてる）。データ駆動型アプローチが操作に良いアイデアだと思うなら、YouTubeをデータソースとして使うっていうのは、そんなに大きな飛躍じゃないよね（過去10年間、コンピュータビジョンで非常に人気のあるデータソースだし）。もちろん、「どうやってやるか」が難しい部分なんだけど、いろんな理由でね。そして「どうやってやるか」が、この論文（やこの分野の以前の研究）を面白くしてるんだよ。

└

昨年のActuateで、VLAのトレーニング動画をYouTubeで補完するって話をしてる人を見たけど、実際には「どんな」リアルワールドの動画でもモデルにより良い物理的な「理解」を与えるのに役立つってことを見つけたみたい。

純粋な視覚だけじゃ絶対に足りないよ。物理的なフィードバック、例えば圧力や触覚、タスクを実行するのに必要な力の情報が含まれてないからね。例えば、マッサージをする時に人を潰さないように（でも、しっかり押さないといけない）、魚のフィレを皮を切らずにさばくために適切な力を加える必要があるよね。実際、近い将来において、YouTubeの動画から失敗例をサンプリングするのは難しいよ。例えば、鍋から食べ物がこぼれちゃった時のように。ハッピーパスを通して単純なタスクを研究すると、ロボットが何かをうまくやる方法を見つけるのが難しくなるんだ。ゴミを片付けるような比較的簡単な仕事でもね。とはいえ、視覚から何かを学んだ後に、実際の生活でロボットが練習することはできると思うよ。

Hacker Newsで議論の続きを見る

ハクソク