世界を動かす技術を、日本語で。

1百万時間のYouTube視聴でロボティクスを偶然解決しました

概要

  • Behemoth のような巨大LLMでは、現実世界の物理理解が不十分
  • V-JEPA 2 は動画予測で現実の物理を学習
  • ロボット制御 においてゼロショット汎化・高速計画を実現
  • 言語監督なし でも映像理解でSOTA達成
  • カメラ感度や長期計画など、今後の課題も残る

なぜLLMはロボットに弱いのか

  • LLM(例:Behemoth) は言語の達人だが、現実の物理操作は苦手
  • 3D空間の物理 や物の動き・配置の理解が決定的に不足
  • 「考えてから行動」 のプロンプトも現場では効果薄
  • 現実世界 でのタスク(例:コップを取る)は依然として困難

動画で学ぶAI:V-JEPA 2の登場

  • V-JEPA 2 は言語ではなく 動画 から世界を学習
  • 100万時間以上のYouTube動画 で「次に起きること」を予測
  • 未知の環境・物体 でもロボットが適応できる汎化力
  • 本質:ピクセルではなく表現空間で予測
    • 画像の細部でなく、物理的状況の「意味」を捉える
  • 3つの核となる構成
    • エンコーダー :ViT-g(10億パラメータ)で動画を理解
    • プレディクター :マスクされた動画トークンから未来を予測
    • 3D-RoPE :3次元位置埋め込みで空間情報を強化

マスキングとデータ拡張

  • Tubelets (動画のチャンク)をランダムに隠して予測させる手法
  • データ規模 の飛躍
    • 200万本 → 2200万本の動画+100万枚の画像
    • Something-Something v2KineticsHowTo100M、YouTube等を活用

モデル拡張とトレーニング手法

  • モデル規模 :300M → 1Bパラメータへ拡大
  • プログレッシブ解像度学習 :低解像度から高解像度へ段階的に学習(カリキュラム学習)
    • 16フレーム256² → 64フレーム384²

V-JEPA 2-AC:アクション可能な世界モデル

  • 物理理解だけでなく、行動予測 も可能に
  • V-JEPA 2本体は固定、300Mパラメータのトランスフォーマーを追加
  • 学習データ :たった62時間分のロボット動画(成功・失敗問わず生データ)

エネルギー最小化による制御

  • 現状把握・目標設定・想像した行動列から最良を選択・実行 を繰り返す
  • モデル予測制御(MPC) によるロボット操作

ゼロショット汎化と実績

  • 異なる環境・物体・照明 でのロボット運用に成功
  • 成功率
    • リーチ :100%
    • カップ把持 :65%
    • ピック&プレース :65-80%
  • 従来手法 (拡散モデル等)より圧倒的に高速・高汎化

計画速度とデータ効率

  • V-JEPA 2-AC :1アクションあたり16秒で計画完了
  • 拡散モデル :4分/アクション
  • データ効率 :62時間の動画で十分な汎化性能

言語モデルとの連携と驚きの結果

  • V-JEPA 2 を8BパラメータのLLMと組み合わせ
  • PerceptionTest:84.0%TempCompass:76.9% (SOTA達成)
  • 言語監督なし で映像理解モデルが画像-テキスト学習モデルを上回る

制約・課題

  • カメラ位置への高い感度 :カメラ角度が少し変わるだけで性能低下
  • 長期計画のドリフト :長い行動列では予測が崩れる
  • 言語目標の理解不足 :現状は「やってほしいこと」の画像が必要

今後と未来への展望

  • 世界モデル が現実世界の物理を理解し、LLMのような汎用性を持つ時代
  • 物理理解と行動制御 を兼ね備えたロボットの実現
  • 今後の課題 :言語による指示理解、データキュレーション、長期安定性

おまけ:比較・まとめ表

| 特徴 | V-JEPA 2 | Diffusion | BC-Policies | |:-------------|:---------|:----------|:------------| | 物理理解 | ✨ | 🤷 | 🤷 | | 計画速度 | 🚀 | 🐌 | 🐌 | | ゼロショット | ✅ | ❌ | ❌ | | データ効率 | 📈 | 📉 | 😐 | | コーヒー作れる? | 多分 | うーん | まあまあ |

  • 詳細可視化 は論文・コード・Twitterなどを参照
  • ロボットの進化 とAIの現実世界適応の最前線

Hackerたちの意見

ちょっと読みづらかったな。ナarrative構造があって、概念の説明がもっと明確だと良かったかも。

意図的だね。彼らの返事はこうだろうね。「ナarrative構造や明確な概念の説明が必要なら、yngmi。」

ちょっと読みづらかったな。この文体はTwitterやニッチなDiscordでよく見かける。自分はこれをすぐに理解できるようになったけど、あまり見たことがない人には本当に理解しづらいと思う。これは意図的でもある。 この文体の雰囲気は、自信を持っているように見せかけて、著者が理解されるかどうか気にしないって感じ。 これは一種の自慢で、著者の理解をアピールしつつ、読者が理解できるかどうかは気にしないというスタイル。 他の人も言ってるけど、この投稿には真実の大きな歪みや歴史の書き換えがあるのも共通してる。 曖昧さや不明瞭さがあるから、著者は大きな主張をすることができるけど、もし誰かが鋭く気づいたら後で逃げられるんだよね。例えば、ブログ記事は「私たち…」って書いてあるけど、著者はチームの一員なの?それとも「私たち」は一般社会を指してるの?

記事の視点がしっかりしているといいな。この「私たち」と「彼ら」っていうのは、最悪混乱を招くし、最悪の場合はクリックを増やすための手段か、著者がその作業に関わっているかのように見せかける方法かもしれない。

個人的には、VideoMimicの方がいいプロトタイプだと思う。 https://www.videomimic.net/ https://www.videomimic.net/page1.html

少林酔拳の動画でトレーニングしたみたいだね。動画のせいで酔っ払って見えるのか、それとも動画と重力や物理の関係が合ってないからなのか?

この文章にはたくさんの虚偽や歴史の書き換えが含まれてて、読むのがかなり辛い。

母が「YouTubeを一日中見て人生を無駄にしてる」って言ったけど、明らかにまだYouTubeを見足りてないみたい。100万本のYouTube動画、ここに来るぞ!

記事を最後まで読むことができなかった(今、話が進んだね)。

記事は「なんでこんなことをもっと早く考えなかったんだ?」って聞いてるけど、「私たち」って誰のことなんだろうね。ロボティクスのコミュニティは、確かに前からこのことを考えてたよ。2023年のこのサイト(https://robo-affordances.github.io/)も、かなり関連性のある例だし、似たようなアイデアは2016年頃まで遡る記憶があるよ(その多くはV-JEPA2論文に引用されてる)。データ駆動型アプローチが操作に良いアイデアだと思うなら、YouTubeをデータソースとして使うっていうのは、そんなに大きな飛躍じゃないよね(過去10年間、コンピュータビジョンで非常に人気のあるデータソースだし)。もちろん、「どうやってやるか」が難しい部分なんだけど、いろんな理由でね。そして「どうやってやるか」が、この論文(やこの分野の以前の研究)を面白くしてるんだよ。

昨年のActuateで、VLAのトレーニング動画をYouTubeで補完するって話をしてる人を見たけど、実際には「どんな」リアルワールドの動画でもモデルにより良い物理的な「理解」を与えるのに役立つってことを見つけたみたい。

純粋な視覚だけじゃ絶対に足りないよ。物理的なフィードバック、例えば圧力や触覚、タスクを実行するのに必要な力の情報が含まれてないからね。例えば、マッサージをする時に人を潰さないように(でも、しっかり押さないといけない)、魚のフィレを皮を切らずにさばくために適切な力を加える必要があるよね。実際、近い将来において、YouTubeの動画から失敗例をサンプリングするのは難しいよ。例えば、鍋から食べ物がこぼれちゃった時のように。ハッピーパスを通して単純なタスクを研究すると、ロボットが何かをうまくやる方法を見つけるのが難しくなるんだ。ゴミを片付けるような比較的簡単な仕事でもね。とはいえ、視覚から何かを学んだ後に、実際の生活でロボットが練習することはできると思うよ。

もしロボットがすでにハッピーパスの「やり方」を知っていたら、回復後も続けられるなら、トレーニングの難易度はかなり下がるよね。

人間の場合、力を加える様子はストレインを見れば大体わかるよね。

純粋な視覚だけじゃ絶対に足りないよ。物理的なフィードバック、例えば圧力や触覚、タスクを実行するのに必要な力の情報が含まれてないからね。 それが多くのタスクに対して必ずしも当てはまるとは思わないな。頭の中でこれを測る良い方法はこうだよ。「もし二つのロボットアームを遠隔操作して、一つのカメラだけで見ることができたら、どれだけの異なるタスクを成功させられると思う?」考え始めると、アームと一つのカメラだけでできることがたくさんあるって気づくよ。人間としては世界についての直感がすごく良いからね。だから、ロボットもRGB画像だけで学べるはずだよ!反例としては、卵を潰さずに掴むこととかかな。でも、視覚だけでもできると思うけどね。

「純粋な視覚だけでは十分ではない。なぜなら、それには情報が含まれていないからだ。」 後ろの人たちにも聞こえるようにもっと大きな声で言って!でも、実際にはこれに加えて問題をさらに難しくする要素があるんだ!センサーの不足は始まりに過ぎない。物理学にはよく知られた結果があって、「観察だけでは因果モデルを作成できない」ってことなんだ。これは視覚的な世界モデルにとって本当に厄介なポイントで、最近のCVPRで話した多くの人も「動けばいいだけだ」と軽視してる。予想してみて!このことを指摘している人たちも、ちゃんと動くことを気にしてるんだ!こういう思考を止めるクリシェはやめよう。俺たちは科学者なんだから。じゃあ、なぜ観察だけでは不十分なのか?それは、代替の有効な仮説を区別できないからだ。介入しなければならないことが多いんだ!この部分はみんな知ってるよね。変数を制御して、一度に1つまたは限られたセットを変更する。実験物理学は簡単なことではないし、ちょっとしたことでも難しいんだ。実際、子供や動物が遊ぶ理由はこれだと思う(まあ、これは俺の推測だけど)。ここでカオスについて言及する必要がある。なぜなら、これが理解する最も簡単な方法だから。二重振り子や三体問題、あるいはただのガス分子が動いている問題など、有名な問題がたくさんある。この最後の例を考えてみよう。箱の中で動いているガス分子を観察しているとする。t0とTでその位置を測定する。これらの時間点の間の軌道を予測できる?驚くことに、答えは「いいえ」だ。統計的にしかできない。おそらく経路はあるけど、決定論的ではない(この同じ論理が多世界理論につながるんだけどね)。でも、もし俺がその分子を見ていて、t0とTの間ずっと記録していたとしたら、軌道を予測できる?いや、予測する必要はない。ただ書き留めるだけだ。今、君は「ゴデルスキー、君は観察したじゃん!」って言ってるだろう。でも、この問題のセットの問題は、初期状態を観察しないと前に進めないし、非常に正確な観察間隔がないと同じ問題に直面することになる。もし俺が二重振り子を始めたときに振り返ったら、どれだけ時間があっても、振り返ったときにはその軌道をモデル化できない。さらに悪化するのは、混乱する変数があることだ。因果関係の順序によって仮説を区別するのが難しい。もっとたくさんあるんだ。物理学者がたくさんの数学をする理由は、実際にはそれを行う方が、観察から方程式を逆算するよりもはるかに簡単だからだ。物理学では反事実的な命題が重要なんだ。F=maでは、新しい質量や新しい加速度を提案して結果を再導出できる。それが全てなんだ。君の脳もこれを素晴らしくこなしてる!現実の環境で機能するためには反事実的なモデルが必要なんだ。「もしあの子が道路に飛び出したら、どうなる?」って質問して答えられる必要がある。アイザック・アシモフの「間違いの相対性」という短いエッセイを読むことを強くお勧めするよ。これは良いイントロになるけど、完全ではないからね。俺がこれを勧めるのは、「反事実モデルが必要」と「正しい答えが必要」を混同してほしくないからだ。形而上学に入らない限り、これらの結果は混乱を招くよ。要するに、観察だけでできるなら、物理学は千年前に解決されていただろう。興奮に隠れた複雑さや深さがたくさんあって、それを見逃しやすいけど、やっぱり重要なんだ。俺もここでは表面を触ってるだけだし、今話してるのは力学だけ。量子は必要ない、ただ情報の損失があるだけだ。 [0] https://hermiene.net/essays-trans/relativity_of_wrong.html [1] もしかしたら、これがMLの世界モデル側で働いている物理学者が少ない理由かもしれないね。少なくとも、そのフレーズを使うなら…

ロボティクス自体についてはあまり知らないし、興味もないけど、LLMが空間的推論にもっと優れてほしいな。もし新しい洞察がそれに役立つなら、素晴らしい!最近、LLMを使って地理位置情報にちょっと手を出してみたんだけど、写真が撮られた一般的なエリアを見つけるのがどれだけ得意か、まだ驚いてるよ。地球上のランダムな街角の写真を渡すと、正しい市や町だけでなく、ほとんどの場合、正しい地区まで教えてくれるんだ。一方で、片側通行の通りの北側にある緑、茶色、白の家の鳥瞰図を求めると、正確にできるかどうかは微妙だね。片側通行の通りの方向に矢印を追加してほしいって言ったら、全く分からないだろうし、結果は50/50だね。

この投稿の内容が全然理解できなくて、何を解決しようとしているのかもわからなかったから、読むのをやめたよ。これ、本当に人間が書いたの?もしそうなら、著者たちは深刻なコミュニケーションの問題を抱えてるね。少なくとも、現実や自分のロボティクスの経験とはかけ離れてる感じがする。でも、俺の現実的な見解を言うと、ロボティクスはROS/ROS2が効果的に排除されて、まともなロボティクスフレームワークに完全に置き換わるときに部分的に解決されると思う。著者たちには、ぜひROS/ROS2を使ってほしい。自分たちの解決策をROSで実装して、リポジトリにプッシュして、他の人が何を解決したのか確認できるようにしてほしいな。フレームワークにちょっと苦しんでから、本物のロボティクスについて実践的な投稿を書いてほしい。誰もやらないような、意味不明なことにふらふらしてるだけじゃなくてね。そしたら、ロボティクスについて話し始められるかもしれない。

完全に同意だわ。一方で、その理論自体は、特定の物理的影響に基づいて結果を予測するために画像認識を組み合わせるっていうのは、興味深くて新しいアイデアに聞こえる。でも、それを除けば、あなたの言う通りだ。実現するにはプロセスが全然違って、ちゃんと説明されるべきだよね。

最先端のLLMやディープラーニングに関する専門用語に精通していれば、すぐに理解できる内容だよ。そうでなければ、全く理解できない。この記事は非常に高レベルで、具体的な内容からも切り離されてる。具体的なことが知りたいなら、記事の最後にリンクされてるFAIRの論文とコードを見てみて:https://github.com/facebookresearch/vjepa2 予想するに、20代のディープラーニング研究者がロボティクスに進出するにつれて、文化的なギャップが深刻になる可能性が高いね。これは2010年代や2020年代初頭の自然言語処理で起こった文化的なギャップに似てると思う。面白い進展がたくさんあるだろうし、数十年前に解決されたことを興奮して再発明してる若者たちもたくさんいるだろうね。

これは学術論文じゃなくてブログ記事だけど、ひどい文章に対してイライラするのは当然だよ。俺も専門用語は理解できるから翻訳すると、ブログの著者たちは「自律ロボティクスのための機械学習は、YouTubeの全動画で訓練されたV-JEPA 2のおかげで『解決済み』だ」と主張してるんだ。でも、もちろんそんなことはないし、著者たち自身も、そういう期待されるアプローチの深刻な限界を指摘してるよ。特に、彼らが「モデルはカメラの位置に対して基本的にわがまま」と言ってるところが印象的だね。カメラを10度動かすと、突然左が右になったり上が下になったりするんだ。実際には、カメラの位置を手動で調整しないといけないから、すごく科学的だし、エンジニアリングだよね。長期的なドリフトもあって、数ステップ先を計画しようとするとモデルが幻覚を見始める。つまり、V-JEPA 2は現実世界にはまだ準備ができていないってこと。でも、専門用語がわからない人のために、投稿の最後にリンクされてる学術論文は、もっと現実的で地に足のついた内容になってるよ。現代AIの大きな課題は、世界を理解し、観察によって行動を学ぶことなんだ。この論文は、インターネット規模の動画データと少量のインタラクションデータ(ロボットの軌道)を組み合わせた自己教師ありアプローチを探求して、物理的な世界で理解、予測、計画ができるモデルを開発することを目指しているよ。まず、100万時間以上のインターネット動画からなるデータセットで、アクションなしの共同埋め込み予測アーキテクチャであるV-JEPA 2を事前訓練する。V-JEPA 2は、動作理解において強力なパフォーマンスを達成し(Something-Something v2で77.3のトップ1精度)、人間の行動予測においても最先端のパフォーマンスを発揮している(Epic-Kitchens-100で39.7のリコール)。さらに、V-JEPA 2を大規模言語モデルと整合させた後、8億パラメータスケールで複数の動画質問応答タスクにおいて最先端のパフォーマンスを示している(例:PerceptionTestで84.0、TempCompassで76.9)。最後に、自己教師あり学習がロボット計画タスクにどのように適用できるかを示すために、Droidデータセットから62時間未満のラベルなしロボット動画を使って、潜在的なアクション条件付きの世界モデルであるV-JEPA 2-ACを後訓練する。V-JEPA 2-ACをゼロショットで2つの異なるラボのフランカアームに展開し、画像目標を使った計画で物体のピッキングと配置を可能にする。特に、これをロボットからデータを収集せず、タスク特有の訓練や報酬なしで達成している。この研究は、ウェブスケールのデータと少量のロボットインタラクションデータから自己教師あり学習を行うことで、物理的な世界で計画できる世界モデルを生成できることを示している。https://arxiv.org/abs/2506.09985 つまり、いくつかの興味深い結果があって、新しいSOTAもあり、いくつかの漸進的な作業がある。でも、数十人の大きなチームが関わっているから、そこには確実に良いものが含まれているよ。

いや、あなたは理解してないよ。リンクをクリックする必要すらない。