世界を動かす技術を、日本語で。

ウェイモ・ワールドモデル:自動運転シミュレーションの新たなフロンティア

概要

  • Waymo Driver は2億マイル近い自動運転走行を達成し、都市交通の安全性向上に寄与
  • Waymo World Model は大規模・高精度な自動運転シミュレーションを実現する新世代生成モデル
  • Genie 3技術を応用し、極めて稀な事象や多様な環境を仮想空間で再現可能
  • 多様な制御手法 により現実に近い複数センサーデータとシナリオ生成を実現
  • 安全性検証・拡張性・現実適応力で自動運転の新たな基準を確立

Waymo World Model:自動運転シミュレーションの最前線

  • Waymo Driver は米国主要都市で2億マイル近い自律走行を実現、都市交通の重要インフラへ成長
  • 実車走行に加え、 仮想空間での数十億マイル分のシミュレーション を通じて複雑な状況を事前学習
  • 新開発の Waymo World Model は大規模・超高精度な自動運転シミュレーションを可能にする生成AI
  • Genie 3(Google DeepMind開発)を基盤とし、 写真のような3D環境と高い相互作用性 を実現
  • 稀な自然災害・動物・特殊な交通状況 など、現実では再現困難なシナリオも自在に生成
  • シンプルな言語プロンプトや運転操作、シーンレイアウトで 高い制御性 を発揮
  • カメラ・LiDAR両方のマルチセンサーデータ を生成し、リアルな検証環境を提供
  • これらの特長により、 新しい地域や環境への迅速な適応・サービス拡大 が可能

マルチモーダル世界知識の活用

  • 従来の自動運転シミュレーションは 実走行データのみ で学習、経験値が限定的
  • Genie 3の膨大な映像事前学習により、 未体験の状況や長尾事象 も再現可能
  • Waymo独自の後続学習で 2D映像から3D LiDAR出力 へ知識転送
  • カメラは視覚的詳細、LiDARは精密な距離情報 を補完
  • 日常運転から特殊事象まで、 あらゆるシーンを複数センサーモダリティで再現

極端気象・自然災害・希少ケースの再現

  • 雪のGolden Gate Bridge走行、竜巻遭遇、水没道路、火災現場脱出 など極端気象をシミュレーション
  • 危険運転車、落下物搭載車、逆走トラック など安全クリティカルなイベントも再現
  • 象、テキサスロングホーン、ライオン、T-rex仮装歩行者、巨大タンブルウィード など希少物体との遭遇も生成

強力なシミュレーション制御性

  • 運転操作制御 :特定の運転入力に応じた「もしも」シナリオの実現
    • 例:本来は譲った場面で強気に進行した場合の安全性検証
  • シーンレイアウト制御 :道路構造、信号状態、他車両の挙動を自由にカスタマイズ
    • 任意配置や道路変形による独自シナリオ生成
  • 言語制御 :シーンの時間帯、天候、完全な合成シナリオを自然言語で指示
    • 例:夜間・雨天・霧・晴天などの多様な状況生成

実映像からのマルチモーダル変換

  • ドライブレコーダーやスマホ動画 から、Waymo Driver視点のシミュレーションを生成
  • 実際の映像を基にするため 最高レベルのリアリズムと事実性 を実現
    • 例:ノルウェー、アーチーズ国立公園、デスバレー等の走行映像を再現

大規模推論・長尺シミュレーション

  • 長時間・複雑なシーン も効率的に高品質でシミュレート
  • 計算コストを抑えつつ リアリズムと一貫性を維持
    • 例:高速道路での障害物回避、混雑地域の走行、急坂での安全運転

安全性と拡張性の新基準

  • 現実では遭遇困難な「不可能な」シナリオ を事前に網羅的に学習
  • Waymo Driverの 安全性と対応力の徹底検証・強化
  • 新たな地域や環境への迅速な適応、 自動運転サービスの拡大基盤

貢献者・パートナーへの謝辞

  • Waymo、Google DeepMind の多くの研究者・エンジニア・評価担当者による共同開発
  • プロジェクトビジョン策定・リーダーシップ・技術支援・パートナーシップへの感謝

Waymo World Modelは、 自動運転の安全基準と拡張性を飛躍的に高めるAIシミュレーション技術 として、今後のモビリティ社会に大きなインパクトをもたらす革新的な取り組みです。

Hackerたちの意見

Waymoのワールドモデルは、そういう動画や普通のカメラで撮った動画をマルチモーダルシミュレーションに変換できるんだ。Waymoドライバーがそのシーンをどう見るかを示してくれる。ちょっと自慢みたいだけど、Waymoはカメラだけのモードでも運転できるって言ってたことがあるんだよね。でも、それが広まってないみたい。

ちょっと誤解してるかも。彼らは動画をLIDARや他のセンサーを使って構築した表現に変換してるんだよね。テスラのことを言ってる気がするけど、テスラはLIDARのフェーズがなかったからこの結果は得られないと思う。(編集:展開されたテスラ車両について言ってるけど、彼らの研究用フリートが何を含んでるかは知らない。ただ、他のコメント者がそのフリートはLIDARを集めてるって説明してる。)

ずっと疑問に思ってたんだけど、Lidarとカメラが常に正しい判断をしているなら、理論的にはLidarとカメラのモデルの出力をカメラだけのモデルのトレーニングデータとして使えるはずだよね。

ここには2つのステップがあると思う。動画をセンサーデータに変換することと、そのセンサーデータを使って運転すること。2つ目のステップだけが実際の車で処理されるんだ。最初のは純粋にトレーニング用だね。

Lidarの目的は、カメラの精度が失われるときにエラー修正を証明することなんだ。人間も、両目での奥行き知覚の感覚でこれをやってるよね。

誰かがLiDARジャミングシステムを使って事故を起こそうとする場合に備えて、安全上重要だよね。

彼らはその主張が引用された文からは導き出せないことを示唆しようとしてるかもしれないね。

アビー・ロードでビートルズが横断歩道を渡るシーンを1960年代後半にシミュレーションできるのかな。

ロンドンに住んでた頃、アビー・ロードを週に一度は通ってたから、その横断歩道にはほぼ毎日人がいて、その写真を再現してるんだよね。だから、Waymoがロンドンでベータ版を運転してる今、そこに行けばたくさんの映像が撮れるはず。[1] いくつか見たことあるけど、まだ借りられないし、すごく珍しいんだ。

ここでの新しい点は、ポストトレーニングを使って2D動画から3D LiDAR出力を得ることのようだ。私の知る限り、他の動画ワールドモデルはこれができない。個人的には、DeepMindとGoogleのインフラにアクセスできるのはWaymoの大きなアドバンテージで、他の競合には真似できないと思う。

2D画像から3Dを作るのは何十年も前からあったことだよ。

Deepmindのプロジェクトジーニーの裏側(言葉遊び)。DeepmindとWaymoはどちらもAlphabet(Google)の子会社だよね。 https://deepmind.google/blog/genie-3-a-new-frontier-for-worl... ここで話題になってるよ、例えば「ジーニー3:世界モデルの新たなフロンティア」(1510ポイント、497コメント) https://news.ycombinator.com/item?id=44798166 プロジェクトジーニー:無限でインタラクティブな世界の実験(673ポイント、371コメント) https://news.ycombinator.com/item?id=46812933

企業構造に関係なく、DeepMindは今やただのAlphabetの子会社以上の存在だよね。デミス・ハサビスがGoogle AIをリードしてることを考えると。

彼らがオープンソースにする気はなさそうだけど、これが都市計画に役立つって想像できるな。もしくは、想像できる中で最もリアルなシムシティのゲームになるかも。

突然、DeepMindの世界モデルへの注目が意味を持ち始めたね。Waymoをボストン・ダイナミクスのヒューマノイドみたいなロボットだとは思ったことなかったけど、もちろん一種のロボットだよね。Google/AlphabetはAIに関してはめちゃくちゃ縦割りで統合されてるなって考えると、彼らがやってることを比べてみて。自前の電力生成、自前のシリコン、自前のデータセンター、検索、Gmail、YouTube、Gemini、ワークスペース、ウォレット、何十億ものAndroidやChromebookユーザー、広告がどこにでも、ブラウザがどこにでも、Waymo、ボストン・ダイナミクスをすぐに買い戻すかも(最近提携したし)、融合研究、薬の発見…それに対してChatGPTのチャットボットやGrokのポルノは比較にならないね。

これがテスラがヒューマノイドロボットに取り組み始めた理由だとずっと思ってた。

テスラはFSDトレーニングのためにこんなものを作ったんだ。何年も前に発表したけど、なぜ製品化しなかったのか理解できなかった。テスラの車から自動的に更新される素晴らしい地図の代替品になったはずなのに。スピードカメラや道路状況をリアルタイムで更新できたかも。彼らは多くのことにおいて遅れをとってしまったね。

突然、DeepMindの世界モデルへの注目が意味を持ってきたね。 Googleは少なくとも2018年から世界モデルについて考えてたんだって。 https://arxiv.org/abs/1803.10122

「Waymoをロボットとして見るのと同じように」えっと、食器洗い機、洗濯機、自動掃除機もロボットと見なせるよね。この用語への執着がよくわからない。すでにたくさんのロボットが存在してるのに。ロボティクスは何十年も前から車の生産に関わってるし……。

それは3500ポンドのロボットで、あなたを殺すことができる。ボストンロボティクスは、あなたを殺すことができる小型ロボットに取り組んでる。アンドゥリルは、さらに小型のロボットを開発中で、これもあなたを殺すことができる。未来は最悪だね。

学習の自律性についてのベルカーブのミームが必要だね:.----. _/ _ _/ _ ________________________________________ (シミュレーション) (実世界のデータ) (シミュレーション) そう思わない?最初はポリシーのトレーニングのために物理ベースのシミュレーターを使ってたんだ。それから、モジュラーな認識/予測/計画システムを使って実世界に投入した。十分なデータが集まったら、またシミュレーターを作り始めた。今度は、物理的に「インフォームド」なディープラーニングモデルになってるよ。

Waymoの運転モデル:フィリピンの人たちを雇う。 https://futurism.com/advanced-transport/waymos-controlled-wo...

どんな「AI」アイデアでも深く掘り下げていくと、結局はこんな感じの詐欺の底が見えてくるよ。要するに「メカニカル・ターク」を「AI」に名前を変えただけ。残りは盗まれた著作権データの上に成り立ってる。新しい企業モデルは「政府はもう気にしてないから、嘘をついても大丈夫」って感じだね。

5/3タイルって何?カメラ?

Nvidiaはこれを何年も前から持ってたよ。何か見落としてるのかな?