世界を動かす技術を、日本語で。

プロジェクト・ジーニー:無限のインタラクティブな世界を探求する

概要

  • Google AI Ultra 米国ユーザー向けに Project Genie を提供開始
  • Project Genie はテキストや画像から インタラクティブな世界 を作成・探索できる
  • Genie 3 がリアルタイムで世界や経路を生成
  • 世界のリアリズムやキャラクター制御に制限あり、今後改善予定
  • 今後さらに多くのユーザーに 技術の提供拡大 を目指す

Project Genie:Google AI Ultra向けインタラクティブ世界生成プロトタイプ

  • Project Genie は米国の Google AI Ultraサブスクライバー 向けに提供開始
  • テキストプロンプトや画像を使い、 独自の世界やキャラクター を作成
  • リアルタイム生成 による動的な環境探索が可能
  • 既存の世界をリミックスし、新たな解釈や体験を創出
  • Genie 3Nano Banana ProGemini などの先端AI技術を活用

Genie 3による世界モデルの進化

  • Genie 3 は多様な環境の ダイナミクスや物理挙動 をシミュレート
  • 静的な3Dスナップショットと異なり、 移動やアクションに応じて経路を生成
  • ロボティクス、アニメーション、歴史的シナリオなど幅広い用途を想定
  • AGI(汎用人工知能)実現に向けた重要な技術基盤

Project Genieの主な機能

  • ワールドスケッチ機能
    • テキストや画像で 環境やキャラクター を設計
    • Nano Banana Pro 連携によるプレビューや微調整
    • 一人称・三人称視点の切替に対応
  • ワールド探索機能
    • ユーザーの操作に応じた リアルタイム経路生成
    • カメラ視点の調整や没入型探索体験
  • ワールドリミックス機能
    • 既存ワールドの プロンプトを基に新解釈を作成
    • ギャラリーやランダマイザーで多様な世界にアクセス
    • 作成した世界や探索動画の ダウンロードが可能

責任ある開発と今後の課題

  • Project Genie は実験的な研究プロトタイプとして Google Labs で開発
  • 現時点での主な制限
    • 生成される世界の リアリズムやプロンプト準拠性 に課題
    • キャラクター制御の 遅延や操作性の制限
    • 生成時間は 最大60秒 まで
    • 一部の機能(プロンプトでのイベント発生等)は未実装
  • 利用者のフィードバックを基に 継続的な改善と機能追加 を予定

今後の展望

  • 米国18歳以上のGoogle AI Ultraサブスクライバー から順次提供開始
  • 将来的には より多くの地域・ユーザー への展開を目指す
  • 世界モデルの活用による AI研究・生成メディアの新たな可能性 を模索

Hackerたちの意見

これを思い出したよ。9ヶ月前のHNの投稿で、作者が自分の地元の公園の動画から世界エミュレーションをするニューラルネットワークを訓練したってやつ。インタラクティブなデモで歩き回れるんだよね。DeepMindのデモにはアクセスできないけど、動画を見る限り、アイデアが一段階進んでる感じがする。これらのアイデアの正確な系譜は分からないけど、一般的に言えるのは、ブログ投稿やインディーデモが引用されないのは残念だなってこと。

そうそう、似たようなコンセプトだね!ただ、計算やスケーリングのスペクトルの真逆に位置してるけど。 - あの森の小道の世界は約500万パラメータで、15分の動画でトレーニングされて、5年前のiPhoneで20年前のAPI(WebGL GPGPU、つまりOpenGLフラグメントシェーダー)で動くようにスコープされてるんだ。私が知ってる中で最小の「3D」ワールドモデルだよ。 - 一方、Genie 3は(おそらく)約1000億パラメータで、何百万時間もの動画でトレーニングされて、複数のTPUで動いてる。もしこれが一般に公開されている中で最大規模のワールドモデルじゃなかったら、驚くよ。中間規模のワールドモデルもたくさん開発されてるし(例:LingBot-World https://github.com/robbyant/lingbot-world、Waypoint 1 https://huggingface.co/blog/waypoint-1)、1年か2年以内に、ゲーミングGPUでGenieクオリティのものが遊べるようになると思う。

何度も言ってるけど、未来に生きてる気がする。古いOculusのゴーグルにこれを接続して、Genieにリアルなセーリングシミュレーターを作ってもらうのが待ちきれない!リアルな条件でセーリングの練習ができるんだ。乗りたいボートでね。もしこれらのシミュレーションを使ってゲームが作れるようになったら、大手スタジオには厳しい時代が来るかもしれないし、小規模な一人ゲームスタジオの復活になるかも。

…それから、リビングの中の空気圧装置。

これって結局、動画から推測した「雰囲気シミュレーション」じゃないの?表面的なビジュアルリアリズムは一つのことだけど、ボートを見てるだけでセーリングの正確な物理メカニクスを理解して、それをゲーム化する形に抽象化するのは全く別の話だよね。

どんな規模のゲームでも、常に「良いかどうか」がボトルネックになる。良いゲームを出さない小さなインディーもたくさんいるし、世界モデルがゲームデザインや楽しさを改善するとは思えない。もし間違ってたら、楽しいゲームが大量に供給されて需要が完全に飽和し、インディーゲーム開発者が目立つのがさらに難しくなるだけだと思う。

とても印象的な技術だけど、他の生成AIと同じ制約があるよね:不一致、不正確な物理、時間の制限、遅延、ものすごく高価な計算。セーリングシミュレーターを作ることはできるかもしれないけど、10分後には水の上を歩いてたり、風呂の中にいたりするかも。それに、小さなフェリーよりも多くの電力を使うだろうし。この技術がPS5やそれに近いもの上で動くとは思えない。

正直、サンフィッシュを手に入れるのは「セーリングの練習」をしたいなら、VRヘッドセットより安いかもね。

もしこれらのシミュレーションを使ってゲームが作れるようになったら、大手スタジオには厳しい時代が来るかも。逆に、小規模な一人でやってるゲームスタジオにはチャンスが訪れるかもね。だって、ゲームを作るのが結局は十分なプロンプトを用意することになるなら(テキストのことじゃなくて、たぶん動画データベースみたいなものになると思うけど)、AIの画像生成が「一人アーティスト」にとってのルネッサンスにならなかったように、「一人ゲームスタジオ」にとってもルネッサンスになるかは疑問だよ。楽観的になりたいけど、メディア出版の状況が持つ巨大な流通の支配力を否定するのは難しいし、それは技術とは関係ないからね。

そして、小規模から一人で運営するゲームスタジオの復活の兆しかもしれないね。インディーゲームは、私の知る限り、今まで以上に盛り上がってるよ。

ずっと不思議だったんだけど、FBが世界モデルに投資する気がないのはなぜなんだろう。これが彼らの「メタバース」ビジョンを解放する鍵なのに。なのに、ヤン・ルカンを手放しちゃった。

ほとんどの人は、コンテンツが何であれVRヘッドセットをつけるのが好きじゃないよね。結局、技術好きのニッチから抜け出せなかった。

LeCunは結果を出していなかった。彼は自分の理論やアイデアに固執し、全然進展がなかったし、今も進展してないかもしれない。LLMに関わろうとせず、既存の市場で競争することを拒んで、証明されていないアイデアや研究に全力を注いでいた。それが会社のミッションや競争力を分裂させたんだ。彼らはトップ4のAI企業の一つとしての地位を失い、今では完全に世代遅れになってしまった。これは部分的には、分裂した努力とMeta AIチーム全体の熱心な参加の欠如によるものだ。業界の最高レベルでの混乱を見れば、リーダーシップによるミッションの拡大にはあまり余裕がないことがわかる。LeCunはMetaが求めていたミッションには向いていないことをしっかり示してしまったと思う。彼は名声を比較的保ったまま逃げられたのはラッキーだね。

もっとこうじゃない?JEPAは動画を見て、「犬がドアから出てきて、郵便配達員が来て、犬は嬉しそう」と思って、次のフレームは「郵便配達員は郵便受けに向かい、犬は嬉しそうに彼の方に走る」って感じになる必要がある。それを画像/動画生成器がレンダリングしなきゃいけない。Genieは動画を見て、「このピクセルのグループがこう見えるとき、ユーザーが『ジャンプ』を押したら、次のフレームでこのようにグループを変える」と考える。Genieはフリップブックを描くアーティストなんだ。次に何が起こるかを伝えるためには、そのページを描かなきゃいけない。描かなければ、物語は存在しない。JEPAは要約を書く小説家。次に何が起こるかを伝えるためには、「車が衝突する」と書くだけでいい。歪んだ金属がどう見えるかを説明する必要はないんだ。

その通りだね。ワールドモデルが彼らのリアリティラボへの投資を救うんだ。もしリアリティラボがワールドモデルを製品化できないなら、そのプロジェクトは全部廃止すべきだと思う。

失敗は一般的に公に報告されないよね。彼らが何に投資しているか、知ってる?

Googleがこれに時間を無駄にしている理由が全くわからない。全世界を幻覚で作り出そうとするのは行き止まりだよ。出力に予測可能性が全くないから、意味のある形で一貫性を持たせることはできない。なんでゲームを書く手助けをするモデルを訓練しないの?コードによって永続性や一貫性が保証されるから、全然心配しなくていいのに。プロトタイプのコードを書くのにどれだけのプロンプトが必要か見てみてよ。それなのに、私たちが全世界をプロンプトできると思わせたいの?

ポジティブに考えよう。もし、すべての入力を入れたら、実際のシナリオをシミュレートできて、人類に役立つことができるとしたらどうなる?例えば、災害シナリオやイベント、飛行機の墜落、交通パターンとか。実際に役立つアプリケーションがたくさんあると思う。今のフレーミングはあまり好きじゃないけど、方向性は理解できる。エンジニアとしては惹かれるけど、ムスリムとしては「世界を作る」って話を聞くとすごく怖い。だけど、シナリオをシミュレートできることで、現実に非常にポジティブな効果があるかもしれないってことは分けて考えなきゃいけない。例えば、2ページや10ページのシナリオを入れて、それを再現したりシミュレートして、実際に体験できるようにすることができる。予測的なものだけじゃなくて、実際に起こったことを元に、犯罪現場をマッピングしたりもできる。結局、このパフォーマンスアートは、彼らが製品会社で、ウォールストリートにベンチマークされているからで、技術の顧客が必要だけど、同時に内部での使用法もすでにあるんだろうね。

個人的には、Google Deepmind PodcastでSIMAとジーニーが目指していることをかなりうまく説明していると思う。彼らは、AIエージェントがシミュレートされた世界で自分で学ぶことでAGIに到達する方法だと考えている。AlphaGoが膨大なシミュレーションゲームで囲碁を学んだのと似たような感じだね。

ハイブリッドアプローチがうまくいくかもしれない。ある程度標準的なゲームエンジンを使って一貫性を持たせて、この種の生成AIを短期的なレンダリングや物理シミュレーションエンジンとして使う感じで。

なんでゲームを書く手助けをするモデルを訓練してないの?Genieはゲームを作るためのものじゃないし… まあ、理由はわからないけど、これを一番上に持ってこないのが典型的なGoogleだよね、コミュニケーションが下手すぎ。物理やインタラクションをシミュレートして動的な世界を作るためのもので、その画期的な一貫性があらゆる現実のシナリオをシミュレートできるようにしてるんだ。ロボティクスやアニメーション、フィクションのモデリング、場所や歴史的な設定の探求まで。重要なのはシミュレーションなんだよ。これが彼らが作ってる理由。その他は無視していい。NvidiaのEarth 2やCosmosも同じだし(アイザックにも似てる)。ゲームやVR環境が主な目的じゃなくて、ロボット(人型じゃないものも含む、Waymoみたいな)を訓練してデータを集めることが主な目的なんだ。だからこそ、完璧な物理(正直に言うと、リアルな物理)を求めてる。シミュレーションで50%のところまで行ければ、開発コストは確実に下がるけど、「そこ」に近づくにつれてコストが急激に上がるのも認識してる。彼らが「ワールドモデル」って呼ぶのはやめてほしいし、「物理」って言葉を入れるのもやめてほしいけど、まあ、金の卵だけじゃなくてダイヤモンドも産むって言って、がんがん宣伝するのがマーケティングってもんだよね? [0] 見た目が正しいからって、実際に正しいとは限らないよ。直感や大学の一般物理の授業と合うかもしれないけど、疑うなら本物の物理学者に聞いてみて。学士号を持ってる人でも、この物理は非現実的だって言うだろうし、ちゃんとした物理学者なら、リアルに近づくにつれて物理がどれだけ直感に反するか教えてくれるよ、量子に近づく前からね。HPCの人たちに話して、なんでスーパーコンピュータが必要なのか聞いてみなよ…ごめん、物理は観察だけじゃできないんだ。 [1] 本当に、彼らのデモページを見てみて。すごく印象的なんだけど、間違いなく、重大な物理の問題がない動画を見つけられない。あの「変形可能な雪の地形を持つ高高度オープンワールド」は、リアルな人間じゃなくてレゴラスをシミュレートしてるみたい。作品はすごいけど、リアルさには程遠いよ。 https://deepmind.google/models/genie/ [2] https://www.youtube.com/watch?v=O4ZYzbKaVyQ

なんでそれが行き止まりなの?ちゃんと説明してないじゃん。これらのモデルはインタラクションできそうに見えるし、物理モデルを再現してるみたいだよ。

1980年代初頭に子供だった頃、基本的なゲームをしたり、粗いアプリで絵を描いたりして、コンピュータで実験するのにたくさんの時間を費やしたんだ。それが楽しかった。GoogleのGenieみたいなものがあったら、もっと楽しめたと思う。進化しなくても、デモの製品は人々に価値を提供するには十分良さそうだよ。

薬物取引業者にとっては何世紀も非常に利益が出てるから、誰がその市場の一部を欲しがらないっていうの?

これがリリースされたのを見て本当に嬉しい!早期アクセスユーザーからの面白い動画がいくつかあるよ: - https://youtu.be/15KtGNgpVnE?si=rgQ0PSRniRGcvN31&t=197 いろんな街を歩く - https://x.com/fofrAI/status/2016936855607136506 ヘリコプター/フライトシム - https://x.com/venturetwins/status/2016919922727850333 宇宙ステーション、 https://x.com/venturetwins/status/2016920340602278368 ダンキンドーナツ - https://youtu.be/lALGud1Ynhc?si=10ERYyMFHiwL8rQ7&t=207 ノートパソコンをシミュレートして、マウスを動かす - https://x.com/emollick/status/2016919989865840906 頭にアヒルを乗せたカワウソの航空パイロットがロスコ風の空港を歩いている

最初のやつは好きだったし、恐竜時代に戻るやつを誰か作ってくれたらいいな、見てみたい!

プロジェクト・ジーニーについて何か考えはある?

Genieの実際のブレイクスルーは、振り返って同じシーンを見ることができることだよ。他のいくつかのラボも似たような世界シミュレーターを持っているけど、視界にないものの一貫性を保つのがすごく難しいんだ。だから、彼らはいつも前に進むだけで、周りを見ないんだよね。

もしどこかに行って、1週間後に戻ったらどうなるの?

MLの人たちが、キャッシュするために明示的な表現が必要だって気づくのにこんなに時間がかかったのはまだ驚きだよ。

これを見るほど、スクリーンから離れてリアルな世界で好きなことをする時間をもっと持ちたいと思うようになる。

AIが大好きだけど、逆に人々がリアルな経験や人間関係の価値に気づくきっかけになってほしいとも思ってる。

ほとんどの人は、現実世界で特に素晴らしいものにアクセスできないんだ。それが現実の特権。人類のほとんどは、AIが彼らの好みに合わせて作り出す世界を切望するだろうね。

これを見るほど、早く実現してほしいって思う!World LabsのMarbleワールドモデルで映像制作ツールを開発中だよ。https://www.youtube.com/watch?v=wJCJYdGdpHg https://github.com/storytold/artcraft 最終的には、これがリアルタイムで一貫した表現ができるようになると思う。ブラウザで見たポケモンのデモ以来、ワールドモデルにワクワクしてるんだ。https://madebyoll.in/posts/game_emulation_via_dnn/demo/ いつか、クリエイティブなホロデッキができるよ。AIを使った即興パフォーマンスがどれだけすごいか見たことある?マジでクールだよ。未来には、目の前に世界を作り出すエンターテイナーを観ることができると思う。https://www.youtube.com/watch?v=MYH3FIFH55s (CodeMikoを見たことないなら、彼女は信じられないくらい才能のあるエンジニアでストリーマーだよ。モーションキャプチャとAIのストリームを開発してる。)

テクノロジーのキャリアを一生過ごしたから、もう全部オフにしたい気分。

これは、過密で汚染された都市に住んでいる人たちには良いと思う(正直言って、そういう場所は実際に存在するからね)。500以上のAQIの汚染から抜け出して、シミュレーションされたクリーンな世界で愛する人たちと過ごせたらいいな。10〜12時間働いて、帰るとポッドがあって(そのビルには何千ものポッドが入るかも、会社が払ってくれる)、そこに繋いで数時間リラックスする。数十年のブレークスルーがあれば、シミュレートされた睡眠もできるようになるかもしれないし、しっかり休める。起きたら工場に行って、先進国が必要とするものを作る。(マジでひどい生活だけど、そういうのを本当に望む人もいるだろうね。)

へぇ、外は青空で太陽が輝いてるね。でもちょっと怠けてるから、散歩をシミュレートできるか試してみるよ。

みんな、ジーニーが製品で、ビデオゲームや映画、VR環境になることが目的だと思い込んでるみたいだけど、それは違う。ジーニーのようなワールドモデルの目的は、次世代のAIやロボティクスシステムの「想像力」になることだよ。潜在的な行動の結果をシミュレートして、意思決定を助けるための方法なんだ。

ちょっと意見が違うけど、想像力が欲しいならビデオモデルを作る必要はないと思う。潜在変数を全くデコードする必要もないんじゃないかな。それは良いAIモデルが意思決定をするために求められる情報理論的最適性からはかなり遠い気がする。LLMが人間が処理できるテキストを推論し、「ワールドモデル」が人間がインタラクションできるビデオを推論する理由は、まさに人間がその中に入ってデバッグできるようにするためなんだ。ジーニーの目的はビデオゲームだと思うけど、AI研究者がAIを開発するためのビデオゲームなんだよね。エンターテイメントの意味合いは、最終目標の研究の副産物みたいなもんだと思う。

それも一部だけど、もしこれらの世界から3Dモデルを取り出せたら、ゲーム開発がものすごくスピードアップするよね。

おお、ちょっと待って。これは一つの視点に過ぎないよ。「ワールドモデル」の唯一の使い道としてそれを捨てないで!まず第一に、ワールドモデルにはいろんなタイプがあるんだ。シミュレーション、動画、静的アセットなど。使い道が広範囲にわたるから、言葉の重みがあるよ。ブラウザで遊べるワールドモデルもあるし、CPUだけで推測されるものもあるよ: https://madebyoll.in/posts/game_emulation_via_dnn/ (2022年の私のお気に入り!) https://madebyoll.in/posts/world_emulation_via_dnn/ (更新版、3D)。静的アセットを生成するワールドモデルもあって、WorldLabsのMarbleみたいなもの。これらはゲーム、プレビズ、映画制作に役立つよ。 https://marble.worldlabs.ai/ 私は映画制作のためにマーブルを活用するオープンソースソフトウェアを書いたんだ(映画制作者だから、この技術はシーンの一貫性に非常に役立つ): https://www.youtube.com/watch?v=wJCJYdGdpHg https://github.com/storytold/artcraft プレイ可能な動画指向のモデルもたくさんあって、オープンソースのものも多いし、3080以上のスペックで動くよ: https://diamond-wm.github.io/ https://github.com/Robbyant/lingbot-world 本当に「ワールドモデル」と呼ぶべきじゃないものもあるし: https://github.com/Tencent-Hunyuan/HunyuanWorld-1.0 ロボティクス訓練向けのワールドモデルもある: https://github.com/leggedrobotics/robotic_world_model Genieは厳密にはロボティクス向けじゃないんだ。

同意!みんなLLMにはワールドモデルがないって文句言ってたから、これがその答えだね。次の論理的なステップは、現実世界の映像を適切なフレームレートでエンコードして重みを埋め込むことだと思う。そうすれば想像力が grounded されるし、シミュレーションの近い未来での介入(アクション)の推論を分岐させることができる。結果を目標評価器に投げて、勝ったアクション予測をモーターに送る。タイミングを合わせるのは、単にくっつけるよりも少し手間がかかるかもしれないけど、そんなに大変じゃないはず。

でも、やっぱりクールだよね…

これはワールドモデルじゃなくて、ビデオモデルだよ。これを学び始めると、必ず下流の製品にカスケードエラーが入ってくる。データを発明することはできないからね。

AI生成の代替結果への環境マッピングがホロデッキだよ。シミュレーションの中で生きるのは派生的だから、リアルな危険の方が好きだな。

これが主観的体験を開発するための重要な要素だと思う。

LLMと同じように:シミュレーションがロボットやAIが知っておくべきすべてのコーナーケースに対応できると思う?それとも、結局は同じ問題になるんじゃないかな。エンジニアを騙すには十分なレベルで、ビジネスオペレーションを喜ばせて、実際に運用されることになって、1年か2年後にはロボットが人の手を潰したり、排水溝に踏み込んだり、奇妙なコミュニケーションのミスで屋根から落ちたりする話が出てくるんじゃないかって思う。だから、トレーニングの系譜を理解することがすごく重要だよね。「これがそれだ」ってだけじゃなくて。

DeepMindのGenie 3デモと比べると、こっちは変形の問題が多くて、環境の一貫性に対するユーザーのインタラクティビティが少ないように見えるね。これは簡略版なの?

ついに俺のアニメフィギュアが生き返る!