ジーニー3：世界モデルの新たなフロンティア

2025年8月5日原文(deepmind.google)

概要

Genie 3 は、現実世界の物理特性や自然現象、複雑な環境をリアルタイムでモデリング可能なAIモデル。ユーザーの入力に応じて、 物理的整合性 や 長期的な一貫性 を維持しつつ、没入感ある仮想世界を生成。現実世界や歴史的な場所の探索、アニメーションやファンタジーのシナリオも表現。 リアルタイム対話 と高いコントロール性が特徴。従来手法と異なり、明示的な3D表現不要で ダイナミックな環境生成 を実現。

Genie 3の主な能力

物理特性のモデリング
- 水や光、地形、火山、嵐などの 自然現象 の再現
- ロボット視点での 火山地帯走破 や、 ハリケーン下のフロリダ 歩行などのリアルな体験
- 深海での クラゲ追跡 や 水中探査 など、極限環境の描写
自然世界のシミュレーション
- 動物行動や複雑な植物生態系の生成
- 氷河湖畔のランニング や、 禅庭園の朝、 熱帯雨林の葉の質感 など、多彩な自然環境
- 生態系の健康状態 や 湿度感 の表現
アニメーション・フィクションのモデリング
- ファンタジーや創作的な シナリオ生成
- 虹の橋を駆ける生き物 や、 折り紙風のトカゲ、 巨大なゴリラ など、表現力豊かなキャラクター
- 魔法のポータル や 空中に浮かぶ地形 などの超現実的な場面
場所・歴史の探索
- 地理的・時代的制約を超えた 場所や時代の再現
- アルプスの険しい地形、 ヴェネツィアの運河、 クノッソス宮殿、 古代アテネ などの詳細な歴史的背景
- インドの断崖道路 や アメリカの街並み など、現実世界の探索

リアルタイム・一貫性・技術的ブレークスルー

高いリアルタイム性と制御性
- ユーザーの入力に即応し、 フレーム単位で環境を自動生成
- 1分以上前の状況 も記憶し、再訪時に整合性を維持
長期的な環境整合性
- 従来手法では困難な 長時間にわたる物理的・視覚的な一貫性 を実現
- 木や建物の配置 など、視界外でも状態が保持される
従来技術との違い
- NeRFsやGaussian Splattingは 明示的な3Dデータ が必要
- Genie 3は 記述とユーザー操作に基づきダイナミックに生成、より豊かな体験を提供

具体的なプロンプト例

火山地帯でロボットが走破する一人称視点
光の祭典中のジェットスキー
フロリダの海沿い道路をハリケーン下で歩行
深海でのクラゲ追跡や熱水噴出口の観察
禅庭園の朝、精緻な砂紋や水面の睡蓮
虹の橋を駆ける生き物や、折り紙のトカゲ
魔法のポータルがあるビクトリア朝の通り
アルプスの断崖、ヴェネツィアの運河、古代アテネの街並み
空中に浮かぶ地形や、ファンタジーの森の家々

まとめ

Genie 3 は、現実・仮想・歴史・ファンタジーを自在に再現する 次世代AI生成モデル
リアルタイム性、 長期一貫性、 高い制御性 が特徴
明示的な3Dデータ不要で、 豊かな体験と表現力 を実現

Hackerたちの意見

テキストのレンダリング。クリアで読みやすいテキストは、入力の世界説明があって初めて生成されることが多いね。画像AIがテキストを生成できなかった頃を思い出す。修正されるのもそんなに時間はかからなかったけど。

└

それで手が10倍ひどくなったよね。今は手もテキストも画像も良くなったから、また「ウォルドを探せ」みたいな感じで欠陥を探さなきゃいけない。最終的には、AIのウォーターマークが1/3ピクセルのサイズになるような無限ズーム動画みたいになるんじゃないかな。もっと見たいのは拡張現実の動画。ストームトルーパーのVlogみたいなやつ。Runwayにはいいものがあるけど、全部高いのがなぁ。

└

テキストの問題が完全に解決されたとは言えないな。確かにかなり良くなったけど、gpt-image-1でもテキスト生成でたまに失敗することがある。

初めてAIのことで少し非現実感を感じた…これが能力の限界だとは思いたくない。動画を見てたら、今の現実が未来の自分か、別の意識がAIの幻覚の中で生きてるんじゃないかって疑念が湧いてきた。

└

同じく、しかもその世界が即興で生成されたっていうのがさらにひどい。誰も手作りしてないんだから、余計に落ち込むよね。

└

同じことが何にでも言えるよね。個人用ジェットパックは、今が一番ひどい状態だと思うけど、だからって役に立つわけじゃないよね。

└

俺もそう思う。将来、介護施設でよだれ垂らしてる時に脳に繋がれる未来が待ってる気がする。

└

初めてAIでちょっと現実感が薄れた気がする… > …そしてこれが能力の最悪の状態だと思う。もしこれが気になるなら（気になるのもわかるけど）、このままの状態が能力の_最高_かもしれないって考えると少しは気が楽になるかもね。

└

グーグルやビング、好きな検索エンジンで「これから良くなるだけ」と検索して、2010年以前の結果をフィルターしてみるといいよ。俺が見つけた「これから良くなる」もの：- グーグル検索 - ウェブブラウザ - ウェブコンテンツ - インターネットエクスプローラー - 音楽 - モスル空港のフライトプロセス - スターウォーズ

数分間の一貫性があって、720pでリアルタイムに動くの？世界モデルがここまで良くなるとは思わなかった。 > ジーニー3の一貫性は新たな能力が現れた結果なんだね。モデルをスケールアップしたから、意図的なアーキテクチャの変更の結果じゃないの？編集：試した人からの制限についてのコメントがあるよ： https://x.com/tejasdkulkarni/status/1952737669894574264 > - 物理はまだ難しくて、心理学の古典的な直感的物理実験（ブロックの塔）を試したときに明らかな失敗ケースがあった。 > - 社会的およびマルチエージェントのインタラクションは扱いが難しい。1対1の対戦ゲームはうまくいかない。 > - 長い指示に従ったり、シンプルな組み合わせゲームのロジックが失敗する（例：ポイントやキーを集めて、ドアに行って、開けるなど）。 > - アクションスペースは限られている。 > - 本物のゲームエンジンには程遠くて、まだまだ道のりは長いけど、これは未来の明確な兆しだね。これらの制限があっても、まだすごいと思う。世界モデルがロボティクスや現実のAIにもっと大きな役割を果たすかもしれないって思わせる。未来のロボットは夢の中で学ぶかも…

└

苦い教訓がまたやってきた！

└

これ、モデルをスケールアップしただけで起こったことなんて信じられない。これが奇跡じゃないってどういうこと？ただの偶然のブレークスルーなの？

Hacker Newsで議論の続きを見る

ハクソク

ジーニー3：世界モデルの新たなフロンティア

概要

Genie 3の主な能力

リアルタイム・一貫性・技術的ブレークスルー

具体的なプロンプト例

まとめ

Hackerたちの意見