世界を動かす技術を、日本語で。

ジーニー3:世界モデルの新たなフロンティア

概要

Genie 3 は、現実世界の物理特性や自然現象、複雑な環境をリアルタイムでモデリング可能なAIモデル。 ユーザーの入力に応じて、 物理的整合性長期的な一貫性 を維持しつつ、没入感ある仮想世界を生成。 現実世界や歴史的な場所の探索、アニメーションやファンタジーのシナリオも表現。 リアルタイム対話 と高いコントロール性が特徴。 従来手法と異なり、明示的な3D表現不要で ダイナミックな環境生成 を実現。

Genie 3の主な能力

  • 物理特性のモデリング

    • 水や光、地形、火山、嵐などの 自然現象 の再現
    • ロボット視点での 火山地帯走破 や、 ハリケーン下のフロリダ 歩行などのリアルな体験
    • 深海での クラゲ追跡水中探査 など、極限環境の描写
  • 自然世界のシミュレーション

    • 動物行動や複雑な植物生態系の生成
    • 氷河湖畔のランニング や、 禅庭園の朝熱帯雨林の葉の質感 など、多彩な自然環境
    • 生態系の健康状態湿度感 の表現
  • アニメーション・フィクションのモデリング

    • ファンタジーや創作的な シナリオ生成
    • 虹の橋を駆ける生き物 や、 折り紙風のトカゲ巨大なゴリラ など、表現力豊かなキャラクター
    • 魔法のポータル空中に浮かぶ地形 などの超現実的な場面
  • 場所・歴史の探索

    • 地理的・時代的制約を超えた 場所や時代の再現
    • アルプスの険しい地形ヴェネツィアの運河クノッソス宮殿古代アテネ などの詳細な歴史的背景
    • インドの断崖道路アメリカの街並み など、現実世界の探索

リアルタイム・一貫性・技術的ブレークスルー

  • 高いリアルタイム性と制御性

    • ユーザーの入力に即応し、 フレーム単位で環境を自動生成
    • 1分以上前の状況 も記憶し、再訪時に整合性を維持
  • 長期的な環境整合性

    • 従来手法では困難な 長時間にわたる物理的・視覚的な一貫性 を実現
    • 木や建物の配置 など、視界外でも状態が保持される
  • 従来技術との違い

    • NeRFsやGaussian Splattingは 明示的な3Dデータ が必要
    • Genie 3は 記述とユーザー操作に基づきダイナミックに生成、より豊かな体験を提供

具体的なプロンプト例

  • 火山地帯でロボットが走破する一人称視点
  • 光の祭典中のジェットスキー
  • フロリダの海沿い道路をハリケーン下で歩行
  • 深海でのクラゲ追跡や熱水噴出口の観察
  • 禅庭園の朝、精緻な砂紋や水面の睡蓮
  • 虹の橋を駆ける生き物や、折り紙のトカゲ
  • 魔法のポータルがあるビクトリア朝の通り
  • アルプスの断崖、ヴェネツィアの運河、古代アテネの街並み
  • 空中に浮かぶ地形や、ファンタジーの森の家々

まとめ

  • Genie 3 は、現実・仮想・歴史・ファンタジーを自在に再現する 次世代AI生成モデル
  • リアルタイム性長期一貫性高い制御性 が特徴
  • 明示的な3Dデータ不要で、 豊かな体験と表現力 を実現

Hackerたちの意見

テキストのレンダリング。クリアで読みやすいテキストは、入力の世界説明があって初めて生成されることが多いね。画像AIがテキストを生成できなかった頃を思い出す。修正されるのもそんなに時間はかからなかったけど。

それで手が10倍ひどくなったよね。今は手もテキストも画像も良くなったから、また「ウォルドを探せ」みたいな感じで欠陥を探さなきゃいけない。最終的には、AIのウォーターマークが1/3ピクセルのサイズになるような無限ズーム動画みたいになるんじゃないかな。もっと見たいのは拡張現実の動画。ストームトルーパーのVlogみたいなやつ。Runwayにはいいものがあるけど、全部高いのがなぁ。

テキストの問題が完全に解決されたとは言えないな。確かにかなり良くなったけど、gpt-image-1でもテキスト生成でたまに失敗することがある。

初めてAIのことで少し非現実感を感じた…これが能力の限界だとは思いたくない。動画を見てたら、今の現実が未来の自分か、別の意識がAIの幻覚の中で生きてるんじゃないかって疑念が湧いてきた。

同じく、しかもその世界が即興で生成されたっていうのがさらにひどい。誰も手作りしてないんだから、余計に落ち込むよね。

同じことが何にでも言えるよね。個人用ジェットパックは、今が一番ひどい状態だと思うけど、だからって役に立つわけじゃないよね。

俺もそう思う。将来、介護施設でよだれ垂らしてる時に脳に繋がれる未来が待ってる気がする。

初めてAIでちょっと現実感が薄れた気がする… > …そしてこれが能力の最悪の状態だと思う。もしこれが気になるなら(気になるのもわかるけど)、このままの状態が能力の_最高_かもしれないって考えると少しは気が楽になるかもね。

グーグルやビング、好きな検索エンジンで「これから良くなるだけ」と検索して、2010年以前の結果をフィルターしてみるといいよ。俺が見つけた「これから良くなる」もの:- グーグル検索 - ウェブブラウザ - ウェブコンテンツ - インターネットエクスプローラー - 音楽 - モスル空港のフライトプロセス - スターウォーズ

数分間の一貫性があって、720pでリアルタイムに動くの?世界モデルがここまで良くなるとは思わなかった。 > ジーニー3の一貫性は新たな能力が現れた結果なんだね。モデルをスケールアップしたから、意図的なアーキテクチャの変更の結果じゃないの? 編集:試した人からの制限についてのコメントがあるよ: https://x.com/tejasdkulkarni/status/1952737669894574264 > - 物理はまだ難しくて、心理学の古典的な直感的物理実験(ブロックの塔)を試したときに明らかな失敗ケースがあった。 > - 社会的およびマルチエージェントのインタラクションは扱いが難しい。1対1の対戦ゲームはうまくいかない。 > - 長い指示に従ったり、シンプルな組み合わせゲームのロジックが失敗する(例:ポイントやキーを集めて、ドアに行って、開けるなど)。 > - アクションスペースは限られている。 > - 本物のゲームエンジンには程遠くて、まだまだ道のりは長いけど、これは未来の明確な兆しだね。これらの制限があっても、まだすごいと思う。世界モデルがロボティクスや現実のAIにもっと大きな役割を果たすかもしれないって思わせる。未来のロボットは夢の中で学ぶかも…

苦い教訓がまたやってきた!

これ、モデルをスケールアップしただけで起こったことなんて信じられない。これが奇跡じゃないってどういうこと?ただの偶然のブレークスルーなの?

未来のロボットは夢の中で学ぶかもしれない… 先見の明があるね。これは近い将来、12~18ヶ月以内に実現すると思う。

こんなに現実を何度も疑わせるプレゼンテーションは見たことない。頭が混乱してる。

これはすごく励みになる進展だね。多分、先月デミスがほのめかしてたことだと思う。リリースされたクリップを見ての技術的な詳細についてのいくつかの推測:1. 細かいテクスチャが4フレームごとに「ジャンプ」してるのが見えるから、4x時間的ダウンサンプリングVAEを使ってる可能性が高いね。少なくとも4フレームのインタラクション遅延があると思う(VAEが制御条件付きでない限り)。残念ながら、遅延を確認するためのリアルタイム映像は見なかったけど(ある時、画面録画と「キーボードに手を置いている」Bロールが切り替わってた?うーん)。2. 速い動きの中で16x16の空間ブロッキングがあるから、VAEで16x16の空間ダウンサンプリングがあるかもしれない。1と組み合わせると、24x1280x720/(4x16x16) = 21,600トークン/秒、つまり約130万トークン/分になるね。3. 各クリップの最初のフレームは、後の静止フレームよりも少しシャープで、ゲームっぽくない感じがする。これは、テキストから画像へのシステムと画像から世界へのシステムの組み合わせかもしれない(t2iシステムは一般データで訓練されてて、i2wシステムはゲームデータでラベル付きのコントロールでファインチューニングされてる)。例えば[2]の土やテクスチャに見られるね。時間が経つにつれてコントラストや彩度が増す傾向があるのは気づいたけど、他の自己回帰型ビデオモデルほどひどくはないよ。

生成AIの進展がどんどん俺を鬱にさせてる。創造性が指数関数的に奪われていく。今の時代に生きることにワクワクしてるって言ってる人の意見は全然納得できない。もしその技術が今の状態で止まって、ただのクリエイティブな道具であり続けるなら理解できるけど、どうもそうじゃないみたい。完全に置き換えようとしてる感じがする。もちろん「楽器を弾いたり絵を描いたりすることはできる」と言えるけど、創造的な作品が自己のためだけに作られていた時期なんてなかったと思う。みんなにシェアするために作られてたんだよね。じゃあ、俺たちの最終的な状態はどうなるの?まだ自動化されていない単純作業に戻るの?それが自動化されたら、何が残るの?個人に合わせた自動生成された世界に脳を繋げて、関連する神経回路を刺激してドーパミンを増やして、最終的には脳が焼き切れる(これはすでにTikTokスタイルの娯楽で起こってるかもしれないけど)?それにどうやってお金を払うの?すべての仕事が自動化されたら、経済はどう機能するの?フェルミの逆説のかなり良い説明に見える。誰も技術がどう動くか知らないし、シンプルな技術を使うためのリソースも残ってない。地球は戻れないほどのゴミで溢れてる。そんな中で、どうやって生きる価値を見出せるの?

俺が知ってるのは、自殺ブースのスタートアップに投資してるってことだけだ。

自動化は、雇用主との関係がそうさせるなら、もっと労働を生むだけだよ。自動化は余暇の時間を与えてくれる(労働以外の人生が提供するすべてのこと、オプションの労働的な活動も含めてね)けど、今はその恩恵を受けられる人が不均等に分かれてる。

これからの展開は二通りあると思う。1. ポストスカーシティ社会に向かう中でのユニバーサルベーシックインカム。欲に邪魔されて実現する可能性は低いけど。2. フランス革命からインスピレーションを受けて、もっとシンプルな時代に戻る。

フェルミの逆説についてのかなり良い説明に見えるね。そうじゃないよ。私たちは置き換えられるけど、AIは続いていく。

もう、YouTubeやSpotifyで、君よりずっと上手いミュージシャンの膨大な曲のライブラリが簡単に手に入る世界に住んでるよね。これも同じような感じじゃない?

フルフレームの動画じゃなくて、3Dメッシュやアニメーションを作った方が進捗早くなるんじゃない?

そのために、将来的にGenie 3を追加のテスターに提供できる方法を探っています。探す必要なんてないよ。どうすればいいか教えてあげる。一般公開して、みんなが触れるようにすればいいんだ。そうすれば、Google以外の研究者もそれを基にして研究できる。もちろん、これは「安全性」の理由で実現しないだろうけどね。モデルのパラメータ数を教えることさえ「安全じゃない」ってことだし。

正直言って、これは今まで見た中で最もクレイジーなAIの成果の一つだと思う。

720pで24fps、数分間のコンテキストを持ってこれを動かすのに、どんなハードウェアリソースが必要か説明されてるところある?