世界を動かす技術を、日本語で。

ボイジャーはリアルタイム3D再構築を備えたインタラクティブな動画生成モデルです

概要

HunyuanWorld-Voyager は、単一画像からユーザー定義カメラパスに沿った 3D一貫性のあるシーン動画 を生成する新しいビデオ拡散フレームワーク。 RGBと深度情報 を同時生成し、効率的な 3D再構築 を実現。 大規模な自動データ収集パイプラインにより、 多様なトレーニングデータ を構築可能。 高い評価指標 で他手法を上回る性能を示す。 Linux・CUDA環境で動作し、 詳細なインストール手順とデモ が提供されている。

HunyuanWorld-Voyagerとは

  • HunyuanWorld-Voyager は、単一画像とカスタムカメラパスから 3D一貫性を持つ点群シーケンス を生成するビデオ拡散フレームワーク
  • カメラ制御可能な動画生成RGB-D動画による直接的な3D再構築 を実現
  • デモ動画・コード・学習済みモデル が2025年9月2日に公開
  • Wechat・Discordグループ によるサポート・議論の場を提供

アーキテクチャ概要

  • 世界一貫性ビデオ拡散 :RGB・深度動画を同時生成し、既存観測に基づくグローバル整合性を確保
  • 長距離世界探索 :効率的なワールドキャッシュと点群間引き、自己回帰推論による文脈一貫性を持つシーン拡張
  • 大規模ビデオ再構築パイプライン :自動カメラ姿勢推定・深度予測により、手動3Dアノテーション不要で多様なデータを収集
  • 10万本超の動画データセット :実写・Unreal Engine生成動画を組み合わせた大規模データセット構築

性能比較(WorldScoreベンチマーク)

  • Voyager はWorldScore平均・カメラ制御・3D一貫性・主観的品質で 最高評価
  • 他手法(WonderJourney、WonderWorld、EasyAnimate、Allegro、Gen-3、CogVideoX-I2V)と比較し、 多項目で優位性
  • カメラ制御・オブジェクト制御・内容整合性・3D一貫性・主観的品質 など多角的な評価指標

動作要件

  • GPUメモリ :540p解像度で 最小60GB、推奨80GB(NVIDIA GPU+CUDA必須)
  • 動作確認済みOS :Linux

依存ライブラリとインストール手順

  • リポジトリクローンgit clone https://github.com/Tencent-Hunyuan/HunyuanWorld-Voyager
  • Python環境 :condaでPython 3.11.9環境を作成
  • PyTorch・CUDA :PyTorch 2.4.0+CUDA 12.4または11.8推奨
  • 追加パッケージ
    • flash-attn(推論高速化)
    • xfuser(並列推論用)
    • 必要に応じてnvidia-cublas-cu12等のCUDAライブラリ
    • 入力条件生成用にMoGescipyutils3d

学習済みモデルのダウンロード

  • huggingface-cli でモデルを取得:huggingface-cli download tencent/HunyuanWorld-Voyager --local-dir ./ckpts

推論・利用方法

  • 入力条件作成data_engine/create_input.pyで画像とカメラパスから条件動画生成
    • カメラパス例:forward, backward, left, right, turn_left, turn_right
  • 単一GPUでの推論python3 sample_image2video.pyコマンドで実行
    • プロンプトや推論ステップ、シード値等の指定が可能
  • 複数GPU並列推論(xDiT)
    • USP API採用で大規模並列推論が可能
    • 8GPU例:torchrun --nproc_per_node=8 sample_image2video.py ...
    • 並列度調整で推論時間短縮(例:8GPUで約6.7倍高速化)

Gradioデモ

  • Gradio UI で画像アップロード・カメラ方向選択・テキスト入力によるRGB-D動画生成が可能
  • コマンド:python3 app.py

データエンジン

  • RGB-D動画学習用データ生成エンジン も公開
  • 詳細はdata_engineディレクトリを参照

論文引用情報

  • BibTeX 提供:論文やアプリケーション利用時の引用に対応

謝辞

  • HunyuanWorld, Hunyuan3D-2, HunyuanVideo-I2V, VGGT, MoGE, Metric3D 等のオープンリサーチ・コミュニティへの謝辞

Hackerたちの意見

比較表で赤色を選んだのは面白いね。そのエントリーの最高スコアを決めるために。

中国の株式市場みたいだね。赤は価格が上がることを意味して、緑は下がることを意味する。

西洋のプロパガンダのあらゆる部分でもそれに気づくよ。映画からファッションまで。赤は中国の象徴だね。

中国ではそれはあまり面白くない選択だろうね。色は部分的に文化的な構築物だから、赤は西洋とは違う意味を持つんだ。

文化の違いって、他の人も言ってるけど、面白いよね。で、実際には自分の一日には全然影響しないし。

これはオープンソースじゃないよ。重みは利用可能だけど、トレーニングデータはないから、修正の「好ましい形」にはならないね。ライセンスからの引用: 「[1] Tencent HunyuanWorld-Voyagerのバージョンリリース日、ライセンスを受けた全ての製品やサービスの月間アクティブユーザーが前月に1百万を超えた場合、Tencentにライセンスをリクエストしなければならない。Tencentはその裁量でライセンスを与えることができるが、Tencentが明示的にその権利を与えない限り、契約に基づく権利を行使することはできない。Tencent HunyuanWorld-Voyagerの作品やその出力を他のAIモデルの改善に使用してはいけない(Tencent HunyuanWorld-Voyagerやそのモデル派生物を除く)。また、受け入れ可能な使用ポリシーもある: Tencentは、Tencent HunyuanWorld-Voyagerを含むツールや機能の安全で公正な使用を促進することを目指している。あなたは以下の目的でTencent HunyuanWorld-Voyagerやそのモデル派生物を使用しないことに同意する: 1. テリトリー外で; 2. 適用される法律や規制に違反する方法で; 3. 自分自身や他人を傷つけるために; 4. 自分自身や他人を傷つける目的で出力を再利用または配布するために; 5. 我々が設けた安全ガードレールや保護策を回避または無視するために; 6. 未成年者を搾取したり、傷つけたりする目的で; 7. 他人を傷つけたり、選挙に影響を与える目的で、検証可能な虚偽の情報やコンテンツを生成または広めるために; 8. 偽のレビューや他の手段を含む、偽のオンラインエンゲージメントを生成または促進するために; 9. 故意に他人を中傷したり、侮辱したり、嫌がらせをするために; 10. マルウェア(ランサムウェアを含む)や他のコンテンツを生成または広め、電子システムに害を及ぼす目的で使用するために; 11. 他人を傷つける目的で個人を特定できる情報を生成または広めるために; 12. 情報(画像、コード、投稿、記事を含む)を生成または広め、情報を公の文脈に置くこと(ボット生成のツイートを通じて)を含むが、情報やコンテンツが機械生成であることを明示的かつ目立つように示さないために; 13. 他の個人を同意、承認、または法的権利なしに偽装するために; 14. 個人の安全、権利、または福祉に影響を与える高リスクの自動決定を行うために(例: 法執行、移民、医療/健康、重要インフラの管理、製品の安全コンポーネント、必須サービス、クレジット、雇用、住宅、教育、社会的評価、または保険); 15. 他の国や地域の社会倫理や道徳基準を侵害または無視する方法で; 16. 暴力的過激主義やテロリズムを助長、脅迫、扇動、計画、促進または奨励するために; 17. 保護された特性やカテゴリーに基づいて個人やグループを差別または傷つけることを意図した使用のために、オンラインまたはオフラインの社会行動や既知または予測される個人または性格特性に基づいて; 18. 特定の年齢、社会的、身体的または精神的特性に基づく特定のグループの脆弱性を故意に利用し、そのグループに属する人の行動を実質的に歪めることで、その人または他の人に身体的または心理的な害を引き起こす可能性がある方法で; 19. 軍事目的で; 20. 金融、法律、医療/健康、または他の専門的な実践を含むが、これに限定されない、いかなる職業の無許可または無ライセンスの実践に従事するために。」[1] https://github.com/Tencent-Hunyuan/HunyuanWorld-Voyager/blob...

EU、イギリス、韓国を除外しているのは、彼らがその国のデータでトレーニングしていて、その国が怒るか、トレーニングに対してお金を要求するだろうと思わせるね。

そもそもトレーニングデータがないから、「好ましい形」での修正ができないんだよね。ファインチューニングって、かなり安く済むんじゃない?

これはオープンソースじゃないよ。ウェイトは利用可能だけど。 > それに、トレーニングデータがないから、「修正の好ましい形」じゃない。ライセンスがオープンソースじゃないから、これはオープンソースじゃない。2行目は正しくないけどね。「修正の好ましい形」はウェイトであって、データじゃない。データはそのウェイトを修正するためのものだよ。

ai2以外では、実際にオープンソースのAIモデル(トレーニングログやデータなど)を持ってるところはあまりないと思う。今のところ、オープンソースは実質的に「ウェイトが利用可能」っていう意味になってるね。

  1. 他人を傷つけたり選挙に影響を与える目的で、検証可能な虚偽の情報やコンテンツを生成または配布すること; > 8. 偽のレビューやその他の手段を含む、虚偽のオンラインエンゲージメントを生成または促進すること;「言うことは守れ、やることは守るな。」 > 15. 他の国や地域の社会倫理や道徳基準を侵害または無視する方法で; これらの条項は、実質的にこのシステムの使用をどの管轄区域でも禁止している。なんて馬鹿げたポリシーなんだ。

このライセンスはかなり読み応えがあるね。EU、イギリス、韓国を除く全世界で利用可能だけど、その選択の理由がよくわからない。アメリカやカナダが入っているか、逆にこれらの国が除外されると思ってた。3. 配布。 [...] c. あなたは以下を奨励される: (i) Tencent HunyuanWorld-Voyagerの作品を使った経験を表現する技術紹介のブログ投稿または公の声明を少なくとも1つ発表すること; (ii) Tencent HunyuanWorld-Voyagerの作品を使用して開発された製品やサービスに「Powered by Tencent Hunyuan」と表示すること; [...] これがライセンスに何で入ってるの?ライセンスに書かれた「奨励」の意味は何だろう?

EUや他の国々はAIの規制に本気で取り組んでるね。緩いOSSライブラリの「一つの仕事」は責任を放棄することなんだ。責任の定義が不確かで、著者たちが心配してる地域では、使用を完全に禁止してるのが面白い。

中国のプライベートAIラボは、EUやUKの規制当局をアメリカの反中派よりも大きな脅威と考えてるかもしれないね。

その選択の理由はよくわからないけど、EUのAI法案だね。1週間前にその可愛いアプリを試してみたんだけど、コンプライアンスを確認したり、報告が必要なことを教えてくれるやつ。基本的には「はい」だけど、実際は「いいえ」って感じで、登録してbla-blaして、yak-yakして、dooby-dooしなきゃいけない。SME - オープンソース - 研究 - クライアント向けじゃないものを選んだ後にね。提案されたときは混乱してたけど、作業中は改善されるって言われてたのに、今出てきたら相変わらず不明瞭で官僚的だよ。

EUはAIとデータの規制がすごく厳しいけど、韓国はどうなんだろうね。

EUでまだダウンロードして使えるのかな… ライセンスの法律用語は気にしないけど、どこかにサインアップしないといけないのかな?

「あなたは次のことを推奨されます:(i) Tencent HunyuanWorld-Voyager Worksを使った経験を表現する技術紹介のブログ記事または公の声明を少なくとも1つ公開すること;(ii) Tencent HunyuanWorld-Voyager Worksを使って開発された製品やサービスに「Powered by Tencent Hunyuan」と表示すること。」これって新しい「いいねや登録をお願いします/情報を教えてください」方式?

じゃあ、この場合、北朝鮮の方が南朝鮮より自由ってこと?

これがVRで登場するのをめちゃくちゃ待ってるよ。

期待しないでね、まだ高解像度の120fpsで、安定したステレオとミリ秒単位の遅延には程遠いから。

visionOS 26の没入型フォトモードをチェックしてみて。iCloudライブラリにあるどんな写真も、デバイス上のモデルによって(たぶん)ガウススプラットの3Dシーンに変換されて、パンやドリーができるんだ。これがVision Proの全コストを正当化するキラーフィーチャーだよ。ソースデータが良ければ良いほど、うまく機能する。2007年にニコンD70で撮ったシーンに実際に入っていけるし、そこにいる人たちもリアルに見える。

現状でそれをやると、最も乗り物酔いを引き起こすことになるよ。これらの動画の視野角、めっちゃ変だし。

ストリートビューのデータを使うのが完璧だったんじゃないかな。各動画の最後のフレームをループさせて、生成された世界をさらに広げられるかも。AIの夢みたいな感じになるね。

過去形なのはなんで?Googleはそれを何年も保持してるよ。

現在、テキストから3Dアセットに変換するためのベストなモデル(またはマルチモデルプロセス)は何?理想的にはFOSSモデルに基づいてるやつ。

ピギーバッキング... テキストからスプライトシートを作るのはどう?それともテキストと単一のソース画像からスプライトシートを作るのは?

明確に単一の画像を使うって書いてあるよね。複数の画像を追加できたら、フォトグラメトリーのシナリオみたいに、もっと表現豊かになるんじゃない?

同じ質問を持ってた!これを試してみなきゃ。超エッジなユースケースがあるんだ:不完全な水深マップ(ライダー船がアクセスできなかったエリア)。偶然にも、最も興味深いエリアはデータに含まれてない。2つ目のデータはフライオーバービデオから(底が見えるくらい水がクリアなエリア)。十分なビデオがあれば、水中のアーティファクト(波紋や反射など)をほとんど取り除いて、河床の画像をフォトグラメトリック再構築に十分なほど強化できる。ここでのボトルネックは、複数の角度が必要なことと、水を通しての視認性が太陽光の角度とカメラの角度に大きく依存すること。メッシュ再構築のために異なる時間帯に複数回フライオーバーする代わりに、これが一つの角度から比較的うまくできるかもしれないね!

カメラをその場で1080度回せよ、臆病者たち!!このクリップ、すごく短いし、カメラを45度以上回さないじゃん。Genie3もズルして90度しか回さないし。モデルが何をしないかに注目するのは大事だよね。今回は、カメラをちゃんと回さないってことだ。簡単な「その場で回転」テストに合格できないモデルは「ワールドモデル」として認めないから。もう、ほんとに。

最低限必要なGPUメモリは540pで60GBです。次世代ゲームがこれを最低システム要件として要求する時代が来るね…

それって実際に360度回転できるの?画像はそのままで?めっちゃクールに見えるけど、見た動画はちょっとだけ左右にパンするだけだった。