ボイジャーはリアルタイム3D再構築を備えたインタラクティブな動画生成モデルです

2025年9月3日原文(github.com)

概要

HunyuanWorld-Voyager は、単一画像からユーザー定義カメラパスに沿った 3D一貫性のあるシーン動画 を生成する新しいビデオ拡散フレームワーク。 RGBと深度情報 を同時生成し、効率的な 3D再構築 を実現。大規模な自動データ収集パイプラインにより、 多様なトレーニングデータ を構築可能。 高い評価指標 で他手法を上回る性能を示す。 Linux・CUDA環境で動作し、 詳細なインストール手順とデモ が提供されている。

HunyuanWorld-Voyagerとは

HunyuanWorld-Voyager は、単一画像とカスタムカメラパスから 3D一貫性を持つ点群シーケンス を生成するビデオ拡散フレームワーク
カメラ制御可能な動画生成、 RGB-D動画による直接的な3D再構築 を実現
デモ動画・コード・学習済みモデル が2025年9月2日に公開
Wechat・Discordグループ によるサポート・議論の場を提供

アーキテクチャ概要

世界一貫性ビデオ拡散 ：RGB・深度動画を同時生成し、既存観測に基づくグローバル整合性を確保
長距離世界探索 ：効率的なワールドキャッシュと点群間引き、自己回帰推論による文脈一貫性を持つシーン拡張
大規模ビデオ再構築パイプライン ：自動カメラ姿勢推定・深度予測により、手動3Dアノテーション不要で多様なデータを収集
10万本超の動画データセット ：実写・Unreal Engine生成動画を組み合わせた大規模データセット構築

性能比較（WorldScoreベンチマーク）

Voyager はWorldScore平均・カメラ制御・3D一貫性・主観的品質で 最高評価
他手法（WonderJourney、WonderWorld、EasyAnimate、Allegro、Gen-3、CogVideoX-I2V）と比較し、 多項目で優位性
カメラ制御・オブジェクト制御・内容整合性・3D一貫性・主観的品質 など多角的な評価指標

動作要件

GPUメモリ ：540p解像度で 最小60GB、推奨80GB（NVIDIA GPU＋CUDA必須）
動作確認済みOS ：Linux

依存ライブラリとインストール手順

リポジトリクローン ：git clone https://github.com/Tencent-Hunyuan/HunyuanWorld-Voyager
Python環境 ：condaでPython 3.11.9環境を作成
PyTorch・CUDA ：PyTorch 2.4.0＋CUDA 12.4または11.8推奨
追加パッケージ ：
- flash-attn（推論高速化）
- xfuser（並列推論用）
- 必要に応じてnvidia-cublas-cu12等のCUDAライブラリ
- 入力条件生成用にMoGe・scipy・utils3d等

学習済みモデルのダウンロード

huggingface-cli でモデルを取得：huggingface-cli download tencent/HunyuanWorld-Voyager --local-dir ./ckpts

推論・利用方法

入力条件作成 ：data_engine/create_input.pyで画像とカメラパスから条件動画生成
- カメラパス例：forward, backward, left, right, turn_left, turn_right
単一GPUでの推論 ：python3 sample_image2video.pyコマンドで実行
- プロンプトや推論ステップ、シード値等の指定が可能
複数GPU並列推論（xDiT） ：
- USP API採用で大規模並列推論が可能
- 8GPU例：torchrun --nproc_per_node=8 sample_image2video.py ...
- 並列度調整で推論時間短縮（例：8GPUで約6.7倍高速化）

Gradioデモ

Gradio UI で画像アップロード・カメラ方向選択・テキスト入力によるRGB-D動画生成が可能
コマンド：python3 app.py

データエンジン

RGB-D動画学習用データ生成エンジン も公開
詳細はdata_engineディレクトリを参照

論文引用情報

BibTeX 提供：論文やアプリケーション利用時の引用に対応

謝辞

HunyuanWorld, Hunyuan3D-2, HunyuanVideo-I2V, VGGT, MoGE, Metric3D 等のオープンリサーチ・コミュニティへの謝辞

Hackerたちの意見

比較表で赤色を選んだのは面白いね。そのエントリーの最高スコアを決めるために。

└

中国の株式市場みたいだね。赤は価格が上がることを意味して、緑は下がることを意味する。

└

西洋のプロパガンダのあらゆる部分でもそれに気づくよ。映画からファッションまで。赤は中国の象徴だね。

└

中国ではそれはあまり面白くない選択だろうね。色は部分的に文化的な構築物だから、赤は西洋とは違う意味を持つんだ。

└

文化の違いって、他の人も言ってるけど、面白いよね。で、実際には自分の一日には全然影響しないし。

これはオープンソースじゃないよ。重みは利用可能だけど、トレーニングデータはないから、修正の「好ましい形」にはならないね。ライセンスからの引用: 「[1] Tencent HunyuanWorld-Voyagerのバージョンリリース日、ライセンスを受けた全ての製品やサービスの月間アクティブユーザーが前月に1百万を超えた場合、Tencentにライセンスをリクエストしなければならない。Tencentはその裁量でライセンスを与えることができるが、Tencentが明示的にその権利を与えない限り、契約に基づく権利を行使することはできない。Tencent HunyuanWorld-Voyagerの作品やその出力を他のAIモデルの改善に使用してはいけない（Tencent HunyuanWorld-Voyagerやそのモデル派生物を除く）。また、受け入れ可能な使用ポリシーもある: Tencentは、Tencent HunyuanWorld-Voyagerを含むツールや機能の安全で公正な使用を促進することを目指している。あなたは以下の目的でTencent HunyuanWorld-Voyagerやそのモデル派生物を使用しないことに同意する: 1. テリトリー外で; 2. 適用される法律や規制に違反する方法で; 3. 自分自身や他人を傷つけるために; 4. 自分自身や他人を傷つける目的で出力を再利用または配布するために; 5. 我々が設けた安全ガードレールや保護策を回避または無視するために; 6. 未成年者を搾取したり、傷つけたりする目的で; 7. 他人を傷つけたり、選挙に影響を与える目的で、検証可能な虚偽の情報やコンテンツを生成または広めるために; 8. 偽のレビューや他の手段を含む、偽のオンラインエンゲージメントを生成または促進するために; 9. 故意に他人を中傷したり、侮辱したり、嫌がらせをするために; 10. マルウェア（ランサムウェアを含む）や他のコンテンツを生成または広め、電子システムに害を及ぼす目的で使用するために; 11. 他人を傷つける目的で個人を特定できる情報を生成または広めるために; 12. 情報（画像、コード、投稿、記事を含む）を生成または広め、情報を公の文脈に置くこと（ボット生成のツイートを通じて）を含むが、情報やコンテンツが機械生成であることを明示的かつ目立つように示さないために; 13. 他の個人を同意、承認、または法的権利なしに偽装するために; 14. 個人の安全、権利、または福祉に影響を与える高リスクの自動決定を行うために（例: 法執行、移民、医療/健康、重要インフラの管理、製品の安全コンポーネント、必須サービス、クレジット、雇用、住宅、教育、社会的評価、または保険）; 15. 他の国や地域の社会倫理や道徳基準を侵害または無視する方法で; 16. 暴力的過激主義やテロリズムを助長、脅迫、扇動、計画、促進または奨励するために; 17. 保護された特性やカテゴリーに基づいて個人やグループを差別または傷つけることを意図した使用のために、オンラインまたはオフラインの社会行動や既知または予測される個人または性格特性に基づいて; 18. 特定の年齢、社会的、身体的または精神的特性に基づく特定のグループの脆弱性を故意に利用し、そのグループに属する人の行動を実質的に歪めることで、その人または他の人に身体的または心理的な害を引き起こす可能性がある方法で; 19. 軍事目的で; 20. 金融、法律、医療/健康、または他の専門的な実践を含むが、これに限定されない、いかなる職業の無許可または無ライセンスの実践に従事するために。」[1] https://github.com/Tencent-Hunyuan/HunyuanWorld-Voyager/blob...

└

EU、イギリス、韓国を除外しているのは、彼らがその国のデータでトレーニングしていて、その国が怒るか、トレーニングに対してお金を要求するだろうと思わせるね。

└

そもそもトレーニングデータがないから、「好ましい形」での修正ができないんだよね。ファインチューニングって、かなり安く済むんじゃない？

└

これはオープンソースじゃないよ。ウェイトは利用可能だけど。 > それに、トレーニングデータがないから、「修正の好ましい形」じゃない。ライセンスがオープンソースじゃないから、これはオープンソースじゃない。2行目は正しくないけどね。「修正の好ましい形」はウェイトであって、データじゃない。データはそのウェイトを修正するためのものだよ。

└

ai2以外では、実際にオープンソースのAIモデル（トレーニングログやデータなど）を持ってるところはあまりないと思う。今のところ、オープンソースは実質的に「ウェイトが利用可能」っていう意味になってるね。

└

他人を傷つけたり選挙に影響を与える目的で、検証可能な虚偽の情報やコンテンツを生成または配布すること； > 8. 偽のレビューやその他の手段を含む、虚偽のオンラインエンゲージメントを生成または促進すること；「言うことは守れ、やることは守るな。」 > 15. 他の国や地域の社会倫理や道徳基準を侵害または無視する方法で；これらの条項は、実質的にこのシステムの使用をどの管轄区域でも禁止している。なんて馬鹿げたポリシーなんだ。

このライセンスはかなり読み応えがあるね。EU、イギリス、韓国を除く全世界で利用可能だけど、その選択の理由がよくわからない。アメリカやカナダが入っているか、逆にこれらの国が除外されると思ってた。3. 配布。 [...] c. あなたは以下を奨励される: (i) Tencent HunyuanWorld-Voyagerの作品を使った経験を表現する技術紹介のブログ投稿または公の声明を少なくとも1つ発表すること; (ii) Tencent HunyuanWorld-Voyagerの作品を使用して開発された製品やサービスに「Powered by Tencent Hunyuan」と表示すること; [...] これがライセンスに何で入ってるの？ライセンスに書かれた「奨励」の意味は何だろう？

Hacker Newsで議論の続きを見る

ハクソク