概要
HunyuanWorld-Voyager は、単一画像からユーザー定義カメラパスに沿った 3D一貫性のあるシーン動画 を生成する新しいビデオ拡散フレームワーク。 RGBと深度情報 を同時生成し、効率的な 3D再構築 を実現。 大規模な自動データ収集パイプラインにより、 多様なトレーニングデータ を構築可能。 高い評価指標 で他手法を上回る性能を示す。 Linux・CUDA環境で動作し、 詳細なインストール手順とデモ が提供されている。
HunyuanWorld-Voyagerとは
- HunyuanWorld-Voyager は、単一画像とカスタムカメラパスから 3D一貫性を持つ点群シーケンス を生成するビデオ拡散フレームワーク
- カメラ制御可能な動画生成、 RGB-D動画による直接的な3D再構築 を実現
- デモ動画・コード・学習済みモデル が2025年9月2日に公開
- Wechat・Discordグループ によるサポート・議論の場を提供
アーキテクチャ概要
- 世界一貫性ビデオ拡散 :RGB・深度動画を同時生成し、既存観測に基づくグローバル整合性を確保
- 長距離世界探索 :効率的なワールドキャッシュと点群間引き、自己回帰推論による文脈一貫性を持つシーン拡張
- 大規模ビデオ再構築パイプライン :自動カメラ姿勢推定・深度予測により、手動3Dアノテーション不要で多様なデータを収集
- 10万本超の動画データセット :実写・Unreal Engine生成動画を組み合わせた大規模データセット構築
性能比較(WorldScoreベンチマーク)
- Voyager はWorldScore平均・カメラ制御・3D一貫性・主観的品質で 最高評価
- 他手法(WonderJourney、WonderWorld、EasyAnimate、Allegro、Gen-3、CogVideoX-I2V)と比較し、 多項目で優位性
- カメラ制御・オブジェクト制御・内容整合性・3D一貫性・主観的品質 など多角的な評価指標
動作要件
- GPUメモリ :540p解像度で 最小60GB、推奨80GB(NVIDIA GPU+CUDA必須)
- 動作確認済みOS :Linux
依存ライブラリとインストール手順
- リポジトリクローン :
git clone https://github.com/Tencent-Hunyuan/HunyuanWorld-Voyager - Python環境 :condaでPython 3.11.9環境を作成
- PyTorch・CUDA :PyTorch 2.4.0+CUDA 12.4または11.8推奨
- 追加パッケージ :
flash-attn(推論高速化)xfuser(並列推論用)- 必要に応じて
nvidia-cublas-cu12等のCUDAライブラリ - 入力条件生成用に
MoGe・scipy・utils3d等
学習済みモデルのダウンロード
- huggingface-cli でモデルを取得:
huggingface-cli download tencent/HunyuanWorld-Voyager --local-dir ./ckpts
推論・利用方法
- 入力条件作成 :
data_engine/create_input.pyで画像とカメラパスから条件動画生成- カメラパス例:forward, backward, left, right, turn_left, turn_right
- 単一GPUでの推論 :
python3 sample_image2video.pyコマンドで実行- プロンプトや推論ステップ、シード値等の指定が可能
- 複数GPU並列推論(xDiT) :
- USP API採用で大規模並列推論が可能
- 8GPU例:
torchrun --nproc_per_node=8 sample_image2video.py ... - 並列度調整で推論時間短縮(例:8GPUで約6.7倍高速化)
Gradioデモ
- Gradio UI で画像アップロード・カメラ方向選択・テキスト入力によるRGB-D動画生成が可能
- コマンド:
python3 app.py
データエンジン
- RGB-D動画学習用データ生成エンジン も公開
- 詳細は
data_engineディレクトリを参照
論文引用情報
- BibTeX 提供:論文やアプリケーション利用時の引用に対応
謝辞
- HunyuanWorld, Hunyuan3D-2, HunyuanVideo-I2V, VGGT, MoGE, Metric3D 等のオープンリサーチ・コミュニティへの謝辞