概要
- Wan2.2 は大規模なビデオ生成モデルの最新バージョン
- MoEアーキテクチャ や 美的データ強化 などの革新を導入
- 高解像度・高速生成 と 低VRAM対応 を実現
- ComfyUIやDiffusers など主要ツールと連携
- テキスト/画像/複合入力 に対応した多様な生成タスク
Wan2.2:オープンかつ先進的な大規模ビデオ生成モデル
- Mixture-of-Experts (MoE)アーキテクチャ を導入し、時系列ごとに強力な専門モデルでノイズ除去を分担、計算コストを維持しつつモデル容量を拡大
- シネマティックな美的データ を厳選・ラベル付けし、照明・構図・コントラスト・色調などの細かな制御が可能
- Wan2.1比で65.6%多い画像・83.2%多い動画 により、動き・意味・美的表現の一般化能力を大幅強化
- Wan2.2-VAE搭載5Bモデル は16×16×4の高圧縮率で、720P@24fpsのテキスト/画像/複合入力からのビデオ生成をサポートし、RTX4090等の民生GPUでも動作
- ComfyUI・Diffusers統合、推論コードやモデル重みの公開で産業界・学術界双方に対応
最新ニュースとコミュニティ
- 2025年7月28日 :TI2V-5BモデルのHF Space公開
- ComfyUI・Diffusers へのWan2.2統合(T2V, I2V, TI2V対応)
- 推論コード・モデル重み の公開
- DiffSynth-Studio による低メモリオフロード・FP8量子化・並列学習・LoRA/全学習サポート
- Kijai's ComfyUI WanVideoWrapper による最先端機能の迅速実装
Todoリスト(今後の対応予定)
- A14B/14B/5B各モデル のマルチGPU推論コード・チェックポイント
- ComfyUI/Diffusers各統合 の拡充
Wan2.2のインストール・セットアップ
- GitHubからリポジトリをクローン
git clone https://github.com/Wan-Video/Wan2.2.gitcd Wan2.2
- 依存パッケージのインストール
pip install -r requirements.txtflash_attnのインストール失敗時は他パッケージを先に導入
モデルのダウンロード
- モデル種別と用途
- T2V-A14B :テキスト→ビデオ(480P/720P対応)
- I2V-A14B :画像→ビデオ(480P/720P対応)
- TI2V-5B :テキスト+画像→ビデオ(高圧縮VAE、720P対応)
- HuggingFace/ModelScope経由でダウンロード
huggingface-cli download Wan-AI/Wan2.2-T2V-A14B --local-dir ./Wan2.2-T2V-A14Bmodelscope download Wan-AI/Wan2.2-T2V-A14B --local_dir ./Wan2.2-T2V-A14B
テキスト→ビデオ生成(T2V)
- シングルGPU推論
python generate.py --task t2v-A14B --size 1280*720 --ckpt_dir ./Wan2.2-T2V-A14B --offload_model True --convert_model_dtype --prompt "..."80GB以上VRAM推奨- OOM時 は
--offload_model Trueや--convert_model_dtype、--t5_cpuでメモリ削減
- マルチGPU推論(FSDP+DeepSpeed Ulysses)
torchrun --nproc_per_node=8 generate.py ...
プロンプト拡張による高品質化
- Dashscope API利用
DASH_API_KEYやDASH_API_URL環境変数を設定--use_prompt_extend --prompt_extend_method 'dashscope' --prompt_extend_target_lang 'zh'等で有効化
- ローカルQwenモデル利用
--prompt_extend_modelでモデル指定(例:Qwen/Qwen2.5-14B-Instructなど)- GPUメモリに応じてモデル選択
画像→ビデオ生成(I2V)
- シングルGPU推論
python generate.py --task i2v-A14B --size 1280*720 --ckpt_dir ./Wan2.2-I2V-A14B --offload_model True --convert_model_dtype --image ... --prompt "..."80GB以上VRAM推奨- サイズ指定 は生成動画の面積で、アスペクト比は入力画像に準拠
- マルチGPU推論
torchrun --nproc_per_node=8 generate.py ...
- プロンプトなし生成 やプロンプト拡張も可能
テキスト+画像→ビデオ生成(TI2V)
- シングルGPU推論(24GB以上VRAMで動作可)
- テキストのみ:
python generate.py --task ti2v-5B --size 1280*704 --ckpt_dir ./Wan2.2-TI2V-5B --offload_model True --convert_model_dtype --t5_cpu --prompt "..."720P解像度は1280×704または704×1280 - 画像指定時はI2V生成に自動切替
- テキストのみ:
- マルチGPU推論
torchrun --nproc_per_node=8 generate.py ...
- 面積指定 で入力画像比を維持した動画生成
まとめ
- Wan2.2 は 高性能・高圧縮・多様な入力対応 のビデオ生成モデル
- 低VRAM環境でも高速動作、 主要AIツール群との連携 を実現
- 最新の研究・産業ニーズ に応えるオープンなビデオ生成基盤