世界を動かす技術を、日本語で。

Wan – VEO 3のオープンソース代替品

概要

  • Wan2.2 は大規模なビデオ生成モデルの最新バージョン
  • MoEアーキテクチャ美的データ強化 などの革新を導入
  • 高解像度・高速生成低VRAM対応 を実現
  • ComfyUIやDiffusers など主要ツールと連携
  • テキスト/画像/複合入力 に対応した多様な生成タスク

Wan2.2:オープンかつ先進的な大規模ビデオ生成モデル

  • Mixture-of-Experts (MoE)アーキテクチャ を導入し、時系列ごとに強力な専門モデルでノイズ除去を分担、計算コストを維持しつつモデル容量を拡大
  • シネマティックな美的データ を厳選・ラベル付けし、照明・構図・コントラスト・色調などの細かな制御が可能
  • Wan2.1比で65.6%多い画像・83.2%多い動画 により、動き・意味・美的表現の一般化能力を大幅強化
  • Wan2.2-VAE搭載5Bモデル は16×16×4の高圧縮率で、720P@24fpsのテキスト/画像/複合入力からのビデオ生成をサポートし、RTX4090等の民生GPUでも動作
  • ComfyUI・Diffusers統合、推論コードやモデル重みの公開で産業界・学術界双方に対応

最新ニュースとコミュニティ

  • 2025年7月28日 :TI2V-5BモデルのHF Space公開
  • ComfyUI・Diffusers へのWan2.2統合(T2V, I2V, TI2V対応)
  • 推論コード・モデル重み の公開
  • DiffSynth-Studio による低メモリオフロード・FP8量子化・並列学習・LoRA/全学習サポート
  • Kijai's ComfyUI WanVideoWrapper による最先端機能の迅速実装

Todoリスト(今後の対応予定)

  • A14B/14B/5B各モデル のマルチGPU推論コード・チェックポイント
  • ComfyUI/Diffusers各統合 の拡充

Wan2.2のインストール・セットアップ

  • GitHubからリポジトリをクローン
    • git clone https://github.com/Wan-Video/Wan2.2.git
    • cd Wan2.2
  • 依存パッケージのインストール
    • pip install -r requirements.txt
    • flash_attnのインストール失敗時は他パッケージを先に導入

モデルのダウンロード

  • モデル種別と用途
    • T2V-A14B :テキスト→ビデオ(480P/720P対応)
    • I2V-A14B :画像→ビデオ(480P/720P対応)
    • TI2V-5B :テキスト+画像→ビデオ(高圧縮VAE、720P対応)
  • HuggingFace/ModelScope経由でダウンロード
    • huggingface-cli download Wan-AI/Wan2.2-T2V-A14B --local-dir ./Wan2.2-T2V-A14B
    • modelscope download Wan-AI/Wan2.2-T2V-A14B --local_dir ./Wan2.2-T2V-A14B

テキスト→ビデオ生成(T2V)

  • シングルGPU推論
    • python generate.py --task t2v-A14B --size 1280*720 --ckpt_dir ./Wan2.2-T2V-A14B --offload_model True --convert_model_dtype --prompt "..." 80GB以上VRAM推奨
    • OOM時--offload_model True--convert_model_dtype--t5_cpuでメモリ削減
  • マルチGPU推論(FSDP+DeepSpeed Ulysses)
    • torchrun --nproc_per_node=8 generate.py ...

プロンプト拡張による高品質化

  • Dashscope API利用
    • DASH_API_KEYDASH_API_URL環境変数を設定
    • --use_prompt_extend --prompt_extend_method 'dashscope' --prompt_extend_target_lang 'zh'等で有効化
  • ローカルQwenモデル利用
    • --prompt_extend_modelでモデル指定(例:Qwen/Qwen2.5-14B-Instructなど)
    • GPUメモリに応じてモデル選択

画像→ビデオ生成(I2V)

  • シングルGPU推論
    • python generate.py --task i2v-A14B --size 1280*720 --ckpt_dir ./Wan2.2-I2V-A14B --offload_model True --convert_model_dtype --image ... --prompt "..." 80GB以上VRAM推奨
    • サイズ指定 は生成動画の面積で、アスペクト比は入力画像に準拠
  • マルチGPU推論
    • torchrun --nproc_per_node=8 generate.py ...
  • プロンプトなし生成 やプロンプト拡張も可能

テキスト+画像→ビデオ生成(TI2V)

  • シングルGPU推論(24GB以上VRAMで動作可)
    • テキストのみ:python generate.py --task ti2v-5B --size 1280*704 --ckpt_dir ./Wan2.2-TI2V-5B --offload_model True --convert_model_dtype --t5_cpu --prompt "..." 720P解像度は1280×704または704×1280
    • 画像指定時はI2V生成に自動切替
  • マルチGPU推論
    • torchrun --nproc_per_node=8 generate.py ...
  • 面積指定 で入力画像比を維持した動画生成

まとめ

  • Wan2.2高性能・高圧縮・多様な入力対応 のビデオ生成モデル
  • 低VRAM環境でも高速動作主要AIツール群との連携 を実現
  • 最新の研究・産業ニーズ に応えるオープンなビデオ生成基盤

Hackerたちの意見

どうして彼らはそれを管理できるのに、ウェブサイトはダメなんだろう?

新しいWan 2.2モデルについての面白い事実を挙げると: - 今回は27B MoEアーキテクチャを使っていて、低レベルと高レベルの詳細のためにそれぞれ14Bのエキスパートがいるんだ。これは通常、拡散モデルよりも自己回帰型LLMに使われてたものだよ - 小さい5Bモデルは720p24の動画をサポートしてて、24GBのVRAM(例えばRTX 4090みたいな消費者向けグラフィックカード)で動く - もし彼らのベンチマークが信頼できるなら、モデルのパフォーマンスはクローズドソースモデルと比べても最先端だね。

  • 小さい5Bモデルは720p24の動画をサポートしてて、24GBのVRAM(例えばRTX 4090みたいな消費者向けグラフィックカード)で動く どうやら、12GBのVRAMを持つ2つのGPUで動かせるみたいだね。少なくとも、彼らのGitHubページの説明がそう示唆してた。

いくつかの事実が間違ってるよ: - 27Bの「MoE」は、LLMの世界で一般的に言われているMoEとは違う。FFN層でのMoEじゃないし、単に異なるデノイジングタイムステップ範囲に使われる2つのモデルを指してるだけ(SDXL-Base / SDXL-Refinerと全く同じ)。MoEと呼ぶのは技術的には間違ってはいないけど、「通常は拡散モデルではなく自己回帰型LLMにしか使われなかった」というのは間違いだよ(HiDream I1は実際にMoE層を取り入れたモデルで、拡散モデルだからね)。 - A14Bモデルは、CPUオフロードと量子化を使えば24GiBのVRAMでも動くよ。 - うん、いくつかのクローズドソースモデルを含めてもSotAだね。

これを本当に遊びたいなら、加速Loraや活気あるコミュニティを持つ12以上のバリアントモデルをチェックしてみてね: https://github.com/deepbeepmeep/Wan2GP それとDiscordコミュニティも: https://discord.gg/g7efUW9jGV 「Wan2GP」は「GPU貧乏」のためのAI動画と画像で、6GBのVRAMでも動かせるよ、Nvidia限定だけど。

逆に、パフォーマンスに焦点を当てたプロジェクトはないのかな?Wan2.1を動かすためのVRAMはあるけど、フレームごとに数分かかるんだ。ローカルLLMの重みを動かすためのvLLMみたいな、動画/WAN用のものがあればいいのに。

6GBのVRAMしかないなら、私はGPU貧乏どころかGPU無一文だわ。

早く、誰かこれのUI作って「Obi」って呼んで!

君のWanのためのオビ

しばらくReplicateを通じてこれを使ってるけど、正直すごくて、しかもずっと安い。中国はオープンソースで確実にリードしてるね。

*オープンウェイト

LLMのベンチマークみたいな、動画生成のベンチマークってあるのかな?理由は、これらのモデルの多くは出力を見るまでに長いサイクルを経なきゃいけないし、基本的な物理や状態が必要なタスクで壊れちゃうことが多いから。そういう基本的なことに関してモデルの比較を見てみたいな。

Wan2.1は良かったけど、Wan2.2はマジで最高!これ、5090でローカルで作ったサンプルだよ: - https://imgur.com/a/VeTn4Ej - https://imgur.com/a/CujxVX3 どちらも画像から動画にして、4Kにアップスケールしたんだ。画像はFlux Dev Kreaを使って作ったよ。動画生成には約3〜4分、アップスケールにはさらに2〜3分かかった。画像生成には20〜40秒かかったかな。

それをアップスケールするのに何を使ったの?