概要
Oviは、テキストや画像から同時に高品質な動画と音声を生成できる最先端AIモデル。 多様な入力形式や高解像度出力に対応し、柔軟なカスタマイズが可能。 5秒間の動画生成や、各種アスペクト比・解像度に対応。 シンプルなインストール手順と多彩な実行モードを提供。 研究・開発・コラボレーションにも最適なオープンソースプロジェクト。
Ovi: Twin Backbone Cross-Modal Fusion for Audio-Video Generation
- Ovi は、 テキストまたはテキスト+画像 から 音声付き動画 を同時生成するAIモデル
- Character AI と Yale University による共同開発
- veo-3 に類似した機能性
- 主な特徴
- 動画・音声同時生成 :テキストや画像から同期した動画と音声を一括生成
- 高品質音声生成 :独自の5B音声ブランチを自社データセットで事前学習
- 柔軟な入力 :テキストのみ、またはテキスト+画像の両対応
- 5秒・24FPS動画生成 :720×720ピクセル、9:16・16:9・1:1等の多様なアスペクト比
- 高解像度対応 :960×960や1280×704等の大判出力も可能
- デモ・利用方法
- wavespeed.ai や HuggingFace で即時利用可能
- ComfyUI 連携も進行中
- 学習解像度 :全データ720×720で学習
- アップスケーリング機能 :高解像度でも時間的・空間的な一貫性維持
動画例
- コンサートステージ、キッチン、男性・女性のシーンなど、多様なサンプル動画を提供
Todoリスト
- 論文・デモサイト公開
- 11Bモデルのチェックポイント
- 推論コード・Gradioアプリ・マルチGPU対応
- 高解像度データでのファインチューニング・RLによる性能向上
- 長尺動画生成やリファレンス音声条件など新機能追加
- 高速化のための蒸留モデルや学習スクリプト整備
プロンプト作成・利用方法
- プロンプト形式
- <S>~<E> :発話内容(テキストを音声化)
- <AUDCAP>~<ENDAUDCAP> :音声や効果音の説明
- 例 :「AI is taking over the world」テーマ
- <S>AI declares: humans obsolete now.<E>
- <S>Machines rise; humans will fall.<E>
- <S>We fight back with courage.<E>
- GPTとの連携
- 例プロンプトCSVをGPTに渡し、<S>~<E>内の発話をテーマに沿って編集
- 編集済みプロンプトをOviに入力
インストール手順
- リポジトリのクローン
- git clone https://github.com/character-ai/Ovi.git
- cd Ovi
- 仮想環境の作成・有効化
- virtualenv ovi-env
- source ovi-env/bin/activate
- PyTorchのインストール
- pip install torch==2.6.0 torchvision torchaudio
- 依存パッケージのインストール
- pip install -r requirements.txt
- Flash Attentionのインストール
- pip install flash_attn --no-build-isolation
- 失敗時はFlash Attention 3を手動インストール
- 重みデータのダウンロード
- python3 download_weights.py
- 24GB VRAMの場合はfp8量子化モデルもダウンロード
推論・実行例
- 設定ファイルの編集
- ovi/configs/inference/inference_fusion.yamlで各種パラメータ調整
- 出力先、チェックポイントパス、生成ステップ数、解像度、ガイダンス強度など
- ovi/configs/inference/inference_fusion.yamlで各種パラメータ調整
- 単一GPUでの実行
- python3 inference.py --config-file ovi/configs/inference/inference_fusion.yaml
- マルチGPUでの並列実行
- torchrun --nnodes 1 --nproc_per_node 8 inference.py --config-file ovi/configs/inference/inference_fusion.yaml
- Gradio UIでの利用
- python3 gradio_app.py
- --cpu_offloadや--use_image_gen等のオプションでVRAM節約や画像生成連携も可能
GPU要件・パフォーマンス
- 32GB VRAM 以上推奨(fp8量子化で 24GB まで低減可能)
- FlashAttention-3 や CPUオフロード でVRAM削減・速度調整
- 例:121フレーム、720×720動画、50ステップ時のVRAM・処理時間を表形式で提示
謝辞・コラボレーション
- Wan2.2 (動画ブランチ)、 MMAudio (音声VAE)等のプロジェクトに感謝
- コラボレーション歓迎 :フィードバック・貢献・質問はWeimin Wangまで
論文引用情報
- タイトル :Ovi: Twin Backbone Cross-Modal Fusion for Audio-Video Generation
- 著者 :Chetwin Low, Weimin Wang, Calder Katyal
- arXiv :2510.01284(https://arxiv.org/abs/2510.01284)
まとめ
- Oviは 高品質な音声付き動画生成AI として、研究・開発・クリエイティブ用途に幅広く活用可能
- 柔軟な入出力形式・高解像度対応・カスタマイズ性 が魅力
- 簡単なインストール・実行手順 と 豊富なサンプル・ドキュメント を提供
- 今後も機能追加・性能向上が進行中 の注目オープンソースプロジェクト