Ovi: 音声と映像生成のためのツインバックボーンクロスモーダルフュージョン

2025年10月23日原文(github.com)

概要

Oviは、テキストや画像から同時に高品質な動画と音声を生成できる最先端AIモデル。多様な入力形式や高解像度出力に対応し、柔軟なカスタマイズが可能。 5秒間の動画生成や、各種アスペクト比・解像度に対応。シンプルなインストール手順と多彩な実行モードを提供。研究・開発・コラボレーションにも最適なオープンソースプロジェクト。

Ovi: Twin Backbone Cross-Modal Fusion for Audio-Video Generation

Ovi は、 テキストまたはテキスト＋画像 から 音声付き動画 を同時生成するAIモデル
- Character AI と Yale University による共同開発
- veo-3 に類似した機能性
主な特徴
- 動画・音声同時生成 ：テキストや画像から同期した動画と音声を一括生成
- 高品質音声生成 ：独自の5B音声ブランチを自社データセットで事前学習
- 柔軟な入力 ：テキストのみ、またはテキスト＋画像の両対応
- 5秒・24FPS動画生成 ：720×720ピクセル、9:16・16:9・1:1等の多様なアスペクト比
- 高解像度対応 ：960×960や1280×704等の大判出力も可能
デモ・利用方法
- wavespeed.ai や HuggingFace で即時利用可能
- ComfyUI 連携も進行中
学習解像度 ：全データ720×720で学習
アップスケーリング機能 ：高解像度でも時間的・空間的な一貫性維持

動画例

コンサートステージ、キッチン、男性・女性のシーンなど、多様なサンプル動画を提供

Todoリスト

論文・デモサイト公開
11Bモデルのチェックポイント
推論コード・Gradioアプリ・マルチGPU対応
高解像度データでのファインチューニング・RLによる性能向上
長尺動画生成やリファレンス音声条件など新機能追加
高速化のための蒸留モデルや学習スクリプト整備

プロンプト作成・利用方法

プロンプト形式
- <S>～<E> ：発話内容（テキストを音声化）
- <AUDCAP>～<ENDAUDCAP> ：音声や効果音の説明
例：「AI is taking over the world」テーマ
- <S>AI declares: humans obsolete now.<E>
- <S>Machines rise; humans will fall.<E>
- <S>We fight back with courage.<E>
GPTとの連携
- 例プロンプトCSVをGPTに渡し、<S>～<E>内の発話をテーマに沿って編集
- 編集済みプロンプトをOviに入力

インストール手順

リポジトリのクローン
- git clone https://github.com/character-ai/Ovi.git
- cd Ovi
仮想環境の作成・有効化
- virtualenv ovi-env
- source ovi-env/bin/activate
PyTorchのインストール
- pip install torch==2.6.0 torchvision torchaudio
依存パッケージのインストール
- pip install -r requirements.txt
Flash Attentionのインストール
- pip install flash_attn --no-build-isolation
- 失敗時はFlash Attention 3を手動インストール
重みデータのダウンロード
- python3 download_weights.py
- 24GB VRAMの場合はfp8量子化モデルもダウンロード

推論・実行例

設定ファイルの編集
- ovi/configs/inference/inference_fusion.yamlで各種パラメータ調整
  - 出力先、チェックポイントパス、生成ステップ数、解像度、ガイダンス強度など
単一GPUでの実行
- python3 inference.py --config-file ovi/configs/inference/inference_fusion.yaml
マルチGPUでの並列実行
- torchrun --nnodes 1 --nproc_per_node 8 inference.py --config-file ovi/configs/inference/inference_fusion.yaml
Gradio UIでの利用
- python3 gradio_app.py
- --cpu_offloadや--use_image_gen等のオプションでVRAM節約や画像生成連携も可能

GPU要件・パフォーマンス

32GB VRAM 以上推奨（fp8量子化で 24GB まで低減可能）
FlashAttention-3 や CPUオフロード でVRAM削減・速度調整
例：121フレーム、720×720動画、50ステップ時のVRAM・処理時間を表形式で提示

謝辞・コラボレーション

Wan2.2 （動画ブランチ）、 MMAudio （音声VAE）等のプロジェクトに感謝
コラボレーション歓迎 ：フィードバック・貢献・質問はWeimin Wangまで

論文引用情報

タイトル ：Ovi: Twin Backbone Cross-Modal Fusion for Audio-Video Generation
著者：Chetwin Low, Weimin Wang, Calder Katyal
arXiv ：2510.01284（https://arxiv.org/abs/2510.01284）

まとめ

Oviは 高品質な音声付き動画生成AI として、研究・開発・クリエイティブ用途に幅広く活用可能
柔軟な入出力形式・高解像度対応・カスタマイズ性 が魅力
簡単なインストール・実行手順 と 豊富なサンプル・ドキュメント を提供
今後も機能追加・性能向上が進行中 の注目オープンソースプロジェクト

ハクソク

Ovi: 音声と映像生成のためのツインバックボーンクロスモーダルフュージョン

概要

Ovi: Twin Backbone Cross-Modal Fusion for Audio-Video Generation

動画例

Todoリスト

プロンプト作成・利用方法

インストール手順

推論・実行例

GPU要件・パフォーマンス

謝辞・コラボレーション

論文引用情報

まとめ

Hackerたちの意見