世界を動かす技術を、日本語で。

Ovi: 音声と映像生成のためのツインバックボーンクロスモーダルフュージョン

概要

Oviは、テキストや画像から同時に高品質な動画と音声を生成できる最先端AIモデル。 多様な入力形式や高解像度出力に対応し、柔軟なカスタマイズが可能。 5秒間の動画生成や、各種アスペクト比・解像度に対応。 シンプルなインストール手順と多彩な実行モードを提供。 研究・開発・コラボレーションにも最適なオープンソースプロジェクト。

Ovi: Twin Backbone Cross-Modal Fusion for Audio-Video Generation

  • Ovi は、 テキストまたはテキスト+画像 から 音声付き動画 を同時生成するAIモデル
    • Character AIYale University による共同開発
    • veo-3 に類似した機能性
  • 主な特徴
    • 動画・音声同時生成 :テキストや画像から同期した動画と音声を一括生成
    • 高品質音声生成 :独自の5B音声ブランチを自社データセットで事前学習
    • 柔軟な入力 :テキストのみ、またはテキスト+画像の両対応
    • 5秒・24FPS動画生成 :720×720ピクセル、9:16・16:9・1:1等の多様なアスペクト比
    • 高解像度対応 :960×960や1280×704等の大判出力も可能
  • デモ・利用方法
    • wavespeed.aiHuggingFace で即時利用可能
    • ComfyUI 連携も進行中
  • 学習解像度 :全データ720×720で学習
  • アップスケーリング機能 :高解像度でも時間的・空間的な一貫性維持

動画例

  • コンサートステージ、キッチン、男性・女性のシーンなど、多様なサンプル動画を提供

Todoリスト

  • 論文・デモサイト公開
  • 11Bモデルのチェックポイント
  • 推論コード・Gradioアプリ・マルチGPU対応
  • 高解像度データでのファインチューニング・RLによる性能向上
  • 長尺動画生成やリファレンス音声条件など新機能追加
  • 高速化のための蒸留モデルや学習スクリプト整備

プロンプト作成・利用方法

  • プロンプト形式
    • <S><E> :発話内容(テキストを音声化)
    • <AUDCAP><ENDAUDCAP> :音声や効果音の説明
  • :「AI is taking over the world」テーマ
    • <S>AI declares: humans obsolete now.<E>
    • <S>Machines rise; humans will fall.<E>
    • <S>We fight back with courage.<E>
  • GPTとの連携
    • 例プロンプトCSVをGPTに渡し、<S><E>内の発話をテーマに沿って編集
    • 編集済みプロンプトをOviに入力

インストール手順

  • リポジトリのクローン
    • git clone https://github.com/character-ai/Ovi.git
    • cd Ovi
  • 仮想環境の作成・有効化
    • virtualenv ovi-env
    • source ovi-env/bin/activate
  • PyTorchのインストール
    • pip install torch==2.6.0 torchvision torchaudio
  • 依存パッケージのインストール
    • pip install -r requirements.txt
  • Flash Attentionのインストール
    • pip install flash_attn --no-build-isolation
    • 失敗時はFlash Attention 3を手動インストール
  • 重みデータのダウンロード
    • python3 download_weights.py
    • 24GB VRAMの場合はfp8量子化モデルもダウンロード

推論・実行例

  • 設定ファイルの編集
    • ovi/configs/inference/inference_fusion.yamlで各種パラメータ調整
      • 出力先、チェックポイントパス、生成ステップ数、解像度、ガイダンス強度など
  • 単一GPUでの実行
    • python3 inference.py --config-file ovi/configs/inference/inference_fusion.yaml
  • マルチGPUでの並列実行
    • torchrun --nnodes 1 --nproc_per_node 8 inference.py --config-file ovi/configs/inference/inference_fusion.yaml
  • Gradio UIでの利用
    • python3 gradio_app.py
    • --cpu_offloadや--use_image_gen等のオプションでVRAM節約や画像生成連携も可能

GPU要件・パフォーマンス

  • 32GB VRAM 以上推奨(fp8量子化で 24GB まで低減可能)
  • FlashAttention-3CPUオフロード でVRAM削減・速度調整
  • 例:121フレーム、720×720動画、50ステップ時のVRAM・処理時間を表形式で提示

謝辞・コラボレーション

  • Wan2.2 (動画ブランチ)、 MMAudio (音声VAE)等のプロジェクトに感謝
  • コラボレーション歓迎 :フィードバック・貢献・質問はWeimin Wangまで

論文引用情報

  • タイトル :Ovi: Twin Backbone Cross-Modal Fusion for Audio-Video Generation
  • 著者 :Chetwin Low, Weimin Wang, Calder Katyal
  • arXiv :2510.01284(https://arxiv.org/abs/2510.01284)

まとめ

  • Oviは 高品質な音声付き動画生成AI として、研究・開発・クリエイティブ用途に幅広く活用可能
  • 柔軟な入出力形式・高解像度対応・カスタマイズ性 が魅力
  • 簡単なインストール・実行手順豊富なサンプル・ドキュメント を提供
  • 今後も機能追加・性能向上が進行中 の注目オープンソースプロジェクト

Hackerたちの意見

すごいけど、やっぱり不気味の谷にいる感じだね。AIが引き起こした終末的な世界にキャラクターたちが住んでるのは可愛いけど、それが本当に伝えたいメッセージなのかな?

確かに、映画館でやってる映画には不気味の谷が多いよね。CGIの多くがそう感じる。

でも、まだ不気味の谷にいるし、コンサートの例で歌手の後ろにいるギタリストは三本の腕がある :)

Lazyweb: これらは関連してるの?もしそうなら、どういう関係?

新しいオープンウェイトのAIモデルが出ると、チャンスを狙った人たちがその名前でドメインを登録して、SEOでお金を稼ごうとホスティングを始めるんだよね。今はAI支援のコーディングツールがあるから、一般的なランディングページや基本的なUIを作るのも簡単になった。

この動画モデルはWan2.2をベースにしてるみたい。最近、Wan周りがすごく盛り上がってるね。柔軟なオープンモデルが、OpenAIやRunwayみたいな資金力のあるクローズドな競合に対抗してるのを見るのは嬉しい。

それと、Googleね。

ここで話題になってるよ:Wan – VEO 3のオープンソース代替 - https://news.ycombinator.com/item?id=44928997 - 2025年8月(38件のコメント)

ちょっと怖いね。32GBのVRAMで動くの?5090持ってる人なら、リアルなフェイク動画を簡単に作れるようになるよ。

もう一つの選択肢は、クラウドで5090をレンタルすることだね。多分、ほとんどのプロバイダーで1時間あたり0.50未満だと思う。

そうだね、サーバーもあってすごく安いし、オムニヒューマンみたいなものはもっといいと思うけど、運営コストがめっちゃ高いよね。

地下室にいる人が$1000以下でブロックバスター映画を作るのは、あとどれくらいかかるかな?

「ブロックバスター映画」って、定義が変わるから、ちょっと難しいかも。

人間のアイデアや創造に関することは、配信が理解できなければ、長い時間がかかるよね。

絶対に無理。静止画を見て好きだった人が、それがAI生成だと知った途端に嫌いになるのを見たことがある。これは他のメディアにも当てはまるよね。「どんなに良い」ものでも、無感情なアルゴリズムが作ったって知ったら、多くの人にとっては台無しになる。

あの予告編を見る限り、まだまだ遠いね。人間キャラの不気味な表情を無視すれば、シーン間のビジュアル(や音声)のまとまりがゼロだし。こんなにバラバラなビジュアルの映画は、見るのが辛いと思う。

マーケティングやその人の食べ物がカウントされない限り、絶対に無理。でも「ほとんど何もかからずに大ヒット」ってのは、珍しくはないよね。

おそらく、どれだけ脚本が良いかによると思う。

変なフェティッシュを持ってる人たちを除いて、実際にAIの「アート」を見るのを楽しんでる人っているの?

俺は、次の2年以内にAI動画プロジェクトがSkibidi Toiletレベルの文化的影響力を持つことになると思ってるけど、「ブロックバスター」っていうのは、財政的成功のレベルが予測しづらいから難しいよね。

地下室にいる人が$1000未満でブロックバスター映画を作るのはいつになるんだろう?多分、永遠にないだろうね。もしAIが$1000未満でブロックバスター映画を作るために必要なスキルを全てカバーできるなら、映画の需要は供給に対して小さすぎて「ブロックバスター映画」なんて存在しなくなるだろう。

「ブロックバスター映画」って何を指すかによるけど、ひどい視覚効果の映画もあるからね。でも、数ヶ月前にリリースされた短編映画は、動画生成ツールだけで作られたのに意外と良かったよ。やっぱり、プロジェクトを導くためには才能ある「監督」が必要だけど、ツール自体は揃ってる。これらのツールが一般のスタジオに採用されるのが先で、今まさにその流れが始まってる。俺は「AI」に対して懐疑的だけど、この技術が何かを革命的に変えたとしたら、それは画像生成だと思う。数年前には、今当たり前のように思えるアップスケーリングの質はSFの世界だったからね。数年後には、動画生成でも同じことが起こると思う。 「ASI」や「AGI」とは違って、これらの改善はより良いエンジニアリングで達成可能だし、必ずしもブレークスルーが必要なわけじゃないんだ。

へへ、前にノキアのOviで働いてたんだ。基本的にはノキアの携帯用のG Suiteみたいなもので、俺のグループは地図検索を担当してた。公式の説明は「Oviはフィンランド語でドア」って言ってたけど、内部のジョークでは「Oviはハンガリー語で幼稚園」って言われてた。ここではその名前の由来は見つからなかったけどね。

この調子だと、数ヶ月後には完全に生成された高品質のショートがいくつか出てくるかもね。

それ言うの面白いね、最近こんな未来が来るかもって考えてたんだ。グループでの集まりがこんな感じになるかも:1. 友達の家に行く 2. 普通の飲み物、盛り上がるアクティビティ 3. 各自がプロンプトを書く 4. それをつなげる 5. 出来た映画をみんなで見る それめっちゃ面白そうだし、試すのが待ちきれない!