世界を動かす技術を、日本語で。

Microsoft VibeVoice: オープンソースのフロンティア音声AI

概要

  • VibeVoice は、音声AI分野における最先端の オープンソースモデル群
  • ASR (自動音声認識)および TTS (テキスト音声合成)両方をサポート
  • 長時間音声 の一括処理や 多言語対応 など、独自の技術革新を実現
  • Hugging Face Transformers との統合や、 vLLM推論 による高速化
  • 利用時の 倫理的注意事項 や制限も明示

VibeVoiceモデルファミリーの概要

  • VibeVoice は、 Text-to-Speech (TTS)Automatic Speech Recognition (ASR) の両方に対応したオープンソースAI音声モデル群
  • 連続音声トークナイザー (音響・セマンティック)を超低フレームレート(7.5Hz)で動作させ、音質を保ちつつ計算効率を大幅に向上
  • 次トークン拡散フレームワーク大規模言語モデル(LLM) を組み合わせ、文脈理解や対話の流れを保持
  • 高忠実度な音響生成 を実現するディフュージョンヘッド搭載
  • Hugging Face Transformers ライブラリから直接利用可能、プロジェクトへの統合が容易

VibeVoice-ASR:長時間音声認識モデル

  • 最大60分の音声 を一度に入力し、 話者(Who)・タイムスタンプ(When)・内容(What) を含む構造化テキストを出力
  • カスタマイズ可能なホットワード (固有名詞や専門用語)に対応し、ドメイン固有の認識精度を向上
  • 話者分離・タイムスタンプ付与・ASR を同時に実行
  • 50以上の言語 にネイティブ対応、多言語音声認識を実現
  • vLLMによる高速推論ファインチューニング用コード も公開
    • Hugging Face, Playground, 技術レポート も提供

VibeVoice-TTS:長時間・多話者テキスト音声合成

  • 最大90分 の会話・単独音声を一括生成、 最大4人の話者 に対応
  • 自然な話者のターンテイク話者一貫性 を保持
  • 感情表現や会話のダイナミクス を反映した自然な音声生成
  • 英語・中国語ほか多言語対応
  • Hugging Face, 技術論文, デモ音声 も公開

VibeVoice-Realtime-0.5B:リアルタイム音声合成

  • 0.5Bパラメータ の軽量モデルで、 ストリーミング入力長時間音声生成(約10分) に対応
  • リアルタイムTTS (初回音声レイテンシ約300ミリ秒)
  • 多言語・多様な話者スタイル も実験的に搭載

オープンソース化とコミュニティ

  • TTS/ASRコードやファインチューニング用スクリプト を順次公開
  • 一部TTSコード は、悪用事例発生により Microsoftの方針 に基づきリポジトリから削除

リスクと制限事項

  • 基盤モデル(Qwen2.5 1.5b等)由来のバイアスや誤り を引き継ぐ可能性
  • ディープフェイクや偽情報拡散 など悪用リスク
  • 法令遵守・AI利用の開示 が必須
  • 商用利用や実運用前には追加検証・開発が推奨
  • 研究・開発用途向け、責任ある利用を強調

参考リンク・リソース

  • 公式プロジェクトページ で詳細・デモ・サンプル音声を公開
  • Hugging Face, Colabノートブック, 技術レポート など多彩なリソースを提供
  • CONTRIBUTING.md で貢献ガイドラインを提示

Hackerたちの意見

これって、マイクロソフトが発表したけど、すぐにセキュリティや安全の理由で引っ込めたプロジェクトじゃない?それ以来何が変わったの?

READMEの「ニュース」セクションを見てみて。元のTTSモデルはこのリポジトリから消えちゃったけど(他の場所ではまだ見つけられるよ)、SST/ASR、ロングフォームTTS、ストリーミングTTSモデルは新しいやつだよ。

それが混乱するんだよね(少なくとも俺には)。プロジェクトが君が言ってることを含むいくつかのことをカバーしてるから。

これは新しいモデルじゃないし、結構ハルシネートするよ。それに、推論が重くて遅いし、多言語対応もイマイチ。追記:ここで言ってるのは純粋に音声からテキスト(STT)のことね。他の機能についてはよくわからない。

なんで急にこんなに注目されてるのか全然わからない。ツイッターでも話題になってるし。

これについては、マイクロソフトがリリースしたって言った時に全部カバーされてたんじゃない?

テキスト読み上げ(TTS)にはあまり良くないね。数日間試してみたけど、まず1.5Bモデルのドキュメントがない。0.5Bのリアルタイムモデルはクソだし、テキストを行ごとに変換してたら、ランダムに音楽が追加されたり、「…」みたいな特殊文字を扱えなかったりした。正直、このモデルにはかなりがっかりしてる。

おかげで午後の時間を救われたよ。

ここでかなりの時間を節約してもらったよ…リポジトリのスター外して、次に進むね。

Microsoftが遅くて独創性のない製品にクレジットをつけてるなんて、驚きだよ。実際に宣伝してることもできてないし。

こういうモデルをオープンソースって呼ぶのはやめた方がいいと思う。実際には「オープンウェイト」だし、トレーニングコードはプロプライエタリで公開されてないからね。 https://github.com/microsoft/VibeVoice/issues/102

こういうモデルをオープンソースって呼ぶのはやめた方がいい。実際には「オープンウェイト」だ。 この船はもう出航しちゃったよ。今やハッカー/クラッカーやGIFの発音と同じカテゴリーに入っちゃったね。

そうだよね。「AI」ってマーケティング用語でほとんど何でも意味するし、「エージェンティック」も似たような感じになってきてる。あんまり変な使い方しないでほしいな。何を売りたいのか知りたいよね。昔は「クラウド」ってストレージのことだったのに、今はホスティングだけの意味になっちゃった(まだそうかもしれないけど)。それに「スマート」って言葉も、車や電話、テレビの前についてるけど、意味がバラバラだし。「オープンウェイト」ってもっと一般的に使われるべきだと思う。オープンモデルの周りにトレーニングインフラや推論インフラを構築するコミュニティも確実にあるしね。

確かに。今はフリーウェアがオープンソースって呼ばれる世界に生きてるよね。スタールマン、ごめんなさい。

少なくともMITライセンスだしね!オープンじゃないトレーニングデータにイライラするけど、制限のあるライセンスの方がもっとイライラするよ!

これについては本当に悩んでる。技術的にはわかるけど、なぜか「オープンソース」って言葉の曖昧さに問題を感じないんだよね。この技術に不慣れな人に教えるときは、「自分でダウンロードして使えるものの幅広い配列」を「オープンソース」と呼ぶ方が簡単で役立つと思うし、その後でスタールマンが正しかった理由や「フリーソフトウェア」が最初だったことについて深く話すのがいいかな。

あなたの言ってること、すごく納得できる。フリーソフトウェアとオープンソースは混同しちゃダメだね。

「オープンソース」としてリリースされてるのに、非オープンソースライセンスのモデルにはその不満を持ってる。プロジェクトが「オープンソース」と説明されてるとき、何ができるのかを知りたいんだよね。

オープンウェイトって言うのも正確じゃないかも。オープンウェイトを使ってるソフトウェアのソースはもらえるからね。もしかしたらオープンインファレンス?でも、モデルのファインチューニング用のソースコードももらえることが多いし、だからオープンソースに近いのかも。ゲームがオープンソースじゃないって言うのは、エンジンツールがオープンソースじゃないからっていうのと似てる気がするし、アセットデザインの.psdファイルを公開してないからって理由もあるよね。

デビルズアドボケイト的な意見だけど、オープンソースのMITコードを渡しても、実際にはコードを見せないこともできるよね。コードはMITライセンスのままだし、オープンソースなんだ。でも、アクセスできないだけ。とはいえ、MSが自分たちのオープンさを誤解させてるのには完全に同意するよ。全然驚きじゃないけどね。

サイバーセキュリティ研究者のケビン・ボーモントによるこのリポジトリ/製品/著者についての面白い話: https://cyberplace.social/@GossiTheDog/116454846703138243

マイクロソフトみたいな企業が「バイブ」をAI製品の言葉として使うのは面白いね。

特に「バイブコーディング」って、理解せずに急いで作ったっていうネガティブな意味もあるからややこしいよね。

それなのに、ミクロソフトって呼ばれると怒るのがさらに変だよね。マーケティングに寄りかかってるのはあっちの方なのに。

正直、彼らが「Copilot」と呼ぶ誘惑に抵抗できたことに驚いてる。

もしかして、「Via Voice」のダジャレを狙ってたのかな?90年代の呪われたIBMのSTTみたいな。

精度や機能、パフォーマンスで数年前のWhisperを圧倒するオープンウェイトモデル、まだ待ってるんだけど。

STTのオープンモデルでいろいろ進展があるのに、結果に関してはあまり進んでないのが信じられない、特に多言語対応では。

この1ヶ月、VibeVoiceのASR(音声認識)モデルをかなり使ってみたけど、Whisperやパラキート、他のモデルよりもずっと信頼性が高く、すぐに使える機能があると感じてる。モデルにダイアライゼーションが組み込まれてるのは、私にとっては大きな勝利だね。それがないと、別のモデルを動かさなきゃいけなくて、全体の処理時間がかなり増えちゃうから、VibeVoiceは信頼できる素晴らしい結果を出してくれる。大ファンだよ。

このカテゴリーでは、MistralのVoxtralの方がずっと良いと思う。しかも、webGPUで動かせるくらい小さいんだよね。https://huggingface.co/spaces/mistralai/Voxtral-Realtime-Web...

「Copilot Voice」みたいな名前にした方が良くない?

これはすごく良いモデルだけど、ウェブで動かせるの?