世界を動かす技術を、日本語で。

Microsoft VibeVoice: オープンソースのフロンティア音声AI

2026年4月28日原文(github.com)

概要

  • VibeVoice は、音声AI分野における最先端の オープンソースモデル群
  • ASR (自動音声認識)および TTS (テキスト音声合成)両方をサポート
  • 長時間音声 の一括処理や 多言語対応 など、独自の技術革新を実現
  • Hugging Face Transformers との統合や、 vLLM推論 による高速化
  • 利用時の 倫理的注意事項 や制限も明示

VibeVoiceモデルファミリーの概要

  • VibeVoice は、 Text-to-Speech (TTS)Automatic Speech Recognition (ASR) の両方に対応したオープンソースAI音声モデル群
  • 連続音声トークナイザー (音響・セマンティック)を超低フレームレート(7.5Hz)で動作させ、音質を保ちつつ計算効率を大幅に向上
  • 次トークン拡散フレームワーク大規模言語モデル(LLM) を組み合わせ、文脈理解や対話の流れを保持
  • 高忠実度な音響生成 を実現するディフュージョンヘッド搭載
  • Hugging Face Transformers ライブラリから直接利用可能、プロジェクトへの統合が容易

VibeVoice-ASR:長時間音声認識モデル

  • 最大60分の音声 を一度に入力し、 話者(Who)・タイムスタンプ(When)・内容(What) を含む構造化テキストを出力
  • カスタマイズ可能なホットワード (固有名詞や専門用語)に対応し、ドメイン固有の認識精度を向上
  • 話者分離・タイムスタンプ付与・ASR を同時に実行
  • 50以上の言語 にネイティブ対応、多言語音声認識を実現
  • vLLMによる高速推論ファインチューニング用コード も公開
    • Hugging Face, Playground, 技術レポート も提供

VibeVoice-TTS:長時間・多話者テキスト音声合成

  • 最大90分 の会話・単独音声を一括生成、 最大4人の話者 に対応
  • 自然な話者のターンテイク話者一貫性 を保持
  • 感情表現や会話のダイナミクス を反映した自然な音声生成
  • 英語・中国語ほか多言語対応
  • Hugging Face, 技術論文, デモ音声 も公開

VibeVoice-Realtime-0.5B:リアルタイム音声合成

  • 0.5Bパラメータ の軽量モデルで、 ストリーミング入力長時間音声生成(約10分) に対応
  • リアルタイムTTS (初回音声レイテンシ約300ミリ秒)
  • 多言語・多様な話者スタイル も実験的に搭載

オープンソース化とコミュニティ

  • TTS/ASRコードやファインチューニング用スクリプト を順次公開
  • 一部TTSコード は、悪用事例発生により Microsoftの方針 に基づきリポジトリから削除

リスクと制限事項

  • 基盤モデル(Qwen2.5 1.5b等)由来のバイアスや誤り を引き継ぐ可能性
  • ディープフェイクや偽情報拡散 など悪用リスク
  • 法令遵守・AI利用の開示 が必須
  • 商用利用や実運用前には追加検証・開発が推奨
  • 研究・開発用途向け、責任ある利用を強調

参考リンク・リソース

  • 公式プロジェクトページ で詳細・デモ・サンプル音声を公開
  • Hugging Face, Colabノートブック, 技術レポート など多彩なリソースを提供
  • CONTRIBUTING.md で貢献ガイドラインを提示

Hackerたちの意見

これって、マイクロソフトが発表したけど、すぐにセキュリティや安全の理由で引っ込めたプロジェクトじゃない?それ以来何が変わったの?

READMEの「ニュース」セクションを見てみて。元のTTSモデルはこのリポジトリから消えちゃったけど(他の場所ではまだ見つけられるよ)、SST/ASR、ロングフォームTTS、ストリーミングTTSモデルは新しいやつだよ。

それが混乱するんだよね(少なくとも俺には)。プロジェクトが君が言ってることを含むいくつかのことをカバーしてるから。

これは新しいモデルじゃないし、結構ハルシネートするよ。それに、推論が重くて遅いし、多言語対応もイマイチ。追記:ここで言ってるのは純粋に音声からテキスト(STT)のことね。他の機能についてはよくわからない。

なんで急にこんなに注目されてるのか全然わからない。ツイッターでも話題になってるし。

これについては、マイクロソフトがリリースしたって言った時に全部カバーされてたんじゃない?

テキスト読み上げ(TTS)にはあまり良くないね。数日間試してみたけど、まず1.5Bモデルのドキュメントがない。0.5Bのリアルタイムモデルはクソだし、テキストを行ごとに変換してたら、ランダムに音楽が追加されたり、「…」みたいな特殊文字を扱えなかったりした。正直、このモデルにはかなりがっかりしてる。

おかげで午後の時間を救われたよ。

ここでかなりの時間を節約してもらったよ…リポジトリのスター外して、次に進むね。

Microsoftが遅くて独創性のない製品にクレジットをつけてるなんて、驚きだよ。実際に宣伝してることもできてないし。

こういうモデルをオープンソースって呼ぶのはやめた方がいいと思う。実際には「オープンウェイト」だし、トレーニングコードはプロプライエタリで公開されてないからね。 https://github.com/microsoft/VibeVoice/issues/102

こういうモデルをオープンソースって呼ぶのはやめた方がいい。実際には「オープンウェイト」だ。 この船はもう出航しちゃったよ。今やハッカー/クラッカーやGIFの発音と同じカテゴリーに入っちゃったね。

Hacker Newsで議論の続きを見る