Microsoft VibeVoice: 最前線のオープンソース音声合成モデル

2025年9月3日原文(microsoft.github.io)

概要

VibeVoiceは、テキストから長尺・多人数の会話音声を生成する新しいフレームワーク。従来のTTSの課題であるスケーラビリティや話者一貫性、自然な会話の切り替えを解決。低フレームレートの連続音声トークナイザーとLLMを活用し、高効率かつ高音質な音声生成を実現。最大4人の話者による90分の音声合成が可能。従来モデルの1～2人制限を大きく上回る性能。

VibeVoice: 長尺・多人数会話音声生成フレームワーク

VibeVoice は、テキストから ポッドキャスト のような表現豊かな長尺・多人数会話音声を生成するフレームワーク
従来の Text-to-Speech (TTS) システムの スケーラビリティ、 話者一貫性、自然なターンテイク（会話の切り替え）の課題を解決
コア技術として、 Acoustic および Semantic の連続音声トークナイザーを 7.5 Hz という超低フレームレートで運用
このトークナイザーにより、 音声忠実度 を維持しつつ、長いシーケンス処理の 計算効率 を大幅向上
Large Language Model (LLM) でテキスト文脈と会話の流れを理解し、 next-token diffusionフレームワーク で高音質な音響詳細を生成
最大 90分間、 最大4人 の話者による音声合成が可能
これにより、従来モデルの 1～2人話者制限 を大幅に超える性能を実現

技術的特徴

連続音声トークナイザー ：
- AcousticとSemanticの2種類を採用
- 7.5 Hz の低フレームレートで長尺音声にも対応
next-token diffusionフレームワーク ：
- LLMがテキスト文脈・会話フローを理解
- diffusion headが高音質な音響情報を生成
スケーラビリティ ：
- 90分間の長尺合成
- 最大4人の同時話者対応
従来手法との差別化 ：
- 1～2人制限を突破
- 計算効率と音質の両立

注意点

タイムスタンプは 生成音声 から自動で取得されており、 誤差を含む可能性

Hackerたちの意見

これは明らかに高品質だけど、声、特に男性の声には、すぐにコンピュータ生成だって分かる何かがあるんだよね。オーディオの語彙が豊富じゃないから、何がそう感じさせるのかうまく言えないけど。

└

自分でも聞いてみたら、言いたいことがわかる気がする。声がちょっとワブルっぽくて、時々すごくmp3圧縮されたみたいに聞こえる。

└

自分もオーディオエンジニアじゃないけど、そのコンピュータの声は「ノコギリ波」みたいに聞こえる。理解している限りでは、基本的なモデルや技術がアンダーサンプリングしているから、音のパルスが連続していて、バズっぽい質感が出るんだよね。もっと良いモデルは滑らかな出力を出すんだ。

└

それをブロックリーって表現したいな。音波を視覚化すると、ピークがなくて上下にカットされて、金属的なボックスエコーを生み出しているように見える。

マイクロソフトの中で、オープンソースのコーディングエージェントを「Microsoft VibeCode」って名付けている人がいることを本当に願ってる。これが実現しますように。そうじゃなければ「Lo」って名前にして、LoがPhiと一緒に働けるようにすれば、Lo PhiでVibeコードができるよ。

└

マイクロソフトのマーケティングの歴史を知っていると、「Microsoft Copilot Code Generator for VSCode」みたいな名前になるか、「Zunega」みたいな名前になるかのどっちかだろうね。

└

天才だわ。

これらの声が非常にリアルだと称賛するコメントを読んで、すごく説得力のある声を聞くつもりでそのページに行ったんだけど、全然違った。声自体は悪くないけど、ほとんどのフレーズでイントネーションがずれていて、明らかにロボットっぽいモジュレーションがある。数年前の多くのテキスト読み上げソリューションと比べると一般的にはかなり印象的だけど、今の時代にはあまり刺激的じゃないな。YouTubeショートでよく聞くAI生成の声は、このページのサンプルのほとんどと同じくらい良いと思う。唯一印象的だったのは、英語と（中国語？）のサンプルで、あれは二つの言語を非常にスムーズに切り替えているように見えた。ただ、これは単に（1）自分が中国語に全く詳しくないから、発音を判断できなかったことと、（2）異なる文字体系があるから、モデルが異なる言語を切り替える必要があるのが非常に明確だからかもしれない。もし同じ書き方の二つの言語を切り替えていたら、そんなに簡単じゃなかったかもね。特に、上のフレーズで「simple」をどう読むのか気になるな（例えばフランス語の発音で読むべきだと思う）。それに、歌の部分は痛々しいほどひどいし、なんでそれを入れたのかすごく気になる。

└

このモデルが実際に得意なことの一つは、ボイスクローンだよ。自分の声の録音サンプルをボイスフォルダに入れるだけで、ちゃんと動く。

└

(1) 中国語には詳しくないから、その発音を判断するのは難しいな。

└

同意する。なぜか女性の声の方がずっと説得力があるし、男性の声は10年前の音声合成よりもほとんど良くない感じ。

└

これはSOTA（最先端技術）の感情表現に近いね、少なくとも女性の声は。論文の人間のスコアを信じてるよ。少なくとも俺の耳はその数字に合ってる。こういうものが公開されると、ElevenLabsがこの分野での巨大なARRリードを維持できるのか気になるね。オープンモデルに圧倒されてるのに、どうやってリードを維持し続けるのか全く見えないよ。

Hacker Newsで議論の続きを見る

ハクソク

Microsoft VibeVoice: 最前線のオープンソース音声合成モデル

概要

VibeVoice: 長尺・多人数会話音声生成フレームワーク

技術的特徴

注意点

Hackerたちの意見