世界を動かす技術を、日本語で。

Microsoft VibeVoice: 最前線のオープンソース音声合成モデル

概要

VibeVoiceは、テキストから長尺・多人数の会話音声を生成する新しいフレームワーク。 従来のTTSの課題であるスケーラビリティや話者一貫性、自然な会話の切り替えを解決。 低フレームレートの連続音声トークナイザーとLLMを活用し、高効率かつ高音質な音声生成を実現。 最大4人の話者による90分の音声合成が可能。 従来モデルの1~2人制限を大きく上回る性能。

VibeVoice: 長尺・多人数会話音声生成フレームワーク

  • VibeVoice は、テキストから ポッドキャスト のような表現豊かな長尺・多人数会話音声を生成するフレームワーク
  • 従来の Text-to-Speech (TTS) システムの スケーラビリティ話者一貫性、自然なターンテイク(会話の切り替え)の課題を解決
  • コア技術として、 Acoustic および Semantic の連続音声トークナイザーを 7.5 Hz という超低フレームレートで運用
  • このトークナイザーにより、 音声忠実度 を維持しつつ、長いシーケンス処理の 計算効率 を大幅向上
  • Large Language Model (LLM) でテキスト文脈と会話の流れを理解し、 next-token diffusionフレームワーク で高音質な音響詳細を生成
  • 最大 90分間最大4人 の話者による音声合成が可能
  • これにより、従来モデルの 1~2人話者制限 を大幅に超える性能を実現

技術的特徴

  • 連続音声トークナイザー
    • AcousticとSemanticの2種類を採用
    • 7.5 Hz の低フレームレートで長尺音声にも対応
  • next-token diffusionフレームワーク
    • LLMがテキスト文脈・会話フローを理解
    • diffusion headが高音質な音響情報を生成
  • スケーラビリティ
    • 90分間の長尺合成
    • 最大4人の同時話者対応
  • 従来手法との差別化
    • 1~2人制限を突破
    • 計算効率と音質の両立

注意点

  • タイムスタンプは 生成音声 から自動で取得されており、 誤差を含む可能性

Hackerたちの意見

これは明らかに高品質だけど、声、特に男性の声には、すぐにコンピュータ生成だって分かる何かがあるんだよね。オーディオの語彙が豊富じゃないから、何がそう感じさせるのかうまく言えないけど。

自分でも聞いてみたら、言いたいことがわかる気がする。声がちょっとワブルっぽくて、時々すごくmp3圧縮されたみたいに聞こえる。

自分もオーディオエンジニアじゃないけど、そのコンピュータの声は「ノコギリ波」みたいに聞こえる。理解している限りでは、基本的なモデルや技術がアンダーサンプリングしているから、音のパルスが連続していて、バズっぽい質感が出るんだよね。もっと良いモデルは滑らかな出力を出すんだ。

それをブロックリーって表現したいな。音波を視覚化すると、ピークがなくて上下にカットされて、金属的なボックスエコーを生み出しているように見える。

マイクロソフトの中で、オープンソースのコーディングエージェントを「Microsoft VibeCode」って名付けている人がいることを本当に願ってる。これが実現しますように。そうじゃなければ「Lo」って名前にして、LoがPhiと一緒に働けるようにすれば、Lo PhiでVibeコードができるよ。

マイクロソフトのマーケティングの歴史を知っていると、「Microsoft Copilot Code Generator for VSCode」みたいな名前になるか、「Zunega」みたいな名前になるかのどっちかだろうね。

天才だわ。

これらの声が非常にリアルだと称賛するコメントを読んで、すごく説得力のある声を聞くつもりでそのページに行ったんだけど、全然違った。声自体は悪くないけど、ほとんどのフレーズでイントネーションがずれていて、明らかにロボットっぽいモジュレーションがある。数年前の多くのテキスト読み上げソリューションと比べると一般的にはかなり印象的だけど、今の時代にはあまり刺激的じゃないな。YouTubeショートでよく聞くAI生成の声は、このページのサンプルのほとんどと同じくらい良いと思う。唯一印象的だったのは、英語と(中国語?)のサンプルで、あれは二つの言語を非常にスムーズに切り替えているように見えた。ただ、これは単に(1)自分が中国語に全く詳しくないから、発音を判断できなかったことと、(2)異なる文字体系があるから、モデルが異なる言語を切り替える必要があるのが非常に明確だからかもしれない。もし同じ書き方の二つの言語を切り替えていたら、そんなに簡単じゃなかったかもね。特に、上のフレーズで「simple」をどう読むのか気になるな(例えばフランス語の発音で読むべきだと思う)。それに、歌の部分は痛々しいほどひどいし、なんでそれを入れたのかすごく気になる。

このモデルが実際に得意なことの一つは、ボイスクローンだよ。自分の声の録音サンプルをボイスフォルダに入れるだけで、ちゃんと動く。

(1) 中国語には詳しくないから、その発音を判断するのは難しいな。

同意する。なぜか女性の声の方がずっと説得力があるし、男性の声は10年前の音声合成よりもほとんど良くない感じ。

これはSOTA(最先端技術)の感情表現に近いね、少なくとも女性の声は。論文の人間のスコアを信じてるよ。少なくとも俺の耳はその数字に合ってる。こういうものが公開されると、ElevenLabsがこの分野での巨大なARRリードを維持できるのか気になるね。オープンモデルに圧倒されてるのに、どうやってリードを維持し続けるのか全く見えないよ。

ElevenLabsの音声モデルは、もっと説得力があるね。

もっといいモデルがあるなら教えてほしいな。聞いてみたい。進歩を過大評価する人もいるし(逆に過小評価する人もいるけど)、どっちも進歩を妨げるべきじゃないよね。今のところ、個人的にはこれが一番いいと思ってるけど、もしかしたら見逃してるものがあるかもしれない。

良いけど、最高の無料モデルではないね。Chatterboxの方がもっとリアルで、ロボットっぽくないし、イントネーションも良い(完璧ではないけど)。

彼らの歌やバックグラウンドミュージックについてのコメント、ちょっと変だよね。学術研究はしばらくやってないけど、なんかそのコメントから「論文提出のためにバックグラウンドミュージックを消す方法がわからなかったから、これを特徴として扱うことにした」って感じがしたよ。「本当にこれが好きで、差別化要素だと思ってる」っていう雰囲気とは全然違う。

現在の最新のオープンウェイトTTSモデルのリスト(できればランキング)ってある?実際にはSTT(ASR)にもっと興味があるんだけど、そっちは選択肢がかなり限られてるんだよね。

ハンバーガーメニューのリーダーボードをクリックしてみて。

最高のTTS: VibeVoice、Chatterbox、Dia、Higgs、F5 TTS、Kokoro、Cosy Voice、XTTS-2。

そうだね: https://huggingface.co/models?pipeline_tag=text-to-speech 一般的に、そのページでトレンドになってるモデルは試す価値があるってことだよ。この分野は主観的な意見が多いから、「HFでトレンドになってるか」だけじゃなく、自分の耳で評価するのが一番だよ。でも、HFでトレンドになってないものは、あまり良くない可能性が高いね。

そう、最高だね!

男性の声は女性の声に比べてかなり劣ってて、ほぼロボットみたい。彼らのウェブサイトのサンプルは全部女性の声から始まるし、明らかにその問題を認識してるみたい。

同じことを感じたよ。男性の声はちょっと人工的に感じるね。

残念ながら、GPUが貧弱だと使えないね。古い1080でこれを動かす方法がわからなかった。古いCPUでtorch.float32を使ってVibeVoice-1.5Bを試したら、66秒の音声クリップを生成するのに832秒かかったよ。torch.bfloat16から切り替えたら、音声出力に変な音のアーティファクトも出たし。GPUが貧弱な場合、今まで試した中で一番良いTTSモデルはKokoroだね。このスレッドで他の人も言ってたけど、出力をコントロールするためにテキストに注釈を追加できないみたい。これらのモデルが本当にレベルアップするには、通常のテキストを入力として受け取り、注釈付きの出力を生成する中間ステップが必要だと思う。それがあれば、ユーザーは最終的な出力をもっとコントロールできるし、モデルが一発で全てを正しく処理するのを期待する代わりに、細かい部分を確認して調整できるようになる。

これは馬鹿げてる。macOSはずっと前からテキスト読み上げ機能を持ってて、品質も悪くないし、エネルギーや計算リソースを大量に使うモデルなんて必要なかったよ。それに、反応も即座だし、変な遅延なんてない。こんな「AI」に関するハイプ、信じられないよ、あまりにもおかしい。

オープンソースってこと?じゃあ、トレーニングデータはどこにあるの?

わお、西洋の中国訛りまでうまく真似してるね。

最近、書かれた言葉じゃなくてIPAを指定できるTTSのオプション知ってる人いる?Azureはできるけど、もっとローカルで(既存のOSの声よりも良いもの)だと、私のプロジェクトにとっては最高なんだけど。

Kokoroを使ってるよ。 https://github.com/remsky/Kokoro-FastAPI からアクセスしてる。generate_audio_from_phonemes()ってエンドポイントがあって、直接Kokoroライブラリを使いたいならこれがマッピングされてると思う。私は中国語用に使ってるけど、生成された音素はIPAにすごく似てたよ。

名前が聞き覚えあるなと思ったけど、これとは関係ないよね?もう7ヶ月も前からあるプロジェクトだし。 https://github.com/mpaepper/vibevoice