概要
VibeVoiceは、テキストから長尺・多人数の会話音声を生成する新しいフレームワーク。 従来のTTSの課題であるスケーラビリティや話者一貫性、自然な会話の切り替えを解決。 低フレームレートの連続音声トークナイザーとLLMを活用し、高効率かつ高音質な音声生成を実現。 最大4人の話者による90分の音声合成が可能。 従来モデルの1~2人制限を大きく上回る性能。
VibeVoice: 長尺・多人数会話音声生成フレームワーク
- VibeVoice は、テキストから ポッドキャスト のような表現豊かな長尺・多人数会話音声を生成するフレームワーク
- 従来の Text-to-Speech (TTS) システムの スケーラビリティ、 話者一貫性、自然なターンテイク(会話の切り替え)の課題を解決
- コア技術として、 Acoustic および Semantic の連続音声トークナイザーを 7.5 Hz という超低フレームレートで運用
- このトークナイザーにより、 音声忠実度 を維持しつつ、長いシーケンス処理の 計算効率 を大幅向上
- Large Language Model (LLM) でテキスト文脈と会話の流れを理解し、 next-token diffusionフレームワーク で高音質な音響詳細を生成
- 最大 90分間、 最大4人 の話者による音声合成が可能
- これにより、従来モデルの 1~2人話者制限 を大幅に超える性能を実現
技術的特徴
- 連続音声トークナイザー :
- AcousticとSemanticの2種類を採用
- 7.5 Hz の低フレームレートで長尺音声にも対応
- next-token diffusionフレームワーク :
- LLMがテキスト文脈・会話フローを理解
- diffusion headが高音質な音響情報を生成
- スケーラビリティ :
- 90分間の長尺合成
- 最大4人の同時話者対応
- 従来手法との差別化 :
- 1~2人制限を突破
- 計算効率と音質の両立
注意点
- タイムスタンプは 生成音声 から自動で取得されており、 誤差を含む可能性