概要
ChatterboxはResemble AI初の本格オープンソースTTSモデル。MITライセンスで公開され、ElevenLabs等の商用モデルを上回る評価。感情誇張制御など独自機能を搭載。導入・利用が簡単で、開発・商用利用にも最適。全生成音声にウォーターマーク付与。
Chatterbox TTSとは
- Resemble AIが開発した 初の本格オープンソースTTS(Text-to-Speech)モデル
- MITライセンス で自由に利用・改変が可能
- ElevenLabs等の 商用クローズドモデルと比較しても高評価
- 感情誇張制御 (exaggeration control)を初めて搭載したOSS TTS
- Hugging Face Gradioアプリ で即体験可能
- 商用利用や精度向上には 有料TTSサービス も提供
- 200ms未満の超低遅延 で安定運用が可能
主な特徴
- 最先端(SoTA)のゼロショットTTS 技術
- 0.5BパラメータのLlamaバックボーン
- 誇張/強度コントロール による多彩な表現
- アライメント情報を活用した高安定推論
- 50万時間分のクリーンデータで学習
- 全出力音声にウォーターマーク (Perth Watermarking)を埋め込み
- 簡単なボイスコンバージョン(音声変換)スクリプト を同梱
- ElevenLabsを上回るパフォーマンス
利用例・ヒント
- TTSやボイスエージェント 用途
- デフォルト(exaggeration=0.5, cfg_weight=0.5)で多くのケースに対応
- 早口話者の場合、cfg_weightを0.3程度に下げることでペース調整
- 表現力豊かな音声やドラマチックな読み上げ
- cfg_weightを0.3程度に下げ、exaggerationを0.7以上に上げる
- exaggerationを上げると話速が上がるためcfg_weightで調整
インストール方法
- pipで簡単インストール
pip install chatterbox-tts
- ソースからのインストールも可能
- conda環境推奨(Python 3.11, Debian 11で開発・テスト済み)
- 依存関係はpyproject.tomlで管理
使い方(サンプルコード)
-
基本的な音声合成
import torchaudio as ta from chatterbox.tts import ChatterboxTTS model = ChatterboxTTS.from_pretrained(device="cuda") text = "Ezreal and Jinx teamed up with Ahri, Yasuo, and Teemo to take down the enemy's Nexus in an epic late-game pentakill." wav = model.generate(text) ta.save("test-1.wav", wav, model.sr) -
別の音声プロンプトを指定して合成
AUDIO_PROMPT_PATH = "YOUR_FILE.wav" wav = model.generate(text, audio_prompt_path=AUDIO_PROMPT_PATH) ta.save("test-2.wav", wav, model.sr) - さらに詳細例はexample_tts.pyやexample_vc.pyを参照
対応言語
- 現在は英語のみ対応
技術協力・参考技術
- Cosyvoice
- Real-Time-Voice-Cloning
- HiFT-GAN
- Llama 3
- S3Tokenizer
- Perth Watermarking
責任あるAIのためのウォーターマーク
- すべての生成音声に Perth(知覚閾値)ウォーターマーク を埋め込み
- MP3圧縮や編集にも耐える 高精度な検出性能
-
ウォーターマーク抽出用スクリプト も提供
import perth import librosa AUDIO_PATH = "YOUR_FILE.wav" watermarked_audio, sr = librosa.load(AUDIO_PATH, sr=None) watermarker = perth.PerthImplicitWatermarker() watermark = watermarker.get_watermark(watermarked_audio, sample_rate=sr) print(f"Extracted watermark: {watermark}") # 出力: 0.0(非ウォーターマーク)または1.0(ウォーターマーク有)
コミュニティ・注意事項
- 公式Discord で共同開発・情報交換が可能
- 悪用禁止 (倫理的な利用を推奨)
- プロンプトデータは インターネット上の公開データ を利用
このようにChatterboxは、 高品質・高機能・オープンソース なTTSモデルとして、研究・開発・商用利用まで幅広く活用可能です。