概要
- Kitten TTS は超軽量なオープンソース音声合成モデル
- 15Mパラメータ で高品質なTTSを実現
- GPU不要 でRaspberry Piやスマートフォン等に対応
- 8種類の英語音声 をサポート
- pipによる簡単インストール とPythonでの利用が可能
Kitten TTS:超軽量・高品質なテキスト読み上げモデル
- Kitten TTS は、 オープンソース で提供される リアルな音声合成モデル
- パラメータ数はわずか15M で、 軽量デバイス 向けに設計
- 高品質な音声合成 が可能で、 GPU不要 の動作環境
- Raspberry Pi、低スペックスマートフォン、ウェアラブル、ブラウザ など幅広いデバイスで利用可能
- 英語テキスト の読み上げに対応し、 8種類(男性4/女性4)の音声 を選択可能
- モデルサイズは25MB未満 で、 ONNXランタイム を使用
- 量子化(int8 + fp16) により、さらに省メモリ化を実現
Kitten TTSのインストールと利用方法
- pip で簡単にインストール可能
- コマンド例:
pip install https://github.com/KittenML/KittenTTS/releases/download/0.1/kittentts-0.1.0-py3-none-any.whl
- コマンド例:
- Pythonコード例 :
- モデルのインポートと初期化
from kittentts import KittenTTS m = KittenTTS("KittenML/kitten-tts-nano-0.1") - 音声生成(例文の読み上げ)
audio = m.generate("This high quality TTS model works without a GPU", voice='expr-voice-2-f') - 利用可能な音声一覧
- 'expr-voice-2-m', 'expr-voice-2-f'
- 'expr-voice-3-m', 'expr-voice-3-f'
- 'expr-voice-4-m', 'expr-voice-4-f'
- 'expr-voice-5-m', 'expr-voice-5-f'
- 音声ファイルの保存
import soundfile as sf sf.write('output.wav', audio, 24000)
- モデルのインポートと初期化
Kitten TTS開発の背景と特徴
- 既存のオープンソースTTS は 大規模GPU が必要なものが多い現状
- クラウド型TTS は 高頻度利用時にコストが高い 課題
- Kitten TTS は エッジデバイスでの動作 を重視した設計
- 現行モデルは初期チェックポイント で、 全データの10%未満で訓練
- 今後さらなる高品質化と多言語展開 を予定
- ユーザーからのフィードバック を積極的に募集
Kitten TTSの今後とコミュニティ
- 次回リリース では、さらなる 音声品質向上 と 低遅延化 を目指す方針
- オープンソースコミュニティ との連携による発展を期待
- 軽量TTSモデル の普及による新たなアプリケーション創出を促進