概要
- Kitten TTSは 超軽量・高品質 なテキスト読み上げ(TTS)ライブラリ
- ONNXベース でCPUのみで動作、 GPU不要
- 15M~80Mパラメータの 3種類の新モデル をリリース
- 8種類の音声、速度調整や前処理機能を搭載
- 商用サポート やカスタム音声開発にも対応
Kitten TTS v0.8 概要
- Kitten TTS はオープンソースの軽量TTSライブラリ
- ONNX 上に構築され、エッジデバイスやローカル環境での利用を想定
- 15M, 40M, 80Mパラメータ の3モデルを新たに公開
- ディスク容量25~80MB で動作、CPUのみで高品質な音声合成が可能
- 開発者プレビュー段階、API仕様は今後変更の可能性あり
主な特徴
- 超軽量設計 :モデルサイズ25MB(int8)~80MB、エッジデプロイ向け
- CPU最適化 :GPU不要、ONNX推論で高速動作
- 8種類の内蔵音声 :Bella, Jasper, Luna, Bruno, Rosie, Hugo, Kiki, Leo
- 速度調整 :speedパラメータで再生速度を変更可能
- テキスト前処理 :数値・通貨・単位などの自動展開
- 高音質出力 :24kHzサンプルレートでクリアな音声生成
利用可能なモデル一覧
- kitten-tts-mini: 80Mパラメータ, 80MB
- kitten-tts-micro: 40Mパラメータ, 41MB
- kitten-tts-nano: 15Mパラメータ, 56MB
- kitten-tts-nano (int8): 15Mパラメータ, 25MB(不具合報告あり)
デモ・オンライン体験
- Hugging Face Spacesで ブラウザ上からデモ利用 可能
- サンプル動画・音声も公開
クイックスタート
-
Python 3.8以降 が必要
-
インストール:
- pip install https://github.com/KittenML/KittenTTS/releases/download/0.8.1/kittentts-0.8.1-py3-none-any.whl
-
基本的な使い方:
- from kittentts import KittenTTS
- model = KittenTTS("KittenML/kitten-tts-mini-0.8")
- audio = model.generate("この高品質TTSモデルはGPU不要で動作します。", voice="Jasper")
- import soundfile as sf
- sf.write("output.wav", audio, 24000)
-
応用例:
- 速度調整:speed=1.2などで再生速度を変更
- ファイルへ直接保存:model.generate_to_file("こんにちは", "output.wav", voice="Bruno", speed=0.9)
- 利用可能な音声一覧:model.available_voices
APIリファレンス
-
KittenTTS(model_name, cache_dir=None)
- Hugging Face Hubからモデルをロード
- model_name:リポジトリID
- cache_dir:キャッシュ保存先
-
model.generate(text, voice, speed, clean_text)
- テキストから音声を生成(NumPy配列、24kHz)
- パラメータ:text, voice, speed, clean_text(前処理有無)
-
model.generate_to_file(text, output_path, voice, speed, sample_rate, clean_text)
- 音声ファイルとして直接保存
- パラメータ:text, output_path, voice, speed, sample_rate, clean_text
-
model.available_voices
- 利用可能な音声名リストを返却
システム要件
- 対応OS :Linux, macOS, Windows
- Python 3.8以上
- CPU動作 :GPU不要
- ディスク容量 :モデルにより25~80MB
- 仮想環境推奨 (依存関係の競合回避)
今後のロードマップ
- 推論エンジンの最適化
- モバイルSDKのリリース
- より高品質なTTSモデルの公開
- 多言語TTSへの対応
- KittenASR(音声認識)リリース予定
商用サポート・コミュニティ
- 商用利用支援、カスタム音声開発、エンタープライズライセンス提供
- 問い合わせ:info@stellonlabs.com
- コミュニティ:Discord、公式サイト(kittenml.com)、GitHub Issues
ライセンス
- Apache License 2.0 で公開
Kitten TTS 開発背景・ビジョン
- Kitten TTSは オンデバイスAI 向けの極小・高表現力TTSモデル群
- Raspberry Pi、低価格スマートフォン、ウェアラブル、ブラウザ等で動作
- GPU不要 でどこでも使えることを重視
- 14Mパラメータモデル は同規模で最高水準の表現力を実現
- モデルの多くは int8+fp16量子化、ONNXランタイム利用
- オンデバイス・クラウド間のギャップ解消 を目指す
- 近く 多言語モデル も公開予定
- 小型で実用的なAIモデル の不足が現状の課題
- 今後も オープンソースで高性能モデル を提供し、完全オンデバイスの音声エージェントやアプリ開発を支援
- フィードバック歓迎