概要
- Moonshine Voice はリアルタイム音声アプリ向けのオープンソースAIツールキット
- 全てオンデバイス動作 で高速・プライベート・アカウント不要
- Whisperよりも低遅延・高精度 なストリーミング音声認識を実現
- 多言語・多プラットフォーム 対応、簡単なAPIで開発可能
- ライブ音声インターフェース 構築に最適な選択肢
Moonshine Voiceとは
- Moonshine Voice は開発者向けの オープンソースAI音声認識ツールキット
- オンデバイス処理 による高速応答・プライバシー保護・APIキー不要
- ライブストリーミング最適化 でユーザー発話中に処理を進行
- 独自研究・ゼロから学習したモデル により、Whisper Large V3以上の精度も実現
- 26MBの超小型モデル から高精度モデルまでラインナップ
- Python・iOS・Android・MacOS・Linux・Windows・Raspberry Pi・IoT・ウェアラブル に対応
- 音声認識・話者識別・コマンド認識 など高レベルAPIを提供、専門知識不要
- 英語・スペイン語・中国語・日本語・韓国語・ベトナム語・ウクライナ語・アラビア語 対応
クイックスタートガイド
- Discordコミュニティ でライブサポート
- Python
pip install moonshine-voiceでインストール- マイク入力の逐次文字起こし:
python -m moonshine_voice.mic_transcriber --language en - コマンド認識:
python -m moonshine_voice.intent_recognizer
- iOS
- GitHubからサンプルをダウンロードしXcodeでTranscriberプロジェクトを開く
- Android
- GitHubからサンプルをダウンロードしAndroid StudioでTranscriberを開く
- Linux
- リポジトリをダウンロードし、CMakeでビルド・実行
- MacOS
- サンプルをダウンロードしXcodeでMicTranscriptionプロジェクトを開く
- Windows
- サンプルをダウンロードしVisual Studioでcli-transcriberプロジェクトを開く
- Pythonでモデルダウンロード、ビルド後に実行
- Raspberry Pi
- USBマイク必須、
sudo pip install --break-system-packages moonshine-voiceでインストール - 逐次文字起こし実行コマンドあり
- YouTubeチュートリアル・Pi専用サンプルも提供
- USBマイク必須、
MoonshineをWhisperより選ぶべきタイミング
- ライブ音声処理 が必要な場合に最適
- 低遅延 (200ms以下)での応答が重要なアプリケーション向け
- Whisper は常に30秒ウィンドウで処理、これが遅延・無駄な計算の原因
- Whisperはキャッシュ非対応、逐次処理で毎回全入力を再計算
- Whisperの多言語対応は限定的、特にアジア言語で精度不足
- エッジデバイスでのサポートが断片的、Moonshineは一貫したクロスプラットフォーム対応
Moonshineモデルの特長
- 任意長入力 対応、ゼロパディング不要で遅延削減
- ストリーミングキャッシュ で逐次追加音声も高速処理
- 言語特化型モデル で同サイズ・計算量でも高精度
- クロスプラットフォームライブラリ (C++コア+各言語バインディング)
- Whisper Large V3より高精度 (OpenASR leaderboardで上位)
Moonshine APIの使い方
- 高レベルAPI でライブ音声のキャプチャ・文字起こしを簡単実装
- Transcriber や IntentRecognizer オブジェクトを作成
- イベントリスナー で重要なイベント時にコールバック処理
- Python・Swift・Java・C++ など主要言語で同一インターフェース
- デバッグ・ログ・モデルダウンロード・ベンチマーク 機能も充実
Moonshine開発チームからのメッセージ
- Moonshine Voice は小規模スタートアップ(6人、月間GPU予算10万ドル未満)による開発
- Whisper Large V3 を超える低ワードエラー率・ストリーミングSTTモデルを実現
- OpenASR leaderboard でも上位、Nvidia Parakeetにも匹敵
- フィードバック・活用事例 を募集中
Moonshine Voice はライブ音声インターフェースのための最適なAI音声認識フレームワーク。 Whisperより低遅延・高精度・多言語・クロスプラットフォーム を求める開発者におすすめ。