概要
ローカル環境での リアルタイム音声アシスタント 実現は、依然として課題が多い状況。 Qwen3 Omni の公開ウェイトで完全な 音声対音声 ループを再現した事例はほぼ皆無。 現状のSOTAは ASR+LLM+TTS の組み合わせが主流。 リアルタイム・ストリーミング・バージイン対応の オープンソーススタック は発展途上。 実用的な構成例、ハードウェア要件、レイテンシ情報を以下に整理。
2026年時点のローカル音声アシスタント事情
- 完全なend-to-end音声対音声モデル のローカル実行は、まだ一般的ではない現状
- 実用例のほとんどは Streaming ASR(音声認識)+ LLM(言語モデル)+ Streaming TTS(音声合成) の分割構成
- ASR :Whisper(openai/whisper)、Faster-Whisperなど
- LLM :Qwen3 Omni、Gemma、Phi-3など(transformers、vLLM経由で実行)
- TTS :Coqui TTS、XTTS v2、Silero TTS など
- Qwen3 Omni の音声対音声機能は、リリース時点で 公式実装や完全なローカルパイプライン が未整備
- Hugging Faceなどで 音声→テキスト や テキスト→音声 は動作報告あり
- 音声→音声のストリーミングループ は再現性のあるレシピが存在しない
実現可能な“動く”構成例(2024-2026年)
- 推奨構成 (1GPU, RTX 4090/3090, 24GB VRAM以上推奨)
- マイク入力 :PyAudio / sounddevice
- ASR :Faster-Whisper(streaming対応, CTranslate2バックエンド)
- LLM :Qwen3 Omni(transformers, vLLM-omni, llama.cppなど)
- TTS :XTTS v2(streaming対応, GPUアクセラレーション可)
- 音声出力 :sounddevice / pyaudio
- ミドルウェア :Voice Assistant Framework(Mycroft、OpenVoiceOS、LeonAI等)や自作スクリプト
- バージイン(割り込み) :ASR側で音声検出し、TTS再生を即時停止・LLMへの割り込み設計が必要
実際のレイテンシ目安
- マイク→最初の音声返答 までのラグ: 1.2~2.5秒 (モデル・ハードウェア次第)
- ASR:200~400ms
- LLM:600~1200ms(Qwen3 Omni 4bit/8bit, 1GPU時)
- TTS:300~700ms(XTTS v2, GPU時, streamingで先頭音声生成)
- バージイン対応 :ASRが音声入力を検出し次第、TTSの再生を停止する制御が必要
参考リポジトリ・実装例
- OpenVoiceOS :https://github.com/OpenVoiceOS/ovos-core
- Whisper+LLM+TTSの分割構成, カスタム化しやすい
- Coqui XTTS v2 :https://github.com/coqui-ai/XTTS
- streaming TTS対応, GPUアクセラレーション, 多言語
- Faster-Whisper :https://github.com/SYSTRAN/faster-whisper
- streaming対応ASR, 高速, CTranslate2バックエンド
- Qwen3 Omni transformers :https://huggingface.co/Qwen/Qwen3-Omni
- 音声APIは未整備, テキストAPIはtransformers経由で利用可
- 自作パイプライン例 :https://github.com/roedoejet/voice-assistant-pipeline
- ASR→LLM→TTSのストリーミング連携例
“これが動いた”体験談・Tips
- Qwen3 Omniの音声対音声 は現状 公式サポート/再現例なし
- テキスト経由のパイプラインが現実的
- TTSをstreaming対応にすることで、先頭の音声を即時返せる
- ASR, TTSともにGPU対応版を選ぶこと でレイテンシ大幅短縮
- 音声割り込み(バージイン) はTTS再生制御とASRの連携が肝
- サンプル/設定例 はOpenVoiceOSやCoqui Discordコミュニティで情報交換が活発
まとめ
- 完全なend-to-end音声対音声モデル のローカル実行は、2026年でも実用レベルでは限定的
- 現実的な構成 は Streaming ASR+LLM+Streaming TTS の3段構成
- Qwen3 Omni の音声対音声ループ実装例は未発見、今後のコミュニティ発展に期待
- 1GPU(24GB VRAM) で 2秒前後の応答 は十分現実的
- バージイン対応 は自作制御が必要だが、ASR・TTSを工夫すれば実現可能
最新情報や具体的なスタック例は、OpenVoiceOSやCoquiコミュニティ、Hugging Face Discussionsを随時チェック推奨