HNに聞く: 現在の最良のローカル/オープンな音声から音声へのセットアップは何ですか？

2026年1月23日

概要

ローカル環境での リアルタイム音声アシスタント 実現は、依然として課題が多い状況。 Qwen3 Omni の公開ウェイトで完全な 音声対音声 ループを再現した事例はほぼ皆無。現状のSOTAは ASR+LLM+TTS の組み合わせが主流。リアルタイム・ストリーミング・バージイン対応の オープンソーススタック は発展途上。実用的な構成例、ハードウェア要件、レイテンシ情報を以下に整理。

2026年時点のローカル音声アシスタント事情

完全なend-to-end音声対音声モデル のローカル実行は、まだ一般的ではない現状
実用例のほとんどは Streaming ASR（音声認識）＋ LLM（言語モデル）＋ Streaming TTS（音声合成） の分割構成
- ASR ：Whisper（openai/whisper）、Faster-Whisperなど
- LLM ：Qwen3 Omni、Gemma、Phi-3など（transformers、vLLM経由で実行）
- TTS ：Coqui TTS、XTTS v2、Silero TTS など
Qwen3 Omni の音声対音声機能は、リリース時点で 公式実装や完全なローカルパイプライン が未整備
- Hugging Faceなどで 音声→テキスト や テキスト→音声 は動作報告あり
- 音声→音声のストリーミングループ は再現性のあるレシピが存在しない

実現可能な“動く”構成例（2024-2026年）

推奨構成 （1GPU, RTX 4090/3090, 24GB VRAM以上推奨）
- マイク入力 ：PyAudio / sounddevice
- ASR ：Faster-Whisper（streaming対応, CTranslate2バックエンド）
- LLM ：Qwen3 Omni（transformers, vLLM-omni, llama.cppなど）
- TTS ：XTTS v2（streaming対応, GPUアクセラレーション可）
- 音声出力 ：sounddevice / pyaudio
ミドルウェア ：Voice Assistant Framework（Mycroft、OpenVoiceOS、LeonAI等）や自作スクリプト
バージイン（割り込み） ：ASR側で音声検出し、TTS再生を即時停止・LLMへの割り込み設計が必要

実際のレイテンシ目安

マイク→最初の音声返答 までのラグ： 1.2～2.5秒 （モデル・ハードウェア次第）
- ASR：200～400ms
- LLM：600～1200ms（Qwen3 Omni 4bit/8bit, 1GPU時）
- TTS：300～700ms（XTTS v2, GPU時, streamingで先頭音声生成）
バージイン対応 ：ASRが音声入力を検出し次第、TTSの再生を停止する制御が必要

参考リポジトリ・実装例

OpenVoiceOS ：https://github.com/OpenVoiceOS/ovos-core
- Whisper＋LLM＋TTSの分割構成, カスタム化しやすい
Coqui XTTS v2 ：https://github.com/coqui-ai/XTTS
- streaming TTS対応, GPUアクセラレーション, 多言語
Faster-Whisper ：https://github.com/SYSTRAN/faster-whisper
- streaming対応ASR, 高速, CTranslate2バックエンド
Qwen3 Omni transformers ：https://huggingface.co/Qwen/Qwen3-Omni
- 音声APIは未整備, テキストAPIはtransformers経由で利用可
自作パイプライン例 ：https://github.com/roedoejet/voice-assistant-pipeline
- ASR→LLM→TTSのストリーミング連携例

“これが動いた”体験談・Tips

Qwen3 Omniの音声対音声 は現状 公式サポート/再現例なし
- テキスト経由のパイプラインが現実的
TTSをstreaming対応にすることで、先頭の音声を即時返せる
ASR, TTSともにGPU対応版を選ぶこと でレイテンシ大幅短縮
音声割り込み（バージイン） はTTS再生制御とASRの連携が肝
サンプル/設定例 はOpenVoiceOSやCoqui Discordコミュニティで情報交換が活発

まとめ

完全なend-to-end音声対音声モデル のローカル実行は、2026年でも実用レベルでは限定的
現実的な構成 は Streaming ASR＋LLM＋Streaming TTS の3段構成
Qwen3 Omni の音声対音声ループ実装例は未発見、今後のコミュニティ発展に期待
1GPU（24GB VRAM） で 2秒前後の応答 は十分現実的
バージイン対応 は自作制御が必要だが、ASR・TTSを工夫すれば実現可能

最新情報や具体的なスタック例は、OpenVoiceOSやCoquiコミュニティ、Hugging Face Discussionsを随時チェック推奨

Hackerたちの意見

新しいNvidiaのモデルをチェックしてみて！: https://research.nvidia.com/labs/adlr/personaplex/ デュアルチャネルの入出力があって、ライセンスもかなり緩いよ。

└

おお、確かに面白そう！ありがとう！

└

これをシェアしてくれてありがとう！遊んでみるリストに入れておくね。私はこの技術の専門家じゃないけど、音声のバックグラウンドがあるんだ。最近、ローカルマシンでストリーミングの音声認識（Whisperを使って）や音声合成（その時はKokoroを使って）を試してた。自分のビルドで一番難しかったのは、推論のバッチサイズを調整することだった。音声認識は200msのバッチサイズまでうまく動かせたよ。基本的なローカル合意アルゴリズムも実装したけど、それでもすごく速かった（推論時間は10-20msくらいだったと思う）。要するに、制限されるのは最小バッチサイズで、推論時間じゃないんだ。これが元の投稿で提案されている「秘密のソース」かもしれないね。上記のユースケースでは、OPがトークンを素早く生成できれば、TTSはボトルネックにはならないと思う。こんな風にプロセスの各部分のハンドオフを処理できるラップモデルは本当に役立ちそうだし、どう動くのか見るのが楽しみだな。みんながこれを試して成功したら教えてね。

└

あの宇宙の緊急事態の例、めっちゃ笑ったわ。

TTSの部分はこちらだよ: https://github.com/supertone-inc/supertonic

ちょっといじる必要があるけど、pipecatがいいと思うよ。好きなSTT/LLM/TTSを接続して使えるし、ローカルモデルもサポートしてる。ただ、そのモデルを手に入れるのは自分次第だけどね。ローカルインストール用に事前設定されたターンキーのセットアップがあって、ボタンを押すだけで使えるかはわからないな。聞いたところによると、E2Eの音声から音声モデルはまだあまり強くないみたい。gpt-realtimeからはあまり良い結果が出なかったし、それはプロプライエタリモデルだから、オープンソースはちょっと遅れてるんじゃないかな。

└

うん、今pipecatで遊んでるところだよ。ASR + LLM + TTSパイプラインと、音声からテキスト（ultravox） + TTSの組み合わせも試してるけど、ローカルの音声から音声のセットアップはまだ成功してないんだ。

└

接着剤でつなげたパイプラインがしばらくは主流になると思う。中間のテキスト層が構造的なもので、単なる副産物じゃないからね。もしテキストを落としちゃったら、純粋なE2EモデルではRAGコンテキストを簡単に注入したり、複雑なツールの使い方を扱う能力を失っちゃう。最近エージェントのワークフローを作ってるんだけど、そのテキストの状態をLangGraphみたいなものに渡すのが、論理を確実にコントロールする唯一の方法なんだ。これがないと、バックエンドではほぼ盲目的に動いてるようなもんだよ。

ちょっと脱線するけど、これらのインターフェースにはどんなハードウェアを使ってるの？エコーやGoogle Home、HomePodと同じくらいの性能を持つ良いアレイマイクはある？

ローカルモードで https://spokenly.app/ を使ってるんだけど、これが無料でめっちゃいい感じ。いろんなモデルに対応してて、WhisperやParakeetも使えるよ。今は主にデスクトップでParakeet v3を使ってるけど、ちょっとエラーが多いかな。ただ、すごく速いんだよね。Distil-Whisper Large V3.5と交互に使ってるけど、こっちはちょっと遅い。iOSでも同じアプリを使ってて、Appleの音声モデルがParakeetやWhisperよりも自分には合ってるみたい。Appleモデルの欠点は、iOS/Mac 26以上が必要なこと。MacをTahoeにアップデートするのは面倒でやってないけど。どちらのモデルも自分の環境（Mac M1、iPhone 17 Pro）ではすぐに動くよ。編集：あ、今気づいたけど、音声から音声へのやつ探してたんだね。うっかり寝ぼけてたわ。

ああ、ローカル専用の音声アシスタントがあったら最高だね。誰か実際の使い方を教えてくれないかな？GPUを200Wでずっと動かしてウェイクワードを探してるの？それとも、作業してるマシンで動かしてるの？ヘッドセットのマイクから拾ってるの？それともUSBスピーカーフォンみたいな感じ？Alexaの脱獄や代替ファームウェアがあって、GPUに隠れて動かすことができるのかな？

└

ウェイクワードは一般的にパイプラインの早い段階で処理されるよ。だから、例えばESP32で音声をキャプチャすると、uCがウェイクワードを監視するんだ。PCM/i2Sを出力するマイクを使えば、マイクのADCやDSPが内部で処理してくれるものもあるよ。

Hacker Newsで議論の続きを見る

ハクソク