世界を動かす技術を、日本語で。

HNに聞く: 現在の最良のローカル/オープンな音声から音声へのセットアップは何ですか?

122日前

概要

ローカル環境での リアルタイム音声アシスタント 実現は、依然として課題が多い状況。 Qwen3 Omni の公開ウェイトで完全な 音声対音声 ループを再現した事例はほぼ皆無。 現状のSOTAは ASR+LLM+TTS の組み合わせが主流。 リアルタイム・ストリーミング・バージイン対応の オープンソーススタック は発展途上。 実用的な構成例、ハードウェア要件、レイテンシ情報を以下に整理。

2026年時点のローカル音声アシスタント事情

  • 完全なend-to-end音声対音声モデル のローカル実行は、まだ一般的ではない現状
  • 実用例のほとんどは Streaming ASR(音声認識)+ LLM(言語モデル)+ Streaming TTS(音声合成) の分割構成
    • ASR :Whisper(openai/whisper)、Faster-Whisperなど
    • LLM :Qwen3 Omni、Gemma、Phi-3など(transformers、vLLM経由で実行)
    • TTS :Coqui TTS、XTTS v2、Silero TTS など
  • Qwen3 Omni の音声対音声機能は、リリース時点で 公式実装や完全なローカルパイプライン が未整備
    • Hugging Faceなどで 音声→テキストテキスト→音声 は動作報告あり
    • 音声→音声のストリーミングループ は再現性のあるレシピが存在しない

実現可能な“動く”構成例(2024-2026年)

  • 推奨構成 (1GPU, RTX 4090/3090, 24GB VRAM以上推奨)
    • マイク入力 :PyAudio / sounddevice
    • ASR :Faster-Whisper(streaming対応, CTranslate2バックエンド)
    • LLM :Qwen3 Omni(transformers, vLLM-omni, llama.cppなど)
    • TTS :XTTS v2(streaming対応, GPUアクセラレーション可)
    • 音声出力 :sounddevice / pyaudio
  • ミドルウェア :Voice Assistant Framework(Mycroft、OpenVoiceOS、LeonAI等)や自作スクリプト
  • バージイン(割り込み) :ASR側で音声検出し、TTS再生を即時停止・LLMへの割り込み設計が必要

実際のレイテンシ目安

  • マイク→最初の音声返答 までのラグ: 1.2~2.5秒 (モデル・ハードウェア次第)
    • ASR:200~400ms
    • LLM:600~1200ms(Qwen3 Omni 4bit/8bit, 1GPU時)
    • TTS:300~700ms(XTTS v2, GPU時, streamingで先頭音声生成)
  • バージイン対応 :ASRが音声入力を検出し次第、TTSの再生を停止する制御が必要

参考リポジトリ・実装例

  • OpenVoiceOS :https://github.com/OpenVoiceOS/ovos-core
    • Whisper+LLM+TTSの分割構成, カスタム化しやすい
  • Coqui XTTS v2 :https://github.com/coqui-ai/XTTS
    • streaming TTS対応, GPUアクセラレーション, 多言語
  • Faster-Whisper :https://github.com/SYSTRAN/faster-whisper
    • streaming対応ASR, 高速, CTranslate2バックエンド
  • Qwen3 Omni transformers :https://huggingface.co/Qwen/Qwen3-Omni
    • 音声APIは未整備, テキストAPIはtransformers経由で利用可
  • 自作パイプライン例 :https://github.com/roedoejet/voice-assistant-pipeline
    • ASR→LLM→TTSのストリーミング連携例

“これが動いた”体験談・Tips

  • Qwen3 Omniの音声対音声 は現状 公式サポート/再現例なし
    • テキスト経由のパイプラインが現実的
  • TTSをstreaming対応にすることで、先頭の音声を即時返せる
  • ASR, TTSともにGPU対応版を選ぶこと でレイテンシ大幅短縮
  • 音声割り込み(バージイン) はTTS再生制御とASRの連携が肝
  • サンプル/設定例 はOpenVoiceOSやCoqui Discordコミュニティで情報交換が活発

まとめ

  • 完全なend-to-end音声対音声モデル のローカル実行は、2026年でも実用レベルでは限定的
  • 現実的な構成Streaming ASR+LLM+Streaming TTS の3段構成
  • Qwen3 Omni の音声対音声ループ実装例は未発見、今後のコミュニティ発展に期待
  • 1GPU(24GB VRAM)2秒前後の応答 は十分現実的
  • バージイン対応 は自作制御が必要だが、ASR・TTSを工夫すれば実現可能

最新情報や具体的なスタック例は、OpenVoiceOSやCoquiコミュニティ、Hugging Face Discussionsを随時チェック推奨

Hackerたちの意見

新しいNvidiaのモデルをチェックしてみて!: https://research.nvidia.com/labs/adlr/personaplex/ デュアルチャネルの入出力があって、ライセンスもかなり緩いよ。

おお、確かに面白そう!ありがとう!

これをシェアしてくれてありがとう!遊んでみるリストに入れておくね。私はこの技術の専門家じゃないけど、音声のバックグラウンドがあるんだ。最近、ローカルマシンでストリーミングの音声認識(Whisperを使って)や音声合成(その時はKokoroを使って)を試してた。自分のビルドで一番難しかったのは、推論のバッチサイズを調整することだった。音声認識は200msのバッチサイズまでうまく動かせたよ。基本的なローカル合意アルゴリズムも実装したけど、それでもすごく速かった(推論時間は10-20msくらいだったと思う)。要するに、制限されるのは最小バッチサイズで、推論時間じゃないんだ。これが元の投稿で提案されている「秘密のソース」かもしれないね。上記のユースケースでは、OPがトークンを素早く生成できれば、TTSはボトルネックにはならないと思う。こんな風にプロセスの各部分のハンドオフを処理できるラップモデルは本当に役立ちそうだし、どう動くのか見るのが楽しみだな。みんながこれを試して成功したら教えてね。

あの宇宙の緊急事態の例、めっちゃ笑ったわ。

TTSの部分はこちらだよ: https://github.com/supertone-inc/supertonic

ちょっといじる必要があるけど、pipecatがいいと思うよ。好きなSTT/LLM/TTSを接続して使えるし、ローカルモデルもサポートしてる。ただ、そのモデルを手に入れるのは自分次第だけどね。ローカルインストール用に事前設定されたターンキーのセットアップがあって、ボタンを押すだけで使えるかはわからないな。聞いたところによると、E2Eの音声から音声モデルはまだあまり強くないみたい。gpt-realtimeからはあまり良い結果が出なかったし、それはプロプライエタリモデルだから、オープンソースはちょっと遅れてるんじゃないかな。

うん、今pipecatで遊んでるところだよ。ASR + LLM + TTSパイプラインと、音声からテキスト(ultravox) + TTSの組み合わせも試してるけど、ローカルの音声から音声のセットアップはまだ成功してないんだ。

接着剤でつなげたパイプラインがしばらくは主流になると思う。中間のテキスト層が構造的なもので、単なる副産物じゃないからね。もしテキストを落としちゃったら、純粋なE2EモデルではRAGコンテキストを簡単に注入したり、複雑なツールの使い方を扱う能力を失っちゃう。最近エージェントのワークフローを作ってるんだけど、そのテキストの状態をLangGraphみたいなものに渡すのが、論理を確実にコントロールする唯一の方法なんだ。これがないと、バックエンドではほぼ盲目的に動いてるようなもんだよ。

ちょっと脱線するけど、これらのインターフェースにはどんなハードウェアを使ってるの?エコーやGoogle Home、HomePodと同じくらいの性能を持つ良いアレイマイクはある?

ローカルモードで https://spokenly.app/ を使ってるんだけど、これが無料でめっちゃいい感じ。いろんなモデルに対応してて、WhisperやParakeetも使えるよ。今は主にデスクトップでParakeet v3を使ってるけど、ちょっとエラーが多いかな。ただ、すごく速いんだよね。Distil-Whisper Large V3.5と交互に使ってるけど、こっちはちょっと遅い。iOSでも同じアプリを使ってて、Appleの音声モデルがParakeetやWhisperよりも自分には合ってるみたい。Appleモデルの欠点は、iOS/Mac 26以上が必要なこと。MacをTahoeにアップデートするのは面倒でやってないけど。どちらのモデルも自分の環境(Mac M1、iPhone 17 Pro)ではすぐに動くよ。編集:あ、今気づいたけど、音声から音声へのやつ探してたんだね。うっかり寝ぼけてたわ。

ああ、ローカル専用の音声アシスタントがあったら最高だね。誰か実際の使い方を教えてくれないかな?GPUを200Wでずっと動かしてウェイクワードを探してるの?それとも、作業してるマシンで動かしてるの?ヘッドセットのマイクから拾ってるの?それともUSBスピーカーフォンみたいな感じ?Alexaの脱獄や代替ファームウェアがあって、GPUに隠れて動かすことができるのかな?

ウェイクワードは一般的にパイプラインの早い段階で処理されるよ。だから、例えばESP32で音声をキャプチャすると、uCがウェイクワードを監視するんだ。PCM/i2Sを出力するマイクを使えば、マイクのADCやDSPが内部で処理してくれるものもあるよ。

Home Assistantには完全にローカルな音声アシスタント体験があって、すごくプラグイン可能でカスタマイズもできるよ。STTには速いWhisperモデルを使ってて、TTSにはPiperを使ってるみたい。Raspberry Pi(理想はN100+)で動かせるし、マイクやスピーカーの部分は自分で作るか、既製品を買えばすごくうまくいくよ。 https://www.home-assistant.io/voice-pe/

残念ながら、HAのインストールなしで彼らのハードウェアを動かす方法がわからなかった。もし誰かプロトコルの仕組みについて情報があったら教えてほしいな。Wyomingのドキュメントをオンラインで見たけど、サーバーを見つける方法すらわからなかったし、ESPhomeファームウェアもあまりヒントをくれなかった。

Nvidiaの音声モデルを使ったストリーミングASR + LLM + ストリーミングTTSのセットアップを作ってるよ。Nemotron ASRとMagpie TTSを使って、全てをつなぐためにPipecatを使って、好きなLLMを追加してる。Magpieモデルは英語だけだから、Canaryモデルを使ってスペイン語のサポートも追加したけど、すごくうまくいってる。作業はPipecatのリポジトリをフォークして、自分が使いやすいように修正したもの(サーバーとクライアント用のDocker Compose)で、Canaryモデルを使ってスペイン語のサポートを追加し、Nvidia Ampereサポートも追加して3090で動かせるようにした。使い道は、スペイン語を学んでいる彼女の会話相手で、すごくうまくいってるよ。LLMにはMistral-Small-3.2-24B-Instruct-2506-Q4_K_S.ggufを選んだ。 https://github.com/nsbk/nemotron-january-2026

これは厳密には音声から音声へのものではないけど、Claude Codeや他のCLIエージェントと作業する時に結構好きなんだ。STTにはHandy [1](オープンソース)を使ってて、Parakeet V3で驚くほど速く、ほぼ瞬時に文字起こしができる。大きいモデルに比べて少し精度が落ちるけど、AIと話してる時にはあまり関係ない。いつもAIに理解したことを再確認してもらって、きれいに構成されたバージョンを返してくれるから、理解を確認するのに役立つし、CLIエージェントが話を逸れないようにもしてくれる。TTSにはPocket-TTS [2]を使ってて、パラメータはたった100Mなのに、素晴らしい音声品質(英語のみ)。これを基にClaude Code用の音声プラグインを作ったから、CCが止まるたびに短い更新を話してくれる。非ブロッキングのストップフックを使って、ヘッドレスエージェントを呼び出して1/2文の要約を作るんだ。意外と役立ってるよ。話し方のスタイルをカスタマイズしたり、自分の雰囲気を反映させたりするのも楽しい。音声プラグインにはコントロール用のコマンドがあるよ:/voice:speak stop /voice:speak azelma(声を変える) /voice:speak [1] Handy https://github.com/cjpais/Handy [2] Pocket-TTS https://github.com/kyutai-labs/pocket-tts [3] Claude Code用の音声プラグイン:https://github.com/pchalasani/claude-code-tools?tab=readme-o...

こういう投稿があるから、毎日HNを訪れてるんだよね!!!知識を共有してくれてありがとう;あなたの音声プラグインを試すのが待ちきれないよ。

先日、Nvidiaのモデルを使って単一GPUで低遅延のエンドツーエンドを実現した素晴らしい投稿があったよ。 Discussion: https://news.ycombinator.com/item?id=46528045 Article: https://www.daily.co/blog/building-voice-agents-with-nvidia-...