世界を動かす技術を、日本語で。

Show HN: 「Wispr Flow」、「Superwhisper」、および「Monologue」の無料代替品

概要

FreeFlow は、 Wispr FlowSuperwhisperMonologue の無料・オープンソース代替アプリ。 Mac 全機種対応、 Groq API を活用した高精度な音声文字起こし機能。 プライバシー重視設計 で、データ保存なし。 Deep Context 機能により、文脈に応じた適切な変換を実現。 MITライセンス で自由に利用・改変可能。

FreeFlow:AI音声文字起こしアプリの無料・OSS代替

  • Wispr FlowSuperwhisperMonologue の有料サービス(月額約$10)に対する無料・オープンソースアプリ
  • FreeFlow.dmg をダウンロードするだけで、 Apple Silicon および Intel Mac 両方に対応
  • Groq.com で無料APIキーを取得し、アプリに設定
  • Fnキー長押し で録音開始、話した内容がそのままテキストフィールドに自動貼り付け
  • 文脈認識機能(Deep Context) 搭載
    • 返信メールの場合、相手の名前を正確に認識・スペルミス防止
    • ターミナルや他アプリへの入力時も適切に変換
  • サーバーレス構成 により、データ保存・保持なし
    • プライバシー保護 を重視
    • 外部に送信されるのは Groq API へのリクエストのみ
      • 音声認識と文脈処理(LLM)用

FAQ:Groq採用理由とローカルモデルの課題

  • Groq API利用 の理由
    • ローカル音声認識モデル+ローカルLLMでは 処理時間が5-10秒 かかり、UXに不向き
    • バッテリー消費の懸念もあり
    • 将来的にはローカルモデル対応も検討

ライセンス

  • MITライセンス 採用
    • 商用利用・改変・再配布が自由
    • コミュニティでの発展が期待される体制

Hackerたちの意見

そういうツールに興味がある人が多いみたいだね。ローカルモデルが優れてるから、APIのトランスクリプションにはあまり興味ないんだ。自分は、すべてをローカルで管理して完全にオープンソースな https://github.com/bwarzecha/Axii を作ったよ。どんな会社でも簡単に使えるし、データはどこにも送られないから安心。

macOS用のオフラインで動くソフト、VoiceInkってのもあるよ。groqや外部AIは必要ないんだ。 https://github.com/Beingpax/VoiceInk

+1、パラキートモデルに切り替えたら体験がかなり良くなったよ。これをデフォルトにすべきだね。

私もお気に入りだよ。パラキートモデルを使ってる。

https://usetalkie.com - Parakeetはすごく速くて、開発者向けに作られてるね。

今朝これを探してて、結局 https://handy.computer/ に落ち着いたよ。

このスレッドでHandyのことを知ったばかりだけど、すごく良さそうだね!FreeFlowとHandyの一番の違いは、FreeFlowがMonologueが言うところの「ディープコンテキスト」を実装してるところだと思う。つまり、現在開いているウィンドウのコンテキストを使って生のトランスクリプションを後処理するんだ。これで、メールに返信してるときに名前のスペルミスを直したり、技術用語のスペルを正確にしたりできる。FreeFlowの元々の希望は、Handyのようにすべてローカルモデルを使うことだったけど、後処理のステップがあるせいで、パイプラインが5〜10秒かかるようになっちゃったんだ。Groqだと1秒未満なのに。

うん、私もHandy使ってるよ。Nvidia Parakeet TDT2を使ったローカルトランスクリプションをサポートしてて、めちゃくちゃ速くて正確なんだ。後処理には無料のAIスタジオAPIを使ってgemini 2.5 flash liteも使ってるよ(後処理はオプションで、ローカルホストのLMも使える)。

Handyも使ってるけど、めっちゃ好きだよ。

Handy最高!最近、肩の軽い手術を受けて、約1ヶ月スリングをつけてたんだけど、メモを取るためにHandyを試してみたんだ。ほとんどのテキスト読み上げの用途に対して、すごくよく機能するよ。同音異義語もバッチリ。

Handyは本当に素晴らしいし、Parakeet V3にも対応してる。これで、パソコンでの「タイピング」の仕方が変わり始めてる。

Handyの大ファンで、クロスプラットフォームでもあるんだ。Parakeet V3は、AIと話すときに素早くて十分に正確なトランスクリプションを提供してくれる。ちょっと吃音の問題はあるけどね。主にコーディングエージェントと話すときに使ってる。でも数週間前にHNでHexを教えてもらって、これもParakeet V3に対応してて、なんとHandyよりも速いんだ!これはMacOS専用のネイティブアプリで、CoreML/Neural Engineを活用して超高速なトランスクリプションを実現してる。長い話も1秒以内でトランスクリプトされるよ!今ではMacOS用の完全ローカルSTTのお気に入りだよ:https://github.com/kitlangton/Hex

おすすめありがとう!一番小さいモデル(Moonshine Base @ 58MB)を選んだんだけど、英語のトランスクリプションにはすごく良い感じ。意外にも、推奨されてるけど重いモデル(Parakeet V3 @ 478 MB)よりも、出力が良かった(少なくとも自分はそのバージョンが好きだった)。

Handyは本当に素晴らしいよ、Parakeet v2と組み合わせるとさらに最高!

Handyは素晴らしい!でも、ちょっと遅延が気になるかな。スレッドの半分の人たちと同じように、自分で作ったけど、もう少し速度に重点を置いてるよ。 https://usetalkie.com

Handyは試してないけど、Whisper-Keyを使ってる。めっちゃシンプルで、ローカルの単一ファイル実行可能(ポータブルだからインストールもゼロ)だよ。これはWindows用だけど、Mac版はどうかわからない。[1] https://github.com/PinW/whisper-key-local

似たような機能を持つアプリを探してる人が多いから、MacWhisperにとても満足してるよ。パラキートがあって、長い独り言をほぼ瞬時にトランスクリプションしてくれる。すべてローカルでね。追記:あ、でもパラキートは無料では使えないと思う。でも、単発購入する価値は十分にあるアプリだよ!

実は、最初はMacWhisperを音声からテキストへの変換のために買ったんだ。機械に話しかけるのがちょっと変な感じで好きだったんだけど、実際にはそれがあまり好きじゃないことに気づいた。でも、買ってよかった一番の理由は、会議の完全なローカル転写機能なんだ。ZoomやTeamsを立ち上げると、録音を始めるためのボタンがポップアップしてくるのが便利。これで会議を安全に録音して、ローカルで暗号化して、内部メモを取ることができる。全部を曖昧なクラウドプラットフォームに渡さずに済むのがいいね。以前はHyprnoteを使って会議を録音してたけど、今でもバックアップとして使ってる。あれは素晴らしい無料オプションなんだ。でも、MacWhisperの録音を促す機能と、より良い転写があって、すごく快適な体験になってるよ。

自分のSTT(音声認識)をローカルモデルで作って、カスタマイズしたいなら、Claudeにこのワークフローで作ってもらうように頼んでみて。F12 → soxで録音 → temp.wav → faster-whisper → pbcopy → notify-sendで状況を把握 https://github.com/sathish316/soupawhisper 同じようなワークフローのLinux版を見つけて、それをフォークしてMac版を作ったよ。自分のニーズに合わせてClaudeに修正を頼むのに15分もかからなかった。F12押して → arecord (ALSA) → temp.wav → faster-whisper → xclip + xdotool https://github.com/ksred/soupawhisper faster-whisperと量子化を使ったローカルモデルのおかげで、以前はDocsやTerminalでSuperwhisperを使ってたところで、今はこれを使ってる。

Linux用に似たようなものを作ったよ(yapyap — whisper.cppを使ったプッシュ・トゥ・トーク)。「ローカルは遅すぎる」っていう主張は、GPUがあればもう通用しないね。RTXカードのCUDAを使ったwhisper large-v3-turboは、1秒以内でフルパラグラフをトランスクリプトするよ。CPUでも、parakeetは短い発話にはほぼ瞬時に反応する。「深いコンテキスト」機能は賢いけど、名前のスペルを直すためにスクリーンショットを撮ってクラウドLLMに送るのは、かなりオーバーキルに感じる。誰かが上で言ってたアクセシビリティAPIのアプローチが正解だと思う。フォーカスされてるフィールドの内容や近くのラベル、ウィンドウタイトルを取得するだけでいい。これは3Bのローカルモデルがミリ秒で処理できる小さなテキストプロンプトだよ。スクリーンショットもクラウドもレイテンシもなし。Groq依存のツールに関する本当の問題は、無料プランがなくなったらどうなるかってこと。これまでに似たようなことは見たことがある。ローカルモデルでの構築は今日では遅いけど、 rug-pullの失敗モードはないからね。

「ローカルは遅すぎる」っていう主張は、GPUを持ってるならもう通用しないよね。 「どんなGPU」と言ってるのは、物理的な専用GPUカードのことだよね?それは小さな要件じゃないし、特にMacではね。

うん、ローカルは本当にうまくいくよ。この他のツールも試してみたんだけど、 https://github.com/KoljaB/RealtimeVoiceChat これを使うと、(ローカルの)LLMとライブチャットができるんだ。ローカルのWhisperとローカルのLLM(私の場合は8b llama)を使うと、すごく快適に動いて、反応が早すぎて、こっちが話してるのを遮られてる感じがする。残念ながら、そのツールはもう開発されてないみたい。似たようなものを探してるけど、ローカルモデルでできることを見るのは本当に楽しいね。

2013年のMacにmurmureをインストールしたんだけど、1073ワード/分で動いてる。あなたはどうかわからないけど、俺には十分速いよ :D

これらのソリューションは、非英語の言語でも信頼性があるのかな?今まで使った製品でスウェーデン語の転写にかなり苦労したんだ。

Parakeetは動かないの? https://huggingface.co/nvidia/parakeet-tdt-0.6b-v3 もし転写のためのサービスを使うつもりなら、Mistral(これもヨーロッパの会社だよ)が、あなたの言語をサポートしていれば、かなりうまく機能するよ。 https://docs.mistral.ai/capabilities/audio_transcription#tra...

転写モデルとしてGemini 3 flashを使ってottexを試してみて。俺もバイリンガルで、頻繁に言語を切り替えるんだけど、Geminiはこれを完璧に処理してくれるし、一つの転写の中で二つの言語を話す場合でも対応できるよ。

見た目はいいけど、Mistral Voxtralもいい選択肢だよね? https://mistral.ai/news/voxtral-transcribe-2

同じようなことをやってるんだけど、https://ottex.aiを作ってるんだ。これは無料のSTTアプリで、ローカルモデルとBYOKサポート(OpenRouter、Groq、Mistralなど)があるよ。一番の特徴はアプリごとのカスタム設定で、アプリやウェブサイトごとに異なるモデルや指示を設定できるんだ。Claude Code(VS Codeアプリ)で作業する時はParakeetの速いモデルを使ってるし、Obsidianでメモをドラフトする時はスマートなモデルを使ってる。俺のぐだぐだした内容を整理して、適切なMarkdown形式に整えてくれるプロンプトがあって、すごく便利なんだ。もう一つクールな点は、音声入力モダリティでLLMを直接使えること(テキストの後処理じゃなくて)。例えば、音声をGeminiに送って、転写やフォーマットを一度でやってくれるんだ。CCで作業するのはちょっと遅いけど、正確さや理解力、フォーマットの面では絶対に最高のモデルだよ。複数の言語や技術用語を使っても、俺が言いたいことを理解して正しい結果を出してくれる唯一のモデルなんだ。

正直、これが誰のためなのかわからない。手がないわけじゃないのに、なんでコンピュータに話しかけたいの?もしかしたら俺が自閉症だからかもしれないけど、話すよりもテキストの方が絶対に好きだし、それをテキストに翻訳してもらった方がいい。

自閉症を一般的な侮辱として使うべきじゃないよ、ここでみたいに。