Show HN: Ghost Pepper – macOS用ローカルホールドトーク音声認識テキスト変換

2026年4月7日原文(github.com)

概要

Ghost Pepper は、macOS向けの 完全ローカル音声認識アプリ。 Controlキー長押し で録音、離すと文字起こし＆ペーストを自動実行。 クラウドAPI不使用 ・データは一切外部送信なし。 Apple Silicon (M1+)専用 で最新macOSに対応。 オープンソースMITライセンス、フィードバックやPR歓迎。

Ghost Pepper：100%ローカル音声認識アプリ概要

macOS 14.0+、Apple Silicon (M1+) に対応した音声認識アプリ
Controlキー長押し で録音、キーを離すと自動で文字起こし＆ペースト
完全ローカル実行、クラウドAPIや外部送信なし
メニューバー常駐型 アプリ、Dock非表示、ログイン時自動起動
カスタマイズ性 ：クリーニングプロンプト編集、マイク選択、機能ON/OFF切替
スマートクリーニング機能 ：ローカルLLMがフィラーや自己修正を自動除去

技術詳細・搭載モデル

オープンソース音声モデル を自動ダウンロード＆ローカルキャッシュ
- Whisper tiny.en (~75MB) ：英語のみ、最速
- Whisper small.en (デフォルト, ~466MB) ：英語のみ、最高精度
- Whisper small (多言語, ~466MB) ：多言語対応
- Parakeet v3 (~1.4GB) ：25言語対応
クリーニングモデル
- Qwen 3.5 0.8B (デフォルト, ~535MB) ：超高速（約1-2秒）
- Qwen 3.5 2B (~1.3GB) ：高速（約4-5秒）
- Qwen 3.5 4B (~2.8GB) ：高品質（約5-7秒）
WhisperKit で音声認識、 LLM.swift でクリーニング、 Hugging Face からモデル提供

使い方

アプリダウンロード ：GhostPepper.dmgを取得
インストール ：DMGを開き、Ghost PepperをApplicationsへドラッグ
初回起動時 ：マイク・アクセシビリティ権限を許可
録音・文字起こし ：Controlキー長押しで録音、離すと自動ペースト
ソースからビルド ：
- リポジトリをクローン
- XcodeでGhostPepper.xcodeprojを開く
- Cmd+Rでビルド＆実行

権限・セキュリティ

マイク ：音声入力のために必要
アクセシビリティ ：グローバルホットキー・ペースト機能用
データ管理 ：
- データは一切外部送信・ファイル保存なし
- デバッグログもメモリのみ、アプリ終了時消去
- ログイン時自動起動は初回デフォルト、設定で変更可能

エンタープライズ・管理端末対応

アクセシビリティ権限 は通常管理者権限が必要
MDM（Jamf, Kandji, Mosaic等） のPPPCペイロードで事前承認可能
- Bundle ID: com.github.matthartman.ghostpepper
- Team ID: BBVMGXR9AY
- Permission: Accessibility (com.apple.security.accessibility)

その他・ライセンス

WhisperKit, LLM.swift, Hugging Face, Sparkle 等のOSS技術を活用
MITライセンス で100%オープンソース
データ完全ローカル、プライバシー保護重視
他社が8,000万ドル調達した分野で無料提供 という“spicy”な挑戦

開発者メッセージ

100%ローカル音声認識 アプリ開発への挑戦
コーディングやメール作成 など日常用途で活用
音声インターフェース として他エージェント連携も実験中
フィードバック・PR・アイディア 大歓迎

Hackerたちの意見

シェアしてくれてありがとう！ローカルのスピードとプライバシーに重点を置いてるのがいいね。Hex（https://github.com/kitlangton/Hex）を使ってるんだけど、同じような目標を持ってると思う。比較するとどう思う？

いいね！Linuxの人たち向けに、https://github.com/goodroot/hyprwhsprを開発したよ。Linuxでは最新のCohere Transcribeモデルにアクセスできて、めっちゃうまく動くよ。ただ、GPUが必要だけどね。大きなローカルモデルは、クリーンアップ用のサブモデルが必要ないことが多いよ。WhisperKitをfaster-whisperや似たようなものと比べたことある？turbov3をうまく動かせれば、クリーンアップの必要がなくなるかも。ちなみに、AppleがネイティブのSTTでこれを一気に吹き飛ばすのを待ってるところだよ。 :)

└

シェアしてくれてありがとう！実際、これを作る準備をしてたところだったんだ。これで作らなくて済むみたい！PTTにフットペダルを使うことを考えたことある？AppleはすでにネイティブのSTTを持ってるけど、何故かまだまともなモデルを使ってないんだよね。

└

自分はm2 maxで自己ホストのエンドポイントを通してwhisper large-v3を動かしてるけど、正直、精度が良すぎてクリーンアップモデルを使うのをやめちゃったよ。長い音声のレイテンシーが一番のストレスで、30秒を超えるとメタルアクセラレーションがあってももっさり感じるんだ。whisperkitは具体的には試してないけど、フルモデルと比べて長い音声をどう扱うのか気になるな。

└

これって、もっと確立された https://github.com/cjpais/handy と比べてどうなの？どちらの選択肢にも際立った特徴はある？既存のソフトを使ったり改善したりするのではなく、自分で作った理由は何だったの？

└

Hyprlandにほぼ同じ名前のやつがあるみたいだね。それに、nixpkgsにあったら、ほぼ永遠にビルドできるって保証されるのにね =)

それはすごいね！Handyと比べてどうなのか知ってる？Handyもオープンソースでローカル専用だよ。結構前からあって、私も使ってるやつだよ。https://github.com/cjpais/handy

└

私もHandyが大好きでしばらく使ってるよ。モバイルアプリ用にこれが必要だと思うけど、無料のアプリはないし、ネイティブの音声入力は完全にローカルじゃないし、あんまり良くないよね。

└

Handyは最高だよね！Claude Codeが音声サポートを追加する前に、かなりの間使ってたよ。しっかりしたソフトウェアで、LinuxとMacの統合もすごく良い。Parakeetモデルにも注目だね、比較的メモリ要件が控えめなのに、すごく速くて安定したモデルだよ。

└

Handyは素晴らしいね。

└

Handyがあるのに、Ghost-Pepperを開発するきっかけが何だったのかも気になるな。最近のものに見えるし、Handyは結構好評だしね。さらにボーナスとして、Handyは自動LLMポストプロセッサーを追加できるのが便利なんだ。Parakeet V3モデルでは、単語を繰り返したり、認識エラーを起こすことがあるから、例えば一つの単語を何十回も認識しちゃうことがあるんだよね。

└

ソフトウェアエンジニアとして一日中Handyを使ってるし、チームのみんなにも勧めたよ。大好きなんだ。

Hacker Newsで議論の続きを見る

ハクソク