世界を動かす技術を、日本語で。

Show HN: Whispering – 信頼できるオープンソースのローカルファースト音声入力

概要

  • Whisperingは オープンソース かつ ローカルファースト な音声認識アプリ
  • データは 完全にローカル保存、プライバシー重視
  • Epicenterプロジェクトの一部として 透明性と連携性 を追求
  • MITライセンス で自由に利用・改変が可能
  • 開発者Bradenが ユーザー体験やOSSの重要性 を強調

Whispering:オープンソース音声認識アプリの紹介

  • Whisperingは オープンソース で提供される音声からテキストへの変換アプリ
  • ローカルファースト設計 で、全てのデータをユーザーのデバイス内に保存
  • クローズドソースやブラックボックス的な従来ツールへの不満から開発
  • SuperwhisperやWispr Flow など有料ツールからの乗り換え実績
  • 生産性アプリは OSSかつデータ透明性 が求められるという信念
  • 有料アプリと同等のUX を目指し、日常的に数時間利用
  • YouTubeで導入動画 や活用事例を公開
  • 他にも多くの音声認識アプリが存在するが、 OSSエコシステムに新たな選択肢 を提供
  • Handy (OSSツール)もお気に入りとして紹介

Whisperingの特徴と機能

  • 音声起動モード によるハンズフリー操作
  • 任意の プロンプトやモデルでAI変換をカスタマイズ 可能
  • すべてのデータは ローカルのフォルダ に保存され、 SQLiteやプレーンテキスト で管理
  • MITライセンス のため、フォークや改変、独自バージョンの公開が自由
  • Discordコミュニティ やGitHubでのサポート・フィードバック受付

Epicenterプロジェクトの全体構想

  • Epicenterは ローカルファーストOSSのスイート化 を目指すプロジェクト
  • すべてのアプリが 共通のローカルストレージ(フォルダ+SQLite) を利用し、 相互運用性 を実現
  • 完全な データ透明性 を保証し、ユーザーが信頼できる環境を提供
  • WhisperingはEpicenterの 最初のアプリ として開発
  • 今後は さらなるメモリ機能や連携性 の強化を予定

開発者の思いと今後の展望

  • 開発者Bradenは ローカルファーストOSSへの強い情熱 を持つ
  • 大学卒業後、 YC(Y Combinator) に採択され、資金を活用して開発とコミュニティ支援を継続
  • 他のOSS開発者やメンテナへの支援 も計画
  • プロジェクトへの フィードバックやアイデア、GitHubスター、Discord参加 を歓迎
  • 「OSSは誰でも手を加えられる時代」 を目指し、自由な利用を推奨

Hackerたちの意見

今朝リポジトリをチェックしてる人へ、Whisper C++サポートを追加するリリースの真っ最中だよ! https://github.com/epicenter-so/epicenter/pull/655 これがプッシュされたら、もっと広範囲なローカルの文字起こしサポートができるようになるよ。あとはちょっとした細かい修正をしてるところ :)

これは素晴らしいね、シェアしてくれてありがとう!このタイプのモデルが子供の言葉に通用するかどうか、何か感じることはある?プライバシー重視のローカル展開モデルが求められる教育アプリがたくさんあるけど、私の理解ではWhisperは若い話者にはあまり良くないみたい。

これってParakeetモデルをローカルで使うことができるの?MacWhisperユーザーなんだけど、ParakeetはWhisperよりもデバイス上での文字起こしがずっと良くて速いんだ。しばらくの間、MacWhisperを通じてParakeetでプッシュ・トゥ・トランスクライブを使ってるけど、かなり魔法みたいだよ。

MacWhisper、+1!機能が充実してて、一度の購入で済むのがいいし、開発者が常に改善してるのも素晴らしい。

Parakeet、すごいよ!A100で3000倍リアルタイム、ノートPCのCPUでも5倍リアルタイムで動くし、whisper-large-v3よりも正確なんだ(https://huggingface.co/spaces/hf-audio/open_asr_leaderboard)。でもNeMoはちょっと使いづらいかな。Macでローカルに動くのには驚いたよ(MacWhisper用)。

他のコメントから見ると、「まだ」って感じみたい。

これって、オープンソースでずっと前からあるVoiceInkと比べてどうなの?VoiceInkはあなたの持ってる機能を全部サポートしてるよ。 https://github.com/Beingpax/VoiceInk

すぐに目に付くのは、VoiceInkはmacOS専用だけど、WhisperingはmacOSに加えてLinuxとWindowsもサポートしてるところだね。

VoiceInk、めっちゃ好き!Whisperingの開発者さんに聞きたいんだけど、「右シフト」をトグルにできるかな?それと、VoiceInkみたいにしてほしいな。具体的には、- 短い右シフトを押すとスタートして、もう一度短い右シフトを押すとストップ - もしくは「長押しの右シフト」(例えば0.5秒以上押したら)でスタートして、右シフトを離すまで待ってるって感じ。めっちゃ便利だよ!あと、録音するときにVoiceInkみたいに画面にポップアップする「ミニレコーダー」があったら最高だな。録音が終わったら、現在の文字起こしと「変換」アクションが表示されて、どれを適用するか選べるようになって、毎回結果をクリップボードに貼り付けられるっていうのもいいね。

「すべてのアプリにはオープンソースでローカルファーストなバージョンが必要だと思うし、全てが一緒に動くべきだ。Epicenterのアイデアは、データをプレーンテキストとSQLiteのフォルダに保存し、この共有メモリの上に相互運用可能なローカルファーストツールのスイートを構築することだ。すべてが完全に透明だから、信頼できる。」 そうだね!これだ。TTSの経験はほとんどないけど、もしこの分野を探求することがあれば、EpicenterのおかげでWhisperingから始めるよ。リポジトリにスターを付けたし、他に貢献できそうなアプリについても考えてみるつもり。素晴らしい、これを公開してシェアしてくれてありがとう、YCに入ったこともおめでとう! :)

もしクラウド版も欲しいなら、AgentDB APIを使ってアップロードすればいいよ。SQLの実行場所を変えるだけで済むし。

「基本的にローカルファーストのオープンソースソフトウェアに夢中なんだ。みんなそうあるべきだよ。」

こういうツールにはずっと興味があったんだ。今はwhisprflowとaqua voiceを試してるけど、APIキーを使ってもっとローカルにコンテキストを保存したいんだ。データはどうやって保存されてるの?それにアクセスするにはどうすればいいの?

すごくクールなプロジェクトだね。品質の観点から見て、どの文字起こしモデルがベストだと思う?いろんな意見を聞いたことがあるから、君の開発プロセスでの発見が気になるな。

ちょっと混乱してる。ここに書いてあるのは、すべてのデータがデバイスに残るってことだし、ローカルファーストのソフトウェアにこだわってるって強調してるよね。デモ動画をクリックしたら、最初のステップは…外部サービスのアクセス・トークンを設定すること?0:21で表示されてるサービス(Groq、OpenAI、Antrophic、Google、ElevenLabs)が実際の文字起こしをしてて、私が言ったことを全部聞いてるの?それとも、彼らがくれる結果のテキストだけが「すべてデバイスに残る」対象なの?この説明を読んだ後では全然予想してなかったことなんだけど。

あなたのデータはすべてデバイスにローカルで保存されていて、音声はあなたのマシンから選んだクラウドプロバイダー(Groq、OpenAI、ElevenLabsなど)やローカルプロバイダー(Speaches、owhisperなど)に直接送信されるんだ。要するに、彼らは仲介者じゃないってこと。好きなサプライヤーを使ったり、ローカルで何かを実行したりできるよ。

ローカルのトランスクリプション機能がwhisper.cppを通じて、2時間前にリリースされたよ: https://github.com/epicenter-so/epicenter/releases/tag/v7.3....

リソースの高使用や、プロプライエタリなベンダー・サービスに依存するのは好きじゃないな。DeepSpeech/VoskはAI前のもので、ローカルデバイスでもうまく動いてたけど、設定や使用がすごく面倒だった。もっといいバージョン持ってる人いる?一つの後継はCoqui STTで、それが進化してCoqui TTSになったみたいだけど、まだメンテされてるみたい。Kaldiは古いけど、こっちもまだメンテされてるっぽい。編集:あ、これ見たら、いろんな選択肢が説明されてるね:https://www.gladia.io/blog/best-open-source-speech-to-text-m... と https://www.gladia.io/blog/thinking-of-using-open-source-whi...