概要
OWhisper は、 OllamaのSTT版 として設計された音声認識ツール。 ローカル試作 や 大規模モデルの独自運用 の両方に対応。 Hyprnote 開発経験から生まれたニーズ対応。 カスタムSTTエンドポイント の接続も目指す。 GPLv3ライセンス 下で公開、将来的にMIT化も検討。
OWhisperとは何か
- OWhisper は、 Ollama のような使い勝手で Speech-to-Text(STT) を実現するツール
- リアルタイム ・ バッチ処理 両対応の音声認識モデル運用基盤
- Hyprnote 開発時、ユーザーから カスタムSTTエンドポイント 接続要望が多発
- OpenAI互換LLMエンドポイント のように、 独自STTエンドポイント をHyprnoteに接続可能にする構想
- 2つの主要用途
- 軽量モデルをローカルで簡単に試作・個人利用
- 大規模モデルやクラウドホストモデルを 自前インフラ で運用
OWhisperの特徴と使い方
-
ローカルでの手軽なモデル実行 に特化
-
CLI(コマンドラインインターフェース) による直感的な操作性
-
brew コマンドでのインストールサポート
-
Whisper や Moonshine など、複数STTモデルの切り替え対応
-
カスタムSTTエンドポイント接続機能 は開発中(WIP)
-
ドキュメント 充実、導入イメージが把握しやすい設計
- インストール例
brew tap fastrepl/hyprnote && brew install owhisperowhisper pull whisper-cpp-base-q8-enowhisper run whisper-cpp-base-q8-en
- Moonshine モデルの利用例
owhisper pull moonshine-onnx-base-q8
- インストール例
ライセンスとソースコード
- OWhisperのソースコード は GitHub で公開
- 現時点ではGPLv3ライセンス を採用
- 将来的にMITライセンス への変更を検討中
- Hyprnote由来のGPLコード 依存があるため、現状はGPLv3
- 最新情報やソースコード は 公式リポジトリ 参照
よくある質問(FAQ)
- ソースコード入手先
- GitHubリポジトリ で公開
- ライセンスの種類
- 現在はGPLv3、将来的には MIT も視野
- 導入方法や詳細ドキュメント
- https://docs.hyprnote.com/owhisper/cli/get-started 参照
- モデルの追加・切り替え
- Whisper や Moonshine など複数モデル対応
Hyprnoteチームからのメッセージ
- Hyprnoteチーム (Yujongより)の公式コメント
- OWhisper開発理由
- オンデバイスリアルタイムSTT 運用に適したツールが存在しなかった課題
- カスタムSTTエンドポイント をHyprnoteで利用したいという要望対応
- カスタムSTTエンドポイント機能 は開発中
- 今すぐローカルSTT体験可能 (Whisper・Moonshine両対応)
- フィードバック歓迎、ユーザー参加型開発推進