Cohere Transcribe: 音声認識

2026年4月1日原文(cohere.com)

概要

Cohere Transcribe は最先端の 自動音声認識（ASR）モデル で、オープンソースとして公開
14言語対応、実運用を想定した高精度・高効率設計
Hugging Face Open ASR Leaderboard で精度1位を獲得
APIやModel Vault を通じた多様な導入方法を提供
企業AIワークフロー への組み込みや今後の拡張も予定

Cohere Transcribe：最先端オープンソースASRモデル

Cohere Transcribe は、最新の 自動音声認識（ASR）モデル としてリリース
オープンソース で提供され、誰でもダウンロード・利用可能
音声認識 は会議の文字起こし、音声解析、リアルタイム顧客対応などAI活用の中核技術
モデル開発の目的 は、実用環境下でのASR精度向上および運用性重視
Word Error Rate（WER）最小化 に特化した学習と、即実用に耐える設計
GPUやローカル環境 でも動作する軽量な推論フットプリント
Model Vault 経由でのセキュアなクラウド推論もサポート

モデル概要

モデル名 ：cohere-transcribe-03-2026
アーキテクチャ ：Conformerベースのエンコーダ・デコーダ構成
入力：音声波形→log-Melスペクトログラム
出力：文字起こしテキスト
モデルサイズ ：20億パラメータ
学習方式 ：スクラッチからの教師ありクロスエントロピー学習
対応言語 ：英語、フランス語、ドイツ語、イタリア語、スペイン語、ポルトガル語、ギリシャ語、オランダ語、ポーランド語、中国語（標準語）、日本語、韓国語、ベトナム語、アラビア語
ライセンス ：Apache 2.0

精度・パフォーマンス

英語音声認識精度 で業界最高水準
Hugging Face Open ASR Leaderboard で平均WER 5.42%を記録し首位
Whisper Large v3 や ElevenLabs Scribe v2、 Qwen3-ASR-1.7B など主要モデルを上回る精度
複数話者環境、会議室音響（AMIデータセット）、多様なアクセント（Voxpopuliデータセット）にも対応
ベンチマーク以外の実環境音声 でも高評価
人による評価 でも、意味保存・ハルシネーション回避・固有名詞認識・適切な書式で高い支持
- 英語だけでなく、サポート言語全体で優位性を確認

スループット・運用性

生産現場 での厳しいレイテンシ・スループット要件に対応
高精度（低WER）と高スループット（高RTFx） を両立
1B+パラメータモデル群 の中でも最先端の性能
リアルタイム製品やワークフロー への即時適用が可能

導入・利用方法

Hugging Face でモデルダウンロード・ローカル実行が可能
API経由 で無料かつ手軽に実験利用（レート制限あり）
Model Vault での本番運用（レート制限なし、時間単位課金、長期割引プラン有）
導入・連携ドキュメント も提供
要件相談 やカスタム対応はチームへ直接連絡

今後の展望

Cohere Transcribe は North （CohereのAIエージェント統合プラットフォーム）との連携強化を進行中
高精度な文字起こし から、より広範な エンタープライズ向け音声インテリジェンス基盤 へ進化予定

主要貢献者

Julian Mack （Member of Technical Staff）
Ekagra Ranjan （Member of Technical Staff）
Cassie Cao （Product Manager）
Bharat Venkitesh （Manager of Technical Staff）
Pierre Harvey Richemond （Manager of Technical Staff）

Hackerたちの意見

Cohereのサービスについては、いいことしか言えないよ。数ヶ月前にクリップスタイルの埋め込みモデルに移行したんだけど、めっちゃ良かった。外部サービスの中では、久しぶりに一番クリアで安定したP50を体験してる。

└

全体的な品質についてコメントしてくれない？彼らのモデルはちょっと小さめで、全体的にパフォーマンスが低い傾向があるんだよね。

心配なのは、ASRがOCRみたいになっちゃうこと。もしマルチモーダルな大規模AIシステムが十分に良ければ（レイテンシ的に）、ドメイン理解の利点が他の技術を圧倒しちゃうんだよね。OCRでは、文字がうまくスキャンされてなくても、こういう大規模マルチモーダルAIの深いドメイン理解のおかげで、文書が実際に何を意味しているのかを理解できる。例えば、過去に見た百万件の請求書の中で、注文IDは通常注文日より下にあるから、これは注文IDだなってわかるみたいな。ASRでも同じ問題が出てくるんじゃないかと心配してる。

└

これは良い面も悪い面もあるね。良いASRは、私が理解できなかった低品質や乱れた音声を理解できることが多いけど、時々「過剰修正」しちゃって、正しいけど優先度が低い単語を間違ったけどもっと一般的な単語に置き換えちゃうことがある。OCRの場合、データが一見信頼できるように見えても間違っているという別の「ゼロックス事件」が起こるリスクがある。オリジナルはちゃんと保存してるよね？（だから、私の個人的な文書スキャンでは、フルテキスト検索のためにだけOCRを使って、オリジナルの生スキャンは永遠に保存してるんだ。）

└

なんで「心配」してるの？たとえ誰かが「失う」ことになっても、より良い技術を目指すべきじゃない？

└

今まさにその通りだよ。gpt-4o-transcribeみたいなマルチモーダルLLMは、従来のASRよりもずっと優れてる。深い理解だけじゃなくて、会社特有の用語や組織図を使って実際にプロンプトを与えられるからね。例えば、プロンプトに「Caitlinは会計士で、Kaitlynはエンジニア」と含めて、「Kaitlynに私のPRをレビューするように言って」とトランスcribeすると、誰を指してるか分かるんだ。これはWERではあまり捉えられないことだよ。ちなみに、gpt-4o-transcribeをOpenAIのAPIキーとカスタムプロンプトで使うためのオープンソースのMacツールを作ったよ: https://github.com/corlinp/voibe

└

かなりの間、STTに関してはローカル処理の方がTTTチャットやOCRよりも大きな利点があると思う。マイクを持っているデバイスでSTTができるってことは、そのデバイスからの帯域幅を大幅に削減できるから、必要なタスクに対しても効率的なんだよね。

バカな質問かもしれないけど、これが「オープンソース」なら、どこかにソースコードがあるの？それとも、その用語は役立つようにトレーニングしなきゃいけないモデルの世界では別の意味を持ってるのかな？

└

それはモデル自体を指してるんじゃないかな。

└

ファイルはここからダウンロードできるよ: https://huggingface.co/CohereLabs/cohere-transcribe-03-2026/... すでにonnx形式に変換した人もいるみたい: https://huggingface.co/eschmidbauer/cohere-transcribe-03-202... - だからGPUじゃなくてCPUで動かせるんだ。

└

ほとんどの使用法は、単に利用可能なウェイトって感じだね。モデルの「コンパイル」（トレーニング）にはすごくお金がかかるから、アーティファクトからまだ恩恵を受けられるのは理にかなってる。

制限 > タイムスタンプ/スピーカーダイアリゼーション。このモデルにはどちらも搭載されていない。残念だね。タイムスタンプやダイアリゼーションが必要なら、WhisperXがまだベストな選択なの？

Hacker Newsで議論の続きを見る

ハクソク