世界を動かす技術を、日本語で。

Cohere Transcribe: 音声認識

概要

  • Cohere Transcribe は最先端の 自動音声認識(ASR)モデル で、オープンソースとして公開
  • 14言語対応、実運用を想定した高精度・高効率設計
  • Hugging Face Open ASR Leaderboard で精度1位を獲得
  • APIやModel Vault を通じた多様な導入方法を提供
  • 企業AIワークフロー への組み込みや今後の拡張も予定

Cohere Transcribe:最先端オープンソースASRモデル

  • Cohere Transcribe は、最新の 自動音声認識(ASR)モデル としてリリース
  • オープンソース で提供され、誰でもダウンロード・利用可能
  • 音声認識 は会議の文字起こし、音声解析、リアルタイム顧客対応などAI活用の中核技術
  • モデル開発の目的 は、実用環境下でのASR精度向上および運用性重視
  • Word Error Rate(WER)最小化 に特化した学習と、即実用に耐える設計
  • GPUやローカル環境 でも動作する軽量な推論フットプリント
  • Model Vault 経由でのセキュアなクラウド推論もサポート

モデル概要

  • モデル名 :cohere-transcribe-03-2026
  • アーキテクチャ :Conformerベースのエンコーダ・デコーダ構成
  • 入力 :音声波形→log-Melスペクトログラム
  • 出力 :文字起こしテキスト
  • モデルサイズ :20億パラメータ
  • 学習方式 :スクラッチからの教師ありクロスエントロピー学習
  • 対応言語 :英語、フランス語、ドイツ語、イタリア語、スペイン語、ポルトガル語、ギリシャ語、オランダ語、ポーランド語、中国語(標準語)、日本語、韓国語、ベトナム語、アラビア語
  • ライセンス :Apache 2.0

精度・パフォーマンス

  • 英語音声認識精度 で業界最高水準
  • Hugging Face Open ASR Leaderboard で平均WER 5.42%を記録し首位
  • Whisper Large v3ElevenLabs Scribe v2Qwen3-ASR-1.7B など主要モデルを上回る精度
  • 複数話者環境、会議室音響(AMIデータセット)、多様なアクセント(Voxpopuliデータセット)にも対応
  • ベンチマーク以外の実環境音声 でも高評価
  • 人による評価 でも、意味保存・ハルシネーション回避・固有名詞認識・適切な書式で高い支持
    • 英語だけでなく、サポート言語全体で優位性を確認

スループット・運用性

  • 生産現場 での厳しいレイテンシ・スループット要件に対応
  • 高精度(低WER)と高スループット(高RTFx) を両立
  • 1B+パラメータモデル群 の中でも最先端の性能
  • リアルタイム製品やワークフロー への即時適用が可能

導入・利用方法

  • Hugging Face でモデルダウンロード・ローカル実行が可能
  • API経由 で無料かつ手軽に実験利用(レート制限あり)
  • Model Vault での本番運用(レート制限なし、時間単位課金、長期割引プラン有)
  • 導入・連携ドキュメント も提供
  • 要件相談 やカスタム対応はチームへ直接連絡

今後の展望

  • Cohere TranscribeNorth (CohereのAIエージェント統合プラットフォーム)との連携強化を進行中
  • 高精度な文字起こし から、より広範な エンタープライズ向け音声インテリジェンス基盤 へ進化予定

主要貢献者

  • Julian Mack (Member of Technical Staff)
  • Ekagra Ranjan (Member of Technical Staff)
  • Cassie Cao (Product Manager)
  • Bharat Venkitesh (Manager of Technical Staff)
  • Pierre Harvey Richemond (Manager of Technical Staff)

Hackerたちの意見

Cohereのサービスについては、いいことしか言えないよ。数ヶ月前にクリップスタイルの埋め込みモデルに移行したんだけど、めっちゃ良かった。外部サービスの中では、久しぶりに一番クリアで安定したP50を体験してる。

全体的な品質についてコメントしてくれない?彼らのモデルはちょっと小さめで、全体的にパフォーマンスが低い傾向があるんだよね。

心配なのは、ASRがOCRみたいになっちゃうこと。もしマルチモーダルな大規模AIシステムが十分に良ければ(レイテンシ的に)、ドメイン理解の利点が他の技術を圧倒しちゃうんだよね。OCRでは、文字がうまくスキャンされてなくても、こういう大規模マルチモーダルAIの深いドメイン理解のおかげで、文書が実際に何を意味しているのかを理解できる。例えば、過去に見た百万件の請求書の中で、注文IDは通常注文日より下にあるから、これは注文IDだなってわかるみたいな。ASRでも同じ問題が出てくるんじゃないかと心配してる。

これは良い面も悪い面もあるね。良いASRは、私が理解できなかった低品質や乱れた音声を理解できることが多いけど、時々「過剰修正」しちゃって、正しいけど優先度が低い単語を間違ったけどもっと一般的な単語に置き換えちゃうことがある。OCRの場合、データが一見信頼できるように見えても間違っているという別の「ゼロックス事件」が起こるリスクがある。オリジナルはちゃんと保存してるよね?(だから、私の個人的な文書スキャンでは、フルテキスト検索のためにだけOCRを使って、オリジナルの生スキャンは永遠に保存してるんだ。)

なんで「心配」してるの? たとえ誰かが「失う」ことになっても、より良い技術を目指すべきじゃない?

今まさにその通りだよ。gpt-4o-transcribeみたいなマルチモーダルLLMは、従来のASRよりもずっと優れてる。深い理解だけじゃなくて、会社特有の用語や組織図を使って実際にプロンプトを与えられるからね。例えば、プロンプトに「Caitlinは会計士で、Kaitlynはエンジニア」と含めて、「Kaitlynに私のPRをレビューするように言って」とトランスcribeすると、誰を指してるか分かるんだ。これはWERではあまり捉えられないことだよ。ちなみに、gpt-4o-transcribeをOpenAIのAPIキーとカスタムプロンプトで使うためのオープンソースのMacツールを作ったよ: https://github.com/corlinp/voibe

かなりの間、STTに関してはローカル処理の方がTTTチャットやOCRよりも大きな利点があると思う。マイクを持っているデバイスでSTTができるってことは、そのデバイスからの帯域幅を大幅に削減できるから、必要なタスクに対しても効率的なんだよね。

バカな質問かもしれないけど、これが「オープンソース」なら、どこかにソースコードがあるの?それとも、その用語は役立つようにトレーニングしなきゃいけないモデルの世界では別の意味を持ってるのかな?

それはモデル自体を指してるんじゃないかな。

ファイルはここからダウンロードできるよ: https://huggingface.co/CohereLabs/cohere-transcribe-03-2026/... すでにonnx形式に変換した人もいるみたい: https://huggingface.co/eschmidbauer/cohere-transcribe-03-202... - だからGPUじゃなくてCPUで動かせるんだ。

ほとんどの使用法は、単に利用可能なウェイトって感じだね。モデルの「コンパイル」(トレーニング)にはすごくお金がかかるから、アーティファクトからまだ恩恵を受けられるのは理にかなってる。

制限 > タイムスタンプ/スピーカーダイアリゼーション。このモデルにはどちらも搭載されていない。残念だね。タイムスタンプやダイアリゼーションが必要なら、WhisperXがまだベストな選択なの?

WhisperXはモデルじゃなくて、Whisperや他のモデル(ダイアリゼーションやアライメントのもの)を中心にしたソフトウェアパッケージなんだ。Cohere Transcribeモデルの周りにも似たようなものが作られるかもしれないし、もしかしたらWhisperX自体との統合になるかも。

こちらもあるよ: https://github.com/linto-ai/whisper-timestamped これは追加のモデルを使わないから(Whisperが使える言語はすべてサポートしてて、メモリも少なくて済む)、ダイナミックタイムワーピングをクロスアテンションの重みに適用することで動作するんだ。

商業分野でも、ダイアライゼーションや単語レベルのタイムスタンプをサポートする生産用のASR APIが不足してるよね。GoogleのChirpは最悪で、時々スピーチの部分を完全に飛ばしたり、音声にノイズがあるときに勝手にスピーチを作り出したり、単語レベルのタイムスタンプが信頼できなかったりする。新しいオーディオのプリフィルタリング機能を使ってもこれだもん。AWSは少しマシだけど、単語レベルのタイムスタンプを同期させるのが難しい。Whisperはいいけど、やっぱりハルシネーションが頻繁に起こる。OpenAIの新しいトランスクリプションモデルは正確な出力を出してるけど、単語レベルのタイムスタンプには対応してない… 結果のトランスクリプトをいくつかのポストプロセッシングを通すことで解決できる部分もあるけど… それでも、信頼できて、そんな手間を省けるAPIにお金を払いたいだけなんだよね。

ポッドキャスト用にはこれがあるよ: https://news.ycombinator.com/item?id=47584376

Qwen-ASRを試してみるといいよ: https://qwen.ai/blog?id=qwen3asr ページの一番下にタイムスタンプ付きのトランスクリプションがあるから見てみて。

ダイアライゼーションはASRとは別に行われるよね(通常はASRの後に別の実行がある)。

Mistral Voxtralはタイムスタンプとダイアライゼーションがあって、ドイツ語にはいい感じに対応してる(他の言語はまだ試してないけど)。

これって、サイズカテゴリーの中ではSOTAってことだよね? 例えばParakeetよりも優れてるわけじゃないよね?

ちょっと説明すると、これはパラキートよりもパラメータ数が多いんだよね(パラキートは0.6Bと1.1Bがあるけど、これは2Bパラメータ)。それに、hugging faceが公開してるopenASRリーダーボードのベンチマークでも、パラキートよりもパフォーマンスがいいんだ。

ASRリーダーボードを見てみると(https://huggingface.co/spaces/hf-audio/open_asr_leaderboard)、パラキート(0.6B)はスピードではまだ上位にいるけど、WERでは約10位だね。

残念ながら、このモデルはカスタムボキャブラリーや単語ブースティング、追加のプロンプトには対応してないみたい。

多くのSTTモデルの問題は、完璧なアクセントのスピーチで主にトレーニングされているようで、外国のアクセントには苦労することが多いんだ。だから、フランス人としてフランス英語のアクセントを持つ自分としては、このモデルを試してみたいと思ってる。今のところ、言語学習アプリ(Copycat Cafe)のためにモデルをテストしている中で見つけた中で、Sonioxが一番良かった。他のモデルは非ネイティブのアクセントには全然ダメだった。最悪だったのは、whisperベースのモデルで、誤解すると幻覚を見て、話題とは全く関係ないランダムなフレーズを出してくるんだよね。

約250件の英国の郵便番号を言っている人たちの録音データセットで試してみたけど、確かに競争力があるね!Soniox(stt-async-v4):176/248(71.0%)ElevenLabs(scribe_v2):170/248(68.5%)AssemblyAI(universal-3-pro):166/248(66.9%)Deepgram(nova-3):158/248(63.7%)AssemblyAI(universal-2):148/248(59.7%)Cohere(transcribe-03-2026):148/248(59.7%)Speechmatics(enhanced):134/248(54.0%)追記:これをここで正しく表示させるにはどうすればいい?

各行の間に2行の改行を入れてみて。

gladia試した?STTのブラインドテストで1位だよ。https://compare-stt.com/

人間のベースラインは248/248なの?

おそらく、ベンチマークや簡単な使い方に焦点を当てた別のASRモデルだと思う。俺はTwitchのゲームプレイのVODを編集してYouTubeにアップしてるんだけど、アクセシビリティのためにwhisper-large-v3を使って字幕をつけてる(YouTubeの自動字幕はクソだけど、少しずつ良くなってきてる)。俺の使い方に合った良いASRモデルのチェックリストはこんな感じ:1. タイムスタンプのサポートがあること。2. 重なって話す人のサポート。3. 半端な単語や中断された文を合体させない正確なトランスクリプト。4. [咳]、[うめき]、[笑い]、[ため息]などの非言語的なものをサポート。5. 10,000語以上の非自明なサイズのコンテキスト注入ができること。1は明らかで、これがないと字幕が作れないから。強制アライメントは失敗することが多すぎる。2は現実のシナリオでは重要で、実際の世界では人々が常に重なって話すから。俺の場合は、ストリーマーがゲームプレイの音声の上に話すことが多いし、ゲストがいるときもそう。2人が話すと、トランスクリプトはどちらか一方を無視するか、最悪の場合は両方無視することがある。3と4はアクセシビリティの観点で、もし聴覚障害があるなら、話されている内容をより文字通りに表現したトランスクリプトの方が、スピーカーがどう話しているかをよりよく伝える。すべての字幕がちゃんと「スペルチェック」されているなら、モデルがベンチマークに過剰適合しているのは明らかだ。5は必須ではないけど、あった方がいいもの。俺の使い方では、ストリーマーがよくチャットを読んでいるから、最近話したユーザーのリストや、最近のチャットメッセージ、画面上のテキストなどをモデルに与えると、より正確なトランスクリプトが得られる。いろんなモデルを試してみたけど、俺のニーズを満たすのに最も近いのは強制アライメントの上にLLMスタイルのモデルだ。でも遅すぎるから、whisperにこだわってる。whisperxなら、1つのコマンドで5分でトランスクリプトが取れるからね。これらのモデル(whisperも含めて)がやることの1つは、完全な文を省略すること。これがモデルにとって最悪のことだよ。

3と4は実際にはほとんどの顧客にとってマイナスの価値だよ。

Dragon Dictateを覚えてる。トレーニングにめっちゃ時間がかかって、それでもクソみたいな仕事しかできなかった。最近ポッドキャストのインタビューを受けたんだけど、それがApple Podcastsに公開された。Appleがポッドキャストのトランスクリプトを作成してるんだけど、たぶん何かのAIだと思う(Siriと同じエンジンかどうかは分からないけど、あんまり好きじゃない)。結構なエラーがあった(そんなにひどくはないけど、エラーはエラーだよね)。一番イライラしたのは、スピーカーを区別しなかったこと。

64MBのRAMとCPUで動くように設計されたやつのこと?子供の頃、音声認識やTTSのシェアウェアをたくさんダウンロードしたな。