世界を動かす技術を、日本語で。

Voxtral Transcribe 2

概要

  • Voxtral Transcribe 2 は、次世代の音声認識モデル2種を発表
  • Voxtral Mini Transcribe V2 はバッチ処理、 Voxtral Realtime はリアルタイム用途向け
  • Voxtral Realtime はApache 2.0ライセンスでオープンウェイト提供
  • Mistral Studio にて即時テスト可能な音声プレイグラウンドを公開
  • 高精度、低コスト、多言語対応、エンタープライズ機能を搭載

Voxtral Transcribe 2の発表

  • Voxtral Transcribe 2 として2つの最新音声認識モデルをリリース
    • Voxtral Mini Transcribe V2 :バッチ処理向け高精度モデル
    • Voxtral Realtime :ライブ用途向け超低遅延モデル
  • Voxtral Realtime はApache 2.0ライセンスのオープンウェイトで提供
  • Mistral Studio で音声ファイルを即時テストできるプレイグラウンドを公開
  • 全モデルで 話者分離(ダイアリゼーション)タイムスタンプ 機能を搭載

Voxtral Mini Transcribe V2の特長

  • 13言語 での高精度な文字起こし・話者分離・文脈バイアス・単語単位タイムスタンプ対応
  • FLEURSベンチマーク で約4%のワードエラー率、 $0.003/分 の低価格
  • GPT-4o mini TranscribeGemini 2.5 Flash など競合を精度・コストで上回る
  • ElevenLabs Scribe v2 の約1/5のコストで同等品質、3倍高速処理
  • ノイズ耐性3時間までの長時間音声対応 など業務用途に最適

Voxtral Realtimeの特長

  • サブ200ms まで調整可能な超低遅延でライブ音声認識
  • 独自の ストリーミングアーキテクチャ で音声到着と同時に逐次認識
  • FLEURSベンチマーク で480ms遅延時にも1-2%のワードエラー率を維持
  • 4Bパラメータ でエッジデバイス上でも効率的に動作、 プライバシー重視 の用途にも最適
  • Hugging Face Hub でApache 2.0ライセンスのモデルウェイトを公開

エンタープライズ向け機能

  • 話者分離 :発話者ごとのラベルと正確な開始・終了時刻付与
  • 文脈バイアス :最大100ワードで固有名詞や専門用語の認識精度向上
    • 英語最適化、他言語は実験的サポート
  • 単語単位タイムスタンプ :字幕生成や音声検索、コンテンツ整合に活用
  • GDPR・HIPAA準拠 のセキュアなオンプレミス/プライベートクラウド対応

Mistral Studioの音声プレイグラウンド

  • 最大10ファイル、1GBまでの音声(.mp3, .wav, .m4a, .flac, .ogg)アップロード可能
  • 話者分離タイムスタンプ粒度文脈バイアス 設定が可能
  • 即時にVoxtral Transcribe 2の性能を体験

利用シーンと業界活用例

  • 会議インテリジェンス :多言語会議の発話者識別付き文字起こし
  • 音声エージェント/バーチャルアシスタント :サブ200ms遅延で自然な対話AI
  • コンタクトセンター自動化 :リアルタイム認識でCRM連携や感情分析を実現
  • メディア/放送 :ライブ多言語字幕生成、固有名詞や専門用語にも強い
  • 法令遵守/記録 :話者分離・タイムスタンプで正確な監査証跡を確保

価格・導入方法

  • Voxtral Mini Transcribe V2 :API経由で $0.003/分、Mistral StudioやLe Chatで利用可能
  • Voxtral Realtime :API経由で $0.006/分、Hugging Faceでオープンウェイト配布
  • Mistral公式ドキュメント で詳細情報公開

採用情報

  • 最先端の音声AI開発 に興味あるエンジニア・研究者を募集中
  • グローバル開発チーム への応募を歓迎

Hackerたちの意見

ネイティブダイアライゼーション、これワクワクするね。編集: いや、リアルタイムではダイアライゼーションがないみたい。https://huggingface.co/mistralai/Voxtral-Mini-4B-Realtime-26... ~9GBモデル。

ダイアライゼーションはVoxtral Mini Transcribe V2にあるんであって、Voxtral Mini 4Bにはないよ。

Whisper Large v3や他のWhisperモデルと比べるものじゃないよね。これって良いの?悪いの?なんでgpt4o mini transcribeとしか比較しないの?

gpt4o mini transcribeの方が良くて、実際にリアルタイムだよ。Whisperは音声全体をエンコードするように訓練されてる(少なくとも30秒のチャンクで)から、それをデコードするんだ。

WERは少し誤解を招くけど、Whisper Large v3のWERはだいたい10%くらいだと思うし、Turboだと12%だね。特に誤解を招くのは、小文字にトランスクリプションしてから逆テキスト正規化で構造や文法を復元するモデルが、Whisperとは全然違うタイプのミスをするからなんだ。Whisperは直接最終的なテキスト形式に行くから、句読点や引用符、トーンも含まれてる。でも、それでもWhisperよりもかなり低い誤り率を主張してるから、同じカテゴリーに入らないくらいだよ。

FLEURSでの単語誤り率が約4%で、Amazonのトランスクリプションサービスは$0.003/分だけど、$0.024/分だから、かなりの違いだね。https://aws.amazon.com/transcribe/pricing/

これは音声をアップロードした時の0.003分なのか、それとも「コンピュートミニッツ」なの?例えば、fal.aiにはWhisper APIエンドポイントがあって、"$0.00125 per compute second"で、(10-25倍のリアルタイムで)競合他社よりもめっちゃ安いんだよね。

このデモは本当にすごいよ: https://huggingface.co/spaces/mistralai/Voxtral-Mini-Realtim... 「マイクがない」って出ても混乱しないでね。録音ボタンをクリックした瞬間にブラウザの許可を求めて、そこから動き出すから。俺は早口で専門用語も使ったけど、全部正確に認識されたよ。これを言ったんだけど、正確にトランスクリプトされたし、WebAssemblyのスペルも含まれてた: > RSSとAtom、ブラウザセキュリティにおけるCSPヘッダーの役割について、特にWebAssemblyを使っている場合について教えてくれる?

リンクありがとう!Mistralのプレイグラウンドにはマイクがないんだ。ファイルをアップロードするだけで、速度や精度を示すことができないけど、君がシェアしてくれたリンクはそれを示してるね。2つの言語を同時に話してみたけど、ちゃんと認識してくれたよ。リアルタイムでこれだけの精度は本当にすごい。

過去3年間、あらゆる音声モデルを使ってきたけど、リアルタイムでも非リアルタイムでも…これまで見た中で桁違いだよ。しかもオープンウェイトだし!本当に感謝してる。

https://mistralai-voxtral-mini-realtime.hf.space/gradio_api/... で404エラーが出てる(UIでは右上に小さな赤いエラーとして表示されてる)。

EminemのRap Godの早い部分をちゃんと文字起こしできる、本当にすごい。

うわ、変だね。ベンガル語を試したら、ヒンディー語に転写された!この二つの言語には似たような単語があるのは知ってるけど、純粋なベンガル語を使ったのに、ヒンディー語とは似てないのに。

悪くはないよ。早口で話したときは、たくさんの単語を見逃したり混同したりしたけど、普通のペースで話すときは結構いい感じ。

このモデルはリアルタイムのダイアライゼーションができないみたいだけど、もしそれを求めるならどのモデルを使えばいいの?今のところ、有料モデルしかダイアライゼーションがうまくできてるのを見たことがない。Nvidia NeMoについて聞いたことはあるけど、試したこともないし、どこで試せるかもわからない。

これが現実的に動くための最安のデバイススペックってどんな感じ?

Hugging Faceで公開されたオープンウェイトが、ローカルで(リアルタイム)モデルを動かせるかはまだよくわからないけど、そうだといいな!ダイアライゼーション付きの大きなモデルについては、オープンソースにはなってないと思う。

これがNvidia Parakeet V3よりも良いかどうかわかってる?それが私のローカルでの定番モデルなんだけど、もっと良いものがあるなんて想像できない。

ローカルでParakeet V3を使ってるけど、完全に経験則だけど、こっちの方が正確な気がするけど、ちょっと遅いかな。

Parakeet v3はすごく好きだったけど、急に文全体を落とし始めたから困ったな。

同じ質問しに来た!

このモデルが多言語対応で14言語を理解できるって気づいたんだけど、多くの使い方では一つの言語だけで十分だよね。余計な13言語はただ遅延を増やしてるだけだと思う。これから数年で、こういうオールマイティなモデルの無駄を省くトレンドが出てくるんじゃないかな。

このモデルはすごく効率的で正確だって証明してると思う。

Wiredがこれを「ウルトラファスト翻訳」って宣伝してるけど、テック雑誌からの発信としてはちょっと変だね。単なる「誤植」であってほしいな。

翻訳ができるかもしれないね。OpenAI Whisperはそれができる転写モデルだったし。

一週間前、ダイアタイズができるオープンソースのモデルを探してたんだけど、使いやすいセットアップが見つからなくて、ほんとに諦めちゃった。