ハクソク

世界を動かす技術を、日本語で。

Voxtral Transcribe 2

2026年2月5日原文(mistral.ai)

概要

Voxtral Transcribe 2 は、次世代の音声認識モデル2種を発表
Voxtral Mini Transcribe V2 はバッチ処理、 Voxtral Realtime はリアルタイム用途向け
Voxtral Realtime はApache 2.0ライセンスでオープンウェイト提供
Mistral Studio にて即時テスト可能な音声プレイグラウンドを公開
高精度、低コスト、多言語対応、エンタープライズ機能を搭載

Voxtral Transcribe 2の発表

Voxtral Transcribe 2 として2つの最新音声認識モデルをリリース
- Voxtral Mini Transcribe V2 ：バッチ処理向け高精度モデル
- Voxtral Realtime ：ライブ用途向け超低遅延モデル
Voxtral Realtime はApache 2.0ライセンスのオープンウェイトで提供
Mistral Studio で音声ファイルを即時テストできるプレイグラウンドを公開
全モデルで 話者分離（ダイアリゼーション） と タイムスタンプ 機能を搭載

Voxtral Mini Transcribe V2の特長

13言語 での高精度な文字起こし・話者分離・文脈バイアス・単語単位タイムスタンプ対応
FLEURSベンチマーク で約4%のワードエラー率、 $0.003/分 の低価格
GPT-4o mini Transcribe や Gemini 2.5 Flash など競合を精度・コストで上回る
ElevenLabs Scribe v2 の約1/5のコストで同等品質、3倍高速処理
ノイズ耐性 や 3時間までの長時間音声対応 など業務用途に最適

Voxtral Realtimeの特長

サブ200ms まで調整可能な超低遅延でライブ音声認識
独自の ストリーミングアーキテクチャ で音声到着と同時に逐次認識
FLEURSベンチマーク で480ms遅延時にも1-2%のワードエラー率を維持
4Bパラメータ でエッジデバイス上でも効率的に動作、 プライバシー重視 の用途にも最適
Hugging Face Hub でApache 2.0ライセンスのモデルウェイトを公開

エンタープライズ向け機能

話者分離 ：発話者ごとのラベルと正確な開始・終了時刻付与
文脈バイアス ：最大100ワードで固有名詞や専門用語の認識精度向上
- 英語最適化、他言語は実験的サポート
単語単位タイムスタンプ ：字幕生成や音声検索、コンテンツ整合に活用
GDPR・HIPAA準拠 のセキュアなオンプレミス／プライベートクラウド対応

Mistral Studioの音声プレイグラウンド

最大10ファイル、1GBまでの音声（.mp3, .wav, .m4a, .flac, .ogg）アップロード可能
話者分離 や タイムスタンプ粒度、 文脈バイアス 設定が可能
即時にVoxtral Transcribe 2の性能を体験

利用シーンと業界活用例

会議インテリジェンス ：多言語会議の発話者識別付き文字起こし
音声エージェント／バーチャルアシスタント ：サブ200ms遅延で自然な対話AI
コンタクトセンター自動化 ：リアルタイム認識でCRM連携や感情分析を実現
メディア／放送 ：ライブ多言語字幕生成、固有名詞や専門用語にも強い
法令遵守／記録 ：話者分離・タイムスタンプで正確な監査証跡を確保

価格・導入方法

Voxtral Mini Transcribe V2 ：API経由で $0.003/分、Mistral StudioやLe Chatで利用可能
Voxtral Realtime ：API経由で $0.006/分、Hugging Faceでオープンウェイト配布
Mistral公式ドキュメント で詳細情報公開

採用情報

最先端の音声AI開発 に興味あるエンジニア・研究者を募集中
グローバル開発チーム への応募を歓迎

Hackerたちの意見

ネイティブダイアライゼーション、これワクワクするね。編集: いや、リアルタイムではダイアライゼーションがないみたい。https://huggingface.co/mistralai/Voxtral-Mini-4B-Realtime-26... ~9GBモデル。

└

ダイアライゼーションはVoxtral Mini Transcribe V2にあるんであって、Voxtral Mini 4Bにはないよ。

Whisper Large v3や他のWhisperモデルと比べるものじゃないよね。これって良いの？悪いの？なんでgpt4o mini transcribeとしか比較しないの？

└

gpt4o mini transcribeの方が良くて、実際にリアルタイムだよ。Whisperは音声全体をエンコードするように訓練されてる（少なくとも30秒のチャンクで）から、それをデコードするんだ。

└

WERは少し誤解を招くけど、Whisper Large v3のWERはだいたい10%くらいだと思うし、Turboだと12%だね。特に誤解を招くのは、小文字にトランスクリプションしてから逆テキスト正規化で構造や文法を復元するモデルが、Whisperとは全然違うタイプのミスをするからなんだ。Whisperは直接最終的なテキスト形式に行くから、句読点や引用符、トーンも含まれてる。でも、それでもWhisperよりもかなり低い誤り率を主張してるから、同じカテゴリーに入らないくらいだよ。

FLEURSでの単語誤り率が約4%で、Amazonのトランスクリプションサービスは$0.003/分だけど、$0.024/分だから、かなりの違いだね。https://aws.amazon.com/transcribe/pricing/

└

これは音声をアップロードした時の0.003分なのか、それとも「コンピュートミニッツ」なの？例えば、fal.aiにはWhisper APIエンドポイントがあって、"$0.00125 per compute second"で、（10-25倍のリアルタイムで）競合他社よりもめっちゃ安いんだよね。

このデモは本当にすごいよ: https://huggingface.co/spaces/mistralai/Voxtral-Mini-Realtim... 「マイクがない」って出ても混乱しないでね。録音ボタンをクリックした瞬間にブラウザの許可を求めて、そこから動き出すから。俺は早口で専門用語も使ったけど、全部正確に認識されたよ。これを言ったんだけど、正確にトランスクリプトされたし、WebAssemblyのスペルも含まれてた: > RSSとAtom、ブラウザセキュリティにおけるCSPヘッダーの役割について、特にWebAssemblyを使っている場合について教えてくれる？

└

リンクありがとう！Mistralのプレイグラウンドにはマイクがないんだ。ファイルをアップロードするだけで、速度や精度を示すことができないけど、君がシェアしてくれたリンクはそれを示してるね。2つの言語を同時に話してみたけど、ちゃんと認識してくれたよ。リアルタイムでこれだけの精度は本当にすごい。

└

過去3年間、あらゆる音声モデルを使ってきたけど、リアルタイムでも非リアルタイムでも…これまで見た中で桁違いだよ。しかもオープンウェイトだし！本当に感謝してる。

└

https://mistralai-voxtral-mini-realtime.hf.space/gradio_api/... で404エラーが出てる（UIでは右上に小さな赤いエラーとして表示されてる）。

└

EminemのRap Godの早い部分をちゃんと文字起こしできる、本当にすごい。

Hacker Newsで議論の続きを見る