概要
- Voxtral Transcribe 2 は、次世代の音声認識モデル2種を発表
- Voxtral Mini Transcribe V2 はバッチ処理、 Voxtral Realtime はリアルタイム用途向け
- Voxtral Realtime はApache 2.0ライセンスでオープンウェイト提供
- Mistral Studio にて即時テスト可能な音声プレイグラウンドを公開
- 高精度、低コスト、多言語対応、エンタープライズ機能を搭載
Voxtral Transcribe 2の発表
- Voxtral Transcribe 2 として2つの最新音声認識モデルをリリース
- Voxtral Mini Transcribe V2 :バッチ処理向け高精度モデル
- Voxtral Realtime :ライブ用途向け超低遅延モデル
- Voxtral Realtime はApache 2.0ライセンスのオープンウェイトで提供
- Mistral Studio で音声ファイルを即時テストできるプレイグラウンドを公開
- 全モデルで 話者分離(ダイアリゼーション) と タイムスタンプ 機能を搭載
Voxtral Mini Transcribe V2の特長
- 13言語 での高精度な文字起こし・話者分離・文脈バイアス・単語単位タイムスタンプ対応
- FLEURSベンチマーク で約4%のワードエラー率、 $0.003/分 の低価格
- GPT-4o mini Transcribe や Gemini 2.5 Flash など競合を精度・コストで上回る
- ElevenLabs Scribe v2 の約1/5のコストで同等品質、3倍高速処理
- ノイズ耐性 や 3時間までの長時間音声対応 など業務用途に最適
Voxtral Realtimeの特長
- サブ200ms まで調整可能な超低遅延でライブ音声認識
- 独自の ストリーミングアーキテクチャ で音声到着と同時に逐次認識
- FLEURSベンチマーク で480ms遅延時にも1-2%のワードエラー率を維持
- 4Bパラメータ でエッジデバイス上でも効率的に動作、 プライバシー重視 の用途にも最適
- Hugging Face Hub でApache 2.0ライセンスのモデルウェイトを公開
エンタープライズ向け機能
- 話者分離 :発話者ごとのラベルと正確な開始・終了時刻付与
- 文脈バイアス :最大100ワードで固有名詞や専門用語の認識精度向上
- 英語最適化、他言語は実験的サポート
- 単語単位タイムスタンプ :字幕生成や音声検索、コンテンツ整合に活用
- GDPR・HIPAA準拠 のセキュアなオンプレミス/プライベートクラウド対応
Mistral Studioの音声プレイグラウンド
- 最大10ファイル、1GBまでの音声(.mp3, .wav, .m4a, .flac, .ogg)アップロード可能
- 話者分離 や タイムスタンプ粒度、 文脈バイアス 設定が可能
- 即時にVoxtral Transcribe 2の性能を体験
利用シーンと業界活用例
- 会議インテリジェンス :多言語会議の発話者識別付き文字起こし
- 音声エージェント/バーチャルアシスタント :サブ200ms遅延で自然な対話AI
- コンタクトセンター自動化 :リアルタイム認識でCRM連携や感情分析を実現
- メディア/放送 :ライブ多言語字幕生成、固有名詞や専門用語にも強い
- 法令遵守/記録 :話者分離・タイムスタンプで正確な監査証跡を確保
価格・導入方法
- Voxtral Mini Transcribe V2 :API経由で $0.003/分、Mistral StudioやLe Chatで利用可能
- Voxtral Realtime :API経由で $0.006/分、Hugging Faceでオープンウェイト配布
- Mistral公式ドキュメント で詳細情報公開
採用情報
- 最先端の音声AI開発 に興味あるエンジニア・研究者を募集中
- グローバル開発チーム への応募を歓迎