世界を動かす技術を、日本語で。

ミストラルOCR 4

2026年6月23日原文(mistral.ai)

概要

Mistral OCR 4 は、170言語対応の高精度OCRモデル。 バウンディングボックス ・ブロック分類・信頼度スコアを抽出テキストと共に提供。 自己ホスティング 可能な軽量設計で、エンタープライズ用途やRAG等のパイプラインに最適。 ベンチマークで高評価 を獲得し、他社製品より高速・低コスト・高精度を実現。 APIおよびDocument AI 経由で利用可能、用途に応じた柔軟な導入が可能。

Mistral OCR 4の新機能と特徴

  • バウンディングボックス によるテキスト位置特定機能の追加
  • ブロック分類 (タイトル・表・数式・署名等)と インライン信頼度スコア の出力
  • 170言語・10言語グループ への対応
    • レア言語や低リソース言語でも高精度維持
  • 単一コンテナ で自己ホスティング可能な軽量モデル
  • エンタープライズ検索・RAG・ドメイン特化型リトリーバル 用インジェストコンポーネントとして利用
  • Mistral Search Toolkit との統合(パブリックプレビュー)
  • PDF・DOC・PPT・OpenDocument 等、主要エンタープライズ文書形式に対応
  • API経由での導入、または Mistral StudioのDocument AI でノーコード利用

パフォーマンスとベンチマーク

  • 独立評価者による比較テスト で主要OCR/ドキュメントAIシステムを上回る
    • Win rate平均 72%
    • OlmOCRBench で最高スコア 85.20
    • OmniDocBench93.07 (注:スコア算出方法に既知の制限あり)
  • 内部多言語評価 で全8言語グループ中トップ(特にレア言語で優位性)
  • 高速処理 :既存プロバイダ比で 約4倍高速・8倍低コスト・17倍低遅延
  • ベンチマークの限界 :アノテーションミスや数式の表現違い等により、正しい出力が過小評価される場合あり
  • 人手評価 重視の現実的な性能測定

推奨ユースケース

  • 複雑・多言語文書の解析・抽出
  • RAG(Retrieval-Augmented Generation) :構造化・分類済み・引用可能なコンテンツ生成
    • Search Toolkitとの連携でリトリーバルパイプラインに直接投入
  • エージェントワークフロー :フォーム入力・請求書処理・コンプライアンスチェック等
  • 信頼度スコア活用の構造化データパイプライン :人による検証・レダクション・法令遵守プロセス
  • エンタープライズ検索・ナレッジベース :カスタムインジェスト・エンティティ抽出データソース
  • 事例 :請求書の構造化フィールド化、企業アーカイブのデジタル化、技術・科学レポートのテキスト抽出、エンタープライズ検索

利用上の注意(アウトオブスコープ)

  • 意思決定用途非推奨
    • 医療診断・法的助言・高リスク金融判断・安全クリティカルシステム・リアルタイム/低遅延用途・非文書データ(音声・動画等)は対象外

APIおよびDocument AI活用ガイド

  • OCR 4 API :単一エンドポイントで全機能利用可能
    • 生データ抽出 :アプリ・エージェント・データパイプラインへの組み込み
    • バッチAPI :高スループット・低コスト運用
    • 自己ホスト :データプライバシー・主権・コンプライアンス要件対応
  • Document AIパラメータ追加時
    • カスタムJSONスキーマ による構造化出力
    • 画像アノテーション :画像ごとにビジョン・ランゲージモデルを追加実行
    • プロンプト&スキーマ :抽出内容のカスタム解釈や要約
    • ノーコード構造化出力 :ビジネスユーザーやソリューションチーム向け
  • 実用的な選択基準
    • 生データが必要な場合 はOCR 4そのまま
    • 出力の構造化やカスタム要件 が必要な場合はDocument AIパラメータ追加

価格・提供チャネル

  • OCR 4 API$4/1,000ページ (バッチAPI利用時は $2/1,000ページ
  • Document AI$5/1,000ページ
  • 提供先
    • Mistral Studio (API)
    • Amazon SageMaker
    • Microsoft Foundry
    • Snowflake Parse Document (近日対応予定)
    • 自己ホスティング :厳格なデータプライバシー要件対応

今後の展望・パートナーシップ

  • Microsoft Foundry 等との連携によるエンタープライズ向けワークフロー強化
  • 自己ホストオプション で機密情報の社内完結処理を実現
  • 継続的な機能拡張・新規連携 予定

Mistral OCR 4 は、 高精度・多言語対応・自己ホスティング可能 な次世代OCR基盤として、エンタープライズ文書処理や知識検索、RAG、構造化データ抽出の現場で幅広く活用可能。 用途や要件に応じてAPI/Document AIを柔軟に使い分け、自社ワークフローに最適な形で導入が可能。

Hackerたちの意見

55年もの古い紙のファイルを処理してたんだけど、ほとんどがかなり劣化してたんだ。前のモデルでやってみたら、すごく感動したよ!Abbyy Finereaderも試してみたけど、俺の経験では全然及ばなかった。

数年間Abbyy Finereaderを使ってたんだけど、めっちゃ気に入ってた。大きなプロジェクトもいくつかこれで完成させたよ。最近のVLMは、低解像度や劣化した非標準のテキストを処理するのに、クラシックなFineReaderを完全に凌駕してる。俺は今、小さいQwen 3.5モデルを使ってる。OCRの問題があるなら、Mistral OCR 4は多分素晴らしいと思う。ノートパソコンで動かせるオープンウェイトモデルもいいかもしれないね。

これがhttps://github.com/baidu/Unlimited-OCRと比べてどうなるか、楽しみだね。

そうだね、つい発表されたよ https://x.com/BaiduAI_News/status/2069322806748410291

「範囲外の使用についての注意。OCR 4は文書理解モデルであって、意思決定をするものではありません。医療診断、法律相談や判断、高リスクの財務決定、安全が重要なシステム、リアルタイム/遅延に敏感な処理、または非文書入力(生の音声、映像など)には使用することを意図していません。」次の会議で「じゃあ...もし私たちがスマホの写真みたいな非文書入力で高リスクの財務決定に使ったらどうなる?」って提案する「革新的な」マネージャーが出てくるのが待ちきれない。来週にはHNでこの「アイデア」について誰かがコメントすること間違いなしだよ。

なんでそんなことするの?他のもっと優れたモデルと比べて、ひどい結果しか出ないのに。これはテキストに変換するためのもので、質問に答えるためじゃないよね。なんか、変な角度から反AIの立場を引き出そうとしてる感じがする。

「重要な財務決定をOCRソフトに任せたら、次に起こったことは信じられないことだった。」

最近、Opus 4.8でOCRを試してみたんだ。(技術的には適切なツールじゃないってわかってるけど)。レシートから日付を抽出するだけが必要だったんだけど、約20%の日付を間違えて、全て「高い信頼度」と評価された。もっとOCRに特化したモデルを試すべきだったかも。

OpusはOCRがすごく得意だよ。小さい1-4BのVLMよりずっといい。もしOpusが失敗したら、その小さいモデルも失敗する可能性が高いね。

この話は信じられない。Opus 4.8は最近、俺のために最悪の手書きのPDFを何百もスキャンしたけど、100%成功したよ。ただ一つだけ、俺ですら何が書いてあるかわからなかった記録があったけどね。

領収書から日付を抜き出すだけだったんだけど、これって... 30年前にはもう解決されてた問題じゃないの?確か、昔使ってた白黒スキャナーに付いてたシェアウェアのOCRツールの方が、20%も間違えないと思うんだけど。

バウンディングボックスと、12月の前のOCR v3モデルと比べて価格が倍になった以外の違いはあまりないかな。 - https://mistral.ai/news/mistral-ocr-3/ - その時は他のベンチマークも使われてたし。

Hacker Newsで議論の続きを見る