概要
Nanonets-OCR-s は、画像からMarkdown形式への変換に特化した高度なOCRモデル。 数式・画像・署名・透かし など複雑な要素も正確に抽出・構造化。 LLMとの連携 や下流処理に最適なセマンティックタグ付けを実現。 多様な実装方法 (transformers, vLLM, docext)をサポート。 GitHub・論文情報 も公開、研究・業務利用に適したモデル。
Nanonets-OCR-sの特徴
- 画像からMarkdown形式 への直接変換を実現する最先端OCRモデル
- 数式認識
- LaTeX形式 で数式・数式ブロックを自動抽出
- インライン($...$)とディスプレイ($$...$$)の区別
- 画像説明生成
- 画像を <img>タグ で記述し、内容・スタイル・文脈まで自動説明
- ロゴ・グラフ・図表等の多様な画像タイプに対応
- 署名検出・分離
- <signature>タグ で署名部分を識別・抽出
- 法務・ビジネス文書処理に有用
- 透かし検出・抽出
- <watermark>タグ で透かしテキストを明示的に出力
- チェックボックス対応
- チェックボックスやラジオボタンを Unicode記号 (☐, ☑, ☒)で正規化
- 複雑な表の抽出
- Markdown・HTML両形式 で表を高精度に抽出・再現
利用方法(transformers経由)
- 必要なライブラリ
- transformers, PIL, torch
- モデル・トークナイザー・プロセッサの準備
- model_path = "nanonets/Nanonets-OCR-s"
- AutoModelForImageTextToText, AutoTokenizer, AutoProcessorの利用
- 推論関数例
- 画像ファイルをPILで開き、 プロンプト を付与してモデルに入力
- テーブルはHTML形式、数式はLaTeX形式で抽出
- 画像説明や透かし・ページ番号もタグで明示
- 出力例
- 構造化されたMarkdownテキストを返却
vLLM経由での利用
- vLLMサーバーの起動
- vllm serve nanonets/Nanonets-OCR-s
- OpenAI互換APIでの推論
- 画像をbase64エンコードし、API経由で送信
- テンプレートプロンプトで詳細な抽出指示が可能
- 最大トークン数や温度設定のカスタムも可能
docext経由での利用
- インストールと起動
- pip install docext
- python -m docext.app.app --model_name hosted_vllm/nanonets/Nanonets-OCR-s
- 詳細情報
- GitHubリポジトリ で追加情報・サンプルコードを提供
論文・引用情報
- BibTex形式
- @misc{Nanonets-OCR-S, ...}
- 著者
- Souvik Mandal, Ashish Talewar, Paras Ahuja, Prathamesh Juvatkar
- 発表年
- 2025年
まとめ
- Nanonets-OCR-s は、LLM時代の文書デジタル化に最適な 高機能OCRモデル
- 数式・画像・署名・透かし など多様な要素を Markdown構造 で出力
- 研究・業務 双方で高い導入効果