概要
- Unlimited-OCR は、Deepseek-OCRを進化させた最新の長文OCRモデル
- Huggingface transformersやSGLang環境での推論・バッチ処理に対応
- シングル画像・マルチページ・PDF解析をサポート
- モデルとコードは ModelScope で公開中
- arXivに論文掲載、各種OCRモデルへの謝辞あり
One-shot Long-horizon Parsing時代の到来
- Unlimited-OCR は、長文・複数ページ文書のOCR解析に特化した新モデル
- Deepseek-OCR の限界を突破するために開発
- arXivに論文公開(2026年6月23日付): https://arxiv.org/abs/2606.23050
- ModelScopeコミュニティの協力を受け、 ModelScope 上でモデル配布中
推論環境と必要要件
- Huggingface transformers を活用したNVIDIA GPU上での推論
- 動作確認済み環境:python 3.12.3 + CUDA12.9
- 必須パッケージ例:
- torch==2.10.0
- torchvision==0.25.0
- transformers==4.57.1
- Pillow==12.1.1
- matplotlib==3.10.8
- einops==0.8.2
- addict==2.4.0
- easydict==1.13
- pymupdf==1.27.2.2
- psutil==7.2.2
- 必須パッケージ例:
推論実行例(transformers)
- モデル・トークナイザーの読み込み
- model_name = 'baidu/Unlimited-OCR'
- 推論設定(シングル画像の場合)
- gundamモード:base_size=1024, image_size=640, crop_mode=True
- baseモード:base_size=1024, image_size=1024, crop_mode=False
- サンプルコードで画像・PDF解析に対応
- PDFはPyMuPDFで画像化し、multi-page推論に渡す
SGLangによるサーバー推論
- uv-managed virtualenv 環境構築
- sgLangのwheelパッケージ導入と依存関係のインストール
- サーバー起動コマンド例
- モデル指定やメモリ割当、カスタムロジットプロセッサ設定
- OpenAI互換APIへのストリーミングリクエスト送信
- 画像エンコード・PDF画像化・リクエスト生成関数をサンプル提供
- シングル/マルチ画像・PDFに応じてimage_modeやngram_windowを調整
バッチ推論・自動化
- infer.pyによるディレクトリ・PDF一括推論
- 画像ディレクトリやPDFファイルを指定し、並列推論可能
- オプションでモデルID・GPU番号・サーバーログ出力先を指定
可視化・謝辞・引用情報
-
Deepseek-OCR, Deepseek-OCR-2, PaddleOCRなど既存モデル・アイディアへの謝意
-
論文引用形式(BibTeX)を明記
- @misc{yin2026unlimitedocrworks, ...}
Unlimited-OCRの特徴まとめ
- 超長文・複数ページ に特化した高性能OCR
- Huggingface や SGLang など主要エコシステムと連携
- PDF変換・バッチ処理など業務用途にも即応
- 最新の研究成果を arXiv で公開、コミュニティ貢献