Llama-Scan: ローカルLLMを用いてPDFをテキストに変換する

2025年8月18日原文(github.com)

概要

llama-scan は、PDFファイルをテキストへ変換するローカルツール。 Ollamaの最新マルチモーダルモデル に対応し、画像や図表も詳細なテキスト化が可能。 Python 3.10+とOllama のインストールが必要。インストールや使い方は pipまたはuv 経由で簡単。多彩なオプションで柔軟なPDF処理が実現。

llama-scan 概要

PDFファイル をローカル環境で テキストファイル に変換するツール
Ollama の最新マルチモーダルモデルに対応
画像や図表 も詳細なテキスト説明へ変換
トークンコスト不要、完全ローカル処理
Python 3.10以上 と Ollama のインストールが必須

必要環境

Python 3.10以上 のインストール
Ollama がローカルでインストール・起動済みであること

Ollamaとデフォルトモデルのインストール

Ollama のインストール
- 公式サイトからダウンロード・インストール
デフォルトモデル の取得
- コマンド：ollama run qwen2.5vl:latest

llama-scan のインストール

pip でのインストール
- コマンド：pip install llama-scan
uv ツール経由でのインストール
- コマンド：uv tool install llama-scan

基本的な使い方

コマンド例：llama-scan path/to/your/file.pdf
主なオプション
- --output, -o：出力ディレクトリ（デフォルト: "output"）
- --model, -m：使用するOllamaモデル（デフォルト: "qwen2.5vl:latest"）
- --keep-images, -k：中間画像ファイルの保存（デフォルト: False）
- --width, -w：画像リサイズ幅（0でリサイズ無効、デフォルト: 0）
- --start, -s：開始ページ番号（デフォルト: 0）
- --end, -e：終了ページ番号（デフォルト: 0）

使用例

特定ページのみ処理し、画像幅を指定
- コマンド：llama-scan document.pdf --start 1 --end 5 --width 1000
別のOllamaモデルを利用
- コマンド：llama-scan document.pdf --model qwen2.5vl:3b

Hackerたちの意見

ほぼ完璧だった！テストしたPDFでは、いくつかの記号だけが抜けてたけど、これは絶対に使うよ。ありがとう！

└

それ聞いて嬉しい！どんな記号が抜けてたの？

コードを見た感じ、PDFページを画像に変換して、その画像をテキストにしてるみたい。pdftotextの後処理があると思ってたけど、PDFの複雑さってこういうことなんだろうね…

└

ocrmypdfっていうすごく人気のあるPythonモジュールがあるよ。これを使って、俺のHOAの古いPDFをOCRしたんだ。https://github.com/ocrmypdf/OCRmyPDF LLMは必要ないよ。

└

シェル: GNU parallel、pdftotext Python: PyPdf2、PdfMiner.six、Grobid、PyMuPdf; pytesseract (C++) paperetlはgrobidを基にしてる: https://github.com/neuml/paperetl annotateai: https://github.com/neuml/annotateai : > annotateaiは大規模言語モデル（LLM）を使って論文を自動的に注釈付けする。LLMは論文を要約したり、検索したり、生成的なテキストを作ったりできるけど、このプロジェクトは読者に文脈を提供することに焦点を当ててる。 pdf.js-hypothes.is: https://github.com/hypothesis/pdf.js-hypothes.is: > これはMozillaのPDF.jsビューワーのコピーで、Hypothesisの注釈ツールが追加されてる。HypothesisはW3CのWeb Annotations仕様に基づいてる。 dokieliはW3CのWeb Annotationsや他の多くのLinked Data仕様を実装してる: https://github.com/dokieli/dokieli : > バージョン管理を実装していて、不変リソースの概念がある。 > データブロックを埋め込む、例えば、Turtle、N-Triples、JSON-LD、TriG（ナノ出版物）。LLMへのdokieliドキュメントインターフェースは基本的に反PDFになるだろうね。 Rustクレート: rayonは並列処理を扱い、pdf-rs、tesseract (C++) pdf-rsの例/src/bin/extract_page.rs: https://github.com/pdf-rs/pdf/blob/master/examples/src/bin/e...

└

問題の一部は、PDFがただの画像の連続になってることだと思う。

└

この前見たツイートが、PDFのパースがどれだけクレイジーか理解するのに役立ったよ。https://threadreaderapp.com/thread/1955355127818358929.html

└

画像ベースの抽出は、レイアウトを保持し、埋め込まれたフォントやスキャンしたコンテンツ、セキュリティ制限のあるPDFを直接テキスト抽出よりも上手く扱うことが多いよ。

1990年にはOmnipage 3とその後継が「十分に良かった」し、コンパクトな辞書と文字認識で当時の奇跡だったんだ。2025年にはLLMがメモリのトリロバイトとペタフロップスを使って「偽装」できるようになる。実際、すごく面白いよね、超コンピュータが本当に速いジャカード織機でリアルタイムにエミュレートされてるみたい。2027年には、シンプルな手持ち計算機の足し算でもキロワット時で請求されるようになるだろう。

└

トリロバイト？あれは本当に原始的なコンピュータだったね。

└

1990年代のOCR、いや2000年代のOCRが現代のOCRと同じくらい良いと思ってるなら、売るものがあるよ。

└

ちょっと前に、Pixivからランダムな簡単な日本の漫画（4コマを考えてるけど、実際には4パネルじゃなかったと思う）をGemma 3bに投げ込んでみた。

すべてのテキストを転写してくれたよ。セリフや物のラベル、アクションのオノマトペなんかもね。転写の中で一つのかながダイアクリティカルマークを欠いてるのに気づいたけど、全体的にはかなり近い感じだった。漢字は全部正しく見えたし、ラテン文字はすでにOCRが得意だけど、他の言語は経験上ちょっと苦労することが多い。
それに、特に促さなくても、かなりシンプルな日本語を正しく英語に翻訳してくれた。専門家じゃないけど、翻訳は良さそうに見えたよ。 Gemini 2.5も同じことをして、少し違う翻訳だったけど、機能的には同じで、Google翻訳に似てた。
それに、ジョークやオノマトペの説明もしてくれた。私が確認できる範囲では正しかったけど、日本の漫画で使われるアクションのオノマトペは結構多様で、必ずしもすごく文書化されてるわけじゃないから、文脈的には合ってるように見えた。これは面白いと思う。モデルを擬人化したくはないけど（少なくとも不当に）、こういうことを手書きの日本語テキストがある任意の画像でできるGemmaのような比較的小さなローカルモデルがあるのは良い兆しだと思う。従来のOCRは、英語以外のテキストやスタイライズされた/手書きのテキストを見つけたり認識したりするのが苦手で、文脈の手がかりや自分の「理解」を使って読めない部分を補うことができない。せいぜい基本的な統計を利用することができるけど、それだけでは人間のような熟練度には達しない。でも、vLLMは埋め込まれた知識の量で明らかに優位性があって、その知識を使ってあいまいさを切り抜けることができる。これが彼らを近づけていると思う。 OCRのタスクにvLLMを使うことを何度か試してみたけど、正直言ってTesseractのような従来のオプションにはあまり感心していない。場合によっては、転写したいテキストを見つけるのにかなりの助けが必要だから。 AIのハイプの中で、画像認識と転写のユースケースはほぼゼロに近い。ここでは本当に役に立つよ。いくつかの研究では、vLLMが「盲目」であることが示されている（例えば、猫に余分な足をPhotoshopで加えて、その動物が何本の足を持っているかを尋ねると失敗することがある；この場合、モデルのトレーニングデータからの先入観が逆に働く）。他にもいくつかの制限があると思う（一般的にAIを転写に使うと、認識されているものの空間情報を得るのが難しいけど、画像を再帰的に切り分けてバウンディングボックスを洗練させるためにフィードする技術が適用されていると思う）。でも、実際に機能する程度は、私の正直な意見としては非常に印象的で、すでに非常に役に立つと思う。これが基本的なPDF転写、特にきれいにスキャンされた文書には大きなMLモデルが本当に必要だとは思わないけど、一方で、大きなMLモデルはここで簡単なタスクと難しいタスクの両方をかなりうまく処理できると思う。個人的には、こういうことにもっと取り組んでほしいな。もし信頼性が高くなれば、アクセシビリティや言語の壁を打破するのに驚くほど役立つだろう。機械翻訳は、画像でどれだけうまく機能するかに関しては伝統的に少し限界があったけど、Geminiや驚くほどGemmaもこれらのタスクを簡単にこなせることが多い。これらのモデルが非効率的だというのには同意するよ。従来のOCRを除けば、私たちの脳も似たようなタスクをこなすけど、電力をあまり消費せず、明らかに必要なトレーニングデータ（少なくともテキストは）も少なくて済む。これらのタスクを今の精度でこなせるより効率的な機械を作ることは物理的には可能だと思う。

Hacker Newsで議論の続きを見る

ハクソク