概要
llama-scan は、PDFファイルをテキストへ変換するローカルツール。 Ollamaの最新マルチモーダルモデル に対応し、画像や図表も詳細なテキスト化が可能。 Python 3.10+とOllama のインストールが必要。 インストールや使い方は pipまたはuv 経由で簡単。 多彩なオプションで柔軟なPDF処理が実現。
llama-scan 概要
- PDFファイル をローカル環境で テキストファイル に変換するツール
- Ollama の最新マルチモーダルモデルに対応
- 画像や図表 も詳細なテキスト説明へ変換
- トークンコスト不要、完全ローカル処理
- Python 3.10以上 と Ollama のインストールが必須
必要環境
- Python 3.10以上 のインストール
- Ollama がローカルでインストール・起動済みであること
Ollamaとデフォルトモデルのインストール
- Ollama のインストール
- 公式サイトからダウンロード・インストール
- デフォルトモデル の取得
- コマンド:
ollama run qwen2.5vl:latest
- コマンド:
llama-scan のインストール
- pip でのインストール
- コマンド:
pip install llama-scan
- コマンド:
- uv ツール経由でのインストール
- コマンド:
uv tool install llama-scan
- コマンド:
基本的な使い方
- コマンド例:
llama-scan path/to/your/file.pdf - 主なオプション
--output, -o:出力ディレクトリ(デフォルト: "output")--model, -m:使用するOllamaモデル(デフォルト: "qwen2.5vl:latest")--keep-images, -k:中間画像ファイルの保存(デフォルト: False)--width, -w:画像リサイズ幅(0でリサイズ無効、デフォルト: 0)--start, -s:開始ページ番号(デフォルト: 0)--end, -e:終了ページ番号(デフォルト: 0)
使用例
- 特定ページのみ処理し、画像幅を指定
- コマンド:
llama-scan document.pdf --start 1 --end 5 --width 1000
- コマンド:
- 別のOllamaモデルを利用
- コマンド:
llama-scan document.pdf --model qwen2.5vl:3b
- コマンド: