概要
- Morphikは RAGツール を開発し、複雑なドキュメントの正確な検索を実現
- 従来の OCRやパース手法 の限界を指摘し、画像としてページを扱う理由を解説
- Vision Language Model による画像ベースの理解で情報損失を防止
- ColPaliやMUVERAなど最新技術を活用し、圧倒的な 精度と高速化 を実現
- 今後は マルチドキュメント推論 など、さらなる発展を目指す方針
複雑なドキュメント検索で画像ベースを選ぶ理由
- Morphikは RAG(Retrieval-Augmented Generation)ツール で開発者向けに高精度な検索体験を提供
- PDFや技術マニュアルなどの 複雑な資料 では、表や図、テキストの混在が一般的
- 従来の OCRやレイアウト解析 では、重要な情報がしばしば失われる現実
- 例:会計報告書の図表やIKEAマニュアルのような 非テキスト情報 の扱いに課題
- パースパイプライン の複雑さとコスト、そして情報損失のリスク
従来手法の課題と限界
- OCRでの 誤認識 (例:「1,000」が「l,0O0」になる等)による精度低下
- レイアウト検出や チャンク分割 での構造崩壊
- 表・図・キャプション等の 文脈や空間情報の喪失
- テキストと画像を別々に扱う ハイブリッド手法 では、空間的な関係性が失われる問題
- 解析パイプラインへの 信頼性の欠如
画像としてページを「見る」アプローチ
- 人間がドキュメントを理解するように、 ページ全体を画像として処理
- ColPaliなどの Vision Language Model で直接画像を理解
- 解析・再構築不要、 一度の処理で全情報を保持
- 図表、色、空間配置など、 視覚的手がかり も完全に活用
- LLMが直接ページ全体を「見て」 位置情報や関係性 を維持
技術的仕組みとColPaliの特徴
- 各ページを 高解像度画像 化し、グリッド状に分割(パッチ化)
- Vision Transformer(SigLIP-So400m) でパッチごとに埋め込み生成
- さらに PaliGemma-3B などの言語モデルで文書構造を理解
- クエリ時は「late interaction」で テキスト・図・表・色分け など多様な要素を横断的に検索
- 人間の専門家のような 総合的な理解力 を実現
実運用での課題と最適化
- ColPali実装当初は 検索速度が遅い (3〜4秒/クエリ)
- MUVERA論文の手法で マルチベクター検索を単一ベクター化 し、高速化
- Turbopuffer など専用ベクターデータベースにより30msまで短縮
- バイナリ量子化やハミング距離計算など 最適化手法 の導入
ベンチマーク評価と精度
- TLDCと共同で 金融ドキュメント向けベンチマーク を構築(NVIDIA 10-Q, Palantir, JPMorgan等)
- 他社のRAGシステムが 67%前後 の正答率、LangChain+OpenAIでも72%
- Morphikは 95.56%の正答率 を実現
- OpenAI File Searchは 13.33%、ViDoReベンチマークでもMorphikは 81.3% nDCG@5 で従来法を大きく上回る
ユースケースと導入メリット
- 金融資料 :表やグラフが核心情報の場合に強み
- 技術マニュアル :図解やレイアウトが重要な場面
- 請求書・レシート :構造や配置が意味を持つドキュメント
- 研究論文・医療記録 :図やレイアウトの文脈理解が必要なケース
- APIは シンプル で、PDFや画像をアップロードし自然言語で検索可能
今後の展望:マルチドキュメント知能へ
- 単一文書 を超え、複数資料間の 関係性や文脈理解 の実現を目指す
- 例:財務報告書と取締役会資料の連携、契約書の改訂履歴の自動追跡
- 複雑な推論やワークフロー統合 への拡張を計画
- ユーザー自身が ベンチマーク評価 を試せるフレームワークも提供中
- 今後も 視覚的文書理解 の進化と実用化を推進
Morphik のアプローチは、従来のOCR・パース依存の限界を打破し、 画像ベースのドキュメント理解 で現場の課題を根本から解決します。今後も、より深い文脈理解と高速な検索を両立し、業務現場の生産性向上を支援していきます。