概要
- Kapa は技術ドキュメントの画像を効率的に活用するAIアシスタントを開発
- 画像を インデックス時 にテキスト化し、クエリ時はテキストのみで処理
- この方式で コスト増加は最小限、回答品質は大幅向上
- 画像の種類・役割 と処理フローの最適化が鍵
- 本記事は実際の運用ノウハウと検証結果を解説
技術ドキュメントにおける画像の役割と分類
- 技術ドキュメントの画像は 「説明補助型」と「本質情報型」 に大別
- 説明補助型 :テキスト内容を視覚的に補強するスクリーンショットやUI案内図
- 本質情報型 :配線図、スペック表、認証マトリクスなど画像自体が唯一の情報源となるケース
- 画像があることで 回答の具体性・即応性 が飛躍的に向上
- 例:「設定アイコンをクリック」+そのアイコンのスクリーンショット
- LLM評価 でも画像を活用した回答が統計的に有意な品質向上(McNemar’s test, p < 0.05)
クエリ時マルチモーダル処理の課題
- 画像を クエリ時に都度処理 する従来型手法の問題点
- コスト増大 :GPTで27%、Claudeで51%のコスト増
- ペイロード制限 :画像数が多いとAPI上限(Claude 30MB, OpenAI 50MB)にすぐ到達
- 検索精度低下 :CLIP等の画像ベクトルは細部情報を失いがち
- これらは 現状のエコシステムの構造的制約 であり、単なる技術的なチューニングでは解決不可
インデックス時に画像をテキスト化するアプローチ
- 画像はインデックス時のみ ビジョンモデルで説明文(キャプション)生成
- キャプションはテキストチャンクとして保存し、通常のテキストと同様に検索・取得
- クエリ時は 画像そのものは参照せず、キャプションのみを利用
- 画像URLも同時に記録し、必要なら参照可能
- 説明補助型 には内容説明、 本質情報型 には表・図の値やラベルを転記
- Microsoftの研究チーム も同様の手法を採用
運用上の要点
- フィルタリング :ノイズ画像(ロゴ、アイコン、バナー等)はヒューリスティクスとゼロショット分類器で除去
- 明確な画像には96.8%の精度、曖昧なケースは59.8%(文脈依存のため完全判別は困難)
- キャプション生成 :周囲テキストを入力することで品質向上
- モデルサイズは小型(GPT 5.4 mini)でも十分、超小型(nano)は品質低下
- 保存方法 :キャプションは 独立チャンク で保存が最適
- インライン保存は全チャンク肥大化でコスト増、独立保存なら必要時のみ取得
- 画像重視のプロジェクトでインラインは19%コスト増、独立は6%増(Claudeでは逆にコスト減)
実験結果と効果
- 3つの顧客プロジェクト(GPT 5.1 & Claude 4.6 Sonnet)で検証
- 画像キャプション導入で回答品質が有意に向上
- 画像引用率:10%~64%、誤配置率:1%~6%
- コスト増加は1%~6%、レイテンシー増加はごく僅か
- モデルの不確実性は変化なし、もしくは僅かに減少
- インデックスコストは一度きり、以降の画像処理コストは発生しない
まとめ:最適な画像活用アーキテクチャ
- インデックス時に 一度だけ画像をテキスト化 する方式が最も合理的
- クエリごとに画像処理を繰り返す必要がなく、 経済的かつ高品質
- 画像が「補助」でも「本質」でも、 一度読めば十分
- 制約は「克服すべき障害」ではなく、 最適な設計指針
- 本方式は現在プレビュー展開中