概要
- Gemini 2.5 Pro は、MS-COCOベンチマークで Yolo v3 (2018) と同等の性能を示す物体検出モデル
- mAP 0.34 で、最新モデルには及ばないが、マルチモーダルLLMとしては十分健闘
- データセット収集・アノテーション・学習不要 という利点
- 出力形式やトークン数 による性能差やエラー傾向
- CNNと比較した際の実用性や今後の展望
Gemini 2.5 Proによる物体検出ベンチマーク
- MS-COCO は物体検出分野で定番のデータセット、80クラス収録
- Gemini 2.5 Proの性能比較のため MS-COCO valセット(5000枚) を使用
- プロンプト にはCOCOクラスリストを埋め込み、出力形式をJSONで指定
- 出力例
- "label": クラス名
- "confidence": 信頼度(0.0-1.0)
- "box_2d": 正規化済みバウンディングボックス
- "mask": base64エンコードバイナリマスク
実験設定
- Structured/Unstructured出力、 Thinking Budget(トークン数) の有無で比較
- 最低Thinking Budget は128トークン(Gemini Proの場合)、2048トークンまで検証
- マスク出力 は無効なトークン生成や無限ループを引き起こしやすい傾向
mAP(Mean Average Precision)について
- mAP はIoU(Intersection over Union)閾値を0.5-0.95で変化させて計算
- 高mAP値 ほど検出精度が高い
- 評価指標 として[0.50, 0.55, ..., 0.95]の各閾値でAPを算出し平均
各モデル・設定ごとの結果
| モデル | Think Tokens | モード | mAP | [email protected] | 無効出力数 | 平均時間 | |:-------|:-------------|:------|:-----|:---------|:-------------|:---------| | flash | 0 | structured | 0.224 | 0.381 | 47/5000 | 0.18s | | flash | 0 | unstructured | 0.261 | 0.417 | 57/5000 | 0.20s | | flash | 1024 | structured | 0.160 | 0.311 | 23/5000 | 0.27s | | pro | 128 | structured | 0.332 | 0.495 | 5/5000 | 0.20s | | pro | 1024 | structured | 0.340 | 0.517 | 6/5000 | 0.46s | | pro | 2048 | structured | 0.325 | 0.506 | 5/5000 | 0.30s | | pro | 1024 | unstructured | 0.288 | 0.438 | 25/5000 | 0.47s | | flash-lite | 0 | structured | 0.156 | 0.279 | 335/5000 | 0.37s | | flash-lite | 0 | unstructured | 0.211 | 0.338 | 216/5000 | 0.23s |
- Gemini Pro 2.5 structured のmAPは 約0.34 で、 Yolo v3 (2018) の 約0.33 と同等
- 最新の Co-DETR 等は 約0.60 mAP と大幅に高精度
- Thinking Budget増加 や Structured/Unstructured出力 の違いで性能に差
- Invalid output はProで大幅に減少
考察・結論
- CNNモデル は特定クラスに最適化されており、 速度・コスト・解釈性 で依然有利
- Gemini 2.5 Pro は 汎用性 と 手軽さ が強み
- アノテーションや学習不要 で多用途に利用可能
- バウンディングボックスの粗さ は、後処理で SAM 等のセグメンテーションモデルで補完可能
- マルチモーダルLLM は今後も進化が期待される分野
関連リソース・参考文献
- Simon Willison による可視化ツール・ブログ
- 論文「How Well Does GPT-4o Understand Vision? Evaluating Multimodal Foundation Models on Standard Computer Vision Tasks」
- Recursive Zooming 手法での評価(本ベンチマークとは異なるアプローチ)
今後の展望
- CNN と マルチモーダルLLM の使い分け
- 速度・コスト重視 ならCNN、 柔軟性重視 ならLLM
- より高精度な汎用物体検出 への期待
- サイドプロジェクト や プロトタイピング での活用推奨