「Gemini 2.5」はバウンディングボックスに優れていますか？

2025年7月10日原文(simedw.com)

概要

Gemini 2.5 Pro は、MS-COCOベンチマークで Yolo v3 (2018) と同等の性能を示す物体検出モデル
mAP 0.34 で、最新モデルには及ばないが、マルチモーダルLLMとしては十分健闘
データセット収集・アノテーション・学習不要 という利点
出力形式やトークン数 による性能差やエラー傾向
CNNと比較した際の実用性や今後の展望

Gemini 2.5 Proによる物体検出ベンチマーク

MS-COCO は物体検出分野で定番のデータセット、80クラス収録
Gemini 2.5 Proの性能比較のため MS-COCO valセット(5000枚) を使用
プロンプト にはCOCOクラスリストを埋め込み、出力形式をJSONで指定
出力例
- "label": クラス名
- "confidence": 信頼度(0.0-1.0)
- "box_2d": 正規化済みバウンディングボックス
- "mask": base64エンコードバイナリマスク

実験設定

Structured/Unstructured出力、 Thinking Budget(トークン数) の有無で比較
最低Thinking Budget は128トークン（Gemini Proの場合）、2048トークンまで検証
マスク出力 は無効なトークン生成や無限ループを引き起こしやすい傾向

mAP(Mean Average Precision)について

mAP はIoU(Intersection over Union)閾値を0.5-0.95で変化させて計算
高mAP値 ほど検出精度が高い
評価指標 として[0.50, 0.55, ..., 0.95]の各閾値でAPを算出し平均

各モデル・設定ごとの結果

| モデル | Think Tokens | モード | mAP | [email protected] | 無効出力数 | 平均時間 | |:-------|:-------------|:------|:-----|:---------|:-------------|:---------| | flash | 0 | structured | 0.224 | 0.381 | 47/5000 | 0.18s | | flash | 0 | unstructured | 0.261 | 0.417 | 57/5000 | 0.20s | | flash | 1024 | structured | 0.160 | 0.311 | 23/5000 | 0.27s | | pro | 128 | structured | 0.332 | 0.495 | 5/5000 | 0.20s | | pro | 1024 | structured | 0.340 | 0.517 | 6/5000 | 0.46s | | pro | 2048 | structured | 0.325 | 0.506 | 5/5000 | 0.30s | | pro | 1024 | unstructured | 0.288 | 0.438 | 25/5000 | 0.47s | | flash-lite | 0 | structured | 0.156 | 0.279 | 335/5000 | 0.37s | | flash-lite | 0 | unstructured | 0.211 | 0.338 | 216/5000 | 0.23s |

Gemini Pro 2.5 structured のmAPは 約0.34 で、 Yolo v3 (2018) の 約0.33 と同等
最新の Co-DETR 等は 約0.60 mAP と大幅に高精度
Thinking Budget増加 や Structured/Unstructured出力 の違いで性能に差
Invalid output はProで大幅に減少

考察・結論

CNNモデル は特定クラスに最適化されており、 速度・コスト・解釈性 で依然有利
Gemini 2.5 Pro は 汎用性 と 手軽さ が強み
- アノテーションや学習不要 で多用途に利用可能
バウンディングボックスの粗さ は、後処理で SAM 等のセグメンテーションモデルで補完可能
マルチモーダルLLM は今後も進化が期待される分野

今後の展望

CNN と マルチモーダルLLM の使い分け
- 速度・コスト重視 ならCNN、 柔軟性重視 ならLLM
より高精度な汎用物体検出 への期待
サイドプロジェクト や プロトタイピング での活用推奨

Hackerたちの意見

数ヶ月前に似たような記事を書いたんだけど、今回はPDFのバウンディングボックスに焦点を当てて、コンテンツの抜粋の周りにボックスを描くことについてだったんだ。Geminiはこういうオブジェクト検出タスクが本当にすごいよね。

└

それは面白いね、シェアしてくれてありがとう！PDFに埋め込まれたテキストがない場合、スキャンした文書のようなケースで、そのアプローチを実際に使ってるの？その用途でいくつか実験したけど、期待してたほどの結果にはならなかったんだよね。

└

この投稿ありがとう！私も個人的な趣味プロジェクトで似たようなことをやってるんだ（古いサンスクリットのスキャンPDFを扱おうとしてる）。あなたのスクリーンショットの「Sub-TOI」の隣のバウンディングボックスは、私も遭遇しているものと似てるよ：明らかに特定の幅と高さのボックスがあることを「知っている」けど、なぜかボックスが実際の位置からずれているんだ。そういうことについて何か洞察はある？試したことはそれを修正できた？

触れられていない詳細だけど、Googleのモデルは>= Gemini 2.0がこのバウンディングボックス検出のタスクのために明示的にポストトレーニングされてるんだ。著者が特定のbox_2dフォーマットを使っていることから、この機能を活用していることがわかるから、ちょっと強調したいな。私の直感では、このタイプのポストトレーニングがない基本的なマルチモーダルLLMは、性能がかなり悪くなると思う。

└

確かにそうだね、だから他のモデルプロバイダーとベンチマークを取らなかったんだ。この特定のフォーマットにかなり調整されているから、box_2dフォーマットの順序を(ymin, xmin, ymax, xmax)から(xmin, ymin, xmax, ymax)に変えるだけでも、性能がガクッと落ちちゃう。

└

最初にこれを見たときは本当に驚いたけど、そう、トレーニングデータに含まれてるんだよね。機能を考えてなかった。

└

Geminiモデルができることは本当にすごいよね。セグメンテーションも！

└

なぜ彼らはセグメンテーションを小さな専用モデルに任せるのではなく、後処理を行うのかな？

消費電力がどれくらい違うのか気になるな。クラシックなCNNの方が専門的だから安くなるんじゃないかな。> データセットの収集、アノテーション、トレーニングをスキップできる魅力は、数晩テストするのを無駄にするにはあまりにも魅力的だよね。アノテーション作業はどうなの？「その物体」のすべてのピクセルをマークする必要があるの？それとも、トレーニングプロセスが「物体」が入っている画像を受け入れて、「物体じゃない」ものを無視するように学ぶの？もし後者なら、Geminiのイマイチなバウンディングボックスを使って、無限に退屈じゃないアノテーターとして使えるかもね。

└

もしうまくいくなら、最初の数千件はLLMを使って、その後にこれらの注釈を使って効率的な教師ありモデルをトレーニングして切り替えることができるよ。それなら効率的でコスト効果も高いしね。

地面の真実（緑）とGeminiの予測（青）のバウンディングボックスを切り替えるには、ホバーまたはタップしてください。時々、Geminiは地面の真実よりも優れていることがあります。「それは地面の真実じゃなくて、ただのMS-COCOのデータだよ。」詳しくは https://en.wikipedia.org/wiki/Ground_truth を見てね。

└

それは完璧じゃないから「地面の真実じゃない」って言ってるの？地面の真実っていうのは、機械学習でデータセットのラベルを示すための用語なんだ。あなたが送ったリンクからの引用では、地面の真実が完璧じゃない可能性があることを認めているよ。「地面の真実の不正確さは、結果として得られるスパム/非スパムの判定の不正確さに関連する。」

Hacker Newsで議論の続きを見る

ハクソク