自律型侵入テスター「XBOW」がHackerOneでトップの座に到達

2025年6月25日原文(xbow.com)

概要

XBOW という自律型ペネトレーションテスターAIが、HackerOneの米国リーダーボードで初のトップ獲得
CTFや独自ベンチマーク による検証から、実際のバグバウンティ環境での運用へ発展
スケーリングや対象選定 のための独自インフラ・自動化技術を構築
精度向上 のための自動バリデーション・検証プロセスを導入
多数の 重大な脆弱性報告 と、今後の詳細技術公開予定

XBOW：自律型AIペネトレーションテスターがバグバウンティで米国トップへ

XBOW は完全自律型のAIペネトレーションテスター
HackerOne の米国リーダーボードで初のトップランク到達
進化の過程で CTF課題や独自ベンチマーク による検証を実施
最終的に現実のバグバウンティ環境で ゼロデイ脆弱性発見 に注力
コードへのアクセスを許可した ホワイトボックステスト も実施

ブラックボックス環境での実証

コミュニティからの「 本番環境での性能」という疑問に対応
HackerOne などの公的・私的バグバウンティプログラムで運用
内部知識を持たず、 外部研究者と同じ条件 で参加
脆弱性の発見・報告を繰り返し、 ランキングを急上昇

スケーリングとスコーピングの課題

HackerOne には数十万のターゲットが存在
ROI最大化 のため、独自インフラで高価値ターゲットを自動抽出
- バグバウンティプログラムのスコープやポリシーをAIと手作業で解析
- ドメイン情報の自動収集・拡張・スコアリングを実施
SimHash や imagehash を用いた重複判定・視覚的類似分析
効率化のため、 ユニークかつ高インパクトな資産 に集中

自動脆弱性発見と精度向上

AIによる発見は 広範囲かつ高効率 だが、精度が課題
自動バリデーター （AIまたはカスタムチェック）で誤検知を最小化
- 例：XSS検証ではヘッドレスブラウザでJS実行を確認
提出前に セキュリティチームがレビュー し、ポリシー遵守

実環境での成果とインパクト

数千件の検証済み脆弱性 を報告、著名企業にも影響
すべての報告が プログラムオーナーにより実際に確認・分類
1,060件 の脆弱性報告、うち130件解決、303件はトリアージ済み
重大度分類： 54件クリティカル、242件高、524件中、65件低
45%が未解決 であり、影響範囲の大きさを示す
Palo Alto GlobalProtect VPN のゼロデイ発見など、幅広い成果
全自動で複雑なエッジケースにも適応 し、創造的な攻撃手法を自律開発

今後の展望と公開予定

POC || GTFO のルールに則り、今後技術詳細をブログで順次公開予定
XBOWは法人向けエンタープライズ製品
- デモ希望はメールで問い合わせ可能

XBOWが発見した主な脆弱性カテゴリ

Remote Code Execution
SQL Injection
XML External Entities (XXE)
Path Traversal
Server-Side Request Forgery (SSRF)
Cross-Site Scripting (XSS)
情報漏えい、キャッシュポイズニング、シークレット露出 など多数

まとめ

XBOWの自律型AI技術 がバグバウンティ分野に新たな地平を開拓
自動化・スケーリング・精度管理 の三位一体で実現した実用性
今後の 技術公開や製品展開 に注目

Hackerたちの意見

XBOWは約1,060件の脆弱性を提出したんだって。やばいね、手動で提出した自分の1件の脆弱性が、トリアージに数週間かかってる理由がわかるわ。

└

XBOWの人たちはただの一般人じゃないよ。

最初に: > そのギャップを埋めるために、私たちはHackerOneでの公開および非公開のバグバウンティプログラムでXBOWを実際に使ってみることにした。外部の研究者と同じように扱ったよ：ショートカットなし、内部の知識なし—ただのXBOW、自立して動いてる。自分自身に対してやってないなら、これはドッグフーディングとは言えないんじゃない？AI生成のバグレポートで自分たちを溢れさせているなら、ドッグフーディングだと思うけど、他の人にはやってないよね。彼らがそれをレビューしてるわけでもないし。あと、正直な質問だけど、「ベスト」ってここではどういう意味？一番多くレポートを送ったってこと？

└

HackerOneでの成功率はかなりバラバラみたい。ウォルト・ディズニーで22/24（有効/クローズ）、AT&Tで3/43（有効/クローズ）

└

彼らが言ってるのは、顧客の立場になって製品を使うことを指してるんじゃないかな。それを「ドッグフーディング」と呼ぶのは妥当だと思う。自分たちで使うだけじゃ、合成テストよりも役に立たないし、自分たちのソフトウェアだけじゃカバーできる範囲も限られてるからね。もしこれがマイクロソフトやIBMから出てたら、あんまりドッグフーディングとは言えないけど。

XBowがこの主張に対するリンクを提供しているならいいんだけど、見つけたのはこれだけ: https://hackerone.com/xbow?type=user これは違う印象を与えてる。これが彼らの主張（アメリカでベスト）を無効にするわけじゃないけど、スクリーンショットはちょっと選別されてるかも。

└

リーダーボードのページを下にスクロールして、国をアメリカに選ぶと、xbowが現在トップにいるよ。

一般的にAIセキュリティリサーチにはあまり期待してないし、ほとんどの人が何を話してるか分かってないと思うけど、XBOWは正直なところ、この分野で本当に興味深くて有能な数少ない会社の一つだと思う。彼らのレポートや書き方は、しっかり考えられた結果が出てる。おめでとう！

Xbowには本当に頭のいい人たちが働いてるから、このスレッドで出てくる30秒の批評にはよく気づいてるよ。例えば、彼らは誤検知を排除するために具体的な手段を取ってる。ランキングの1位は、見た目以上に重要でもあり、逆に重要でない部分もある。HackerOneは経済的な数字のゲームだから、あまり重要じゃない部分もある。参加できるプログラムは無数にあって、難易度や報酬も様々。ほとんどのプログラムはあまりお金を払わないし、業界のトップタレントを引き寄せることもない。むしろ、発展途上国の情報セキュリティに興味がある学生たちにとっての副収入を提供してる。だから、「Xbowがアメリカで一番のバグハンター」って読むのは違うと思う。それはちょっとしたマーケティングのトリックだよ。でも、これは特に意味のある客観的なものでもない。問題は、潰すべき簡単なバグがたくさんあって、それに十分なリソースを割くのが難しいこと。トップの情報セキュリティタレントはそれをやりたがらないし（そもそも数が足りない）。コンサルティング会社はそれをやれるけど、結局は手が回らなくなって、カバーが不安定になっちゃう。簡単なバグを安く、あまり誤検知なしで見つけられるツールには大きな市場がある。個人的には、LLMや関連技術がこのタスクにうまく適していることに疑いはないけど、トップの専門家を上回れるかどうかは別の話。懐疑的な人もいるから、これは重要な現実の結果だと思う。

└

だから、彼らはこのスレッドで出てくる30秒の批評にはよく気づいてるよ。HNの簡潔な説明だね。ほんと残念だ。

└

トップのインフォセック人材はそれをやりたがらないし（足りてないし）、その人たちは何に時間を使ってるんだろう？

└

たぶん、この記事が混沌としてるから（どの「AI」記事もそうだけど）、偽陽性の問題をちゃんと扱ってないからじゃないかな？それとも全然触れてないのかも？下の人たちは何か手がかりを得ようと必死に読み解いてるね。

Hacker Newsで議論の続きを見る

ハクソク