世界を動かす技術を、日本語で。

自律型侵入テスター「XBOW」がHackerOneでトップの座に到達

概要

  • XBOW という自律型ペネトレーションテスターAIが、HackerOneの米国リーダーボードで初のトップ獲得
  • CTFや独自ベンチマーク による検証から、実際のバグバウンティ環境での運用へ発展
  • スケーリングや対象選定 のための独自インフラ・自動化技術を構築
  • 精度向上 のための自動バリデーション・検証プロセスを導入
  • 多数の 重大な脆弱性報告 と、今後の詳細技術公開予定

XBOW:自律型AIペネトレーションテスターがバグバウンティで米国トップへ

  • XBOW は完全自律型のAIペネトレーションテスター
  • HackerOne の米国リーダーボードで初のトップランク到達
  • 進化の過程で CTF課題や独自ベンチマーク による検証を実施
  • 最終的に現実のバグバウンティ環境で ゼロデイ脆弱性発見 に注力
  • コードへのアクセスを許可した ホワイトボックステスト も実施

ブラックボックス環境での実証

  • コミュニティからの「 本番環境での性能」という疑問に対応
  • HackerOne などの公的・私的バグバウンティプログラムで運用
  • 内部知識を持たず、 外部研究者と同じ条件 で参加
  • 脆弱性の発見・報告を繰り返し、 ランキングを急上昇

スケーリングとスコーピングの課題

  • HackerOne には数十万のターゲットが存在
  • ROI最大化 のため、独自インフラで高価値ターゲットを自動抽出
    • バグバウンティプログラムのスコープやポリシーをAIと手作業で解析
    • ドメイン情報の自動収集・拡張・スコアリングを実施
  • SimHashimagehash を用いた重複判定・視覚的類似分析
  • 効率化のため、 ユニークかつ高インパクトな資産 に集中

自動脆弱性発見と精度向上

  • AIによる発見は 広範囲かつ高効率 だが、 精度 が課題
  • 自動バリデーター (AIまたはカスタムチェック)で誤検知を最小化
    • 例:XSS検証ではヘッドレスブラウザでJS実行を確認
  • 提出前に セキュリティチームがレビュー し、ポリシー遵守

実環境での成果とインパクト

  • 数千件の検証済み脆弱性 を報告、著名企業にも影響
  • すべての報告が プログラムオーナーにより実際に確認・分類
  • 1,060件 の脆弱性報告、うち130件解決、303件はトリアージ済み
  • 重大度分類: 54件クリティカル、242件高、524件中、65件低
  • 45%が未解決 であり、影響範囲の大きさを示す
  • Palo Alto GlobalProtect VPN のゼロデイ発見など、幅広い成果
  • 全自動で複雑なエッジケースにも適応 し、創造的な攻撃手法を自律開発

今後の展望と公開予定

  • POC || GTFO のルールに則り、今後技術詳細をブログで順次公開予定
  • XBOWは法人向けエンタープライズ製品
    • デモ希望はメールで問い合わせ可能

XBOWが発見した主な脆弱性カテゴリ

  • Remote Code Execution
  • SQL Injection
  • XML External Entities (XXE)
  • Path Traversal
  • Server-Side Request Forgery (SSRF)
  • Cross-Site Scripting (XSS)
  • 情報漏えい、キャッシュポイズニング、シークレット露出 など多数

まとめ

  • XBOWの自律型AI技術 がバグバウンティ分野に新たな地平を開拓
  • 自動化・スケーリング・精度管理 の三位一体で実現した実用性
  • 今後の 技術公開や製品展開 に注目

Hackerたちの意見

XBOWは約1,060件の脆弱性を提出したんだって。やばいね、手動で提出した自分の1件の脆弱性が、トリアージに数週間かかってる理由がわかるわ。

XBOWの人たちはただの一般人じゃないよ。

最初に: > そのギャップを埋めるために、私たちはHackerOneでの公開および非公開のバグバウンティプログラムでXBOWを実際に使ってみることにした。外部の研究者と同じように扱ったよ:ショートカットなし、内部の知識なし—ただのXBOW、自立して動いてる。自分自身に対してやってないなら、これはドッグフーディングとは言えないんじゃない?AI生成のバグレポートで自分たちを溢れさせているなら、ドッグフーディングだと思うけど、他の人にはやってないよね。彼らがそれをレビューしてるわけでもないし。あと、正直な質問だけど、「ベスト」ってここではどういう意味?一番多くレポートを送ったってこと?

HackerOneでの成功率はかなりバラバラみたい。ウォルト・ディズニーで22/24(有効/クローズ)、AT&Tで3/43(有効/クローズ)

彼らが言ってるのは、顧客の立場になって製品を使うことを指してるんじゃないかな。それを「ドッグフーディング」と呼ぶのは妥当だと思う。自分たちで使うだけじゃ、合成テストよりも役に立たないし、自分たちのソフトウェアだけじゃカバーできる範囲も限られてるからね。もしこれがマイクロソフトやIBMから出てたら、あんまりドッグフーディングとは言えないけど。

XBowがこの主張に対するリンクを提供しているならいいんだけど、見つけたのはこれだけ: https://hackerone.com/xbow?type=user これは違う印象を与えてる。これが彼らの主張(アメリカでベスト)を無効にするわけじゃないけど、スクリーンショットはちょっと選別されてるかも。

リーダーボードのページを下にスクロールして、国をアメリカに選ぶと、xbowが現在トップにいるよ。

一般的にAIセキュリティリサーチにはあまり期待してないし、ほとんどの人が何を話してるか分かってないと思うけど、XBOWは正直なところ、この分野で本当に興味深くて有能な数少ない会社の一つだと思う。彼らのレポートや書き方は、しっかり考えられた結果が出てる。おめでとう!

Xbowには本当に頭のいい人たちが働いてるから、このスレッドで出てくる30秒の批評にはよく気づいてるよ。例えば、彼らは誤検知を排除するために具体的な手段を取ってる。ランキングの1位は、見た目以上に重要でもあり、逆に重要でない部分もある。HackerOneは経済的な数字のゲームだから、あまり重要じゃない部分もある。参加できるプログラムは無数にあって、難易度や報酬も様々。ほとんどのプログラムはあまりお金を払わないし、業界のトップタレントを引き寄せることもない。むしろ、発展途上国の情報セキュリティに興味がある学生たちにとっての副収入を提供してる。だから、「Xbowがアメリカで一番のバグハンター」って読むのは違うと思う。それはちょっとしたマーケティングのトリックだよ。でも、これは特に意味のある客観的なものでもない。問題は、潰すべき簡単なバグがたくさんあって、それに十分なリソースを割くのが難しいこと。トップの情報セキュリティタレントはそれをやりたがらないし(そもそも数が足りない)。コンサルティング会社はそれをやれるけど、結局は手が回らなくなって、カバーが不安定になっちゃう。簡単なバグを安く、あまり誤検知なしで見つけられるツールには大きな市場がある。個人的には、LLMや関連技術がこのタスクにうまく適していることに疑いはないけど、トップの専門家を上回れるかどうかは別の話。懐疑的な人もいるから、これは重要な現実の結果だと思う。

だから、彼らはこのスレッドで出てくる30秒の批評にはよく気づいてるよ。HNの簡潔な説明だね。ほんと残念だ。

トップのインフォセック人材はそれをやりたがらないし(足りてないし)、その人たちは何に時間を使ってるんだろう?

たぶん、この記事が混沌としてるから(どの「AI」記事もそうだけど)、偽陽性の問題をちゃんと扱ってないからじゃないかな?それとも全然触れてないのかも?下の人たちは何か手がかりを得ようと必死に読み解いてるね。

OPに100%同意。BBHで生計を立てるには、全然お金を払わないVDPプログラムで一日中狩りをしてはいけない。そうすると、そのプログラムにはたくさんの低い果実があることになる。LLMが人間を置き換えるとは思わないけど、もっと素敵なタスクをするための時間を作ってくれるよ。

これには驚かないな。いくつかの「レガシー」オープンソースプロジェクトで、10分もかからずにDoS攻撃を見つけて、動作するPoCも作れた。サーバーが完全にクラッシュしちゃったよ。もっと促せばRCEも見つけられたかもしれないけど、試してみるのはただの暇つぶしのアイデアだった。ニッチであまり使われてないけど、これらのプロジェクトには公開されているサーバーが少なくとも何千台もあると思う。これがAIに関する最も大きな近い問題の一つだと思う。素晴らしいAIの「防御」ツールがあっても、サーバーや(IoTなどの)デバイスがあまりにも多すぎて、ほとんどが簡単にはパッチを当てられない。少数のニッチサービスがやられるのは大したことじゃないかもしれないけど、百万のニッチサービスが次々とやられるのは大きな混乱を引き起こす可能性が高い。リモートでセキュリティチェックされていないコードがたくさんあるからね。最終的な解決策は、ISPが展開するすべてのトラフィックを検査するようなLLMベースの「WAF」かもしれない。

私はその分野でほぼ手動のテストを行っている共同創業者だから、新しいAIハックボットには注目してるよ。たくさんの資金が集まってる(Horizon3が1億ドル、Xbowが8700万ドル、Mindfortもすぐに資金調達するだろうね)。未来は人間とボットの組み合わせになるのは間違いない。人間を置き換えるわけじゃないし、コーディングボットも開発者を置き換えない。実際、これにより人間は基本的で退屈なテストではなく、楽しい/クリエイティブなハッキングに集中できるようになる。心配なのは、トリアージや再現の部分で、今はまだほとんど手動で、自動化するのは難しい問題なんだ。

彼らがバウンティでどれだけ稼いだのか、計算にどれだけ費やしたのか知りたいな。バグバウンティのことだけど、勝つ唯一の方法はゲームをプレイしないことだよね。

確かにすごいけど、入力と出力をフィルタリングするためにかなりの手作業が必要だったから、これは「完全に」自動化されたワークフローじゃないよ。ごめんね。でも、彼らには拍手を送りたい。

人間がやってることは:

  • システムとプロンプトの設計
  • 攻撃ツールの構築と統合
  • 意思決定ロジックと分析のガイド

これは単なる言葉遊びじゃないよ。AIの能力を過大評価すると、一般の人を混乱させたり、特に重要なセキュリティの場面で買い手を誤解させることになる。私はこの分野で積極的に働いている人間として言ってるんだ。PentestGPTの開発にも参加して、研究や投資の波を起こす手助けをしたし、最近ではCybersecurity AI (CAI)にも取り組んでるよ。これはセキュリティのための自律エージェントを構築するための主要なオープンソースプロジェクトだよ。

  • CAI GitHub: https://github.com/aliasrobotics/cai
  • 技術報告: https://arxiv.org/pdf/2504.06017

限界を押し広げるのには賛成だけど、メッセージは現実に基づいていようね。セキュリティにおけるAIの未来はワクワクするし、まだ始まったばかりだよ。

人間だよ。 誰だと思う?グレムリン?その人たちはAIを使う前はリーダーボードのトップにいなかったから、明らかに助けになってるよね。