概要
- Perplexity によるステルスクローリング行為の観測
- robots.txt やWAFルールを回避するための偽装行動
- Cloudflareによる 検出・ブロック の実施状況
- 善良なボット運用 の基準とOpenAIの事例
- サイト管理者向け防御策 と今後の展望
Perplexityによるステルスクローリング行為の発見
- Perplexity はAI搭載のアンサーエンジンとして知られる
- 当初は 正規のユーザーエージェント でクロールを行っていたが、ネットワークブロック時に 身元を隠す行動 を観測
- ユーザーエージェントや発信元ASNを頻繁に切り替え、 クロール活動の隠蔽 を試みる傾向
- robots.txt の無視、または取得自体を行わないケースも確認
- こうした行動はインターネットの 信頼性原則 (透明性・目的明確化・規則遵守)に反する
Cloudflareによる検証と対策
- 複数の顧客から「 Perplexityのクロールをrobots.txtやWAFで禁止したのにアクセスされる」との苦情
- 新規ドメインを用意し、 robots.txtで全自動アクセスを禁止 した上でPerplexity AIに質問
- 禁止したはずのドメイン内容がAI回答に含まれる 事例を発見
- Perplexityは 公式ユーザーエージェント だけでなく、Google Chromeを装う一般的なUAも利用
- 公式IP範囲外や複数ASNからのリクエスト、IPローテーションによる 検出回避 も観測
- 機械学習とネットワークシグナル でステルスボットを特定
- ブロックが成功した場合は、AI回答の精度が下がる事例も確認
善良なボット運用の基準とOpenAIの模範
- 透明性 :固有のユーザーエージェント、IPリスト公開、連絡先情報の提示
- 節度ある行動 :過剰なトラフィックやステルス行為の回避
- 明確な目的 :ボットの用途や目的を明示し、公開情報で確認可能に
- 用途ごとの分離 :活動ごとに異なるボットを使用、サイト管理者が選択可能に
- 規則遵守 :robots.txtやレートリミット、セキュリティ保護の尊重
- OpenAIはこれらの基準を遵守し、 ChatGPT Agent はWeb Bot Auth標準に対応
- ChatGPT-Userはrobots.txtを取得し、禁止時はクロールを停止
サイト管理者向け防御策
- Cloudflareの ボット管理システム はPerplexityの隠れたユーザーエージェントも検知・ブロック
- 既存のブロックルールやチャレンジルールで 人間のみ通過可能 な設定も可能
- ステルスボット用の 新シグネチャを追加 し、全顧客(無料プラン含む)に適用
- AIクロール禁止やrobots.txt管理機能の活用で アクセス制御 を強化
今後の展望とCloudflareの取り組み
- Content Independence Day の発表以降、250万以上のサイトがAIトレーニングを全面禁止
- 今後も ボットの回避技術と防御策 は進化し続ける見通し
- CloudflareはIETF等と連携し、 robots.txt拡張やボット運用原則の標準化 に貢献
- 正当なボット運用のための 明確なガイドライン策定 を推進
- Cloudflareの 接続クラウド は企業ネットワーク全体を保護し、DDoS対策やゼロトラスト化も支援
参考情報・アクション
- Cloudflare公式サイト や 1.1.1.1アプリ で安全なインターネット体験を提供
- 詳細やキャリア情報はCloudflareの公式ページを参照