AIクローラーやフェッチャーがウェブサイトを圧迫している；MetaとOpenAIが最も悪質な offenders

2025年8月21日原文(theregister.com)

概要

Fastlyのレポートによると、AIクローラーがウェブへの負荷を急増させている現状
Meta、Google、OpenAIの3社でAIクローラートラフィックの約95%を占有
AIフェッチャーはOpenAIが98%を占め、突発的な高負荷を発生
robots.txt無視やアクティブ対策の導入が進む一方で、規制や業界標準の議論も活発化
サイト運営者はコスト増やサービス劣化のリスクに直面

AIクローラーとフェッチャーによるウェブ負荷増大

Fastly の最新レポートで、 AIクローラー が全AIボットトラフィックの約80%を占める現状
残り20%は AIフェッチャー が担当し、両者によるリクエストがウェブサイトに極めて高い負荷を与える傾向
単一サイトに対し、 数千リクエスト/分 という高頻度アクセスの実態
Meta がAIクローラーの52%、 Google が23%、 OpenAI が20%を占有し、3社で95%を独占
Anthropic や Common Crawl Project はごく少数派に留まる

AIフェッチャーの特徴と影響

AIフェッチャー はユーザーリクエスト時に都度アクセスするため、 突発的なトラフィック急増 を引き起こす
OpenAI がAIフェッチャートラフィックの98%を占める圧倒的シェア
一部フェッチャーは 1分間に39,000リクエスト を発生させるケースも観測
今後、AIツールの普及によりフェッチャートラフィックのさらなる増加が予想

サイト運営者の課題と対策

robots.txt の無視や、IPレンジ未公開など 不透明なボット運用 が問題視
Perplexity AI など一部AI企業はrobots.txtを守らず、IP偽装も指摘
サイト側では Anubis （プルーフオブワーク型対策）や Nepenthes （ダミー情報供給）など アクティブ対策 の導入が進行
- Cloudflare はペイパークローリング方式やAIラビリンスでボット抑制を試行
アクティブ対策は 誤検知による正規ユーザー影響 のリスクも

業界・規制動向と今後の展望

Fastly は「業界全体で責任あるクローリング基準の策定が必要」と提言
robots.txt の遵守、IPレンジ公開、ボット名の明示を最低限のマナーと指摘
強制的な技術標準化には慎重な姿勢、 業界フォーラムでの議論進展 を優先
Anubis 開発者Xe Iasoは「AIバブル崩壊以外にこの流れが止まる要因は見当たらない」とコメント
政府による規制 や 高額罰金 の導入を求める声も
Cloudflare も「今後もクローラートラフィック減少の兆しなし」とし、サイト運営者の 自主的なコントロール強化 を推奨

サイト運営者への具体的アドバイス

robots.txt 設定による善良なボットのアクセス制御
技術力があれば Anubis 等のアクティブボット対策ツール導入
トラフィック監視と ボット管理ソリューション の活用
AIボット対策は イタチごっこ であり、継続的な監視・対応が不可欠

まとめ

AIクローラー・フェッチャーによるウェブ負荷は今後さらに拡大する見込み
サイト運営者・業界・規制当局の 三位一体の対応 が求められる状況
コンテンツ制作者の権利保護とウェブ健全性維持のため、 責任あるAIボット運用 と 透明性確保 が不可欠

Hackerたちの意見

確かに、質問をするのはすごく実用的だし、答えを探してまとめるのに25ページも開くのは大変だよね。それまでは手作業でやろうとしてたけど。25のウェブサイトまではいかないけど、SEOがクソだから上位10位には役に立たない内容が多いし、リストを厳選したけど、考え方は同じじゃない？

└

そうだね、でも「1分間に39,000リクエスト」を生成してるなら、どこかで何かおかしくなってるんじゃない？

└

私の個人的な経験では、OpenAIのクローラーが私が管理してる非常に低トラフィックなウェブサイトに対して、1分間に何万回もアクセスしてきて、止まらなかったから、Cloudflareでブロックしなきゃいけなかった。

Anubis、Cloudflare、robots.txtについて言及されてるけど、どれがどれだけ助けになるか経験ある人いる？

└

CloudflareみたいなCDNは最高だよ。Anubisは小さなウェブサイト向けのレートリミッターで、CloudflareみたいなCDNを使えない場合に役立つ。中規模のウェブサイトでCloudflareを使ったことがあるけど、すごくうまくいったよ。Anubisのクリエイターも同じこと言ってるしね。

「ほとんどの場合、これを必要としないし、Cloudflareを使って特定のオリジンを守ることで十分だと思う。でも、Cloudflareを使えない状況ではAnubisが助けてくれる。」出典: https://github.com/TecharoHQ/anubis

└

robots.txtは、ちゃんとしたボットには効果的だけど、悪質なスクレイピングボットには全然効かないよね。OpenAIとかは大体ちゃんとしてるけど、少なくとも一つの大きなネットワークがrobots.txtを無視して、ユーザーエージェントを偽装（だいたい古いChromeバージョンに）して、何百万もの住宅プロキシIPを使い回してる。自分のサイトでは、このネットワークが一番の悪党で、OpenAIみたいな「ちゃんとした」ボットはほとんど目立たない。こういう悪質なボットを止めるには、Cloudflareがいい解決策だよ。使うのに抵抗がなければ、全ユーザーと全ページに基本的なブラウザチェックを有効にするか、特定のユーザーやページにだけチェックを出すカスタムルールを書けばいい。Cloudflareが嫌なら、Anubisも今のところは悪くないよ、ブランド名が気にならなければね。今使ってるCloudflareのルールはこれだよ（ボットトラフィックの大半はこの国から来てる）: ip.src.continent in {"AF" "SA"} or ip.src.country in {"CN" "HK" "SG"} or ip.src.country in {"AE" "AO" "AR" "AZ" "BD" "BR" "CL" "CO" "DZ" "EC" "EG" "ET" "ID" "IL" "IN" "IQ" "JM" "JO" "KE" "KZ" "LB" "MA" "MX" "NP" "OM" "PE" "PK" "PS" "PY" "SA" "TN" "TR" "TT" "UA" "UY" "UZ" "VE" "VN" "ZA"} or ip.src.asnum in {28573 45899 55836}

└

CloudFlareのスーパーボットファイトモードのおかげで、大きなフォーラムのボットトラフィックが完全に止まったよ。

└

僕の雇い主であるRead the Docsが、これらのボットに何千ドルも叩かれた件についてのブログを持ってるよ（https://about.readthedocs.com/blog/2024/07/ai-crawlers-abuse...）。公平を期すために言うと、最もひどく攻撃してきたAI企業は、帯域幅の請求書を補償してくれたんだ。そこからいくつかの対策を講じたよ： - IPごとにかなり寛大なレート制限ルールを設けてたけど（約4ヒット/秒持続）、一部のクローラーは何千ものIPを使ってきた。CloudflareはAIクローラーボットのリストを更新してる（https://developers.cloudflare.com/bots/additional-configurat...）。このリストを使って、これらのボットや新たに追加されたボットをブロックしてる。 - 一般的なホスティングプロバイダー（例えばAWS、GCP、Azure）に対して、ASNごとにもっと厳しいレート制限ルールを設けて、これらのボットにも影響を与えてる。 - IPによるレート制限に加えて、ユーザーエージェントによるレート制限も考えてる。これで、ちゃんとしたAIクローラーは許可しつつ、悪さをするやつをブロックできる。クローラー全般には反対してないよ。 - 特定のトラフィック量（約50kのキャッシュされてないリクエスト/分持続）を超えたらアラートが来るルールも作った。これって、だいたい新しいボットが最大限に働いてる時で、たいていはAIクローラーなんだ。これが月に1回くらいあって、すぐにバンしてる。オートスケーリングのおかげで、インフラが十分に良くなって、大きなトラフィックの急増にも気づかなくなった。ただ、そのせいでAIクローラーが目立たずに攻撃してくることもあったけど。レート制限を賢く使うのが大事だね。

数ヶ月前、OpenAIが義理の家族のために管理してるサイトをそのままDoS攻撃したんだよね。

└

何についての話？人々がどんなことを聞いてサイトが溢れるのか、ちょっと気になる。

Xe Iasoは私のスピリットアニマルだわ。

「これが人々に実際に何をもたらすのかはわからないけど、私たちの業界はこれをやることに誇りを持ってる」「病気にならず、休暇も取らず、健康保険も必要ない目覚めない自動人形が、人間の従業員の出力に表面的に似たものを生み出す」「これは規制の問題だ。政府が介入して、デジタルの公共財を破壊しているAI企業に対して、存在を脅かすような罰金を科し、被害を受けているコミュニティに賠償金を支払わせる必要がある。」 <3 <3

ちょっと話がそれるけど、目にクモのプレビュー画像って何なの？この投稿のクリックベイトタイトルよりひどいよ。これ、悪い手法だと思う。

Hacker Newsで議論の続きを見る

ハクソク