世界を動かす技術を、日本語で。

AIクローラーやフェッチャーがウェブサイトを圧迫している;MetaとOpenAIが最も悪質な offenders

概要

  • Fastlyのレポートによると、AIクローラーがウェブへの負荷を急増させている現状
  • Meta、Google、OpenAIの3社でAIクローラートラフィックの約95%を占有
  • AIフェッチャーはOpenAIが98%を占め、突発的な高負荷を発生
  • robots.txt無視やアクティブ対策の導入が進む一方で、規制や業界標準の議論も活発化
  • サイト運営者はコスト増やサービス劣化のリスクに直面

AIクローラーとフェッチャーによるウェブ負荷増大

  • Fastly の最新レポートで、 AIクローラー が全AIボットトラフィックの約80%を占める現状
  • 残り20%は AIフェッチャー が担当し、両者によるリクエストがウェブサイトに極めて高い負荷を与える傾向
  • 単一サイトに対し、 数千リクエスト/分 という高頻度アクセスの実態
  • Meta がAIクローラーの52%、 Google が23%、 OpenAI が20%を占有し、3社で95%を独占
  • AnthropicCommon Crawl Project はごく少数派に留まる

AIフェッチャーの特徴と影響

  • AIフェッチャー はユーザーリクエスト時に都度アクセスするため、 突発的なトラフィック急増 を引き起こす
  • OpenAI がAIフェッチャートラフィックの98%を占める圧倒的シェア
  • 一部フェッチャーは 1分間に39,000リクエスト を発生させるケースも観測
  • 今後、AIツールの普及によりフェッチャートラフィックのさらなる増加が予想

サイト運営者の課題と対策

  • robots.txt の無視や、IPレンジ未公開など 不透明なボット運用 が問題視
  • Perplexity AI など一部AI企業はrobots.txtを守らず、IP偽装も指摘
  • サイト側では Anubis (プルーフオブワーク型対策)や Nepenthes (ダミー情報供給)など アクティブ対策 の導入が進行
    • Cloudflare はペイパークローリング方式やAIラビリンスでボット抑制を試行
  • アクティブ対策は 誤検知による正規ユーザー影響 のリスクも

業界・規制動向と今後の展望

  • Fastly は「業界全体で責任あるクローリング基準の策定が必要」と提言
  • robots.txt の遵守、IPレンジ公開、ボット名の明示を最低限のマナーと指摘
  • 強制的な技術標準化には慎重な姿勢、 業界フォーラムでの議論進展 を優先
  • Anubis 開発者Xe Iasoは「AIバブル崩壊以外にこの流れが止まる要因は見当たらない」とコメント
  • 政府による規制高額罰金 の導入を求める声も
  • Cloudflare も「今後もクローラートラフィック減少の兆しなし」とし、サイト運営者の 自主的なコントロール強化 を推奨

サイト運営者への具体的アドバイス

  • robots.txt 設定による善良なボットのアクセス制御
  • 技術力があれば Anubis 等のアクティブボット対策ツール導入
  • トラフィック監視と ボット管理ソリューション の活用
  • AIボット対策は イタチごっこ であり、継続的な監視・対応が不可欠

まとめ

  • AIクローラー・フェッチャーによるウェブ負荷は今後さらに拡大する見込み
  • サイト運営者・業界・規制当局の 三位一体の対応 が求められる状況
  • コンテンツ制作者の権利保護とウェブ健全性維持のため、 責任あるAIボット運用透明性確保 が不可欠

Hackerたちの意見

確かに、質問をするのはすごく実用的だし、答えを探してまとめるのに25ページも開くのは大変だよね。それまでは手作業でやろうとしてたけど。25のウェブサイトまではいかないけど、SEOがクソだから上位10位には役に立たない内容が多いし、リストを厳選したけど、考え方は同じじゃない?

そうだね、でも「1分間に39,000リクエスト」を生成してるなら、どこかで何かおかしくなってるんじゃない?

私の個人的な経験では、OpenAIのクローラーが私が管理してる非常に低トラフィックなウェブサイトに対して、1分間に何万回もアクセスしてきて、止まらなかったから、Cloudflareでブロックしなきゃいけなかった。

Anubis、Cloudflare、robots.txtについて言及されてるけど、どれがどれだけ助けになるか経験ある人いる?

CloudflareみたいなCDNは最高だよ。Anubisは小さなウェブサイト向けのレートリミッターで、CloudflareみたいなCDNを使えない場合に役立つ。中規模のウェブサイトでCloudflareを使ったことがあるけど、すごくうまくいったよ。Anubisのクリエイターも同じこと言ってるしね。

「ほとんどの場合、これを必要としないし、Cloudflareを使って特定のオリジンを守ることで十分だと思う。でも、Cloudflareを使えない状況ではAnubisが助けてくれる。」 出典: https://github.com/TecharoHQ/anubis

robots.txtは、ちゃんとしたボットには効果的だけど、悪質なスクレイピングボットには全然効かないよね。OpenAIとかは大体ちゃんとしてるけど、少なくとも一つの大きなネットワークがrobots.txtを無視して、ユーザーエージェントを偽装(だいたい古いChromeバージョンに)して、何百万もの住宅プロキシIPを使い回してる。自分のサイトでは、このネットワークが一番の悪党で、OpenAIみたいな「ちゃんとした」ボットはほとんど目立たない。こういう悪質なボットを止めるには、Cloudflareがいい解決策だよ。使うのに抵抗がなければ、全ユーザーと全ページに基本的なブラウザチェックを有効にするか、特定のユーザーやページにだけチェックを出すカスタムルールを書けばいい。Cloudflareが嫌なら、Anubisも今のところは悪くないよ、ブランド名が気にならなければね。今使ってるCloudflareのルールはこれだよ(ボットトラフィックの大半はこの国から来てる): ip.src.continent in {"AF" "SA"} or ip.src.country in {"CN" "HK" "SG"} or ip.src.country in {"AE" "AO" "AR" "AZ" "BD" "BR" "CL" "CO" "DZ" "EC" "EG" "ET" "ID" "IL" "IN" "IQ" "JM" "JO" "KE" "KZ" "LB" "MA" "MX" "NP" "OM" "PE" "PK" "PS" "PY" "SA" "TN" "TR" "TT" "UA" "UY" "UZ" "VE" "VN" "ZA"} or ip.src.asnum in {28573 45899 55836}

CloudFlareのスーパーボットファイトモードのおかげで、大きなフォーラムのボットトラフィックが完全に止まったよ。

僕の雇い主であるRead the Docsが、これらのボットに何千ドルも叩かれた件についてのブログを持ってるよ(https://about.readthedocs.com/blog/2024/07/ai-crawlers-abuse...)。公平を期すために言うと、最もひどく攻撃してきたAI企業は、帯域幅の請求書を補償してくれたんだ。そこからいくつかの対策を講じたよ: - IPごとにかなり寛大なレート制限ルールを設けてたけど(約4ヒット/秒持続)、一部のクローラーは何千ものIPを使ってきた。CloudflareはAIクローラーボットのリストを更新してる(https://developers.cloudflare.com/bots/additional-configurat...)。このリストを使って、これらのボットや新たに追加されたボットをブロックしてる。 - 一般的なホスティングプロバイダー(例えばAWS、GCP、Azure)に対して、ASNごとにもっと厳しいレート制限ルールを設けて、これらのボットにも影響を与えてる。 - IPによるレート制限に加えて、ユーザーエージェントによるレート制限も考えてる。これで、ちゃんとしたAIクローラーは許可しつつ、悪さをするやつをブロックできる。クローラー全般には反対してないよ。 - 特定のトラフィック量(約50kのキャッシュされてないリクエスト/分持続)を超えたらアラートが来るルールも作った。これって、だいたい新しいボットが最大限に働いてる時で、たいていはAIクローラーなんだ。これが月に1回くらいあって、すぐにバンしてる。オートスケーリングのおかげで、インフラが十分に良くなって、大きなトラフィックの急増にも気づかなくなった。ただ、そのせいでAIクローラーが目立たずに攻撃してくることもあったけど。レート制限を賢く使うのが大事だね。

数ヶ月前、OpenAIが義理の家族のために管理してるサイトをそのままDoS攻撃したんだよね。

何についての話?人々がどんなことを聞いてサイトが溢れるのか、ちょっと気になる。

Xe Iasoは私のスピリットアニマルだわ。

「これが人々に実際に何をもたらすのかはわからないけど、私たちの業界はこれをやることに誇りを持ってる」 「病気にならず、休暇も取らず、健康保険も必要ない目覚めない自動人形が、人間の従業員の出力に表面的に似たものを生み出す」 「これは規制の問題だ。政府が介入して、デジタルの公共財を破壊しているAI企業に対して、存在を脅かすような罰金を科し、被害を受けているコミュニティに賠償金を支払わせる必要がある。」 <3 <3

ちょっと話がそれるけど、目にクモのプレビュー画像って何なの?この投稿のクリックベイトタイトルよりひどいよ。これ、悪い手法だと思う。

完全に同意するよ。マクロインセクトフォビア(大きな虫や多くの虫(または虫に似た生き物)への恐怖)を持つ者として、実際に見るとすごく不快になる。パニックモードに入るほどではないけど、ほんとに気持ち悪い。

これは機能だよ!もしインターネットの半分が壊滅して、もう半分がフェンスを作ったら、競争相手にとって利用できるトレーニングデータが減るからね。

これ、私たちにとって最高だね!

自分の本発見サイト shepherd.com が毎日AIクローラーに襲われてて(しかも頻繁にクラッシュする)... CloudFlareのセキュリティリストはめちゃくちゃで、ボットもどんどん賢くなってる。もっといい解決策があればいいのに。

公開されているデータベースの部分を更新してないなら、キャッシュ戦略を考えて、Cloudflareに負担をかけさせるのもアリかも。

サイトにロボットしかアクセスしない隠れたハニーポットリンクを設置してみて。robots.txtには載せないようにして、できれば禁止する設定もしておく。そこのリンクにアクセスしたIPは、fail2banとかで1日バンするルールを設定するといいよ。

今のところ、ダッシュボードが熱くなり始めたときに反応するサーモスタットが欲しいな(いつも同じ奴らがサーバースパイクを引き起こしてるから)。それでCloudflareの攻撃モードをオンにしてくれるやつ……最近はWordPressじゃないものを運営するのが本当に馬鹿らしい。

ああ、jerred@shepherd.comから俺を止めたのは君か!

https://news.ycombinator.com/item?id=44962529 の横に置いておいて。「なんでアニメの猫耳娘がLinuxカーネルへのアクセスをブロックしてるの?」これが理由だよ。AIは、派手なSF的な方法で社会を壊すんじゃなくて、インターネット上の他の人たちの利益を奪って中央集権化することで、みんなが自分を守るために境界を作らざるを得なくなり、一般の人々の体験を悪化させるんだ。しかも、電気代も高くなるしね。人間を暖かく保つのは、電気を直接株価の上昇に変える機械よりも利益が少ないから。

自分はAI好きってわけじゃないけど、この問題は特にAIに関係ないよ。単に、いくつかの欲深い企業が、robots.txtを無視したり、適切なUA文字列を使わなかったり、レート制限をしなかったりするような、信じられないほどひどいクローラーを作ってるだけ。こういう状況は、AIブームよりも前に、別の理由で簡単に起こり得たと思う。

これはAIが何かを壊してるわけじゃないよ。企業が壊してるだけ。昔から変わらない。法的な法人が存在するのに、SFの非人間的な存在なんて必要ない。彼らは人々が理解できない新しいテクノロジーに飛びついて、自分たちをそれに結びつけようとして、金儲けのためにダメージを与えてる。ほとんど失敗することが多いけどね。実際の人間は、$techthingの詐欺的な企業バージョンしか見たり関わったりしないから、$techthing = 企業の行動だと思っちゃうんだよね。それに、サービスを拒否したり、人間がウェブサイトにアクセスできないようにするのは、Cloudflareが「AI」関連の企業やそのクソみたいなクローラーよりも、1日でずっと多くのダメージを与えてるよ。

データを受け取りたくないなら、受け取らなければいい。データを送信したくないなら、送らなければいい。誰も俺のIPからトラフィックを受け取ったり、送ったりするように頼んでないよ。君はただサーバーをそのように設定しただけだ。まあ、HNの名言を借りるなら「君のビジネスモデルは俺の問題じゃない」ってことさ。俺のトラフィックがいらないなら、俺から切り離してくれ。

AIは、派手なSFのように社会を傷つけるんじゃなくて、インターネット上の他の人たちの犠牲の上に利益を集中させることで社会をダメにする。10点満点。特に言うことなし。

これはAIの話じゃないよ。これは数社の企業が悪いネット市民になって、インフラを悪用してるだけ。検索エンジン運営者には、こういうインセンティブが元々あったんだ。

自分のサイトをスクレイピングしてた最悪の犯人はAnthropicだった。AIタールピットを展開して(https://news.ycombinator.com/item?id=42725147)、どうなるか見てみたけど、Anthropicのクローラーは何週間もそれをスクレイピングし続けた。ログを計算したら、彼らの時間をほぼ1年無駄にしたと思う。並行してクローリングしてたからね。他のスクレイパーはそこまでしつこくなかった。

それ、めっちゃ面白いね。自分もこれを設定してみたいな。

自分の場合はOpenAIだった。GTPBotが約5週間、1秒あたり0.87リクエストでハニーポットを叩いてきた。他のクローラーはトラフィックの2%しかなかった。合計で180万リクエスト、4GiBのトラフィック。で、理由はわからないけど急に止まった。

タールピットを作って、見た目は本物っぽいけど偽のコンテンツを提供する。毒を盛れ。

これがCFAAの違反にならないのはなんで?SWEsやディレクターが刑務所に行かないのはどうして?EULAやrobots.txt、あるいはこの種のアクセスを禁止するバナーがあれば、コンピュータによるアクセスは全部虐待と見なされるべきじゃないの?何か、JSTORをスクレイピングする話とか?