AIウェブクローラーが終わりなきコンテンツの渇望でウェブサイトを破壊している

2025年9月3日原文(theregister.com)

概要

AIクローラー によるウェブアクセス急増
従来型クローラー と比べて被害拡大
サイト性能低下や運営コスト増 の深刻化
収益化困難 かつ対策が困難な現状
ウェブの分断化 と情報へのアクセス障壁の懸念

AIクローラーによるウェブへの影響

Cloudflare によると、世界のウェブトラフィックの 30%がボット によるもの
AIボット が急増し、全AIボットトラフィックの 80%がAIデータフェッチャーボット （Fastly調査）
従来型クローラー （例：World Wide Web Wanderer, 1993年登場）と比較し、 AIクローラーは攻撃的かつ負荷が高い
Fastly は、AIクローラーが「 パフォーマンス劣化、サービス停止、運用コスト増」を引き起こすと警告
- 数分で 通常の10倍〜20倍のトラフィック急増 の事例
InMotionhosting によれば、AIクローラーは クロールディレイや帯域節約ガイドラインを無視、ページ全文抽出や動的リンク・スクリプトも追跡

中小サイト・共有サーバーへの影響

共有サーバー利用中の小規模サイト は、他サイトへのAIクローラー攻撃の影響も受ける
- 自サイトが直接攻撃されなくても、同一サーバー上の他サイトの影響でパフォーマンス低下
CloudflareのDDoS保護 では防げるが、 AIボット攻撃 には効果薄
大規模サイト もリソース増強（CPU、メモリ、ネットワーク）が必要
- 対応しない場合、 3秒以上の遅延で半数以上の訪問者が離脱
- Meta（52%）、Google（23%）、OpenAI（20%） などのAIサーチボットによる 30Tbps級のトラフィック急増

収益化の困難とAIクローラーの問題点

従来のGooglebot は検索経由で 訪問者や広告収益 をもたらす可能性
AIサーチボット は 元サイトにユーザーを誘導せず、収益化不可
AIクローラー は サイトを搾取 し、運営者は収益機会を失う

対策の難しさと現状

ログイン、ペイウォール、CAPTCHA、アンチボット技術 による防御策
- AIはこれらの壁も突破可能
robots.txt による旧来のブロック手法は 多くのAIクローラーが無視
- Perplexity はrobots.txt無視の疑惑（Cloudflare指摘、Perplexityは否定）
llms.txt （LLM用のアクセスガイドライン）という新提案も存在
- しかし、 賛否両論で普及未定

インフラ提供者やOSSによる防御策

Cloudflare などが AIクローラーブロック機能 を提供
Anubis AI crawler blocker のような OSSツール も登場
- AIクローラーのアクセス速度を制限

ウェブの未来と分断化の懸念

AI企業とウェブ運営者の対抗 が進み、最終的には 中立点に到達 予想
しかし、 ウェブの分断化 と アクセス制限・有料化 が進行
重要情報の壁内囲い込みや削除 のリスク
オープンウェブの終焉 と バルカン化したインターネット への懸念

Hackerたちの意見

クラウドサービス会社のFastlyも同意してるね。彼らによると、AIボットトラフィックの80%はAIデータフェッチャーボットから来てるんだって。マジで。最近、CAPTCHAを設置するサイトが増えてるけど、問題は？CAPTCHAってめっちゃウザいし、1日に50回も目の検査みたいなもんだし、> GoogleのreCAPTCHAは役に立たないだけじゃなくて、基本的にスパイウェアみたいなもんだよね。[0] > reCAPTCHA v3のチェックボックステストはボットを止められないし、ユーザーデータを追跡してるし。[0] https://www.techspot.com/news/106717-google-recaptcha-not-on...

└

最近、CAPTCHAだらけのページからはさっさと離れるようにしてるんだ。皮肉なことに、そのおかげでAIを使うことが増えた。

└

ウェブマスターは、ほんとに板挟みになってる感じだね。少なくとも、俺がやってることだと、設定が悪いか悪意のあるボットが人間の訪問者の5000倍もリソースを消費するから、ボット対策をしないと、ほぼ諦めて野菜農家になろうかと思ってる。ボット対策って、ほとんどのボットを防ぐための障害と、ユーザーをイライラさせないようにするバランスを取ることなんだよね。今のところ、Anubisはあまり悪くない選択肢の一つだと思う。ユーザーにはウザがられることもあるけど（確かにウザい）、消火栓を35回クリックするよりはマシだし、ちゃんと設定すればほとんどのボットを防げるみたいだし、少なくとも行動をもっと特定しやすくする方向に持っていける。たぶん永遠には続かないだろうけど、他に何があるかって言ったら、完全にアナキャップ特別支援児みたいになって、ページリクエストごとにクリプトマイクロトランザクションをするくらいしか思いつかない。それだとボットだけじゃなくて、人間の訪問者も追い出しちゃうだろうけど。

└

Fastlyみたいな会社は、物事をJavaScriptの実行でしか測定せず、JSを正しく実行できないものは全部ボットだと仮定してるから、その80%にはたくさんの人間も含まれてるんだよね。

└

Fastlyのレポートには、Common CrawlのCCBotに関する素晴らしい引用がいくつかあるよね。

「私たちの観察は、Common Crawlのようなオープンデータイニシアチブの重要な役割を強調しています。商業的なクローラーとは異なり、Common Crawlはデータを自由に公開しており、AI研究と開発のためのより包括的なエコシステムを作る手助けをしています。AIボットによってクロールされたユニークなウェブサイトの63%をカバーしていて、ほとんどの商業的な代替手段よりもかなり高い数字です。これにより、大規模なウェブデータへのアクセスを民主化する重要な役割を果たしています。このオープンアクセスモデルは、研究者や開発者のより広いコミュニティがAIモデルをトレーニングし、改善することを可能にし、分野における多様で広範なイノベーションを促進します。」「注目すべきは、トップ4のクローラー（Meta、Google、OpenAI、Claude）が商業サイトを好む傾向があることです。Common CrawlのCCBotは、オープンデータセットが広く使われていて、商業、メディア＆エンターテイメント、高テクノロジーの分野にバランスよく偏りがあります。その商業的な同等物であるTimpibotやDiffbotは、メディア＆エンターテイメントを高く評価しているようで、Common Crawlで利用可能なものを補完するためかもしれません。そして、Fastlyのレポートには載っていないけど、EL Regの記事にはこんな数字もあります。「Common Crawlプロジェクトは、ウェブサイトを吸い上げて、重複作業やトラフィックの増加を防ぐために設計された無料の公共データセットに含めるもので、驚くほど低い0.21%でした。」

└

皮肉なことに… LLMはCAPTCHAを解くのが得意なんだよね。だから、そのCAPTCHAに悩まされるのは実際のサイト訪問者だけ。サイトがやるべきことは、同じIPからの繰り返しリクエストを一時的にブロックすることだよ。確かに、いくつかのエージェントは何万ものIPを使うけど、もし本当に人々が言うほど攻撃的なら、普通のユーザーよりも同じIPに遭遇することが多くなるはず。そうすれば、過剰に攻撃的な連中を排除できるよ。俺はウェブスクレイピングをやってて、1r/sに制限してた。そうすれば、ほとんど姿を現さないから、ブロックや検出に遭遇することはないんだ。でも、並行して1000件のリクエストを送るようなやつがいると、クエリビルダーを理解してないから、ページの更新を確認するチェックも作れない。俺が見る主な問題は、基本的なスクレイパーしか作らない人がいることだね。リンクを見て、フォローして、プロセスを生成して、スクレイプして、さらに100のリンクを見つける… 更新？ウェブサイトを再スクレイプして、繰り返す、繰り返す… 各ウェブサイトの更新を確認するスクレイプテンプレートを作るのには時間がかかるから、そういうのを気にしない人もいるんだよね。

なんでウェブサイトをキャッシュして、少なくとも24時間は戻らないようにしないのか、よくわからない。特にほとんどのサイトに関してはね。まるでLLMやAIでソフトウェアエンジニアリングの基礎を再学習してるみたいで、ほんと辛い。

└

もっと多くの検索エンジンがあった頃の風景は、きっと今と同じだったんだろうな…あの頃のエンジニアチームは、もっと有能で、処理も無駄がなかったと思う。AWSに相当するものがなかったから、クローリングされたウェブサイトのIP範囲がバンされるのは簡単だったし、もっと良い市民でいる必要があったんだ。

└

ショートカットマシンを作る最前線の人たちがショートカットを取ってるんだ。細部への注意が死に向かってゆっくり進んでる感じだね。

└

クローラーが立ち上がったら、何を持って行こうが関係ないよね？「それは俺の担当じゃない！」ってクローラー・フォン・ブラウンが言ってる。

└

これ！今日、Claude Sonnetに「推論」についてのWikipediaの記事を読んでもらって、いくつかの質問をしたんだけど、Sonnetは「ごめん、アクセスできない」と返事してきた。なんで？って聞いたら、混乱してた。AnthropicがなぜWikipediaのミラーをXXの異なる言語で維持して、毎週cronジョブを走らせないのか聞いても、明確な答えはなかった。情けない。Anthropicの盲点だよね。少なくとも道徳的に無関心で、ひどい場合は非道徳的だと思う。大手AI企業はWikimedia Foundationから大きな利益を得ているのに、何か返してるの？それとも倫理のない大きなインターネットの吸血鬼なの？DarioやSamたちよ、自分たちの血の提供者の福祉に貢献してくれ。

└

誰がそんなこと言ったの？

Hacker Newsで議論の続きを見る

ハクソク