CloudflareがAIデータスクレイパーのデフォルトブロックを導入

2025年7月2日原文(nytimes.com)

概要

Cloudflare がAI企業によるデータ収集を自動でブロックする新設定を発表
ウェブサイト運営者がAIボットのアクセスを許可制に変更可能
オリジナルコンテンツ保護と公正な報酬確保が狙い
コンテンツ制作者とAI企業間の対立が激化
今後もAIとデータ利用を巡る議論が継続予想

Cloudflare、AIデータスクレイピング自動ブロック新機能

Cloudflare が新たな 権限ベース設定 を導入
ウェブサイトがデフォルトで AIボット のデータ収集を自動ブロック
サイト運営者が個別に ボットへのアクセス許可 を設定可能
これまでCloudflareは 悪意のあるアクセス のみを遮断していたが、今後はAIクローラーも対象
CEOの Matthew Prince 氏は「インターネットのルールを変える」とコメント

オリジナルコンテンツ保護の重要性

AI企業が無断で ウェブデータを利用 することで、コンテンツ制作者の意欲減退を懸念
Cloudflareは全インターネットトラフィックの 約20％ を処理
AIクローラーの活動急増を受けて新機能を開発

AI企業とコンテンツ制作者の対立

OpenAI、Anthropic、Googleなどが 大量のウェブデータ でAIモデルを訓練
高品質データ の争奪戦が激化
出版社や著者、ニュース組織が 無断利用や報酬未払い を問題視
RedditやThe New York TimesがAI企業を 著作権侵害 で提訴
一部出版社はAI企業と ライセンス契約 を締結し報酬を得ている事例も
- The TimesとAmazonの契約
- Axel Springer、Condé Nast、News CorpのAI企業との合意

Cloudflareの新機能の意義と今後

TimeのCOOである Mark Howard 氏はCloudflareの動きを歓迎
AIによるデータスクレイピングは全ての コンテンツ制作者への脅威
Cloudflareの新設定は「 第一歩」と位置付け、今後の長期的な取り組みを示唆
OpenAI、Anthropic、Googleはコメントを控える姿勢

AI時代のウェブとコンテンツ収益モデルの変化

Cloudflareは18か月前から 出版社支援策 を検討
従来はウェブ訪問者数が収益源だったが、AI普及で 検索エンジンや一次情報離れ が進行
Prince氏は「 コンテンツ創作のインセンティブ消失」を懸念
2023年7月にはAIスクレイパーを 任意でブロック する設定を導入
今回の自動ブロック設定で、AI企業が 無償でのデータ利用困難 に
「 アクセス遮断 が可能であり、AI企業は質の低い製品を提供するリスク」

AIとデータ利用を巡る今後の展望

AI企業とコンテンツ制作者間の 新たなルール作り の必要性
ライセンス契約や報酬モデルの多様化
ウェブとAIの 共存の在り方 への模索

Hackerたちの意見

ボットのリストは今のところ結構短いね: https://developers.cloudflare.com/bots/concepts/bot/#ai-bots

└

ブロックが機能すれば、ほとんどのサイトのトラフィックの半分以上を占めることになるよ。

└

Cloudflareはウェブトラフィックをたくさん見てるから、今見えてるのは一番大きなボットなんだろうね。新しいボットが見つかれば追加されるだろうけど、全てを本当にブロックするのは無理だと思う。でも、彼らは他の多くのサービスよりも検出力があるからね。

└

AIボット > 私たちが「人工知能（AI）クローラー」として分類するボットをあなたのウェブサイトからブロックする管理ルールにオプトインできます（「AIボット」）。顧客は、大規模言語モデル（LLM）のトレーニングなど、AI関連のコンテンツ使用を防ぐためにこれを選択することができます。 > CCBot（コモンクローリング）コモンクローリングはAIボットではありません: https://commoncrawl.org

大手AI企業って、実際にrobots.txtを守ってるのかな？公に知られてるクローラーは守るかもしれないけど、隠れてクローリングするキャンペーンもやってるはずだよね。まるで本や画像、ユーザーデータを不正に盗んで学習するみたいに。

└

明確さはないけど、私の考えでは、このトラフィックの大部分は実際にAIに質問してる人たちなんじゃないかな。AIが答えを探すためにリサーチしてる感じ。AIツールがウェブブラウザみたいにリサーチに使われるとき、robots.txtに従うべきなの？それとも、検索インデックス用だけなのかな？

└

私もそう思う。robots.txtを守るのはただの慣習だよね。robots.txtに従う義務なんてないし、少なくとも技術的な義務は確実にないと思う。自動的な法的義務もないんじゃないかな。サイトが「robots.txtに設定されたポリシーを守らなきゃダメ」って利用規約に追加することはできるかもしれないけど、それがクローラーにとってどれだけの意味があるのかは分からないな。

└

Cloudflareは、今のゲートキーパーとしての役割が嫌いだけど、実際にはAI企業に曲げさせる力を持ってると思う。

見出しはちょっと誤解を招くね。Cloudflareを使ってるサイトは、すべてのAIボットをすぐにブロックするオプトインのオプションがあるけど、デフォルトではオンになってないんだ。Cloudflareがその判断をリーダーシップの裁量で行えるっていうのは、彼らの持ってる力の大きさを示してるね。

└

今やaibotsとウェブサイトの間は敵対的な関係になってるね。Cloudflareはそれに反応してるだけだと思うけど、DDoS保護についても同じことが言えるのかな？それも同じじゃない？

└

Cloudflareを使っているサイトは、すべてのAIボットをすぐにブロックするオプトインオプションがあるが、Cloudflareを使っているサイトではデフォルトではオンになっていない。それについてのソースはある？ https://blog.cloudflare.com/content-independence-day-no-ai-c... には「デフォルトを変更する」と書いてあるよ。

└

彼らはインターネットを遅くすることしかできないよ。Cloudflareが提供するチャレンジで、半日以内に突破できなかったものは一つもない。これは単に彼らがマーケットプレイスを実装しようとしてる第一歩に過ぎない。彼らはあなたのサイトやその保護なんて気にしてない。スクレイパーとパブリッシャーの間で利益を得ようとしてるだけだ。なんで直接パブリッシャーに行って取引しないの？本当にバカみたいで、Cloudflareが大嫌いだ。彼らが得意なのはMITM攻撃だけだよ。

Hacker Newsで議論の続きを見る

ハクソク