世界を動かす技術を、日本語で。

CloudflareがAIデータスクレイパーのデフォルトブロックを導入

概要

  • Cloudflare がAI企業によるデータ収集を自動でブロックする新設定を発表
  • ウェブサイト運営者がAIボットのアクセスを許可制に変更可能
  • オリジナルコンテンツ保護と公正な報酬確保が狙い
  • コンテンツ制作者とAI企業間の対立が激化
  • 今後もAIとデータ利用を巡る議論が継続予想

Cloudflare、AIデータスクレイピング自動ブロック新機能

  • Cloudflare が新たな 権限ベース設定 を導入
  • ウェブサイトがデフォルトで AIボット のデータ収集を自動ブロック
  • サイト運営者が個別に ボットへのアクセス許可 を設定可能
  • これまでCloudflareは 悪意のあるアクセス のみを遮断していたが、今後はAIクローラーも対象
  • CEOの Matthew Prince 氏は「インターネットのルールを変える」とコメント

オリジナルコンテンツ保護の重要性

  • AI企業が無断で ウェブデータを利用 することで、コンテンツ制作者の意欲減退を懸念
  • Cloudflareは全インターネットトラフィックの 約20% を処理
  • AIクローラーの活動急増を受けて新機能を開発

AI企業とコンテンツ制作者の対立

  • OpenAI、Anthropic、Googleなどが 大量のウェブデータ でAIモデルを訓練
  • 高品質データ の争奪戦が激化
  • 出版社や著者、ニュース組織が 無断利用や報酬未払い を問題視
  • RedditやThe New York TimesがAI企業を 著作権侵害 で提訴
  • 一部出版社はAI企業と ライセンス契約 を締結し報酬を得ている事例も
    • The TimesとAmazonの契約
    • Axel Springer、Condé Nast、News CorpのAI企業との合意

Cloudflareの新機能の意義と今後

  • TimeのCOOである Mark Howard 氏はCloudflareの動きを歓迎
  • AIによるデータスクレイピングは全ての コンテンツ制作者への脅威
  • Cloudflareの新設定は「 第一歩」と位置付け、今後の長期的な取り組みを示唆
  • OpenAI、Anthropic、Googleはコメントを控える姿勢

AI時代のウェブとコンテンツ収益モデルの変化

  • Cloudflareは18か月前から 出版社支援策 を検討
  • 従来はウェブ訪問者数が収益源だったが、AI普及で 検索エンジンや一次情報離れ が進行
  • Prince氏は「 コンテンツ創作のインセンティブ消失」を懸念
  • 2023年7月にはAIスクレイパーを 任意でブロック する設定を導入
  • 今回の自動ブロック設定で、AI企業が 無償でのデータ利用困難
  • アクセス遮断 が可能であり、AI企業は質の低い製品を提供するリスク」

AIとデータ利用を巡る今後の展望

  • AI企業とコンテンツ制作者間の 新たなルール作り の必要性
  • ライセンス契約や報酬モデルの多様化
  • ウェブとAIの 共存の在り方 への模索

Hackerたちの意見

ボットのリストは今のところ結構短いね: https://developers.cloudflare.com/bots/concepts/bot/#ai-bots

ブロックが機能すれば、ほとんどのサイトのトラフィックの半分以上を占めることになるよ。

Cloudflareはウェブトラフィックをたくさん見てるから、今見えてるのは一番大きなボットなんだろうね。新しいボットが見つかれば追加されるだろうけど、全てを本当にブロックするのは無理だと思う。でも、彼らは他の多くのサービスよりも検出力があるからね。

AIボット > 私たちが「人工知能(AI)クローラー」として分類するボットをあなたのウェブサイトからブロックする管理ルールにオプトインできます(「AIボット」)。顧客は、大規模言語モデル(LLM)のトレーニングなど、AI関連のコンテンツ使用を防ぐためにこれを選択することができます。 > CCBot(コモンクローリング) コモンクローリングはAIボットではありません: https://commoncrawl.org

大手AI企業って、実際にrobots.txtを守ってるのかな?公に知られてるクローラーは守るかもしれないけど、隠れてクローリングするキャンペーンもやってるはずだよね。まるで本や画像、ユーザーデータを不正に盗んで学習するみたいに。

明確さはないけど、私の考えでは、このトラフィックの大部分は実際にAIに質問してる人たちなんじゃないかな。AIが答えを探すためにリサーチしてる感じ。AIツールがウェブブラウザみたいにリサーチに使われるとき、robots.txtに従うべきなの?それとも、検索インデックス用だけなのかな?

私もそう思う。robots.txtを守るのはただの慣習だよね。robots.txtに従う義務なんてないし、少なくとも技術的な義務は確実にないと思う。自動的な法的義務もないんじゃないかな。サイトが「robots.txtに設定されたポリシーを守らなきゃダメ」って利用規約に追加することはできるかもしれないけど、それがクローラーにとってどれだけの意味があるのかは分からないな。

Cloudflareは、今のゲートキーパーとしての役割が嫌いだけど、実際にはAI企業に曲げさせる力を持ってると思う。

見出しはちょっと誤解を招くね。Cloudflareを使ってるサイトは、すべてのAIボットをすぐにブロックするオプトインのオプションがあるけど、デフォルトではオンになってないんだ。Cloudflareがその判断をリーダーシップの裁量で行えるっていうのは、彼らの持ってる力の大きさを示してるね。

今やaibotsとウェブサイトの間は敵対的な関係になってるね。Cloudflareはそれに反応してるだけだと思うけど、DDoS保護についても同じことが言えるのかな?それも同じじゃない?

Cloudflareを使っているサイトは、すべてのAIボットをすぐにブロックするオプトインオプションがあるが、Cloudflareを使っているサイトではデフォルトではオンになっていない。 それについてのソースはある? https://blog.cloudflare.com/content-independence-day-no-ai-c... には「デフォルトを変更する」と書いてあるよ。

彼らはインターネットを遅くすることしかできないよ。Cloudflareが提供するチャレンジで、半日以内に突破できなかったものは一つもない。これは単に彼らがマーケットプレイスを実装しようとしてる第一歩に過ぎない。彼らはあなたのサイトやその保護なんて気にしてない。スクレイパーとパブリッシャーの間で利益を得ようとしてるだけだ。なんで直接パブリッシャーに行って取引しないの?本当にバカみたいで、Cloudflareが大嫌いだ。彼らが得意なのはMITM攻撃だけだよ。

この機能をプリコンフィグされた管理ルールで有効にすると、Cloudflareはrobots.txtを守り、クローリングレートを尊重し、あなたのウェブサイトから行動を隠さない確認済みのAIボットを検出してブロックできるようになるよ。このルールは、ルールに従わないAIボットの署名をもっと含むように拡張されたんだ。Perplexityみたいな企業がトラフィックを隠してるのはもう知ってるし、もっと裏があると思うけど、これをそのまま受け取ると、敬意を持って透明なボットを罰することは、逆に隠蔽を促進するだけじゃない? 編集: 他のコメントで投稿されたこのリンク[0]がこの質問に答えてるよ。要するに、隠蔽は効果がないってこと。 > 我々はCloudflareのグローバルシグナルを利用してボットスコアを計算してる。上記のAIボットのようなものは、我々が「おそらくボット」として正しく識別しスコアを付けていることを反映してる。 > 悪意のある行為者がウェブサイトを大規模にクローリングしようとするとき、彼らは一般的に我々が指紋を取得できるツールやフレームワークを使う。見える指紋ごとに、Cloudflareのネットワークを使って、平均57百万リクエスト/秒を超えるリクエストを処理し、この指紋をどれだけ信頼すべきかを理解してる。モデルを動かすために、我々は多くのシグナルを基にグローバルな集計を計算してる。これらのシグナルに基づいて、我々のモデルは上記のような回避的なAIボットからのトラフィックを適切にボットとしてフラグ付けできたよ。 [0] https://blog.cloudflare.com/declaring-your-aindependence-blo...

「敬意を持って透明なボットを罰することは、隠蔽を促進するだけじゃない?」 そうだね、でもそれは20年以上前に通り過ぎた橋だよ。すでに武器競争があった場所で新たに武器競争を生み出してるわけじゃない。似たようなアイデアを持ち出す人たちへの私の一般的な反応はこれだよ。「でもボットはただ…」って言うけど、彼らは20年以上それをやってきて、みんなもそれに対抗してきたんだ。新しい問題でもなければ、新しい解決策でもないし、武器競争がすぐに終わる見込みもない。これらは全部新しいことじゃないよ。

「敬意を持って透明なボットを罰することは、隠蔽を促進するだけじゃない?」 確かにそうだけど、20年以上前にその橋を渡ったよ。すでに武器競争があったところで新たに武器競争を生み出してるわけじゃない。似たようなアイデアを持ち出す人たちへの私の一般的な反応はこれだよ。「でもボットはただ…」って言うけど、彼らは20年以上それをやってきて、みんなもそれに対抗してきたんだ。新しい問題でもないし、新しい解決策でもないし、武器競争がすぐに終わる見込みもない。これらは全部新しいことじゃないよ。

次の行:> ルールは、ルールに従わないAIボットの署名をさらに含むように拡張されました。「Super Bot Fight Mode」ページの「Block AI Bots」ルールは、ほとんどのボットトラフィックをフィルタリングします。私はユーザーからのトラフィックの10倍のボットトラフィックを受けていました。確実にrobots.txtやユーザーエージェントには依存していませんでした。これを有効にした後、自分のツールがウェブサイトで動作するようにページルールのバイパスを書かなきゃいけなかったよ。

Cloudflareは、嫌いな人たちにとってウェブを地獄にする方法をすでに知ってるよ。私は、AIボットが「悪意のある」とは見なされないようにするためのrobots.txtのエントリーを読んでる。残りはCloudflare特別扱いだね。

AI企業が許可や支払いなしに様々なウェブサイトのデータを自由に使っていると、人々は新しいデジタルコンテンツを作る気を失うだろうね。これが起こるのを防ぐ方法が見当たらない。AIは成長するにつれて、他のデジタルインタラクションを根本的に妨げている。その成長のメカニズムが、他の種類のデジタルコンテンツを殺してる。最終的には、皮肉なことに、AIの主な食料源であるウェブを殺すことになるだろう。

資本主義が今や人を搾取することに主眼を置くようになったのと同じだね?

さらに、広告ブロッカーの使用率は30%らしいよ。だから、実際には冗長か、もっと微妙な議論だね。

みんながAIでやりたいこと、つまりエンターテイメントや人間とのインタラクション、経済的なものも含めて、実現しないとAIは飢えてしまうね。

これをオンにしたら、robots.txtが自動で調整されたよ。他に何をしてるのかはよくわからないけど。 # 注意: このサイト上でのコンテンツやその他のデータの収集は、データマイニングやスクレイピングを目的としたデバイス、ツール、プロセスを含めて、禁止されている。ただし、(1) 検索エンジンのインデックス作成や人工知能による情報取得のため、または (2) このサイトの運営者からの明示的な書面による許可がある場合を除く。 # 知的財産やその他の資料のライセンスを取得するための許可をリクエストするには、直接このサイトの運営者に連絡してください。 # BEGIN Cloudflare管理コンテンツ ユーザーエージェント: Amazonbot 禁止: / ユーザーエージェント: Applebot-Extended 禁止: / ユーザーエージェント: Bytespider 禁止: / ユーザーエージェント: CCBot 禁止: / ユーザーエージェント: ClaudeBot 禁止: / ユーザーエージェント: Google-Extended 禁止: / ユーザーエージェント: GPTBot 禁止: / ユーザーエージェント: meta-externalagent 禁止: / # END Cloudflare管理コンテンツ ユーザーエージェント: * 禁止: /* 許可: /$

だから、robots.txtファイルを更新するだけじゃなくて、実際にはごく少数のものしかブロックできないんだよね。Cloudflareはこれらの悪意のあるエージェントのデータを集めてプロファイリングしてるみたい。Cloudflareのこの投稿がもう少し詳しく説明してるよ:https://blog.cloudflare.com/declaring-your-aindependence-blo... つまり、猫とネズミのゲームみたいになるってことだね。

これは面白いね。理由と反応が合ってない気がする。 > プリンス氏は、「Cloudflareはインターネット上のオリジナルコンテンツを守るために変更を行っている」と言った。もしAI企業が許可や支払いなしに様々なウェブサイトからデータを自由に使うと、人々は新しいデジタルコンテンツを作る気を失うだろうと彼は言った。 > 「人工知能の検索強化生成の目的以外は禁止」 これは言語モデルのトレーニングに課税することを狙っているようだけど、RAGの部分が除外される理由は何だろう?それはオンラインコンテンツクリエイターにとって、ボットがクリックを無駄にしているから、もっと大きな影響があるように思える。

そういえば… Googleはインデックス用やAI用にスクレイピングしてるよね?最終的には「俺を使うか使わないか、AIのトレーニングを手伝いたくないなら検索結果も出さないよ」って言うようになるのかな。それは厳しい取引だけど、なんか自己矛盾してない気もする。

「User-agent: CCBot disallow: /」 Common Crawlは「AI」専用なの?CCBotはこの前から多くのrobots.txtに入ってたけど、CCがアーカイブの内容をどう使うかを知ったり制御したりするのはどうするの?CCがフェアユースに依存してるとしたら、知的財産権や他の素材のライセンスを求めるにはこのサイトの運営者に直接連絡する必要があるの?もし運営者がその素材に対する知的財産権を持っていなかったら、LLMを作成するためにその素材をライセンスするために権利者から許可を得る必要があるの?ウェブサイトの利用規約で、サイト運営者が他の人(「ユーザー」)の作品をLLMを作成するために有料でサブライセンスすることを許可するのは一般的なの?その料金は権利者と分け合うの?

僕の趣味のサイトでは、UAにケースインセンシティブな「bot」が含まれていて、robots.txtやhumans.txt、favicon.ico以外のリクエストが来たら、ステータス444を返して接続を切っちゃうよ。これで検索エンジンも落ちるけど、ほとんどのCIDRブロックはブラックホールルートしてるからね。こんなことするのは多分僕だけだと思う。

Cloudflareがnoindexリンクを挿入してるのを見た気がするんだけど?

HNでボットトラフィックが自分のウェブサイトを遅くしてるって文句言ってる人をたくさん見たけど、ウェブサイト運営者として正直困惑してる。Cloudflareを使ってるなら、基本的なキャッシュ設定でほとんどのボットトラフィックがキャッシュにヒットしてサーバーを遅くしないはずなんだけど。やりたくないなら、今は帯域幅とCPUが安いから、あんまり影響ないはず。なんでみんなそんなに怒ってるの?

そういうDevOpsにはあまり興味ないな。この場合、良い基本的なキャッシングって何?

もうCloudflareを使ってるっていう前提はスタート地点だね。今やシンプルなウェブサイトを維持するための要件なのかな?

AIトラフィックのせいでダウンタイムがあった私としては、今はCloudflareのツールを使ってるけど、ほとんどのサイトは複数のレイヤーでキャッシュされてる。でも、認証されてない一般公開のために表示するものは、機能しながらキャッシュできないんだ。そのエンドポイントを叩かれると、アプリがダウンしちゃう。さらに、複数のレイヤーがあっても、生成するのにコストがかかるものは隙間から漏れちゃうことがある。私のサイトには何百万もの公開ページがあって、重いページで同時に発生するミスがリクエストを滞らせて、エラーを引き起こす。エラーが出るとキャッシュがうまく埋まらないから、AIトラフィックがそのエンドポイントを叩き続けて、キャッシュされずにエラーが出続ける。そこから悪循環が始まるんだ。

複雑じゃないよ。大きなサイトで働いてたんだけど、サイトをリアルタイムで生成するための計算能力やI/O(特にDBのIOPS)が足りなかったんだ。大規模なクローリングは、冷たいページやオブジェクトを生成して(CPU + IOPS)、それをキャッシュに引き込むから、キャッシュのヒット率が劇的に悪化しちゃう。これが原因でサイトがダウンすることもあるよ。スケールでキャッシュは高くつくから、アホなクローラーによる大規模なクローリングを許すと、キャッシュに大きな投資が必要になるか、全ユーザーにとってサイトが遅くなって悪化しちゃう。サイトを作ったのは、企業のトレーニングデータを提供するためじゃないからね。他の人も言ってるけど、Googleは99.9%の他の企業よりもずっと優秀だよ。彼らはサイトをダウンさせないように気を使っていて、検索を通じてトラフィックを提供してくれてた。だから、それは取られるんじゃなくて、トレードだったんだ。あと、Cloudflareとはビジネスをしたくないな。クォータを公開しない会社は好きじゃないから。Xを超えたら、月1万ドルからのエンタープライズアカウントが必要になるって言われても、Xが何か知っておきたい。Cloudflareのビジネスプラクティスは、顧客がそのクォータを超えたら、すぐに支払いを求めてきて、サービスから追い出されるって感じだね。

聞いた話だと、スクレイパーボットが「特定の期間の全投稿を取得」みたいなAPIを見つけて、スタート日とエンド日の組み合わせでそれを叩きまくってるらしいよ。

私もこの強い反応にちょっと戸惑ってる。でも、最適化されてないサイトがたくさん出てくると思ってる。Anubisチェッカーよりも早く広がったウェブ関連のライブラリを考えるのは難しいよ。今やどこにでもある! https://github.com/TecharoHQ/anubis もっとレート制限をかける努力が見られないのが不思議だね。多くは分散型のクローラーだと思うけど、少数のIPで活動のプールが回ってる感じがする。それらはかなり明確に時間的に相関してると思う。もしかしたらそうじゃないかもしれないけど、ウェブは何よりも、もっと420 Enhance Your Calmのレスポンスを追加するオープンソースソフトウェアが必要だと思う。 https://http.dev/420

残念ながら、すごく基本的なことに聞こえるね。なんでウェブクローリングやボットの基準が進化しないんだろう?robots.txtは1994年に作られたって聞いたけど(ありがとう、ChatGPT)。人々はサイトマップやRSS、IndexNowで試みてきたけど、巨大な企業がHelloWorld.basの技術に依存して自分たちのプラットフォームを制御してるみたい。エンドポイントやMCPなどを立ち上げて、インテリジェントなボットが私のサービスとコミュニケーションできるようにしたい。アクセスを求めたり、コンテンツを求めたり、コンテンツに対してお金を払ったりできるようにしたい。フルアクセスか無アクセスかの選択をするのではなく、ボットが私のコンテンツを消費するためのソリューションを提供したい。AIには賛成だけど、もっと頑張ってほしい。今、インターネットはバカなボットファームに飲み込まれそうで、チャット画面に提供されるところだよ。彼らは元の情報源に戻りたくないし、戻ったとしてもエラー率が異常に高い。

このコメントはCloudflareの社員から来てるみたいだね。これは明らかに、Cloudflareがクローラーとパブリッシャーの間で無駄な市場の仲介者になろうとして失敗するためのマーケットプレイスを構築する第一歩だ。

robots.txtは1994年に発明されたと思う(ありがとう、ChatGPT)。君を責めるわけじゃないけど、新しいタブを開いて「!w robots.txt」(バング表記をサポートしている検索エンジン用)か「wiki robots.txt」(Google用かな)ってやる方が早いと思う。答えはすぐそこにあるし、LLMに何を求めてるか説明する必要もないし、[1]を確認する必要もないよ。[1] 確かにWikipediaは間違ってることもあるけど、少なくとも指摘されたときに人に示せる一般的にアクセス可能な間違った情報源だしね。それに、Wikipediaの間違いの予測モデルでは、こういうことに関してはかなり低い確率だし、ChatGPTはもっとランダムだよ。

ほとんどの人は気づいてないけど、今まで私たちがオンラインでやってきたことは、OpenAIやAnthropicなどを豊かにするための無料のトレーニングになってたんだよね。人間、つまり価値を生み出した人たちはそのループから外されてる。今この時点で、少し遅すぎるかもしれないし、この解決策はあまり革新的じゃないように見える。でも、方向性としては100%正しいし、AIの寄生に対抗するための革新がもっと進むことを願ってる。

誰か、モデルとその重みをオープンソースにするために訴訟してる人いる?

私はオンラインで書くのが好きなんだ(ここでのコメント、オープンソースソフトウェア、ブログなど)。共有したいアイデアがあるからね。「何かをやったから、そのやり方を教える」とか「この特定の方法で政策を変えるべき」とか「誰かXのやり方知ってる?」っていうのを、モデルのトレーニングに使われるのも、人間が読むのも嬉しいよ。

Cloudflareみたいな寄生虫が、インターネットを自由じゃなくするんだ。もうすでに起こってるし、「ブラウザをチェック中」って理由でブロックされたり、1998年の読み込み時間に戻されたりしてる。彼らはインターネットを壊して、承認されたことを承認されたブラウザでやる人だけが本当のアクセスを得られるようにするつもりだ。Cloudflareは問題を解決してるんじゃなくて、自分たちを仲介者として挿入して利益を得て、すべてを悪化させてるだけだよ。

モデルメーカーが彼らやそのフレームワークを記憶から消し去ることで報復する可能性ってないかな?それが開発者のCF導入に悪影響を与えるかも。

人間を何のループから切り離すの? Redditのコメントとかで人が得ていた仕事や機会が今はAIに取られちゃってるの?

君のコメントを含めて、これも含めてね。HN自体は定期的にスクレイピングされてるし。一番不安なのは、スピーチ分析による匿名性の喪失だよ。これはもうできることだけど、大規模にやるのは難しい。権威主義者にとっては究極のツールだね。君のスピーチがそのまま身元になるから、隠れたアイデンティティはない。国境も関係ない。政府が良いか悪いかは関係なく、悪い行動をする政府(あるいは大企業)が他国の個人を脅迫する力を持ってるからね。本当にディストピアに向かっている気がする。インターネット全体が壊滅するか、前例のないレベルの自己検閲が起こるかもしれない。もうプラットフォームの検閲のせいでアルゴスピークがあるけど[0]、これはまた別のタイプの検閲だよ。もっと侵入的で、もっと個人的なもの。ダークフォレストよりも悪いことがあるんだ。昨日、YouTubeが「退役軍人の自殺を終わらせよう」と書かれたシャツを着ていた人が飛行機から降ろされた動画のせいで、25~60歳の僕にコンテンツ警告を出したんだから。[0.1] これを打ってる間も、僕は検閲されてる!Appleは「suicidal」はスワイプさせてくれるけど、「suicide」はダメなんだ!マジで、みんな!人々が自分の問題を話すことすら妨げて、メンタルヘルスの危機を減らすなんてできないよ、ただ悪化させるだけだ!

ウェブの破壊とIP盗難は法的に対処する必要があるよ。たった一人の裁判官の意見は別として、「AI」によるスクレイピングはすでに著作権を侵害してる。これを法律で明確にする必要があるし、スクレイパーは著作権侵害で破産したり投獄された何千人もの個人と同じ扱いを受けるべきだよ。今はウェブコンテンツの盗難のナップスター時代にいるんだ。