世界を動かす技術を、日本語で。

CloudflareがAIボット向けの従量課金型クローリングを導入予定

概要

  • Cloudflare が提案する新しい「Pay per crawl」モデルの紹介
  • コンテンツ制作者 がAIクローラーへのアクセスを柔軟に制御・収益化可能
  • HTTP 402 Payment Required の活用による課金フローの実現
  • 技術的認証 や価格設定など、運用面の詳細
  • 今後の エージェント時代 への展望

コンテンツアクセスの新たな選択肢:Pay per crawl

  • 従来、 AIクローラー への対応は「全面許可」か「完全遮断」の二択
  • Cloudflare は、制作者が「誰に」「どのように」コンテンツを提供するかを選択できる仕組みを重視
  • 「Pay per crawl」により、 AIクローラーからのアクセスごとに課金 が可能
  • HTTP 402(Payment Required)を活用した 標準化された課金プロトコル
  • Cloudflare が商取引の記録・決済インフラを提供

パブリッシャーのコントロールと価格設定

  • ドメイン単位で「 許可」「 課金」「 遮断」の三つの選択肢
    • 許可 :無料でアクセスを許可
    • 課金 :設定価格でアクセスごとに課金
    • 遮断 :アクセス自体を拒否
  • 特定のクローラーのみ無料許可や、外部交渉も柔軟に対応可能
  • 既存の WAFやボット管理 機能と連携し、セキュリティを維持

技術的認証と課金フロー

  • クローラーは Ed25519鍵ペア 生成と公開鍵ディレクトリの登録が必要
  • Web Bot Auth 提案に準拠した署名付きリクエストを送信
  • 課金フローは2種類
    • リアクティブ型 :初回リクエストでHTTP 402と価格提示、同意時に再リクエスト
    • プロアクティブ型 :最初から支払意思を示すヘッダーを付与
  • 価格同意時のみ HTTP 200 OK でコンテンツ提供、課金イベント記録

決済および収益配分

  • Cloudflareアカウント で支払い・受取情報を設定
  • 各リクエストごとに課金イベントを記録し、集計後に決済・収益分配
  • すべての課金・アクセス履歴を管理

エージェント時代への展望

  • Pay per crawl はインターネットでのコンテンツ価値化と制御の新潮流
  • 将来的には、 動的価格設定利用用途別ライセンス にも発展可能
  • エージェント が自律的にコンテンツ購入・交渉する時代への布石
  • HTTP 402ベースにより、 プログラム的なアクセス交渉 が可能

導入方法とCloudflareの案内

  • 現在は プライベートベータ で運用中
  • 興味があるクローラー運営者やコンテンツ制作者は、 Cloudflare公式サイト から申込可能
  • Cloudflareは セキュリティ、アプリ高速化、DDoS対策 など多彩なサービスを提供
  • 詳細・キャリア情報は Cloudflare公式サイト 参照

Hackerたちの意見

全体的にはそのアイデアには賛成だけど、ビッグテックが消費してるデータ量を考えると、CFをバイパスする方が安く済むと思う(Googleは検索で無料で手に入れるしね)。もし成功したら、エージェントがこのコストをユーザーにどう転嫁するのか気になるな。

もっと多くの出版社がGoogleのボットをブロックし始めるだろうね。だって、GoogleはAIの結果で収益を奪ってるから。

「Googleは無料で手に入れるだろう、なぜならGoogle検索だから」 もし次のステップが、Googleが訪れるページに対して支払うことだとしたら?ページごとのクローラーフィーを設定することで、ニュースサイトは大きな料金が支払われない限り、いくつかの記事をクローリングできなくすることができるかもしれない。考えを整理しているだけだけど、さまざまな「ライセンス」によって価格を定義するプロトコルが簡単に想像できるよ。例えば「内部使用」、「再配布」(Googleニュースがやってること)、 「LLMトレーニング」など。Cloudflareは何百万ものウェブサイトの中心的なポイントとして、これを可能にするんだ。

この面倒な問題に取り組んでる人がいるのはいいね。ボットトラフィックが増えてるのを実感してるし、データをむしゃむしゃ食べてる感じだ。でも、Cloudflareに頼るんじゃなくて、クローラーやスクレイパーのためのオープンソースプロトコルがあった方がいいと思う。

Cloudflareが提案してるプロトコルは、誰でも実装できるものだよ。クローラーが登録して支払う方法が必要になるね。CFは商取引の記録を持ってるから、請求するのは彼らだろうけど、どれくらいの手数料を取るのか(もし取るなら)や、バンドルサービスに含まれるのかは不明だね。これを拡張して、以下のことを可能にするべきだと思う:* マイクロペイメントとサブスクリプション * ブラウザのUI/UXとの統合 * 複数の通貨 * UPIやNPP、FedNowなどの国の即時決済システムを含む複数の決済システムの実装。

これは企業がモデルのトレーニングのためにデータを集めてるのか、それともユーザーの代わりに動いてるエージェントツールなのかな?

支払いを望まないなら、こちらがあるよ: https://anubis.techaro.lol/ 例えば、https://gcc.gnu.org/bugzilla/ で使われてる。CAPTCHAやターンスタイルよりも面倒じゃないし、作業証明が自動で動くからね。

これは基本的にマイクロペイメントをどうやってやりたいかってことだね。最近Coinbaseが同じようなことを暗号通貨と402ステータスコードを使って導入したみたい。実際、x402って呼ばれてるよ。 https://github.com/coinbase/x402

これがウェブの標準的なビジネスモデルになるべきだよ。広告の仲介業者がメディアを腐らせて、データを永遠に搾取してるのは良くない。これがプロパガンダを広めたり、民主的なプロセスを腐らせたり、ここ10年以上の社会政治的不安を引き起こしてるんだ。数十年後には、これがどれだけ悪質だったかを受け入れて、タバコ業界と同じようにこれらの企業を起訴したり規制したりできるといいな。ブレイブのBATもこの問題を解決しようとするいい試みだけど、x402はもっと一般的な解決策に見える。どちらも、暗号通貨の偏見や広告技術が現在のウェブをしっかり握っているせいで、 tractionを得るチャンスがないのが残念だね。

これ、完全に間違った方向に進んでる気がする。これがやってるのは「はい、クローリングの作業はそのまま続けて、ただ今はもっとお金を払ってね」ってこと。Cloudflareはこの追加コストに対して価値を提供しようとしてない。ウェブをクローリングすることは、これらのAI企業や挑戦者の検索エンジンにとって競争優位性じゃないし、ただのコストで大きな気晴らしだよ。彼らは共有インフラで協力すべきだと思う。いろんな会社が独立してサイトにアクセスするんじゃなくて、みんなが貢献する単一のクローラーが必要だよ。フィルターを設定して、フィルターがURLに一致する人は比例して貢献する。変換(例えば、HTMLからMarkdown、テキストから埋め込み)を設定して、変換を共有する人も比例して貢献する。これによって、ウェブサイトへの負担が大幅に減るはず。みんながサイトにアクセスする代わりに、たった一つのクローラーがアクセスすることになるし、いろんなクローラーがrobots.txtを正しく守ることを期待する代わりに、技術的かつ契約的にそれを強制できる。クライアントにはブロックされたコンテンツが届かないし、どうしても欲しいなら、自分でクローラーを実装して維持する必要がある。それは、ただの住宅IPを通してプロキシするよりもずっと魅力がないよね。もし支払いを追加したいなら、まあ、いいけど。それで多くの人が報酬を得られるとは思えない。まだ見られていないコンテンツのために自動支払いを設定するのは誰だろう?自動生成された無駄なページにお金を払うだけになるよ。ここには、AI企業や検索エンジンがクローリングをより簡単で安くする解決策があるはずなのに、Cloudflareは「いや、ただ払え」って言ってるだけ。全然想像力がないし、魅力的でもないね。

でも、この新しいコストって協力する直接的なインセンティブを生むんじゃない?

ここでのインセンティブ構造について、君は市場の間違った側面を見てると思う。コンテンツプロデューサーはトラフィックに悩まされるのは気にしないけど、そのトラフィックに対してお金がもらえるかどうかは重要なんだ。もし8社が私のサイトのすべてのページを1日に10回訪問したいなら、それは問題ないよ。ただし、市場価格に近い金額をもらえるならね。その8社は、コストがコンテンツプロデューサーに外部化されなくなるから、統一されたクローリングスキームで協力するインセンティブが生まれるはず。これが君の望む結果につながり、コンテンツプロデューサーが報酬を得られるようにするべきだと思う。

これは、ブレイブがマイクロペイメントのためにやってるような、暗号通貨のいい使い方だね。

トラフィックが何かしら支払うなら、インフラを整えるのは簡単だよ。歴史的に見ても、サイトはトラフィックの負荷にうまく対応してきたからね。最近の状況は、1. どんどん多くのサイトがボットやスクレイパーを単純にブロックしているか、Cloudflareがこれにかなり強いか、2. アクセスの理由でこれができないサイトや、マネタイズモデルがないために支払えないサイトが攻撃を受けているかのどちらかだね。もしこれが実際に支払われるなら、上記の問題の多くを解決できるはず。出版社がAI以前に得ていた収入には及ばないかもしれないけど、少なくともボット攻撃のコストにはかなり寄与すると思うよ。

まあ、Common Crawlがそれにあたるはずなんだけど、皮肉なことに、AIスタートアップがそのデータを貪欲に食べようとして、前回使おうとしたときはほとんどアクセスできなかったんだ。結局、ずっと同じことの繰り返しみたいだね。こういうものには市場の隙間があるかもしれない。クローリングはちょっと面倒だし、アウトソースできれば多くの企業が助かるだろうね。ビジネスとして成り立つほどの市場があるかはわからないけど、確実に有能なクローリングとウェブデータへのアクセスが求められているのは間違いないよ。

なんでCloudflareに対して文句を言ってるのか、ちょっと分からないな。Cloudflareは、消費者のために本当に色々やろうとしてる会社の一つだと思うし、余計な料金を取ることもあまりないよ。6〜7年前、スクレイピングのメカニズムはシンプルで、主に検索エンジンだけが使ってたし、少数だけど確立された検索エンジン(DDGやStartpageは結果をプロキシしてるし、私がスクレイピングだと思うのはGoogle、Bing、Braveだね)しかなかった。これらは本当にrobots.txtを重視してたし、まあ、デメリットの方が多かったからね。デメリットは評判の悪化やメディアでの悪いイメージ。メリットは?「より良いコンテンツ?」それがどうしたの?これらの検索エンジンは、損失ベースのモデルなんだ。彼らはあなたからデータを集めて、広告主に売るために使ってほしいんだ(正直、Braveについては分からないけど、彼らはプライベートかもしれない)。それに、検索結果は「十分良かった」し、実際、AI以前の方が良かったって言う人もいるから、悪意のあるスクレイパーになる理由が思いつかない。なんで経済や評判について話したかっていうと、検索エンジンは最終的に行きたい場所に導いてくれる場所だったから。今はAIが直接答えてくれる場所になっちゃった。AIはその意味で経済を変えたんだ。甘いデータを引き出すために良いスクレイピングのプラクティスを守らないインセンティブがすごく大きい。前にも言ったけど、出版社は検索エンジンに満足してた。なぜなら、彼らのウェブサイトに人を導いて、ビューを見せたり、ユーザーにお金を払わせたり、いろんなマネタイズ戦略を使えたから。でも今は、AIが最終目的地になって、コンテンツを作るウェブサイトはそれによって苦しんでる。なぜなら、AIがそれをスクレイピングするから、彼らはコンテンツに対して何も得られないから。だから、今は悪意のあるスクレイパーを解決するより良い方法が必要だね。全くスクレイパーを止める方法もあって、証明作業をさせることで、いくつかのウェブサイトはそれをやってるし、Cloudflareもそれをサポートしてる。でも、そういうのが好きじゃない人もいるみたいで、私みたいにLibreWolfやメジャーじゃないブラウザを使ってる人にとっては、このPOW(特にCloudflareの)は本当に最悪だし、確かに証明作業はできるよ。Anubisはそれが得意だけど、それが唯一の選択肢なの?スクレイパーをアクティブに痛めつける方法はないのかな?スクレイパーが「はい、POWが必要だ」と気づくのに1秒もかからないのに。スクレイパーの「時間を無駄にする」ことができたらどうなる?実際、Cloudflareはボットを検出したら、科学についてのAI生成のジャーゴンを与えて、時間を無駄にさせるためにもっとリンクを提供することをやってる。これって結構クールだと思う。AIを使ってAIを打ち負かすって、詩的だし、私が見た中で最高のHNの投稿の一つだよ。今、これが何をするか、そして私たちの会話が始まったのは、インセンティブをスクレイパーではなくクリエイターに向けることだと思う。だから、スクレイパーが本物のコンテンツに対してコンテンツプロデューサーにお金を払う仕組みを持つことは、まだその方向に進んでいると思う。正直、インセンティブの問題については分からないけど、Cloudflareはいろんなことを試して、何が一番効果的かを見ようとしてると思うから、想像力がないとは言えないと思う。あなたの「彼らは共通のインフラで協力すべきだ」という意見についても、正直、Wikipediaの話を聞いたことがあるけど、攻撃的なスクレイパーがいて、彼らはそのデータを提供しているにもかかわらず、便利だからってWikipediaをスクレイピングし続けることもある。確か、Common Crawlもあって、テラバイトのスクレイピングデータがあるよね。それに、これらのAIモデルは互いに影を落とし合って、SOTAを示そうとしてるのを無視できないし、ベンチマークマキシングも一般的な方法だと思う。彼らが協力して働くとは思えないけど(でも、MCPは多くのAIモデルで使われる事実上の標準になってるから、彼らが何をするかは興味深いし、その未来を信じたいと思う)。私にとっては、AnubisやCloudflareのDDoSオプションを使うのがまだ十分だけど、NYタイムズやガーディアンのようなニュース出版物に使えるかもしれないと思ってるけど、彼らはあなたが言うように独自の契約を持ってるかもしれない。正直、分からないな。何がうまくいくか、何がうまくいかないかを見るのが一番いいと思う。

誰かが人工知能のクローラーを使って、アクセシビリティツールとしてウェブをナビゲートするのはどうかな?UIの自動化を可能にするんだ。すでに結構... うーん... 面倒な確認が出てくるけどね。

サイトのオーナーは、そういったクローラーを許可することができるよね。ただ、悪意のある人たちがそういうクローラーを装う問題があるけど、例えばGoogleの検索クローラーを許可したいサイトが、Geminiのトレーニングデータクローラーを許可したくない場合でも、すでにそういうことは起こり得るから、その問題を解決するための強いサポートがあるよ。

もうARIAがあるから、もっと決定的で、主要なサイトにはすでに導入されてるはずだよ。AIはアクセシビリティツールとして使う必要はないし、使うべきじゃないと思う。

誰か、ペイメントヘッダーの部分について説明してくれない?X-Crawl-Keyみたいなヘッダーを作って、そのヘッダーをキャッチして、誰に請求するかを判断すればいいじゃん。

いい方向には進んでるけど、まだまだ道のりは長いと思う。もっと良いのは、使った分だけ払うってやつだね。例えば、研究のためにサイトをクロールしたいなら、ほぼ無料であるべきだと思う。逆に、売るためのボットを訓練するためにサイトをクロールしたいなら、かなりの料金がかかるべきだよね。こんなことを考えるのは本当に申し訳ないけど、今の時代、反対の考え方はほぼ違法になってるからね。無料であらゆる情報にアクセスできる世界の図書館があって、IPオーナーに公正に報酬を与える方法を見つけることを目指すのは、100%賛成だよ。技術的には、これを実現するための制約はほとんどなくなったし、人類にとっての利点は、今のカルテル的なアプローチよりもはるかに大きいと思う。でも、今はその扉が閉まってるから、代わりに私に払ってよ。

これの問題は、お金を稼ぎたい人が常にシステムを悪用するための抜け道を探したり、意図を偽ったり、データを安く買って再販したり(ボリュームで利益を得る)、あるいは単に侵入したりすることだよね。「ああ、研究のために無料なの?じゃあ、それが私のやってることだ!研究をしてるんだ!データを手に入れたら、偶然にも私が所有するこの会社に売るつもりなのは無視して!」

「誰でも無料であらゆる情報にアクセスできる世界の図書館があって、IPオーナーに公正な報酬を与える方法を見つけることを目指すなら、100%賛成だよ。技術がこの実現を妨げるほとんどの制約を取り除いてくれたし、人類にとっての純粋な利益は、今のカルテル的なアプローチよりもはるかに優れていると思う。これが本当に実現可能なのか、ちょっと疑問に思うよ。君が指摘したように、情報にアクセスして共有するのが100%無料なシステムがあれば、そのシステムを悪用して壊すのも100%無料になっちゃう。最大の制約は、実際にはそのシステムが技術的に構築できるかどうかじゃなくて、経済的に持続可能かどうかなんだ。技術が一度に多くの障壁を取り除くと、逆にそのシステムを不可能にする経済的インセンティブを生み出すことになるかもしれない。もしかしたら、有用な情報の普及には最適なレベルがあって、それがボットやスパムに偏らないようにするのかもしれないけど、もう過ぎちゃった気がする。公共図書館も、インターネットを仮想図書館として使うのと同じくらい近かったと思う。進化の観点からも探求してきたよ。遺伝子やメメの再生産率が高すぎると、進化はr戦略者を生み出す— 低品質の子孫やアイデアを大量にスパムして、お互いを食い合うんだ。制限を加えることで、K戦略者が生まれて、協力や高品質な子孫やアイデアへの投資を促すことになる。各アイデアはもっと価値があるからね。」

いつになったら、ブラウジングごとに料金を取るようになって、インターネットが6フィート地下に埋まるんだろう?

以前は、インターネットのために良いことをしていた会社があったよね…使える検索とか…今は、インターネットのために良いことをしている会社がある…DDoS保護やCDN、そして今は「AI」から私たちを守ってくれる…この2番目の会社は、いつまで持つんだろう、普遍的に嫌われるようになる前に?

利益を上げているクローラーは、コンテンツの所有者やクリエイターにクロールごとに支払うべきだってアイデアがすごく好きだよ。ただ、原則として、Cloudflareがこれをやるのは、インターネットに何かを載せるにはCloudflareを通さなきゃいけないっていう印象を作るだけだと思う。これって、透明で分散型のウェブに害を及ぼして、自己ホスティングを知らない人たちにはさらに魅力がなくなるよね。これをウェブプロトコルとして実装して、暗号を使えば、誰でもCloudflareを介さずにボットに料金を請求できるようになるべきだと思う。99%の暗号関連のものにはあまりファンじゃないけど、私の意見では、こういう問題に対する純粋に技術的でオープンで分散型の解決策が暗号の夢だった。誰が一番お金を稼ぐかはみんな予想できるし、その中の一人がCloudflareだと思う。他の勝者たちも、攻撃的なクローラーを運営している可能性が高いね。

「これをウェブプロトコルとして実装して、誰でもボットに対して料金を請求できるようにすべきだと思う。Cloudflareを介さずに済むなら、99%の暗号関連にはあまり興味ないけど、個人的にはこの種の問題に対する純粋に技術的でオープンかつ分散型の解決策が暗号の夢だったと思う。支払いだけじゃなくて、ボットには料金を払わない限りコンテンツを提供しないってことが重要なんだ。ボット開発者が特定のウェブサイトを狙ってると、Cloudflareなしで実装するのは難しいかもしれない。Cloudflareの目的は、誰がウェブサイトにアクセスしてるのかを判断させることだからね。これは複雑な作業だよ。すべてのユーザーに、ボットも人間も料金を払わせたいわけじゃないなら。」

そうだね、オープンプロトコルにするべきだよ。そうすれば、どんなCDNやコンテンツプロバイダーも同じように使えるから。人気のあるウェブサーバーの一部になって、小さなサイトもCDNなしで参加できるといいな。暗号である必要はないけど、便利だよね。それがないなら、銀行口座に結びつけられるような、偽造できない身分証明が必要になるね。クローラーには一切同情しないよ— 彼らにはrobots.txtを尊重するチャンスがあったから。今は強制するしかないね。