Fastlyのレポートには、Common CrawlのCCBotに関する素晴らしい引用がいくつかあるよね。
「私たちの観察は、Common Crawlのようなオープンデータイニシアチブの重要な役割を強調しています。商業的なクローラーとは異なり、Common Crawlはデータを自由に公開しており、AI研究と開発のためのより包括的なエコシステムを作る手助けをしています。AIボットによってクロールされたユニークなウェブサイトの63%をカバーしていて、ほとんどの商業的な代替手段よりもかなり高い数字です。これにより、大規模なウェブデータへのアクセスを民主化する重要な役割を果たしています。このオープンアクセスモデルは、研究者や開発者のより広いコミュニティがAIモデルをトレーニングし、改善することを可能にし、分野における多様で広範なイノベーションを促進します。」
「注目すべきは、トップ4のクローラー(Meta、Google、OpenAI、Claude)が商業サイトを好む傾向があることです。Common CrawlのCCBotは、オープンデータセットが広く使われていて、商業、メディア&エンターテイメント、高テクノロジーの分野にバランスよく偏りがあります。その商業的な同等物であるTimpibotやDiffbotは、メディア&エンターテイメントを高く評価しているようで、Common Crawlで利用可能なものを補完するためかもしれません。そして、Fastlyのレポートには載っていないけど、EL Regの記事にはこんな数字もあります。
「Common Crawlプロジェクトは、ウェブサイトを吸い上げて、重複作業やトラフィックの増加を防ぐために設計された無料の公共データセットに含めるもので、驚くほど低い0.21%でした。」