概要
- The Guardian や The New York Times など大手メディアが、AIクローラーによるデータ収集の抜け道として Internet Archive を警戒
- Internet Archive のWayback MachineやAPIがAI企業による大量スクレイピングの標的となる懸念
- 一部出版社は robots.txt やAPI制限でInternet Archiveのアクセスを制限
- Gannett や Reddit なども同様の対応を進める動き
- アーカイブ活動と著作権・AI利用のバランスが課題
大手ニュースサイトとInternet Archiveの関係見直し
- The Guardian や The New York Times が、AI企業による自社記事の無断利用を懸念
- Internet Archive のクローラーやAPIが、AIモデル学習用データの抜け道となるリスク
- The Guardian はAPIからの除外やWayback MachineのURLインターフェースから記事ページを除外
- トップページやトピックページはWayback Machineで引き続き公開
- The New York Times は2025年末にarchive.org_botをrobots.txtで明示的にブロック
AI企業とアーカイブサイトの攻防
- Financial Times は有料記事をAIやInternet Archiveなどのクローラーから保護
- Reddit もAI企業によるデータスクレイピングを理由にInternet Archiveのアクセスを制限
- Internet Archive 側もAPIの構造化データや大量アクセスへの対策を強化
- 内部レートリミットやCloudflareなどで制御
- robots.txtでは2024年1月時点で制限なしの姿勢から変更
Internet ArchiveのデータとAI学習
- Google や Meta のLLM学習データセット(C4等)にWayback Machineのデータが含まれる事例
- 2023年にはAI企業による大量アクセスでInternet Archiveが一時ダウン
- こうした事態を受け、非営利団体としても利用ルールや協力体制の見直しを実施
robots.txtによる各社の対応状況
- Nieman Lab は1,167ニュースサイトのrobots.txtを調査
- 241サイト がInternet Archiveのbotを明示的に拒否
- そのうち87%が USA Today Co.(旧Gannett) 系列
- Le Monde などフランス系メディアも複数botをブロック
- 多くのサイトがCommon CrawlやOpenAI、Google AIのbotも同時に拒否
- Gannett は2025年に新たなプロトコルを導入し、無断スクレイピングを抑止
- 2025年9月だけで7,500万件のAIボットをブロック
- Perplexityとはライセンス契約を締結
アーカイブ活動の意義と今後の課題
- 米国では Internet Archive が最大規模のウェブ保存プロジェクト
- Poynter とInternet Archiveによるローカルニュース保存支援プロジェクトも進行
- 法的義務化がないため、保存活動と著作権・AI利用の調整が今後の課題
- Internet Archive は「善意の利用が悪用される副作用」として現状を説明
まとめ
- AI時代における ウェブアーカイブの役割 と 著作権・知財保護 の間で、出版社と非営利団体が対応を模索
- アーカイブの自由とコンテンツ保護のバランスをどう取るかが、今後の重要な論点