ニュース出版社がAIスクレイピングの懸念からインターネットアーカイブへのアクセスを制限

2026年2月15日原文(niemanlab.org)

概要

The Guardian や The New York Times など大手メディアが、AIクローラーによるデータ収集の抜け道として Internet Archive を警戒
Internet Archive のWayback MachineやAPIがAI企業による大量スクレイピングの標的となる懸念
一部出版社は robots.txt やAPI制限でInternet Archiveのアクセスを制限
Gannett や Reddit なども同様の対応を進める動き
アーカイブ活動と著作権・AI利用のバランスが課題

大手ニュースサイトとInternet Archiveの関係見直し

The Guardian や The New York Times が、AI企業による自社記事の無断利用を懸念
Internet Archive のクローラーやAPIが、AIモデル学習用データの抜け道となるリスク
The Guardian はAPIからの除外やWayback MachineのURLインターフェースから記事ページを除外
トップページやトピックページはWayback Machineで引き続き公開
The New York Times は2025年末にarchive.org_botをrobots.txtで明示的にブロック

AI企業とアーカイブサイトの攻防

Financial Times は有料記事をAIやInternet Archiveなどのクローラーから保護
Reddit もAI企業によるデータスクレイピングを理由にInternet Archiveのアクセスを制限
Internet Archive 側もAPIの構造化データや大量アクセスへの対策を強化
- 内部レートリミットやCloudflareなどで制御
- robots.txtでは2024年1月時点で制限なしの姿勢から変更

Internet ArchiveのデータとAI学習

Google や Meta のLLM学習データセット（C4等）にWayback Machineのデータが含まれる事例
2023年にはAI企業による大量アクセスでInternet Archiveが一時ダウン
こうした事態を受け、非営利団体としても利用ルールや協力体制の見直しを実施

robots.txtによる各社の対応状況

Nieman Lab は1,167ニュースサイトのrobots.txtを調査
- 241サイト がInternet Archiveのbotを明示的に拒否
- そのうち87%が USA Today Co.（旧Gannett） 系列
- Le Monde などフランス系メディアも複数botをブロック
- 多くのサイトがCommon CrawlやOpenAI、Google AIのbotも同時に拒否
Gannett は2025年に新たなプロトコルを導入し、無断スクレイピングを抑止
- 2025年9月だけで7,500万件のAIボットをブロック
- Perplexityとはライセンス契約を締結

アーカイブ活動の意義と今後の課題

米国では Internet Archive が最大規模のウェブ保存プロジェクト
Poynter とInternet Archiveによるローカルニュース保存支援プロジェクトも進行
法的義務化がないため、保存活動と著作権・AI利用の調整が今後の課題
Internet Archive は「善意の利用が悪用される副作用」として現状を説明

まとめ

AI時代における ウェブアーカイブの役割 と 著作権・知財保護 の間で、出版社と非営利団体が対応を模索
アーカイブの自由とコンテンツ保護のバランスをどう取るかが、今後の重要な論点

Hackerたちの意見

ガーディアンやNYTみたいな出版社がIA/Wayback Machineをブロックしてるんだって。ニュースサイトの20%がIAとCommon Crawlの両方をブロックしてる。例えば、https://www.realtor.com/news/celebrity-real-estate/james-van...はアーカイブできなくて、IAが429エラー出してるけど、サイト自体は普通にアクセスできるよ。

└

IAはアーカイブやインデックスしないリクエストには応じるけど、もっと攻撃的なスクレイパーはそうじゃないし、普通の人間のブラウザトラフィックのように見せかけるからね。結局、悪意のある連中だけがスクレイピングやアーカイブ、インデックスできるように決めちゃったってことだ。

└

おそらく誰かがすでにこれを作っていると思うけど、ブラウザ拡張を通じたクラウドソースのアーカイブ活動が必要だとずっと思ってた。だけど、そんな拡張が特権データをアーカイブしないようにするのは難しいかもね。

こういう出版社は、登録された学術研究やジャーナリズムプロジェクトだけにサービスを提供するプライベートアーカイバーにはもっと柔軟になるんじゃないかな。物理的なプライベートアーカイブがそうしてるみたいに、データを再販したり生成モデルのトレーニングに使ったりする企業には絶対にデータを提供しないっていう特定の条項を設ければ。

└

彼らが賢いなら内部アーカイブを持ってるだろうけど、それは一般にはアクセスできないよね。問題はデータがアーカイブされてるかどうかじゃなくて、その情報が今後も一般に利用できるかどうかだと思う。

└

彼らはすでにオンラインや印刷された記事のアーカイブを持っていて、それを図書館にライセンス供与してるんだ。図書館がレート制限や悪用の制限をしてくれるからね。

科学にも影響があるよね（そこではできるだけしっかりアーカイブしたいし）。メタデータがエラーだらけになってきて、科学のための一般的な検索エンジンも壊れかけてる。Google Scholarみたいなものも含めてね。大手の科学出版社もAIボットをブロックしてるんじゃないかな。

└

大手の科学出版社もAIボットをブロックしてるんじゃないかな。これはひどいよね。科学の大部分が公的資金で賄われてるのに、実質的に公共が払ってるものの利益を享受できなくなってるんだから。

└

それに加えて、Googleは自分の検索エンジンも台無しにしちゃったよね。私たちはますます盲目になってる気がする。これって、実際に意図的にやってるように見える。

誰も話してないけど、これにはコンプライアンスの視点もあるんだよね。SOC 2やHIPAAみたいな規制フレームワークは、監査の記録や証拠の保持を求めてる。そういう証拠の多くはURLにあるんだ。もしベンダーのセキュリティ文書や公開されたインシデントレスポンス、コンプライアンスの証明がウェブから消えちゃってアーカイブできなかったら、監査の記録に穴ができて、監査人は絶対に喜ばないよ。第三者のベンダーのセキュリティポリシーが引用したURLにもう存在しないせいで、コンプライアンスレビューに失敗する企業も見たことがある。ウェブがアーカイブできないのは単なる文化的損失じゃない。特定の時点で何かが真実だったことを監査人に証明しなきゃいけない人にとって、実際の運用上の問題になってきてる。

└

いつか保険会社は、こういう状況を避けるために、企業に文書やポリシーの紙のコピーを取得させるようになると思う。ただ、そこにたどり着くまでには時間がかかるかもね。大きな保険の損失が数回起こらないといけないだろうな。

└

https://www.page-vault.com/ ここの人たちがその問題を解決するために存在してるよ。

Hacker Newsで議論の続きを見る

ハクソク