世界を動かす技術を、日本語で。

ニュース出版社がAIスクレイピングの懸念からインターネットアーカイブへのアクセスを制限

概要

  • The GuardianThe New York Times など大手メディアが、AIクローラーによるデータ収集の抜け道として Internet Archive を警戒
  • Internet Archive のWayback MachineやAPIがAI企業による大量スクレイピングの標的となる懸念
  • 一部出版社は robots.txt やAPI制限でInternet Archiveのアクセスを制限
  • GannettReddit なども同様の対応を進める動き
  • アーカイブ活動と著作権・AI利用のバランスが課題

大手ニュースサイトとInternet Archiveの関係見直し

  • The GuardianThe New York Times が、AI企業による自社記事の無断利用を懸念
  • Internet Archive のクローラーやAPIが、AIモデル学習用データの抜け道となるリスク
  • The Guardian はAPIからの除外やWayback MachineのURLインターフェースから記事ページを除外
  • トップページやトピックページはWayback Machineで引き続き公開
  • The New York Times は2025年末にarchive.org_botをrobots.txtで明示的にブロック

AI企業とアーカイブサイトの攻防

  • Financial Times は有料記事をAIやInternet Archiveなどのクローラーから保護
  • Reddit もAI企業によるデータスクレイピングを理由にInternet Archiveのアクセスを制限
  • Internet Archive 側もAPIの構造化データや大量アクセスへの対策を強化
    • 内部レートリミットやCloudflareなどで制御
    • robots.txtでは2024年1月時点で制限なしの姿勢から変更

Internet ArchiveのデータとAI学習

  • GoogleMeta のLLM学習データセット(C4等)にWayback Machineのデータが含まれる事例
  • 2023年にはAI企業による大量アクセスでInternet Archiveが一時ダウン
  • こうした事態を受け、非営利団体としても利用ルールや協力体制の見直しを実施

robots.txtによる各社の対応状況

  • Nieman Lab は1,167ニュースサイトのrobots.txtを調査
    • 241サイト がInternet Archiveのbotを明示的に拒否
    • そのうち87%が USA Today Co.(旧Gannett) 系列
    • Le Monde などフランス系メディアも複数botをブロック
    • 多くのサイトがCommon CrawlやOpenAI、Google AIのbotも同時に拒否
  • Gannett は2025年に新たなプロトコルを導入し、無断スクレイピングを抑止
    • 2025年9月だけで7,500万件のAIボットをブロック
    • Perplexityとはライセンス契約を締結

アーカイブ活動の意義と今後の課題

  • 米国では Internet Archive が最大規模のウェブ保存プロジェクト
  • Poynter とInternet Archiveによるローカルニュース保存支援プロジェクトも進行
  • 法的義務化がないため、保存活動と著作権・AI利用の調整が今後の課題
  • Internet Archive は「善意の利用が悪用される副作用」として現状を説明

まとめ

  • AI時代における ウェブアーカイブの役割著作権・知財保護 の間で、出版社と非営利団体が対応を模索
  • アーカイブの自由とコンテンツ保護のバランスをどう取るかが、今後の重要な論点

Hackerたちの意見

ガーディアンやNYTみたいな出版社がIA/Wayback Machineをブロックしてるんだって。ニュースサイトの20%がIAとCommon Crawlの両方をブロックしてる。例えば、https://www.realtor.com/news/celebrity-real-estate/james-van...はアーカイブできなくて、IAが429エラー出してるけど、サイト自体は普通にアクセスできるよ。

IAはアーカイブやインデックスしないリクエストには応じるけど、もっと攻撃的なスクレイパーはそうじゃないし、普通の人間のブラウザトラフィックのように見せかけるからね。結局、悪意のある連中だけがスクレイピングやアーカイブ、インデックスできるように決めちゃったってことだ。

おそらく誰かがすでにこれを作っていると思うけど、ブラウザ拡張を通じたクラウドソースのアーカイブ活動が必要だとずっと思ってた。だけど、そんな拡張が特権データをアーカイブしないようにするのは難しいかもね。

こういう出版社は、登録された学術研究やジャーナリズムプロジェクトだけにサービスを提供するプライベートアーカイバーにはもっと柔軟になるんじゃないかな。物理的なプライベートアーカイブがそうしてるみたいに、データを再販したり生成モデルのトレーニングに使ったりする企業には絶対にデータを提供しないっていう特定の条項を設ければ。

彼らが賢いなら内部アーカイブを持ってるだろうけど、それは一般にはアクセスできないよね。問題はデータがアーカイブされてるかどうかじゃなくて、その情報が今後も一般に利用できるかどうかだと思う。

彼らはすでにオンラインや印刷された記事のアーカイブを持っていて、それを図書館にライセンス供与してるんだ。図書館がレート制限や悪用の制限をしてくれるからね。

科学にも影響があるよね(そこではできるだけしっかりアーカイブしたいし)。メタデータがエラーだらけになってきて、科学のための一般的な検索エンジンも壊れかけてる。Google Scholarみたいなものも含めてね。大手の科学出版社もAIボットをブロックしてるんじゃないかな。

大手の科学出版社もAIボットをブロックしてるんじゃないかな。これはひどいよね。科学の大部分が公的資金で賄われてるのに、実質的に公共が払ってるものの利益を享受できなくなってるんだから。

それに加えて、Googleは自分の検索エンジンも台無しにしちゃったよね。私たちはますます盲目になってる気がする。これって、実際に意図的にやってるように見える。

誰も話してないけど、これにはコンプライアンスの視点もあるんだよね。SOC 2やHIPAAみたいな規制フレームワークは、監査の記録や証拠の保持を求めてる。そういう証拠の多くはURLにあるんだ。もしベンダーのセキュリティ文書や公開されたインシデントレスポンス、コンプライアンスの証明がウェブから消えちゃってアーカイブできなかったら、監査の記録に穴ができて、監査人は絶対に喜ばないよ。第三者のベンダーのセキュリティポリシーが引用したURLにもう存在しないせいで、コンプライアンスレビューに失敗する企業も見たことがある。ウェブがアーカイブできないのは単なる文化的損失じゃない。特定の時点で何かが真実だったことを監査人に証明しなきゃいけない人にとって、実際の運用上の問題になってきてる。

いつか保険会社は、こういう状況を避けるために、企業に文書やポリシーの紙のコピーを取得させるようになると思う。ただ、そこにたどり着くまでには時間がかかるかもね。大きな保険の損失が数回起こらないといけないだろうな。

https://www.page-vault.com/ ここの人たちがその問題を解決するために存在してるよ。

その企業は、第三者ベンダーの公開されたセキュリティポリシーを監査人とペアになった鍵で安全なエンクレーブにバックアップすべきだったかも。証拠のトレイルを残すために。

「第三者ベンダーの公開されたセキュリティポリシーが、引用したURLにもう存在しないせいで、企業がコンプライアンスレビューに失敗するのを見たことがある。マジで?どんな監査人がこれで『失敗』させるんだ?おかしいだろ。それは通常、発見として扱われて、監査人をなだめるために何らかのプロセスを経るか、ベンダーに連絡することになるけど、『失敗』って?少なくともSOC2監査とは思えない。正直、これは俺にとって特に解決が難しい問題じゃなかった(偏った経験だから、これがバブル的なものかもしれないけど)。企業に実際の書類を求めればいいだけで、URLを引用する必要なんてない。俺が見てきたのは、SOC2やペンテストレポート、コントロールのコピーをもらって、それを自分でアーカイブするってこと。URLを指摘する理由が分からない。実際、そんなの見たことないし、もし企業がそうしているなら、コンプライアンスレビューで『失敗』するのも不思議じゃない。ウェブがもっとアーカイブ可能だったとしても、URLに依存するのが有効なわけがないよね?結局、そのコンテンツをアーカイブする必要があるんだから。契約がないツールを使ったりする場合もあるかもしれないけど。何か見落としてる気がするし、医療のような分野で起こることなのかもしれないけど、正直、これがコンプライアンスに影響するとは思えない。もし影響するなら、他の無数の問題で簡単に影響を受ける人たちに影響してるだけだと思う。

SOC 2やHIPAAみたいな規制フレームワークは、監査証跡や証拠の保持を求めるんだ。 サイドバー:大手金融機関で複数のSOC監査に関わった経験から言うと、企業内で「重要な仕事」を定義しようとすると、大人たちが物理的に衝突しそうになることが多い。 - 会社の利益と損失を計算する仕事、これは間違いなく重要 - 上記の仕事のためにログを整理する仕事、これも重要なの? - ログの整理を監視する仕事、これも重要なの? こういうのは単純な例だけど、すぐに複雑になって、エンジニアリングやコンプライアンス、法務が必ずしも一致しないんだよね。

良い点は、もうアーカイブされる価値があまりないってことだね。

同意。今やほとんどが、ジャーナリズムを装った使い捨てのクリックベイトだよ。人々のFOMOを煽る以外、歴史に残す価値のあるコンテンツはほとんどないね。

変わり者や熱心なファンが集まる場所としてのインターネットが存在していた時代に生きているのは本当にラッキーだったと思う。あの頃はもう終わっちゃったね。

だから、IAを一度だけスクレイピングする代わりに、AI企業は住宅用プロキシを使って、それぞれがサイトをスクレイピングすることになる。これでニュースサイトはさらにお金を失うことになるよ。本当に損をするのは、ウェブ全体を自分でスクレイピングするリソースがない一般の人たちだ。時々、すべてのリソースがハッシュに結びついていて、第三者が再ホスティングできるウェブを夢見てたんだ。そうすれば、他の人がコンテンツを再ホスティングしてくれるから、小さなウェブサイトを立ち上げても「ハグ・オブ・デス」を心配する必要がなくなるのに。IPFSがどこにも行かなかったのは残念だね。

IPFSはこれを試みたものだよね: https://en.wikipedia.org/wiki/InterPlanetary_File_System

もうそうなってるよ。ベトナムと韓国の住宅プロキシが俺のシステムを壊しまくって、もう疲れた。3500 RPSを24時間ずっと耐えるのは無理だわ。

IAにアーカイブされていても、AI企業は同じことをするだろうね。

AI企業はIAを一度だけスクレイピングするわけじゃなくて、同じページに何度も戻ってきてスクレイピングしてる。何も変わってなくてもね。個人のウェブサイトを持っている経験から言うと、AI企業は同じ内容でも何度も来るんだよ。

私はresipsが今のように長くは続かないと思う。少なくとも今の程度ではね。全体に対して圧力や強い商業的利益があるから。問題はある程度自分で解決すると思う。あと、Common Crawlについていつも疑問に思うんだけど、何か問題があるの?デザインが悪いの?トレーナーたちがそこに何も見つけられないから、同じものを何度も私たちのサイトをクローリングする必要があるのはどうして?

個人がブラウザから見ているもののコピーを中継するクラウドソースプラグインが必要だと思う。ユーザーはどのサイトを記録させるかをコントロールできるから、プライバシーの心配もないし、特にプラグインがオープンソースならね。自動クロールはなし。プラグインはユーザーのブラウザを使って情報を取りに行くわけじゃなくて、ユーザーが実際に見るものの一部をアーカイブに送信する感じ。すべてのビューを送るわけじゃなくて、例えば100人がそれぞれ1%のビューを送るとか、ランダムに選ばれるか、フィードバックメカニズムで「この特定のURLを見たら、まだ持ってないから絶対送ってね」みたいな感じで。アーカイブ自体や運営者をどう守るかは分からないけど。

SingleFileはアーカイブをうまくやってるよ。 > プライバシーの心配はない これは思ったより難しいんだよね。これらのファイルを公開するのは常にリスクがあって、サイトがあなたのIPや他の識別子を含む隠れたHTMLタグのようなフィンガープリンティングデータを提供することがあるから。

政府が資金提供する検索エンジンがあれば、マネタイズされたウェブの問題がかなり解決されると思う。検索エンジンの目的は、ウェブページへのリンクを表示することであって、全コンテンツを表示することじゃないからね。だから、フェアユースに該当するとも言える。コンテンツを探している人や、それを提供する人に価値を提供しているし。でも、そんな重要な公共サービスを民間企業に任せてしまって、彼らは利益を最大化するためにアルゴリズムを何度も変えてしまった。競争が必要だと思うし、政府もその競争に参加すべきだと確信が強まってきた。『民間』企業も『公共』政府も偏っているけど、偏り方が違うから、この対立から本当の価値が生まれると思う。個人が自分に最適な選択をしやすくなり、独立した選択肢も開発されやすくなる。現在の知識生成のサイクルは、アカデミアが基礎研究を行い→民間企業がその研究を拡大してマネタイズ→何もない、って感じだよね。もし最後のステップが、民間企業が大きな利益を得た後に、政府が使えるサービスを提供して商品化することになれば、社会全体の能力が向上する。もし最後のステップが阻止されると、支配的な企業はレントシーキングに走り、革新から搾取に転じるんだ。

政府が情報へのアクセスをキュレーションする権限を持つのは良くない気がする。独立した機関として分けることもできるけど、今のアメリカの政権が示しているように、それはあまり現実的じゃないよね。

まずはサイトにクローラーを平等に扱うよう強制するところから始めよう。Googleの主な強みは、物理的なインフラやアルゴリズムよりも、サイトがGoogleだけにスクレイピングやインデックスを許可していることなんだ。アクセスにお金を取ったり、すべてのスクレイパーを禁止したりするのはいいけど、Googleだけを選択的に許可するのはダメだよ。

その気持ち、わかるよ。他の返信に対してだけど、ゼロのモデレーションやキュレーション、そしてクローラーからのシールドもゼロ。もしあなたが投稿したものが公共のネットワークにあるなら、ユーザーは思いつく限りのものにアクセスできる。政府もそれを知ることになるよ。コンテンツの検閲を心配する必要はないと思う。彼らはCSAMや爆弾製造材料を検索している人を知ることに満足するだろうし。もし人々が政府がこの情報をどう扱うかに問題を感じたら(例えば、タンジェリン大統領が見せたくないものを検索した人を起訴すること)、それはデータアクセスの段階ではなく、起訴の段階で止めるべきだよ。(これは機能する民主主義のある社会でのみ成り立つけど、自由な情報アクセスもそれを可能にするからね。アメリカ人として、熱いアメリカの血を持つ私たちは、挑戦する勇気があるのかな?)

5歳の子供に説明するみたいに教えて、どうしてAIがウェイバックマシンをスクレイピングするのが悪いの?

これらのニュース出版社が次にRSSを狙ってくるのが怖い。AI企業がニュース出版社のRSSフィードの用語を悪用して、大量にスクレイピングして利益を得ているのを見ているから。彼らは気にしないし、これらのAI企業がニュース出版社のRSSフィードを攻撃し続けると、私たち全員が悪化する。これらのAI企業のせいで、私たちが知っているオープンウェブが閉じていくのは残念だよね。