インターネットアーカイブのブロックはAIを止めることはできないが、ウェブの歴史的記録を消してしまう

2026年3月21日原文(eff.org)

概要

The New York Times など大手新聞社が Internet Archive によるウェブ記事保存をブロック
Wayback Machine が歴史的記録保持に重要な役割
AIによるスクレイピング懸念が背景
アーカイブ制限は歴史的記録の消失リスク
検索・アーカイブは フェアユース として法的にも保護対象

大手新聞社によるInternet Archiveブロックの影響

The New York Times が技術的手段で Internet Archive のクロールを制限する動き
この動きは robots.txt の従来ルールを超えた新たなブロック技術の導入
The Guardian など他の新聞社も同様の措置を検討
約30年間、 歴史家・ジャーナリスト・一般市民 がアーカイブに依存
アーカイブされた記事は 編集履歴や削除記事 の唯一の信頼記録となる場合が多い
記事の改変や削除が日常的に行われる現状
アーカイブがブロックされることで 歴史的記録の消失 が現実化

AIスクレイピング懸念と出版社の対応

新聞社側は AI企業による記事スクレイピング への懸念を表明
The New York Times をはじめとした複数社がAI企業を著作権侵害で訴訟中
AI学習の フェアユース 性については法廷で決着がついていない
しかし、非営利アーカイブまで制限するのは 過剰対応 という指摘
Internet Archive は商用AI開発ではなく、 歴史記録の保存 が目的

公共記録保存の意義と法的根拠

アーカイブや検索エンジンによる 資料の複製・検索性向上 は法的にフェアユース
Google Books の判例など、検索目的の複製は 変容的利用 として認められている
Internet Archive はウェブ版図書館として 歴史的記録保存 を担う
Wikipedia は260万以上のニュース記事をアーカイブにリンク
- 249言語にわたる記録
多数の研究者・ジャーナリスト・ブロガーが 信頼性の高い記録源 として依存

アーカイブ制限の危険性と今後の課題

検索エンジンを守る法的原則は アーカイブ・図書館 にも適用されるべき
AI学習の法的争点と 記録保存の権利 は分けて考える必要
アーカイブの制限は 歴史的記録の消失 という取り返しのつかない損失を招く
AI訴訟のために公共記録を犠牲にするのは 重大な過ち
今後も 公共の利益と著作権保護のバランス が重要課題

Hackerたちの意見

インターネットアーカイブには、分散型の住宅IPクローラーのプログラムはあるのかな？それに積極的に貢献したいと思ってる。そんな仕組みには改ざんを防ぐメカニズムが絶対必要だよね。

└

インターネットアーカイブにはないけど、アーカイブチームにはあるよ: https://wiki.archiveteam.org/index.php/ArchiveTeam_Warrior

└

そんな仕組みには改ざんを防ぐメカニズムが絶対必要だよね。TLSを彼らの側で終了させれば、あなたの側では簡単なことだよ。だから、あなたはただの住宅プロキシになるだけ。

└

いいえ、IAはすべて透明性を持ってやってるし、無効なDMCAの削除要求も尊重してるよ。

最近、ニューヨークタイムズがアーカイブのウェブサイトのクローリングをブロックし始めたんだって。ウェブの伝統的なrobots.txtのルールを超えた技術的手段を使ってるみたい。それによって、歴史家やジャーナリストが何十年も頼りにしてきた記録が切り離されるリスクがあるよね。他の新聞、特にガーディアンも同じようにしてるみたい。今までこれについて読まなかったのはちょっと驚きだけど、残念ながら驚くことではないね。 > タイムズは、この動きがAI企業がニュースコンテンツをスクレイピングすることへの懸念から来ていると言ってる。出版社は自分たちの作品がどう使われるかをコントロールしたがっていて、いくつかの出版社—タイムズも含めて—が著作権のある素材でモデルをトレーニングすることが法律に違反するかどうかでAI企業を訴えてる。こうしたトレーニングがフェアユースである強い根拠があると思う。多分、企業が人々にペイウォールをスキップさせたくないっていうのもあるんだろうけど（アクセスがなかったとしてもお金を払うかどうかは別の話）。でも、この議論はガーディアンには当てはまらないよね。

└

ガーディアンのウェブサイトに行って、モットーを確認しようとしたら（ワシントンポストのモットーと混同してた）、こんな（面白い？悲しい？）バナーが出てきた。まるでクロスサイトトラッキングをブロックするのが悪いかのように。 > 拒否は痛い… あなたは私たちのサイトを閲覧中にサードパーティのクッキーを拒否することを選びました。サードパーティのクッキーが使えないと、私たちのジャーナリズムを支えるために広告を売る収入が減ってしまいます。私たちは、信頼できる事実に基づいた情報へのアクセスが公共の利益にかなうと信じているからこそ、ペイウォールなしで誰でもウェブサイトを開放しています。パーソナライズされた広告を受け取りたくないけど、ガーディアンが24時間365日素晴らしいジャーナリズムを生み出すのを支援したい場合は、ぜひ今日サポートしてください。ほんの1分で済みます。ありがとう。

これがarchive.isが作られた理由だよ。私たちはそのクリエイターを追い詰めて罰するのをやめて、この非常に役立つプロジェクトを支援すべきじゃない？

└

クリエイターは匿名性を保てるんだ。彼らは、archive.isのトラフィックを使って自分の身元を暴こうとしているジャーナリストに対してDDOS攻撃を仕掛けたことで、称賛され続けるべきではない。彼らの行動から、気まぐれで復讐心が強く、他人のDDOSにユーザーを巻き込むことを厭わないことがわかる。誰であれ、彼らはひどい。

└

同意。もしarchive.isがダウンしたら、archive.orgがウェブアーカイブの事実上の独占になる。それは問題で、archive.orgはサイト所有者からの削除リクエストを尊重するから。古いドメインを買えば、理論的にはそのアーカイブされた歴史をきれいに消せるんだよね。

メディアは自分たちのAIへの貢献を過大評価してると思う。もし彼らが存在しなかったら、AIの発展には全く影響を与えなかっただろうし、彼らがもっと生産的だったとしても、LLMの質には何の影響もなかったと思う。

└

あのモデルたちはどうやって訓練されると思う？ウィキペディアやReddit、非フィクションの本や学術論文だけじゃ限界があるよ。

└

ウェブ全体がゴミで溢れてる中で、非LLM生成のテキストがトレーニングにもっと価値を持つようになってない？AI企業に新しい人間生成のテキストを（同意なしに）使わせないのは、正当な戦略だと思う。

Hacker Newsで議論の続きを見る

ハクソク