ニュースメディアがインターネットアーカイブのジャーナリズムへのアクセスを制限している

2026年5月22日原文(niemanlab.org)

概要

米国の多くの地方ニュースサイトが Internet Archive のアーカイブボットを制限
背景には AI企業による無断データ利用への懸念 が存在
主要出版社や独立系メディアも robots.txtによるブロック を強化
研究者・ジャーナリスト・市民の 情報アクセスへの影響 が拡大
著作権保護と アーカイブの公共性の対立 が今後の課題

米国大手ニュース出版社によるInternet Archiveの制限強化

McClatchy, Advance Local, Tribune Publishing などの大手新聞チェーンが Internet Archiveのアーカイブボット を制限
2024年1月 にNieman Labが主要ニュース出版社によるブロック措置を報道
The New York Times, The Guardian, USA Today Co. などが対象
直接AI企業によるWayback Machineからの無断スクレイピングの証拠は未確認
しかし、過去5ヶ月で ブロックするニュースサイト数が増加 し、特に地方メディアで顕著
- 340以上の米国地方ニュースサイト がInternet Archiveへのアクセス制限
- 大手地方メディア5社（USA Today Co., McClatchy, Advance Local, MediaNews Group, Tribune Publishing）が多くを占める
Alden Global Capital 傘下のMediaNews GroupやTribune Publishingも積極的に制限
研究者・歴史家・市民の ウェブアーカイブ利用 への影響

ジャーナリスト・研究者への影響と懸念

Wayback Machineの地方ニュースアーカイブは 現役ジャーナリストの必須ツール
オンライン署名活動で アーカイブ維持の要望 が高まる
地方ニュースのアーカイブが失われると 過去記事の調査や検証が困難 になるリスク

技術的対応・出版社の立場

Internet Archive側は 悪用防止策（ダウンロード制限・Bot監視） を強化
利用規約で 学術・研究目的のみ許可 と明記
出版社側は 知的財産保護 と AI企業への交渉力維持 を重視
Condé NastやThe Atlanticなども Cloudflare等を活用したブロック を推進

AI企業の影響と著作権問題

AI企業による 無断学習データ利用 が出版社の警戒を招く
OpenAIやMicrosoftなどを相手取った 著作権訴訟 も進行中
独立系メディアも 正しい引用やリンク付与の担保 を重視
Folha de S.Paulo（ブラジル最大手紙）など 国際的にもブロック拡大

アーカイブの公共性と今後の課題

アーカイブ維持には 高額な技術インフラ・専門知識・コスト が必要
デジタル時代以前は新聞社が 物理的アーカイブ を自前で管理
現在は 外部アーカイブサービスの公共性 と 出版社の権利保護 が衝突
今後は 適切なライセンス契約・引用ルールの整備 が重要課題
市民・研究者・メディア関係者による 議論と合意形成の必要性

まとめ

米国を中心に ニュースアーカイブの公開制限が急速に広がる現状
AI技術の発展 が著作権・公共性・情報アクセスの新たな摩擦点に
アーカイブの価値と知的財産保護 のバランスをいかにとるかが問われる時代

Hackerたちの意見

インターネットには広告に依存しないマイクロペイメントの仕組みが必要だよね。モデルたちが記事を読むためにニッケルを払えるようにすればいいのに。AIの無制限な資金でカバーできるんだから。

└

お金が裕福な人たちのポケットや、巨大企業のプロジェクトに流れ込んでるけど、重要な公共サービスを提供しているジャーナリストたちにはほんの数セントも渡らないのはおかしいよね。

└

Cloudflareはそれを推進しようとしてるけど、言うたびに人々が文句を言う（キャプチャ待ちの2秒が嫌いだから）し、誰も代替案を提案しない。残念ながら、これは実現しないと思うし、インターネットは忘れ去られる運命にあるよ。

└

マイクロペイメントの一番の問題は、買い手が匿名である必要があることだよね。そうじゃないと、大規模な監視システムを作ることになっちゃう。これって、私たちが排除したいものなんだ。でも、現行の法律だと、一般の人が使いやすいものを作るのが難しいから、誰かがクリエイティブな解決策を考えるか、法律を改革する必要があるね。

これは必ず起こると思うし、ある意味では良いことでもあるよ。今のAIの状況は、他人の知的財産を売りまくることが多いからね。短期的なインセンティブが、知識を持つ人たちの信頼や善意を損なってる。次に起こるのは、インターネット自体の民営化や統合だと思う。すでにIPv4アドレスの奪い合いや統合が進んでるし。

└

今のAIの状況は、他人の知的財産を売りまくることが多い。AIを遠ざけるためにアーカイブをブロックするのは、非常に短絡的だよ。アーカイブは歴史的文脈を保つために重要で、特にニュースやジャーナリズムに関してはね。

本当に残念だよね。歴史に関するプロジェクトに関わっているけど、オフラインになるウェブサイトの数はすごく多い。ウェイバックマシンは、こういう死んだサイトを掘り起こすのにとても役立つ。50年後には、このコンテンツの大部分が永遠に失われる未来が想像できるし、せいぜい見つけるのが非常に難しくなると思う。

└

この未来はもうここにある。政策立案者たちはそれをしっかり押さえてるよ。マイクロフィッシュを知ってる人なら、信頼できる公的記録がないことの重大さがわかるはず。図書館の時代から公共政策を延長するなら、国立公文書館そのものがインターネットアーカイブになるだろうね。

└

キュービクルの壁には3つの穴があった。スピークライトの右側には、小さな気圧管があって、書かれたメッセージ用。左側には新聞用の大きなものがあって、側面の壁にはウィンストンの腕が届くところに、大きな長方形のスリットがあって、ワイヤーの格子で守られていた。これが廃棄用の穴だった。建物の中には、部屋だけでなく廊下のあちこちに、数千、数万の同様のスリットがあった。何らかの理由で「メモリーホール」と呼ばれていた。文書が破棄されることが決まっているとわかったり、廃棄用の紙くずを見かけたりすると、近くのメモリーホールのフラップを持ち上げて、そこに捨てるのが自動的な行動だった。その後、温かい空気の流れに乗って、建物の奥に隠された巨大な炉に運ばれていく。

うわぁ、地元の新聞には素晴らしいアーカイブがあったのに、パンデミックの後に制限されてしまった。買収されたのかは分からないけど、本当に残念だよ。問題の一部は、病院の入院情報にあった昔の公的情報（誕生日、家族、名前）だと思う。例えば、友達の親や自分が「入院中」として新聞に載ってたのを見つけたことがあるから。これが影響してるのは確かだけど、それでも…結局これはセキュリティじゃなくてコストや金儲けの問題だよね。

└

そういう集約された記録は、すぐに非常に正確な公的記録になっちゃうんだ。良いか悪いかは別として、このサイトの多くの人は、自分の人生がほぼオープンブックになることに反対すると思う。特に公的記録として扱われることが多い公人の住所や生年月日が関わると、少しのデータで多くの人の情報を見つけるのが簡単になる。実際、調べたい人がいれば、ほとんどの人が気づいていないだけで、情報を見つけるのは簡単なんだよね。

ニュースが古くなったらアクセスを許可すべきだよね。それがアーカイブの目的なんだから。

Hacker Newsで議論の続きを見る

ハクソク