世界を動かす技術を、日本語で。

ニュースメディアがインターネットアーカイブのジャーナリズムへのアクセスを制限している

概要

  • 米国の多くの地方ニュースサイトが Internet Archive のアーカイブボットを制限
  • 背景には AI企業による無断データ利用への懸念 が存在
  • 主要出版社や独立系メディアも robots.txtによるブロック を強化
  • 研究者・ジャーナリスト・市民の 情報アクセスへの影響 が拡大
  • 著作権保護と アーカイブの公共性の対立 が今後の課題

米国大手ニュース出版社によるInternet Archiveの制限強化

  • McClatchy, Advance Local, Tribune Publishing などの大手新聞チェーンが Internet Archiveのアーカイブボット を制限

  • 2024年1月 にNieman Labが主要ニュース出版社によるブロック措置を報道

  • The New York Times, The Guardian, USA Today Co. などが対象

  • 直接AI企業によるWayback Machineからの無断スクレイピングの証拠は未確認

  • しかし、過去5ヶ月で ブロックするニュースサイト数が増加 し、特に地方メディアで顕著

    • 340以上の米国地方ニュースサイト がInternet Archiveへのアクセス制限
    • 大手地方メディア5社(USA Today Co., McClatchy, Advance Local, MediaNews Group, Tribune Publishing)が多くを占める
  • Alden Global Capital 傘下のMediaNews GroupやTribune Publishingも積極的に制限

  • 研究者・歴史家・市民の ウェブアーカイブ利用 への影響

ジャーナリスト・研究者への影響と懸念

  • Wayback Machineの地方ニュースアーカイブは 現役ジャーナリストの必須ツール
  • オンライン署名活動で アーカイブ維持の要望 が高まる
  • 地方ニュースのアーカイブが失われると 過去記事の調査や検証が困難 になるリスク

技術的対応・出版社の立場

  • Internet Archive側は 悪用防止策(ダウンロード制限・Bot監視) を強化
  • 利用規約で 学術・研究目的のみ許可 と明記
  • 出版社側は 知的財産保護AI企業への交渉力維持 を重視
  • Condé NastやThe Atlanticなども Cloudflare等を活用したブロック を推進

AI企業の影響と著作権問題

  • AI企業による 無断学習データ利用 が出版社の警戒を招く
  • OpenAIやMicrosoftなどを相手取った 著作権訴訟 も進行中
  • 独立系メディアも 正しい引用やリンク付与の担保 を重視
  • Folha de S.Paulo(ブラジル最大手紙)など 国際的にもブロック拡大

アーカイブの公共性と今後の課題

  • アーカイブ維持には 高額な技術インフラ・専門知識・コスト が必要
  • デジタル時代以前は新聞社が 物理的アーカイブ を自前で管理
  • 現在は 外部アーカイブサービスの公共性出版社の権利保護 が衝突
  • 今後は 適切なライセンス契約・引用ルールの整備 が重要課題
  • 市民・研究者・メディア関係者による 議論と合意形成の必要性

まとめ

  • 米国を中心に ニュースアーカイブの公開制限が急速に広がる現状
  • AI技術の発展 が著作権・公共性・情報アクセスの新たな摩擦点に
  • アーカイブの価値と知的財産保護 のバランスをいかにとるかが問われる時代

Hackerたちの意見

インターネットには広告に依存しないマイクロペイメントの仕組みが必要だよね。モデルたちが記事を読むためにニッケルを払えるようにすればいいのに。AIの無制限な資金でカバーできるんだから。

お金が裕福な人たちのポケットや、巨大企業のプロジェクトに流れ込んでるけど、重要な公共サービスを提供しているジャーナリストたちにはほんの数セントも渡らないのはおかしいよね。

Cloudflareはそれを推進しようとしてるけど、言うたびに人々が文句を言う(キャプチャ待ちの2秒が嫌いだから)し、誰も代替案を提案しない。残念ながら、これは実現しないと思うし、インターネットは忘れ去られる運命にあるよ。

マイクロペイメントの一番の問題は、買い手が匿名である必要があることだよね。そうじゃないと、大規模な監視システムを作ることになっちゃう。これって、私たちが排除したいものなんだ。でも、現行の法律だと、一般の人が使いやすいものを作るのが難しいから、誰かがクリエイティブな解決策を考えるか、法律を改革する必要があるね。

これは必ず起こると思うし、ある意味では良いことでもあるよ。今のAIの状況は、他人の知的財産を売りまくることが多いからね。短期的なインセンティブが、知識を持つ人たちの信頼や善意を損なってる。次に起こるのは、インターネット自体の民営化や統合だと思う。すでにIPv4アドレスの奪い合いや統合が進んでるし。

今のAIの状況は、他人の知的財産を売りまくることが多い。AIを遠ざけるためにアーカイブをブロックするのは、非常に短絡的だよ。アーカイブは歴史的文脈を保つために重要で、特にニュースやジャーナリズムに関してはね。

本当に残念だよね。歴史に関するプロジェクトに関わっているけど、オフラインになるウェブサイトの数はすごく多い。ウェイバックマシンは、こういう死んだサイトを掘り起こすのにとても役立つ。50年後には、このコンテンツの大部分が永遠に失われる未来が想像できるし、せいぜい見つけるのが非常に難しくなると思う。

この未来はもうここにある。政策立案者たちはそれをしっかり押さえてるよ。マイクロフィッシュを知ってる人なら、信頼できる公的記録がないことの重大さがわかるはず。図書館の時代から公共政策を延長するなら、国立公文書館そのものがインターネットアーカイブになるだろうね。

キュービクルの壁には3つの穴があった。スピークライトの右側には、小さな気圧管があって、書かれたメッセージ用。左側には新聞用の大きなものがあって、側面の壁にはウィンストンの腕が届くところに、大きな長方形のスリットがあって、ワイヤーの格子で守られていた。これが廃棄用の穴だった。建物の中には、部屋だけでなく廊下のあちこちに、数千、数万の同様のスリットがあった。何らかの理由で「メモリーホール」と呼ばれていた。文書が破棄されることが決まっているとわかったり、廃棄用の紙くずを見かけたりすると、近くのメモリーホールのフラップを持ち上げて、そこに捨てるのが自動的な行動だった。その後、温かい空気の流れに乗って、建物の奥に隠された巨大な炉に運ばれていく。

うわぁ、地元の新聞には素晴らしいアーカイブがあったのに、パンデミックの後に制限されてしまった。買収されたのかは分からないけど、本当に残念だよ。問題の一部は、病院の入院情報にあった昔の公的情報(誕生日、家族、名前)だと思う。例えば、友達の親や自分が「入院中」として新聞に載ってたのを見つけたことがあるから。これが影響してるのは確かだけど、それでも…結局これはセキュリティじゃなくてコストや金儲けの問題だよね。

そういう集約された記録は、すぐに非常に正確な公的記録になっちゃうんだ。良いか悪いかは別として、このサイトの多くの人は、自分の人生がほぼオープンブックになることに反対すると思う。特に公的記録として扱われることが多い公人の住所や生年月日が関わると、少しのデータで多くの人の情報を見つけるのが簡単になる。実際、調べたい人がいれば、ほとんどの人が気づいていないだけで、情報を見つけるのは簡単なんだよね。

ニュースが古くなったらアクセスを許可すべきだよね。それがアーカイブの目的なんだから。

同意。IAは時間をかけて記事のスナップショットを撮って、数ヶ月後や数年後に公開すればいいと思う。人々がペイウォールを回避しようとする以外に、すぐに記事を公開する理由はないよね。

JSTORは学術雑誌でまさにこれをやってるけど、うまくいってるよ。最近の号は有料の顧客だけがアクセスできるし、過去の号(通常は数年前のもの)はJSTORで少量は無料、まとめて使う人向けにはサブスクリプションで利用できる。詳細について争う理由はあるかもしれないけど、遠目から見るとかなり良い妥協に見えるね。

新聞社は自分たちのアーカイブが金になると思ってるし、系譜に興味がある人たちが newspapers.com のサブスクリプションにお金を払うって考えてるんだ。

すごくシンプルな解決策があるよ:アーカイブを1週間ブロックすること。1週間後には誰もお金を払ってないから、その後にアーカイブにアクセスできるようにすればいい。なんでどのニュースメディアもこれをやらないのか理解できないな。

欲と意地悪。

この記事は、AI企業がトレーニングデータを得るためにインターネットアーカイブを使っていることについてであって、人々がペイウォールを避けるために使っているわけじゃないよ。AI企業はデータが一週間古いことなんて気にしないんだ。

ここでの問題はペイウォールじゃないよ。AI企業が出版物のアーカイブをトレーニングデータとしてスクレイピングするのを防ぐためなんだ。AI企業がそのデータを欲しいなら、出版社に対して補償すべきで、インターネットアーカイブから無料で引き出すべきじゃない。

いいアイデアだけど、その週の間は記事が編集できない場合に限るべきだね。保存する価値があるのは、実際に読者が読んだバージョンだから。記事は公開後にこっそり編集されることがよくあって、時には何度も繰り返されることもある。変更履歴は必須だけど、正直に保てないなら意味がないよね。

パラノイアになりたくはないけど、元々報告された歴史が失われると、ニュースメディアのアーカイブでAIが手伝って、流行の「物語」に合わせてすぐに書き換えられる可能性がある。最近の新刊の中には、突然現在の論争のあるトピックが抜け落ちているものも見かける。歴史は勝者によって書かれるというのが、歴史は(現在の)勝者によって書き換えられるに変わるかもしれない。

私の街で最も古いニュース局が、地元の大学と提携して、白黒フィルムで集められたアーカイブを保管している。確か、映像の使用は無料(適切なクレジット付き)だけど、受け取るメディアにはお金がかかる。前回見たときは、デジタルプレイアウトシステムの前だったから、ビデオテープのコストに加えて、機材やVTRの使用料がかかる感じだった。今はデジタルファイルが欲しい場合、どうしてるのかはわからないけど。新聞についても似たようなことがあったと思う。ただ、最も古い新聞は数十年前に買収されて廃刊になったから、そこはどうなったのかは不明。ライブウェブサイトほど便利ではないけど、ほとんどのニュースソースには、アクセスする意図があれば実際の物理的なアーカイブがあるよ。

AWSでは、S3にダウンローダー・ペイオプションがずっと前からあるよね。非技術的なユーザーはこれに戸惑うかもしれないけど、HNのユーザーなら既存のAWSアカウントでダウンロードの支払いに困ることはないと思う。配信コストだけが問題なら、これで十分な解決策になるんじゃないかな。著作権のロイヤリティを考えなければだけど。

新聞は驚くほどの速さで失敗してるね。Archive.orgは彼らが生き残れないことの(悪い)スケープゴートに過ぎない。このことは、他の人たちが言ってることをさらに重要にしてるよね。失われる前にそのストーリーをアーカイブする必要があるって。 「2000年代初頭から、アメリカでは地元の新聞が約40%失われ、新聞ジャーナリズムの仕事も約75%減少したと、ノースウェスタン大学のメディルジャーナリズムスクールの2025年の報告書が示している。昨年、Rebuild Local NewsとMuck Rackが発表した研究によると、2002年にはアメリカで10万人あたり約40人のジャーナリストがいたのに、今は約8人にまで減ってる。」

AI企業が自分たちの記者を雇い始める未来があるかもしれないけど、それが思ったより早く来るかもしれないね。

これはファクトチェックをしている人や、ニュース記事の変更を追跡したい人にとってはかなり心配だよ。記事がこっそり編集されたり、完全に消えたりするのを見た回数は、正直言ってもっと少なければよかったなと思う。インターネットアーカイブは、少なくともその点では一つの解決策を提供してくれるけど、今のArchive.is/todayのちょっと怪しいやり方を考えると、あまり信頼できないかもね。でも、こういうサイトが自分たちの仕事をアーカイブされたくない理由の一つだと思う。