世界を動かす技術を、日本語で。

ウィキペディアが「Archive.today」を非推奨にし、アーカイブリンクの削除を開始

概要

Wikipedia英語版が Archive.today をブラックリスト化 DDoS攻撃への利用や アーカイブ改ざん が問題視 約40万ページ・69万件超のリンクが影響対象 編集者に リンク削除・置換 のガイダンス提示 代替手段や今後の対応も議論中

Wikipedia英語版によるArchive.todayブラックリスト化の決定

  • Archive.today がブログへの DDoS攻撃 に利用された事例の発覚
  • サイト運営者が アーカイブ内容を改ざん し、標的ブロガーの名前を挿入
  • 改ざんの動機は、運営者の匿名性を暴露した投稿への 私怨
  • Wikipedia編集者間で 即時非推奨およびブラックリスト化 の合意形成
  • Wikipediaが ユーザーPCをDDoS攻撃に利用するサイト への誘導を禁止(WP:ELNO#3規定)
  • アーカイブ内容の信頼性喪失の証拠も提示
  • Archive.todayへのリンクは約40万ページ、69万5,000件以上 存在
  • 主な用途は ニュースサイトのペイウォール回避
  • FBIが運営者特定のため Tucows に召喚状を送付
  • 一部編集者は 検証性の観点から維持を主張
    • 既存リンクの多くは 他アーカイブサービスで代替可能 との分析
    • RfC(コメント要請)中に リンク削除・置換の実装作業 も進行

編集者向けガイダンスと今後の対応

  • 編集者に対し、 Archive.today関連ドメイン のリンク削除・置換を推奨
    • 対象ドメイン: archive.today, archive.is, archive.ph, archive.fo, archive.li, archive.md, archive.vn
  • オリジナルソースが 現存かつ内容が同一 の場合、Archive.todayリンクの削除を許可
  • 代替アーカイブ( Internet Archive, Ghostarchive, Megalodon 等)へのリンク置換を推奨
  • 必要に応じ、 アーカイブ不要なソース (紙媒体など)への切替も容認
  • 今後の課題: 効率的なリンク削除・置換方法の検討 と実施

関連情報・議論

Hackerたちの意見

誰かを特定する意味がわからないな、特に普通のネットユーザーに役立つサービスを提供している人たちに対しては。情報をまとめられるからって、やるべきとは限らないよね。とはいえ、archive[.]todayを使っている全員をボットネットにして、サイトをDDoSするのも賛成できないな。アーカイブされたページの内容を変えるのも、私たちが読んでいるものの信憑性について疑問を投げかけるし。サイトがマルウェアに感染したかのように振る舞っていて、アーカイブされたページは信用できないよ。ウィキペディアがこの決定を下した理由がわかる気がする。

アーカイブされたページの内容を変えるのも、私たちが読んでいるものの信憑性について疑問を投げかける。これはこの一連の騒動の中で埋もれている重要なポイントで、これからの議論の焦点にすべきだね。

ページを永遠に保存することが前提のサイトが、関わっている人たちが嫌がっているからって別のサイトを潰そうとしているのは、ちょっと皮肉だよね。自業自得ってやつかな。

実際にスクリプトでDDoS攻撃を実行したのか、それともリンクを挿入して多くのユーザーがクリックしただけなのか、どっちなんだろう? これはかなり違うと思う。

これを知らない人が多いみたいだけど、https://perma.cc/ はウィキペディアがページをアーカイブするのに使うべき適切なツールだと思うよ。もっと詳しくは https://en.wikipedia.org/wiki/Perma.cc

10リンクを超えるとお金がかかるから、有料のサブスクリプションか、機関との提携が必要になる。これは誰でも編集できる百科事典、つまりウィキペディアにとって問題だね。

商業用や企業向けのソリューションはたくさんあるよね。https://www.g2.com/products/pagefreezer/competitors/alternat... それに、あんまり言われないけど、無料のやつもあるよ。https://www.freezepage.com

Wikipediaって、ほんとに外注する必要あるのかな? 彼らは基本的に他のことは全部社内でやってるし、自前のCDNも運営してるから、信頼できるアーカイバーを立ち上げることもできると思う。でも、ペイウォールを回避するのは危険なことだね。

両方見せればいいんじゃない? ウィキペディアはオリジナルのソースと一緒にアーカイブリンクを表示して、どれがどれかを明確にラベル付けすればいい。オリジナルが消えたときでもアクセスを保ちながら、主要なソースをメインの参考にできるし。

反対しているのはこの特定のアーカイブサービスであって、アーカイブ全般ではないよ。

だいたいそうだよ。ランダムな例として、ジョージ・ワシントンのページの引用349を見てみて: 「"A Brief History of GW"[リンク]。GW Libraries。2019年9月14日に元のページからアーカイブ済み[リンク]。2019年8月19日取得。」

ちょっと話がそれるけど、archive.todayがどうやってそんなに確実にペイウォールを回避してるのか、誰か分かった人いる? 有料アカウントをたくさん持っていて、それを使ってページを取得してるって言ってる人もいるけど、もちろんそれはおかしいよね。彼らはGooglebotをうまく模倣する自動化された方法を見つけたんじゃないかな。

自分はクローラーを作った経験がある外部者だけど、住宅用プロキシとブラウザフィンガープリンティングの最適化でかなりのところまで行けるよ。大体のBランクの出版社はRBCを使っていて、そこを「回避」するのはまあまあの努力でできる。

もちろんそれはおかしい。なんで? ウェブスクレイピングの世界では、これは結構普通のことだよ。

有料アカウントをたくさん持っていて、それを使ってページを取得してるって言ってる人もいるけど、もちろんそれはおかしい。興味深いのは、彼らが要求に応じて任意のページのウェブスクレイピングを許可していることだよね。だから、出版社が自分のページをアーカイブするためにたくさんのリクエストを出して、すべてが一つのアカウントか少数のアカウントから来ているのを見ることができる。実際のユーザーからクッキーを盗んでたりしないといいけど。

信頼性がないっていうか、アーカイブできない有料サイトがたくさんあるからね。

「彼らはGooglebotをすごく上手に模倣する(自動化された)方法を見つけたんだと思った。もしサイト(またはその前にあるWAF)が何をしているか分かっていれば、Googlebotとして通過することは絶対にできない。なぜなら、正規の確認方法はDNSルックアップのダンスで、リクエストがGooglebotの専用IPアドレスから来た場合にしか成功しないから。Bingbotも同じだ。」

ちなみに、archive.todayはインターネットアーカイブやウェイバックマシンじゃないからね。

昨年、アーカイブされたページが変更されていることに気づいた。以前は、すべてのRedditアーカイブページの右上にRedditのユーザー名が表示されていたけど、それが消えちゃった。「まあ、仕方ないか」と思った。「彼らは今、Redditのユーザー名を隠したいんだな。」問題は、過去のキャプチャからもユーザー名が削除されていること。古いRedditのキャプチャを見ると、通常のアーカイブページにはユーザー名がないけど、アーカイブのスクリーンショットタブに切り替えるとまだ残ってる。スクリーンショットは元のキャプチャで、通常のウェブページ版からはユーザー名が消されている。これに気づいたときは、そんなに大した変更じゃないと思ったけど、最近の情報を知ると、そんなに小さなことじゃなくなった。

archive.todayに対する組織的なキャンペーンの可能性について説明している投稿があるよ。[1] https://algustionesa.com/the-takedown-campaign-against-archi... archive.todayの技術は詳しくどうなってるの?GoogleのAI検索の回答やこのHNスレッド[2]を超える情報はあるのかな?[1] https://algustionesa.com/the-takedown-campaign-against-archi... [2] https://news.ycombinator.com/item?id=42816427

そのリンクを読んだ後、すごくありそうだと思った。もし本当なら、誰かが最近archive.todayをオフラインにしようとして、CSAMを植え付けて彼らを閉鎖させようとしたってことになる。で、それが失敗した後、今度はDDOS攻撃で閉鎖させようとしてる。そうじゃなきゃ、これが全く意味をなさない。特に、前の記事を読んだ後のタイミングがすごく怪しい。結局、上記のことは推測に過ぎないけど、少なくとも私には納得できる。

Archive.isがTumblrブログで、関連するすごく変な投稿を公開してるよ。https://archive-is.tumblr.com/post/806832066465497088/ladies... https://archive-is.tumblr.com/post/807584470961111040/it-see...

これを読んで最初に思ったのは、blobがarchive.todayから何かを削除するためのレバレッジを持っていないことに困っているってことなんだけど。サイトについて具体的なことは何も知らないし、関係する対立も分からないけど、これってネガティブなPRキャンペーンの匂いがするなぁ…。

archive.isにアクセスすると、空白のnginxサーバーにリダイレクトされるようになった…でも、.isドメインだけで、.phと.todayは普通に動いてる。広告ブロッカーに引っかかっちゃったのかな。