世界を動かす技術を、日本語で。

ArchiveTeamがすべてのgoo.gl短縮リンクのアーカイブを完了しました

概要

ArchiveTeam Warrior は、ウェブサイト保存活動を支援する仮想アプライアンス。 VirtualBox などの仮想環境で簡単に動作。 ダウンロード ・セットアップ手順が明確で初心者にも安心。 ローカルブラウザ で進捗や設定を管理可能。 プロジェクト選択 で貢献内容をカスタマイズ可能。

ArchiveTeam Warriorの導入手順

  • ArchiveTeam Warrior は、ウェブアーカイブ活動支援用の 仮想マシンアプライアンス
  • 対応OS: Windows、OS X、Linux
  • 必要ソフトウェア: VirtualBox (推奨)、 VMware、または同等の仮想化プログラム

VirtualBoxでのセットアップ手順

  • アプライアンスファイル(357MB) をダウンロード
  • VirtualBox を起動し、 ファイル > アプライアンスのインポート を選択
  • ダウンロードしたファイルを選び、インポート実施
  • 仮想マシンを スタート し、初回起動時に 最新アップデート を自動取得
  • 起動後、画面に ウェブブラウザ起動案内 が表示

Warriorの利用方法

  • ブラウザで http://localhost:8001/ にアクセス
  • Settingsページ で任意の ユーザー名 を設定
    • リーダーボードで進捗表示
  • All projectsタブ で参加プロジェクトを選択
    • ArchiveTeam’s Choice 選択で最優先プロジェクトに自動参加

利用上の注意点

  • 仮想マシン 形式のため、PC本体へのリスクなし
  • 使用リソース: インターネット帯域一部ディスク容量
  • 参加・停止は 仮想マシンの開始・終了 で簡単操作

ArchiveTeam Warriorの特徴とメリット

  • 専門知識不要 でウェブアーカイブ活動に参加可能
  • 進捗管理設定変更 がウェブUIで直感的に実施
  • 複数プロジェクト 同時対応や緊急案件への自動割り当て
  • コミュニティ主導 のランキングや貢献度可視化

まとめ

  • ArchiveTeam Warrior は、誰でも簡単にアーカイブ活動へ貢献可能な仮想アプライアンス
  • VirtualBox などを用いたシンプルな導入プロセス
  • ウェブUI で操作・管理が可能なため、初心者にもおすすめ

Hackerたちの意見

「すべて」とは、公開されている全てのURLを指しているのか、それともURLの名前空間全体を徹底的に調べたのか?

ボランティアにクライアントを動かしてもらって、IPバンされないようにして、URLの名前空間全体を調べたんだ。

公に知られているgoo.glのURLは、すでにインターネットアーカイブやCommon Crawlに保存されてるよ。

タイトルがちょっと不正確だね。Archiveteam.orgのことを言ってるんであって、Archive.orgじゃない。インターネットアーカイブは無料でホスティングを提供してるけど、アーカイブ作業はArchiveteamのメンバーがやったんだよ。

Archiveteamの貢献って具体的に何なの?よくわからないんだけど。編集:なんかアーカイブとアーカイブされる側の間にいる必要のない中間者みたいに見えるけど、何か見落としてるのかな。

最近のGoogleからのアップデート: https://blog.google/technology/developers/googl-link-shorten...

これって一体何の意味があるんだろう? 既存のショートリンクをリダイレクトし続けるのに、どれだけコストがかかるっていうの? すでに使われてない/アクティビティが少ないって考えてるやつに対しても、(アクティブなリンクは親リンクがリダイレクトし続けるって言ってるし)。

うん、その「アップデート」を、極めて信頼性の低い会社からの極めて信頼性の低い情報として受け取るよ。

これがよくわからないんだけど、部分的にデータベースを保持するなら、全体を保持するのにそんなにコストがかかるの?

これについて質問があるんだけど。Googleによると、短縮リンクは「8月25日以降は使えなくなるので、まだなら別のURL短縮サービスに移行することをおすすめします」って。これって、リンクをアクティブに保つっていう行為自体が無意味になるんじゃない?もし短縮リンクがどこかの文書に埋め込まれてて更新できない場合、Googleがそれを壊しちゃうんじゃないの?

関連情報。他にも? リンクロットとの戦いに参加する - https://news.ycombinator.com/item?id=44877021 - 2025年8月(107コメント) Googleがgoo.glポリシーを変更: 非アクティブリンクが無効化、アクティブリンクは保存 - https://news.ycombinator.com/item?id=44759918 - 2025年8月(190コメント) Googleの短縮リンクgoo.glが来月使えなくなる - https://news.ycombinator.com/item?id=44683481 - 2025年7月(222コメント) GoogleのURL短縮サービスが利用できなくなる - https://news.ycombinator.com/item?id=40998549 - 2024年7月(49コメント) HNに聞いてみた: Googleが3/30にgoo.glを終了する。あなたのURL短縮サービスは何になる? - https://news.ycombinator.com/item?id=19385433 - 2019年3月(14コメント) HNに知らせる: Goo.gl(Googleのリンク短縮サービス)が終了する - https://news.ycombinator.com/item?id=16902752 - 2018年4月(45コメント) Googleがgoo.glのURL短縮サービスを終了する - https://news.ycombinator.com/item?id=16722817 - 2018年3月(56コメント) GoogleのURL短縮サービスをFirebase Dynamic Linksに移行中 - https://news.ycombinator.com/item?id=16719272 - 2018年3月(53コメント)

ちょっとでも貢献できて嬉しいな。

同じく、リーダーボードに自分のユーザー名があるのを見るのは嬉しいね。たった一日、Dockerコンテナをセットアップしただけなのに、すっかり忘れちゃってたけど。

どれくらいのリンクがプライベートなYouTube動画やGoogleドキュメントに繋がってるのかな。

ちょっとイタズラ心で「じゃあ、今ダウンロードして検索できるよ」って言おうと思ったけど、なんか「Access-restricted-item: true」になってるみたいだね。それに、1つ10Gだし。 https://archive.org/details/archiveteam_googl_20250228144231...

素晴らしい!ArchiveTeamはいつもこういうところがすごいよね。数年前、ある動画プラットフォームで働いてたんだけど、そこのサービスがもうすぐ終了するって発表したんだ。どうやって繋がったのか忘れたけど、ArchiveTeamの誰かと連絡が取れて、閉鎖される前にアーカイブしたいって言ってたんだ。これはいいアイデアだと思って、どこかのデバイススニッフィングサーバーのエンドポイントがちょっと問題になるかもしれないってアドバイスをしたり、アーカイブ作業のためにEC2インスタンスを一時的に「寄付」したりしたんだ。サーバーは自分のものだったから、何が起こってるか見えて、すごく感心したよ。2分くらいで、インスタンスが完全にプロビジョニングされて、できるだけ早く動画をアーカイブし始めて、接続をフルに活用してた。各インスタンスは、他のインスタンスがまだ取得してない動画だけを取得するように知ってた。要するに、彼らはしっかりしたミッションを持ってるだけじゃなくて、それを超効率的に実行してるって印象があるんだ。

このページがよくわからないんだけど、データセットのリストが表示されてるみたいで(たぶん?)91 TiBまでのサイズがあるみたい。短いリンクとそのターゲットURLのリストが91 TiBになるわけないよね?どういう仕組みなのか知ってる人いる?

ちょっと無茶な計算をしてみた。Google検索から引っ張ってきたランダムなURLは705バイトだった。Googleのリンクは22バイトだけど、IDだけ保存すれば6バイトになる。URLによって長さはバラバラだけど、ざっくり計算すると、数百億から数兆のURLになるね。

Reddit全体をアーカイブしてる人っているの?それともTwitterも?たとえ利用規約が変わって許可されてなくても。

OpenAIに聞いてみたら?

reddit 以前はそんなプロジェクト(Pushshift)があったけど、RedditのAPIが変わる前の話だね。データを全部ダウンロードして、the-eyeっていう別のデータホーダー/保存グループで情報を確認できるよ: https://the-eye.eu/redarcs/ twitter それに関しては知らないけど、Wayback Machineでツイートをアーカイブすることすら数年前からできてないよ。

Academictorrentsは、API制限があっても毎月Redditの投稿やコメントをダンプしてるよ。

なんで?誰かに大丈夫か聞いたの?そのリンクに敏感な情報があったりするの?もう必要ないと思ってた人がいたのかな?もしかして、みんなそのリンクは死んでると思ってた?Googleは最初にそのリンクをキャンセルする方法を提供してたの?GPTのリンクがアーカイブされて公開されたときのように、敏感な情報が含まれてたのと同じ感じだね。