インターネットアーカイブのインフラストラクチャの内部

2026年1月14日原文(hackernoon.com)

概要

Bruce Li による記事の概要と著者情報
NKN.org 共同創業者による技術・未来志向の話題
Wayback Machine や IPFS などの分散型ウェブ技術に触れる内容
関連する データストレージ や プログラミング のトピック紹介
Heritrix3 のGitHubリポジトリへのリンク付き

Bruce Liと最新技術トピックの紹介

Bruce Li （NKN.org共同創業者）が執筆した記事の概要
プログラミング、 テックスタック、 フューチャリズム、 インターネットアーカイブ などのテーマ
Wayback Machine や IPFS などの分散型ウェブ（DWeb）技術の紹介
データストレージ や データ品質、 コードレビュー の重要性が強調される内容
Hackernoon などの著名メディアで取り上げられた実績
- 関連ストーリーへのリンクやタグ付け
- データロス や ダウンタイム削減 の方法論
Heritrix3 （インターネットアーカイブ用クローラー）のGitHubリポジトリ案内
- https://github.com/internetarchive/heritrix3

著者情報とフォロー案内

Bruce Li の他の記事やプロフィールへのリンク
@zbruceli でのSNSフォロー推奨
NKN.org での活動紹介

Heritrix3について

Heritrix3 はインターネットアーカイブ用のオープンソースWebクローラー
GitHub リポジトリで公開・管理
分散型ウェブ や デジタルアーカイブ 分野で活用例多数
研究者 や 開発者 向けの技術リソース

Hackerたちの意見

1990年代後半にシスアドとして働いていた頃から、彼らは本当に大きく成長したよ。当時はデータセンターが数台のラックとテープロボットだけで、プレシディオオフィスの裏部屋にあって、床が妙に傾いてたんだ。テープロボットの業者が、もっと頻繁にテープドライブの再調整に来なきゃいけなかったのは、ちょっと面倒だったな。

└

テープ技術には、今でも根強い抵抗があるんだ。これまでのトラブルのせいでね。

└

サーバールームがあって、ACがラックの真上に取り付けられてたんだ。傘をそこに置いたことはないけど、排水パイプが詰まるんじゃないかってみんな緊張してた。最近では中規模のSaaS企業で働いてたけど、同僚の話を聞くとまるでGoogleみたいだった（楽観主義が妄想に変わる境目があって、何人かの同僚はそれを越えてた）。ある日、Wikipediaのテレメトリーページを見つけたんだ。あのチャートのいくつかは1時間ごとのものだといいな、そうじゃないと信じられない量のトラフィックを扱ってることになる。

IAは重複排除をやってるの？

└

君が言ってるようなやり方ではないよ。アーカイブは常に、ラックをドアの外に押し出したり、どこかから持ち上げたりできる状況を維持しようとしてきたんだ。個々のドライブにはアイテムの完全なバージョンが入ってる。重複作業をしている人たちには、連絡してやめてもらうか、重複しているアイテムを削除する許可を求めたりしてるけど、これはかなりキュレーション的なプロセスだね。

インターネットアーカイブを（選択的に）ミラーリングする方法がないのはもどかしいよ。年間2500万〜3000万ドルは、非営利団体には大きいけど、政府機関やジェネAIモデルを作ってる民間企業にとっては何でもない金額だと思う。いくつかのチームが（資金を得るために）競争すれば、ハードウェアコストもすぐに下がるだろうね。引用されている密度と電力消費の数値は、エンタープライズストレージと比べると非常に悪い。エンタープライズシステムのハードウェアコストもAWSよりずっと低いし（エンタープライズボックスの短い5年の減価償却サイクルを仮定してもね）。この記事も業者も、総所有コスト分析を徹底するための価格情報を十分に公開していないけど、IAの規模の組織が業者に通常のマージンを支払っているとは思えないな。

└

ミラーリングしたいアイテムを選んで、トレントファイルを使ってシードしてね。 https://help.archive.org/help/archive-bittorrents/ https://github.com/jjjake/internetarchive https://archive.org/services/docs/api/internetarchive/cli.ht... u/stavrosが「エレファント」というコードネームのシステムの設計書を書いてるよ。これをスケールアップするためのものだね: https://news.ycombinator.com/item?id=45559219 （関係ないけど、私はただの一般人だよ。もし君が図書館や博物館、似たような機関なら、IAにラックをコロケーションで設置してもらうよう頼んでみて。いつも通り、できるときはIAに寄付するのを忘れずに、彼らのインフラにも優しくね。）

└

Wayback Machineからコンテンツを適切なAPIで引き出せるようになりたいな。[1] リクエストごとやギガバイトごとの料金を払うことにも抵抗はないよ。でも、アーカイブの非営利図書館としての特別な地位を考えると、有料APIアクセスを提供すること（コストをカバーするためだけでも）が、今の組織と合うのかは疑問だね。[1] これがある程度存在するみたいだけど、例えば https://github.com/hartator/wayback-machine-downloader、これを使おうとして数週間試してるけど、毎日HTTP 5xxエラーか「接続拒否」になっちゃうんだ。

└

2008年に、変な奴らが分散ストレージを作ってhentai@homeを立ち上げて、エロ漫画をホストしたってのは信じられないよ。もう20年近く経つのに、まだこの解決策を一般化できてないんだ。h@hにはプライバシーの問題があるのは分かってる（ホスティングする側は自分のIPを晒して、漫画を読んでる人も自分のIPを晒してるからね）けど、それはトンネルで解決できるし、実際の価値は冗長ストレージにあると思うんだ。

└

AI企業がコンテンツのためにIAをむしり取って、解決策の一部になろうとしないのはひどいよね。

└

インターネットのための公共放送サービスがあったらいいなと思うけど、今のところそのお金は実際のPBSから引っ張られちゃうんじゃないかって心配。

└

IPFSノードを運営して、インターネットアーカイブのコレクションをピン留めするのは良い方法かな？

Hacker Newsで議論の続きを見る

ハクソク

インターネットアーカイブのインフラストラクチャの内部

概要

Bruce Liと最新技術トピックの紹介

関連トピックと記事例

著者情報とフォロー案内

Heritrix3について

Hackerたちの意見