世界を動かす技術を、日本語で。

ヒープの構築:30ペタバイトのハードドライブをラックに収納して事前学習を行う

概要

  • 90億時間分の動画データ保存用ストレージクラスター をサンフランシスコ中心部で構築
  • クラウドの40分の1のコスト で自社運用を実現、年間約$354,000
  • 冗長性や可用性よりコスト効率重視、ML学習用データの特性を活用
  • シンプルな自作ソフトウェア と中古ハードウェアで柔軟な運用
  • 設計・運用の工夫と課題、今後の改善アイデアも多数

サンフランシスコで構築した動画データ用ストレージクラスター

  • 90億時間分の動画データ 保存を目的としたストレージクラスター構築
  • 大規模映像データの事前学習 用、テキストLLM(例:LLaMa-405B)の500倍規模のストレージが必要
  • AWS利用時は年間$1,200万、自社運用で年間$354,000にコスト削減
    • コロケーションセンター利用、コストを40分の1に圧縮
  • ML学習データ は冗長性や可用性よりコスト優先
    • 5%程度のデータ消失 は許容範囲、AWSの「13ナイン」信頼性は不要

クラウド vs 自社運用のコスト比較

  • AWS: 月額$1,130,000 (ストレージ+エグレス)
  • Cloudflare: 月額$270,000 (特別価格)
  • 自社データセンター: 月額$29,500 (固定費+減価償却)
    • 1TBあたり$1/月、AWSの38分の1、Cloudflareの10分の1
  • Backblaze など格安クラウドもあるが、性能やエグレス速度に課題

月額ランニングコスト

  • インターネット回線: $7,500/月 (100Gbps DIA, Zayo)
  • 電気代: $10,000/月 (1kW/PB, キャビネット・冷却込み)
  • 合計: $17,500/月

一時コスト

  • HDD: $300,000 (12TB中古エンタープライズHDD 2,400台)
  • シャーシ: $35,000 (NetApp DS4246, 100台)
  • CPUノード: $6,000 (Intel RR2000, 10台)
  • 設置費: $38,500
  • 作業委託: $27,000
  • ネットワーク関連: $20,000
  • 合計: $426,500

システム設計と運用

  • ソフトウェアは超シンプル (Rust 200行+nginx+SQLite)
    • MinIOやCephは未使用、複雑さ・専門性・運用コストを回避
    • XFSで全ドライブをフォーマット
  • 100Gbps専用回線でネットワークを最大限活用
  • ケーブル管理や物理設置の工夫 で運用効率向上
  • 近隣データセンター選択 でトラブル対応や初期セットアップが容易

実際の構築プロセス

  • 短期間での構築を重視、「Storage Stacking Saturday(S3)」としてイベント化
    • 友人や協力者を招き、36時間で30PBのハードウェアを設置・配線
    • 一部はプロの業者にも依頼
  • eBayでベンダー発掘→直接取引で保証も確保

成功した点

  • コスト・冗長性のバランス最適化
  • ネットワーク・ストレージともに100G帯域をほぼフル活用
  • シンプルな設計思想でトラブル時の対応も容易
  • クラウドに頼らず、短期間・低コストで構築達成

課題と反省点

  • フロントローダー採用で2,400台分の手作業が発生
  • ストレージ密度が低く、物理配置・設置作業が非効率
  • デイジーチェーン構成は速度面で不利、各シャーシ独立HBA推奨
  • ネットワーク機器のブランド依存や互換性問題
  • 物理アクセスやKVM/IPMIの重要性を再認識
  • セキュリティは最低限(nginx secure_link+ファイアウォール)
  • クラウドなら省力化できる部分もあったが、3週間でネットワーク安定化

今後の改善アイデア

  • KVMやIPMIの活用で物理アクセス頻度を削減
  • 管理用イーサネットネットワークの再設計
  • ストレージ密度や作業効率の向上
  • ネットワーク構成の見直しとコスト最適化

この構成により、 大規模動画データの低コスト蓄積と高速アクセス を同時に実現し、 フロンティアAIラボと競える環境 を自前で構築可能に。今後も運用ノウハウを活かしつつ、さらなる最適化を目指す方針。

Hackerたちの意見

データを静止状態で保存するのはかなり安いけど、トレーニングとネットワークの設定についてはちょっと混乱してる。コメントを見てると、GPUを同じ場所に置かないみたいだから、サイト間でX 100 Gbpsの回線を使ってトレーニングすることになるの?事前トレーニングの時に完全にボトルネックになっちゃうんじゃない?

そうだね、今は100ギガのリンクだけなんだけど、GPUクラスターが引き出せるのはそれくらいかな。でも、スケールするにつれて帯域幅とストレージは拡張する予定だよ。4090がたくさんコロケーションにあるのは注目すべき点で、データの分割に必要な埋め込み計算とかにすごく役立ってる。

いいまとめだね。技術的な詳細がすごく良い!コロケーションスペースを取得するプロセスについて興味があるんだけど、ブローカーを使ったの?交渉した?もしそうなら、最初に見積もられた価格と最終的に支払った価格の差はどれくらいだったの?

サンフランシスコのほとんどのコロケーションスペースと、いくつかはフリーモントに見積もりを依頼したよ。見積もり価格と実際に支払った金額に差はなかったけど、条件や一時的なコストについては交渉した。

ドライブをラックに入れる手伝いができて楽しかった!大量のデータを扱うのは最高だね :P

手伝ってくれてありがとう!!!

これをやってくれてありがとうと言いたかった!さて、昔の愚痴を…私がキャリアを始めた頃はオンプレミスが主流で、すごく苦労したのを覚えてる。長持ちするハードウェアを持っていると、どんなに頑張っても、ペットのように扱うようになって、状態が自然に蓄積されていくんだよね。そして、ハードウェアが十分じゃなくなると、アップグレードが必要になる。内部チームが「コモディティ」インターフェースを提供しているから、新しいハードウェアをそのリストから選んで、コストを承認してもらわないといけない(ちょっと多くお金を使ってちょっと良いものを手に入れるのはすごく難しい)。それから、新しいハードウェアをラックに入れるのにプロジェクトが遅れたり、ペットを「再生」させるためにちゃんと扱わないといけなかったりする。とにかく、クラウドが登場した時、私は「これに切り替える!」って思って、二度と戻らないって決めたんだ。でも、実はそれがマスタープランの一部だったんだよね。自分たちのハードウェアをラックに入れる方法を忘れるまで、これは簡単で良い取引なんだけど、そうなると簡単から難しくなっていく。基本的に、その筋力を取り戻さない限り、難しい取引から簡単な悪い取引に変わってしまう。だから、この筋力を育ててくれてありがとう!

私はOPじゃないけど、これに感謝!他のコメントでも言ったけど、クラウドへの一斉移行で多くのスキルが衰退しちゃった。だから、あなたが言ったように、誰かがそのスキルを再び鍛え始めているのは良いことだね。ハイパースケーラーが主に悪いんだけど、自分でできないっていうマーケティングのFUDがあって、追跡することが多すぎるから、私たちに任せて(その一方で、彼らがどれだけ目が飛び出るほど高いかは言わない)。

我たちはかなりユニークな状況にいるんだ。初期の段階で、運用をカバーするためにハイパースケーラーのクラウドを使う余裕が全然ないから、専門知識を身につけざるを得なかったんだ。結果的にはまあまあ落ち着いていて、しばらくはこのままで行くつもりだけど、君が言ってた状態の悪化はちょっと見え始めてるから、どうなるかはまだ分からないね。

確か、オンプレはいつも安かったよね。物流の障害が減って、1つの請求書で済むのが便利だったし。クラウドが人気になり始めた頃の知恵は、常にオンプレで、需要が急増したときにクラウドでスケールアップするって感じだった。でも、時間が経つにつれて、一時的なスケールアップが常態化しちゃって、開発者たちは需要の急増以外でも新しいマシンを瞬時に立ち上げることに頼るようになった。今ではみんなクラウドをデフォルトにして、それを基準に考えてる。そうするうちに、実際のコストを評価するための基盤を失って、クラウドとオンプレのコスト差はどんどん広がっていったね。

またやってみたい?

Dockerって、マシンをペットにしないようにするのがすごいよね。真面目に言うと、ラックに入ったサーバーはただのK3やK8ノード(とかなんとか)で、可愛がられる選択肢も能力もないんだ。これがめっちゃいいんだよね。VMについても同じことが言えるかもしれないけど、実際はそうじゃない。VMは結局ペットになっちゃうし、まあイメージやスナップショットはできるけど、やっぱり違うよね。

ネットワーキングの話はちょっと変だね。「ネットワーキングはかなりのコストがかかり、実験が必要だった。ほとんどの企業向けスイッチがDHCPをサポートしていないので、ノードにはパブリックIPを使いたかった。サーバーから便利でパフォーマンスの良いアクセスができるようにね。クラウドソリューションなら時間を節約できたかもしれないけど、数日でネットワーキングを整えて、約3週間で問題を解決した。」スイッチの選択がDHCPの使用にどう関わるの?なんでパブリックIPが必要なんだろう。

なんでパブリックIPが必要なんだろう。誰でも簡単に30PBのデータをダウンロードできるからだよ。

なんでパブリックIPが必要なんだろう。おそらく、100Gbpsを処理できるNAT(またはVPN)ゲートウェイが必要なくなるからじゃないかな。

ルーターを使いたくなかったみたいだね。専用の100Gbpsルーターはちょっと高いけど、コンピュータをルーターにすることもできるよ。

彼らはHTTP経由でアクセスできる30PBのストレージが欲しかっただけで、他には何もいらなかった感じだね。冗長性もなくて、NATもなし、超シンプルなnginxの設定と、ファイルシステム上のどのファイルをどこで見つけるかを追跡するためのコードだけ。俺はそれが好きだな。

これはネットワークの専門家が書いたものじゃないね、明らかに。単なる誤解であってほしいけど、そうじゃなければ、ネットワークについて何かしらの知識を持った人が必要だよ。

一般的に、ある規模以上の展開ではDHCPは手間がかかりすぎるよ。DHCPは、ホストが本当にダイナミックなとき(つまり、自分で管理してないとき)にしか価値がない。そうじゃなければ、資産ライフサイクルプロセスの一部としてIP割り当てを扱う方がずっと簡単だよ。俺の家のIoTネットワークも全部静的IPだし、小規模だとアドレス割り当てに家のルーターに依存しない方がずっと安定してるからね。スマートバルブを交換するだけでも大きなイベントだから、DHCPはその場合のブートストラップ用だけだよ。企業レベルでは、サーバーを開梱して資産IDを記録するのがIPアドレスを割り当てるタイミングだね。

80台くらいのサーバーに静的なパブリックIPを持ってるよ。それはサーバーの自動Ubuntuインストールが動くときに一回設定されるだけで、あとは全然考えない。 > DHCPを使うかどうかはスイッチの選択にどう関係するの?多分、家のルーターから来てるのかな。 > なんでパブリックIPが欲しいの?なんで欲しくないの?ファイアウォールもあるし。

Hetznerのsx135を使って、8x22TBで140TBのraidz1を240ユーロで運用すれば、1ドル/TB/月にかなり近づけるよ。200台借りれば、もっと良いレートが得られるかも。誰かが多くのリスクを引き受けてくれるから、夜もぐっすり眠れるしね。

ヘッツナーがサンフランシスコに拠点を持ってるとは思えないな。100GBitの接続も、他の機材がある場所の外とつながなきゃ意味ないし。でも、ピアリングが良くなったのかもしれないし、俺の考えは古いのかもね。

うん、将来的にはこういうのを選ぶ可能性は全然あるよね。似たようなオファーもあって、資金調達や構築を分けて、ソフトウェアだけやるってのもできるし。(特にヘッツナーの場合、他のデータオペレーションのためにCPUのクォータを取るのがすごく面倒だったし、ヨーロッパに置きたくないけど、今は自分たちでできるって証明したから、地元で似たような取引の良い見積もりを交渉するのはかなり楽になったよ。)

ヘッツナーは真面目な用途には使えないよ。彼らはたぶん、虐待を主張してデータを一切合切削除しちゃうだろうね、通知もなしに。

その規模のワークロードなら、AWSや他のクラウドプロバイダーとプライベート価格を交渉できるよ。CloudFlareだけじゃなくてね。S3のプライベート価格は、半PBからでも取れるし。CSPでの全体のコストがDIYより安くなるとは言わないけど、CSPの小売価格とeBayで買った機材や無料の労働(ピザ代を除く)を単純に比較するのは無理があるよね。

AWSのエグレスコストが問題で、交渉しようとしたときも全然動かなかったから、AIトレーニングには使えないよね。Cloudflareのプライベート見積もりは、管理されたオブジェクトバケットストレージの安い方の代表的なものだと思う。プロジェクトを進めるにつれて、俺たちのクラスターと次に良い選択肢との間の差が小さくなったのは、自己ホスティングできることで交渉のレバレッジが得られたからだけど、管理されたバケット製品は単純な事前トレーニングのダンプにはオーバースペックなんだよね。グレイシャーはアーカイブストレージのニーズに合った良いコストでやってくれるけど、今のところMLのニーズに合ったものはないね。

ホームラボ用の機材でeBayが好きだから、スタートアップのためにそれをやるための根性には感謝してるよ。古い企業の情報インフラの格言をスタートアップ向けにアレンジすると、「eBayを買ったからって誰もクビにならない」って感じかな。

面白い記事だね、作者に感謝!でも、こういうバーチャルなスリルを味わうには、もっと写真があると嬉しいな!

作者の方々が参加してくれたら、「Standard Intelligence PBC」が何をするのか聞きたいな。公共の利益のための法人なの?みんな何を作ってるの?

DIYは誰かにお金を払うよりもいつも安上がりだよね。素晴らしい記事だ!