概要
- 90億時間分の動画データ保存用ストレージクラスター をサンフランシスコ中心部で構築
- クラウドの40分の1のコスト で自社運用を実現、年間約$354,000
- 冗長性や可用性よりコスト効率重視、ML学習用データの特性を活用
- シンプルな自作ソフトウェア と中古ハードウェアで柔軟な運用
- 設計・運用の工夫と課題、今後の改善アイデアも多数
サンフランシスコで構築した動画データ用ストレージクラスター
- 90億時間分の動画データ 保存を目的としたストレージクラスター構築
- 大規模映像データの事前学習 用、テキストLLM(例:LLaMa-405B)の500倍規模のストレージが必要
- AWS利用時は年間$1,200万、自社運用で年間$354,000にコスト削減
- コロケーションセンター利用、コストを40分の1に圧縮
- ML学習データ は冗長性や可用性よりコスト優先
- 5%程度のデータ消失 は許容範囲、AWSの「13ナイン」信頼性は不要
クラウド vs 自社運用のコスト比較
- AWS: 月額$1,130,000 (ストレージ+エグレス)
- Cloudflare: 月額$270,000 (特別価格)
- 自社データセンター: 月額$29,500 (固定費+減価償却)
- 1TBあたり$1/月、AWSの38分の1、Cloudflareの10分の1
- Backblaze など格安クラウドもあるが、性能やエグレス速度に課題
月額ランニングコスト
- インターネット回線: $7,500/月 (100Gbps DIA, Zayo)
- 電気代: $10,000/月 (1kW/PB, キャビネット・冷却込み)
- 合計: $17,500/月
一時コスト
- HDD: $300,000 (12TB中古エンタープライズHDD 2,400台)
- シャーシ: $35,000 (NetApp DS4246, 100台)
- CPUノード: $6,000 (Intel RR2000, 10台)
- 設置費: $38,500
- 作業委託: $27,000
- ネットワーク関連: $20,000
- 合計: $426,500
システム設計と運用
- ソフトウェアは超シンプル (Rust 200行+nginx+SQLite)
- MinIOやCephは未使用、複雑さ・専門性・運用コストを回避
- XFSで全ドライブをフォーマット
- 100Gbps専用回線でネットワークを最大限活用
- ケーブル管理や物理設置の工夫 で運用効率向上
- 近隣データセンター選択 でトラブル対応や初期セットアップが容易
実際の構築プロセス
- 短期間での構築を重視、「Storage Stacking Saturday(S3)」としてイベント化
- 友人や協力者を招き、36時間で30PBのハードウェアを設置・配線
- 一部はプロの業者にも依頼
- eBayでベンダー発掘→直接取引で保証も確保
成功した点
- コスト・冗長性のバランス最適化
- ネットワーク・ストレージともに100G帯域をほぼフル活用
- シンプルな設計思想でトラブル時の対応も容易
- クラウドに頼らず、短期間・低コストで構築達成
課題と反省点
- フロントローダー採用で2,400台分の手作業が発生
- ストレージ密度が低く、物理配置・設置作業が非効率
- デイジーチェーン構成は速度面で不利、各シャーシ独立HBA推奨
- ネットワーク機器のブランド依存や互換性問題
- 物理アクセスやKVM/IPMIの重要性を再認識
- セキュリティは最低限(nginx secure_link+ファイアウォール)
- クラウドなら省力化できる部分もあったが、3週間でネットワーク安定化
今後の改善アイデア
- KVMやIPMIの活用で物理アクセス頻度を削減
- 管理用イーサネットネットワークの再設計
- ストレージ密度や作業効率の向上
- ネットワーク構成の見直しとコスト最適化
この構成により、 大規模動画データの低コスト蓄積と高速アクセス を同時に実現し、 フロンティアAIラボと競える環境 を自前で構築可能に。今後も運用ノウハウを活かしつつ、さらなる最適化を目指す方針。