概要
- comma 社は自社オフィス内に独自のデータセンターを運用
- クラウド利用を避ける理由や自前運用の利点を解説
- 電力・冷却・サーバー・ネットワーク構成の詳細紹介
- ソフトウェア・ワークロード管理・分散学習・タスクスケジューラの運用例
- 独自データセンター構築の現実的な方法とコストメリットの提案
commaの自社データセンター運用
- 膨大な資金や政治的なコネ がなくても、自前データセンター構築は可能
- comma 社は全モデル学習・メトリクス・データを自社オフィスのデータセンターで管理
- 自前運用 によるエンジニアリング力の向上、コスト削減、独立性の確保
- クラウド依存によるコスト高騰・ロックインリスク回避
クラウドを使わない理由
- 計算資源がビジネスの中核 の場合、クラウド依存は大きなリスク
- クラウドは簡単に始められるが、離脱が難しい
- 自前運用 でコード最適化や根本的な問題解決が促進される
- コスト面 で自前運用が圧倒的に有利(例:5Mドルで構築、クラウドなら25Mドル以上)
データセンター構成要素
- 電力 :最大450kW消費、San Diegoの高コスト(40c/kWh)
- 冷却 :外気冷却方式、CRACシステム不要、数十kWで運用
- サーバー :自作TinyBox Pro(600GPU/75台)、Dellストレージ(R630/R730、合計4PB SSD)
- ネットワーク :100Gbps Z9264Fスイッチ3台、Infinibandスイッチ2台
- その他機器 :ルーター、気候制御、データ取込、メトリクス、Redisサーバー等
ソフトウェア・インフラ管理
- OSインストール :PXEブート+Saltによる一元管理
- 分散ストレージ :自作minikeyvalue(mkv)で3種類のストレージアレイを運用
- メイントレーニング用(非冗長3PB/1TB/s読取)
- 中間結果キャッシュ(非冗長300TB)
- モデル・メトリクス保存用(冗長)
- ワークロード管理 :Slurmによるジョブスケジューリング
- 分散学習 :PyTorch FSDP+Infiniband、独自トレーニングフレームワーク
- 実験管理 :独自ダッシュボード(WandBやTensorBoard類似)、mkv連携
分散タスク・推論インフラ
- miniray :自作の軽量分散タスクスケジューラ(Daskの簡易版)
- Pythonコードをアイドルマシンで並列実行
- Redisでタスク情報管理
- GPU搭載ワーカーはTriton Inference Serverを自動起動
- NFSモノレポ :全コードを3GB以下のモノレポで管理、NFS経由で全分散ジョブに展開
- 作業マシンのローカル変更も即時反映、パッケージ同期も自動化(2秒程度)
実際の運用例
- on-policy学習 :最新モデルでシミュレーションロールアウトしながら訓練データ生成
- シンプルなコマンド で全インフラを統合的に活用可能
- 複雑な分散処理 も自前インフラで一元管理
独自データセンター構築のすすめ
- 自社・個人でのデータセンター構築 は現実的かつ有益
- コスト・技術・独立性の観点から強く推奨
- 興味があればcomma.aiでの採用も案内
Harald Schäfer CTO @ comma.ai