概要
- AWSからBare-Metalへの移行で 年間120万ドル以上 のコスト削減を実現。
- 可用性99.993%、顧客向けレイテンシ19%削減など運用面も向上。
- 移行・運用コストは最小限 で、リソースの再投資も実施。
- クラウドの利点 も活かしつつ、基盤は自社所有のコロケーションへ。
- コミュニティからの質問に 実数値と実例 で回答。
AWSからBare-Metalへの移行がもたらした効果
- MicroK8s + Ceph 構成で730日以上連続稼働、 可用性99.993% を計測。
- フランクフルトに2台目ラックを設置、 DWDM冗長回線 でパリと接続し単一障害点を排除。
- NVMeローカルストレージ 導入により、顧客向けレイテンシを19%削減。
- 削減したコストで AIサーバー増設、LLMによるアラート要約や自動コード修正機能を強化(OneUptime)。
- コミュニティからの質問(RI未利用?ラック冗長性?人件費?クラウド利用の最適解?)に対し、実数値で回答。
コスト削減の実態と比較
- 年間$230,000の節約 は米国ならエンジニア1人分、世界的には2~5人分の給与に相当。
- 現在は 年間$1.2M以上 の節約に拡大、今後も成長見込み。
- Savings PlansやRI も検討済みだが、S3・帯域・Direct Connectの割引が限定的で、 ベアメタル比で76%以上安価。
- Savings Plansはインスタンスのみ割引、帯域はAWS請求の22%を占める。
- EKSの制御プレーン費用やNAT Gateway費用も自己運用で不要に。
- 24/7稼働ワークロードのため、リザーブ率90%以上で最適化済み。
移行・運用コストと人的リソース
- 初期移行は エンジニア1週間分 (SRE・プラットフォーム・DB担当で分担)。
- インフラのコード化やバックアップ強化など、必要作業と重複。
- 運用コストは 四半期あたり24時間 程度(パッチ適用・ファームウェア更新含む)。
- AWS時代のコスト最適化やIAM管理と同等の作業量。
- 現地作業は年2回以下 (主にディスク交換)、平均対応27分、現地常駐スタッフは不要。
- 自動化 :Talos・Tinkerbell・Flux・Terraformで構成管理、Kubernetesアップグレードも自動化。
冗長性・耐障害性の確保
- 複数ラック構成、異なるDC・電力会社を利用。
- フランクフルトに四分の一ラック増設、MicroK8s制御プレーンとCephプールを非同期レプリケーション。
- 今後はTalosへ移行予定。
- 4G/衛星回線 によるOOB管理経路も確保。
- AWS側のフェイルオーバークラスタも維持、四半期ごとにカットオーバー訓練を実施。
- DNSフェイルオーバーの遅延対策で Anycast+BGP を導入し、トラフィック切替を1分未満に短縮。
ハードウェアライフサイクルとCapEx管理
- サーバは 5年償却、2×AMD EPYC 9654・1TB RAM・NVMe構成。
- CPU飽和時に分析クラスターへ転用、新規購入で 40%/24ヶ月ごと にリフレッシュ可能。
- OEM(Supermicro)から延長保証を購入、 コールドスペア3台常備。
- 実際は7-8年稼働可能だが、保守的に5年計上。
マネージドサービス再発明の是非
- 自社製品の移植性 維持が理由。OneUptime顧客もKubernetes上で自己運用。
- ツールの成熟度 向上。MicroK8s→Talos、Argo Rollouts、OpenTelemetry、Cephダッシュボード等、すべてオープンソースで独自開発なし。
- クラウド併用 :Glacierによる長期バックアップ、CloudFront/Cloudflareでエッジキャッシュ、負荷試験用の短期AWS利用。
- マネージドサービス は専門知識不足や独自機能が必要な場合に有効。
帯域・DDoS対策・信頼性
- 5Gbps 95パーセンタイル を2キャリアで契約、AWSの8倍安価。
- DDoS対策は Cloudflare をフロントに配置。
- 可用性はAWSより高水準 (730日99.993%、直近のAWSダウンタイムも回避)。
監査・コンプライアンス対応
- SOC2 Type II・ISO 27001 認証を維持。
- 物理管理はコロケーションのバッジログ・監視カメラ・四半期レビュー。
- 変更管理はTerraform/Talosの証跡で監査対応。
- 事業継続性は他DCへのフェイルオーバー訓練で証明。
- 医療など規制分野では書類作業増だが、コロケーション標準資料で対応。
クラウド他社への移行検討
- Hetzner・OVH・Leaseweb・Equinix Metal・AWS Outposts を比較。
- ハイパースケーラーは計算資源は割安だが帯域コストが高止まり。
- ヨーロッパの専用サーバは大規模Cephや冗長回線・SLAでコスト高。
- Equinix Metalは最も近いが、オンデマンドベアメタルで25-30%割増。
- 自社ハードウェア所有で 電力密度最適化・部品再利用 も可能、コロケーションが最適解。
日常運用の具体例
- 週次 :Kernel・ファームウェアパッチ、Cephヘルスチェック(平均1時間/週)。
- 月次 :Kubernetes制御プレーンのカナリアアップグレード(2時間/2名)。
- 四半期 :DR訓練・容量計画・キャリア監査(3名で12時間程度)。
- 合計 約14時間/月、AWS時代も同程度だが作業内容が異なる(コスト監視・セキュリティ例外対応等)。
クラウドの活用範囲
- Glacier で長期ログアーカイブ、 CloudFront/Cloudflare でエッジ配信、短期AWS環境で負荷試験。
- 弾力性や地理的要件 が重要な場合はクラウドを選択。
クラウドが適切なケース
- 利用パターンがスパイキー/季節変動型 でオートスケール可能な場合。
- Aurora Serverless・Kinesis・Step Functions 等、運用負荷削減が価値となる場合。
- KubernetesやCeph等の運用知見がまだ浅い 場合。
- 初期はクラウドが最適、規模や独立性要求が高まればベアメタルも選択肢。
今後の展望
- コロケーション移行向けのランブック+Terraformモジュール を公開予定。
- Talosの詳細解説記事 も準備中。
- 追加質問はディスカッションスレッドで受付中。
関連リンク
- OneUptime公式ブログ、Hacker News、Reddit等でさらなる議論。