AWSからベアメタルへ：AWSを離れることに関する質問にお答えします

2025年10月29日原文(oneuptime.com)

概要

AWSからBare-Metalへの移行で 年間120万ドル以上 のコスト削減を実現。
可用性99.993%、顧客向けレイテンシ19%削減など運用面も向上。
移行・運用コストは最小限 で、リソースの再投資も実施。
クラウドの利点 も活かしつつ、基盤は自社所有のコロケーションへ。
コミュニティからの質問に 実数値と実例 で回答。

AWSからBare-Metalへの移行がもたらした効果

MicroK8s + Ceph 構成で730日以上連続稼働、 可用性99.993% を計測。
フランクフルトに2台目ラックを設置、 DWDM冗長回線 でパリと接続し単一障害点を排除。
NVMeローカルストレージ 導入により、顧客向けレイテンシを19%削減。
削減したコストで AIサーバー増設、LLMによるアラート要約や自動コード修正機能を強化（OneUptime）。
コミュニティからの質問（RI未利用？ラック冗長性？人件費？クラウド利用の最適解？）に対し、実数値で回答。

コスト削減の実態と比較

年間$230,000の節約 は米国ならエンジニア1人分、世界的には2～5人分の給与に相当。
現在は 年間$1.2M以上 の節約に拡大、今後も成長見込み。
Savings PlansやRI も検討済みだが、S3・帯域・Direct Connectの割引が限定的で、 ベアメタル比で76%以上安価。
- Savings Plansはインスタンスのみ割引、帯域はAWS請求の22%を占める。
- EKSの制御プレーン費用やNAT Gateway費用も自己運用で不要に。
- 24/7稼働ワークロードのため、リザーブ率90%以上で最適化済み。

移行・運用コストと人的リソース

初期移行は エンジニア1週間分 （SRE・プラットフォーム・DB担当で分担）。
- インフラのコード化やバックアップ強化など、必要作業と重複。
運用コストは 四半期あたり24時間 程度（パッチ適用・ファームウェア更新含む）。
- AWS時代のコスト最適化やIAM管理と同等の作業量。
現地作業は年2回以下 （主にディスク交換）、平均対応27分、現地常駐スタッフは不要。
自動化 ：Talos・Tinkerbell・Flux・Terraformで構成管理、Kubernetesアップグレードも自動化。

冗長性・耐障害性の確保

複数ラック構成、異なるDC・電力会社を利用。
- フランクフルトに四分の一ラック増設、MicroK8s制御プレーンとCephプールを非同期レプリケーション。
- 今後はTalosへ移行予定。
- 4G/衛星回線 によるOOB管理経路も確保。
AWS側のフェイルオーバークラスタも維持、四半期ごとにカットオーバー訓練を実施。
- DNSフェイルオーバーの遅延対策で Anycast+BGP を導入し、トラフィック切替を1分未満に短縮。

ハードウェアライフサイクルとCapEx管理

サーバは 5年償却、2×AMD EPYC 9654・1TB RAM・NVMe構成。
- CPU飽和時に分析クラスターへ転用、新規購入で 40%/24ヶ月ごと にリフレッシュ可能。
- OEM（Supermicro）から延長保証を購入、 コールドスペア3台常備。
- 実際は7-8年稼働可能だが、保守的に5年計上。

マネージドサービス再発明の是非

自社製品の移植性 維持が理由。OneUptime顧客もKubernetes上で自己運用。
ツールの成熟度 向上。MicroK8s→Talos、Argo Rollouts、OpenTelemetry、Cephダッシュボード等、すべてオープンソースで独自開発なし。
クラウド併用 ：Glacierによる長期バックアップ、CloudFront/Cloudflareでエッジキャッシュ、負荷試験用の短期AWS利用。
マネージドサービス は専門知識不足や独自機能が必要な場合に有効。

帯域・DDoS対策・信頼性

5Gbps 95パーセンタイル を2キャリアで契約、AWSの8倍安価。
DDoS対策は Cloudflare をフロントに配置。
可用性はAWSより高水準 （730日99.993%、直近のAWSダウンタイムも回避）。

監査・コンプライアンス対応

SOC2 Type II・ISO 27001 認証を維持。
- 物理管理はコロケーションのバッジログ・監視カメラ・四半期レビュー。
- 変更管理はTerraform/Talosの証跡で監査対応。
- 事業継続性は他DCへのフェイルオーバー訓練で証明。
- 医療など規制分野では書類作業増だが、コロケーション標準資料で対応。

クラウド他社への移行検討

Hetzner・OVH・Leaseweb・Equinix Metal・AWS Outposts を比較。
- ハイパースケーラーは計算資源は割安だが帯域コストが高止まり。
- ヨーロッパの専用サーバは大規模Cephや冗長回線・SLAでコスト高。
- Equinix Metalは最も近いが、オンデマンドベアメタルで25-30%割増。
- 自社ハードウェア所有で 電力密度最適化・部品再利用 も可能、コロケーションが最適解。

日常運用の具体例

週次：Kernel・ファームウェアパッチ、Cephヘルスチェック（平均1時間/週）。
月次：Kubernetes制御プレーンのカナリアアップグレード（2時間/2名）。
四半期 ：DR訓練・容量計画・キャリア監査（3名で12時間程度）。
合計 約14時間/月、AWS時代も同程度だが作業内容が異なる（コスト監視・セキュリティ例外対応等）。

クラウドの活用範囲

Glacier で長期ログアーカイブ、 CloudFront/Cloudflare でエッジ配信、短期AWS環境で負荷試験。
弾力性や地理的要件 が重要な場合はクラウドを選択。

クラウドが適切なケース

利用パターンがスパイキー/季節変動型 でオートスケール可能な場合。
Aurora Serverless・Kinesis・Step Functions 等、運用負荷削減が価値となる場合。
KubernetesやCeph等の運用知見がまだ浅い 場合。
初期はクラウドが最適、規模や独立性要求が高まればベアメタルも選択肢。

今後の展望

コロケーション移行向けのランブック＋Terraformモジュール を公開予定。
Talosの詳細解説記事 も準備中。
追加質問はディスカッションスレッドで受付中。

Hackerたちの意見

面白い記事だね、ありがとう！OVHやHetznerの比較で忘れがちなのは、彼らのエントリーサーバーについてだよね。OVHのAdvanceラインやHetznerのAXラインみたいなやつ。これらのボックスにはいくつかの欠点があるんだ。例えば、OVHのAdvanceラインはECCメモリが付いてないから、データベースをホストするサーバーには最悪だよ。これは事故が起こるのを待ってるようなもんだ。AdvanceラインにはECCメモリを追加するオプションがないから、ScaleやHigh Gradeサーバーを使わなきゃいけなくて、これらは「手頃」とは言えないよね。HetznerはデフォルトでシングルPSUとシングルアップリンクが付いてくる。何も起こらなければ大丈夫かもしれないけど、信頼性の高いプライベートネットワークや10Gが必要な場合は、追加コストがかかるよ。

└

そうだね、デュアルPSUやECC RAMを提供している専用サーバープロバイダーもあるよ。ただ、例えば24コアのEpycに384GBのRAM、デュアル10Gネットワークだと月500ドルくらいはかかるけどね（他の例としてserversearcher.comにもっと小さいサーバーもあるよ）。

└

ECC RAMなしで動くソフトウェアってあるのかな？ほとんどの人気のデータベースは、メモリが壊れない前提で動いてると思うんだけど。

└

これらの懸念は誇張されてるよ。私は20年間、HetznerやOVHなどで運営してきたけど、その間に問題は2回だけ。15年くらい前にサーバーのPSUが故障したのと、数年前にOVHのデータセンターが火事になってサーバーがダウンしたことがあった。その他のハードウェアの問題は一切なかったよ。あなたの経験は違うかもしれないけど。

こんなに反発があるなんて驚きだよ… AWSはめっちゃ高いからね。AWSだけでシステムやサービスを構築するケースは、みんなが思ってるよりも珍しいと思う。もしかしたら、俺がただの老害で雲に向かって叫んでるだけかもしれないけど（冗談だよ）、いつから人々はベアメタルサーバーの運用を忘れちゃったんだろう？ > 「私たちは730日以上、99.993%の可用性を測定していて、先週起きたAWS全域のダウンタイムも逃れました。」これは自慢にはいいね。彼らがCloudFlareを通じてDDoS保護を使っているから、その依存関係はあるけど、その場合、DNSやインバウンドは確かにフルタイムの仕事になることに100%同意できるよ。マイクロサービスやデータベースを運用するのは全然そうじゃない。もしチームがスケーリングなどで常に監視・調整しているなら、問題は設計にあるんだ。ホスティングじゃない。小さな会社が毎時ビリオンの重いリクエストを処理しているわけじゃないなら、AWSが高すぎるって賭けてもいいよ。

└

著者が指摘しているように、AWSは再現したくないいくつかのこと（CloudFrontみたいな）を提供できるけど、他のほとんどのことについては君が正しいよ。AWSは結局、提供されるものに対して非常に高いんだ。驚きのある複雑な請求書も、コスト管理を頭を抱える経験にしてしまう。

└

このトピックに対する異なる見解の大部分は、人々がクラウドプロバイダーに管理業務を押し付けることで節約できる労力やお金をどのように見積もるかに起因しているんだ。そしてこの点について、人々は全く異なる結論に至ることが多い。要求もかなり異なるし、HNでの議論はしばしばHAや多くのスケーリングオプションが必要だと仮定しているように見えるけど、それは普遍的に正しいわけじゃない。

└

直接的なコストは簡単な部分だよね。もっと厄介なのは、今やAWSのやり方で物事を進めることがキャリアに依存している技術者のスタッフを育てているってこと。彼らはAWS認定を受けて、AWSの「Well Architected Way」でシステムを構築することを保証し、自分で考える代わりに、AWSのロックインソリューションを売り込むためのサウンドバイトやセールスアーギュメントを使うんだ。（「アプリを失敗に対して非常に強靭にしましょうか？はい、複数のリージョンで運用することはAWSの請求書を大きくしますが、ダウンタイムはずっと少なくなります。この技術的な話を見てください、これが証明です」）もちろん、AWSのロックインサービスは、標準的なものの過剰請求と比較して安く見えるように価格設定されているんだ。もしあなたがそれらに移行するためにエンジニアリングの努力やIaCコーディングの努力を費やすなら、この「節約」は再びAWSクラウドエンジニアリングの努力に使われて、あなたのクラウドエンジニア組織が大きくなり、重要になっていくんだ。（例えば、アプリをコンテナからLambdaに移行したり、データベースをPostgreSQLからDynamoDBに移行したりすることなど）

└

「もしかしたら私はただの老害かもしれないけど（ダジャレじゃないよ）、いつから人々はベアメタルサーバーの運用を忘れたんだろう？エンジニアを“商品化”する方法だよ。自社運用や混合インフラの方が、やり方さえ分かればもっと良くて安くできる。でも、経験豊富な人が必要で、大手コンサルに雇われた新卒が“クラウドの専門家”として売られても上手くいかない。」

└

「これに対する反発がこんなに多いことに驚いてるけど、実はそうでもない。よくあることみたいだ。ここやRedditでAWSを使わない話題が出ると、突然現れる人たちが他の選択肢を提案する人を叩き始めるんだ。正直、これが有料の宣伝みたいに感じ始めてる。」

└

「もしかしたら私はただの老害かもしれないけど（ダジャレじゃないよ）、いつから人々はベアメタルサーバーの運用を忘れたんだろう？“クラウド学習による無力感”という言葉を作るべきだね。」

└

AWSは高いかもしれないけど、バランスが大事だよね。オンプレミス（まあ、共有DC）にすると安くなるけど、オールラウンドなシステム管理者か専門家が必要になる。製品がシンプルでスケーラブルならうまくいくことも多い。多くの場所がこっそりこれを実現してる。ただ、複雑さがすごいことになってる現実も見てきたし、運用コストに焦点を当てると、低価格のコンポーネントで作られたサービスを管理するためにスキルの低いスタッフを雇うことになる。昔ながらの「自分でやるぜ！」の考え方が入ると、爆発的な影響範囲で高額なサービスクレジットを顧客に配ることになる。人間的な要因としては、チームが真夜中の会議に何度も呼ばれることになるよ。AWS/Azure/GCPの世界に100%満足してるわけじゃないけど、オンプレミスのスキルセットがますます希少で専門的になってきてるのが現実だね。良い人を雇うのは、すごく高くつくか、ユニコーンを探すような感じになることもある。

Hacker Newsで議論の続きを見る

ハクソク