AWS障害：単一のクラウドリージョンが世界をダウンさせるべきではない。しかし、実際にそうなった。

2025年10月20日原文(faun.dev)

概要

Amazon Web Services（AWS） の大規模障害発生
多数の有名ウェブサイトとサービスへ影響拡大
金融・政府関連サービスも一時利用不可能
原因は US-EAST-1リージョンのDNS解決問題
クラウド依存のリスクが顕在化した事例

AWS障害の概要と影響

AWSの大規模障害 により、Amazon、Snapchat、Disney+、Reddit、Canvaなどの著名サービスがダウン
70以上のAWSサービス が影響を受け、クラウドベースのゲームやCoinbaseなどの暗号資産取引所もサービス停止
障害発生直後、 AWSは復旧の兆し を報告したが、Redditなど一部サービスで継続的な問題発生
英国の HMRC（税務当局）やLloyds、Halifax、Bank of Scotland などの銀行サービスも影響
- カード決済の失敗やオンラインバンキングへのアクセス不可が発生

障害の原因と復旧対応

障害の主因は US-EAST-1リージョンにおけるDNS解決の問題
AWSは 複数経路での復旧作業 を実施し、システムの早期回復を目指した
多くのサービスで 復旧が進行 したものの、リクエストのバックログにより一部で遅延継続

クラウド依存のリスクと今後の課題

主要クラウドサービスプロバイダーへの依存 がもたらすリスクの顕在化
- 一社の障害が 広範囲な連鎖的影響 を引き起こす現実
今後は 冗長構成やマルチクラウド戦略 の重要性が増す見込み
サービス事業者・利用者双方に求められる リスク対策の再検討

Hackerたちの意見

これは、クラウドコンピューティングのベストプラクティスと、実際にみんながやってることの違いを示してるよね。有名な業界の名前も含めて。

└

これは、クラウドコンピューティングのベストプラクティスと、実際にみんながやってることの違いを示してるよね。まあ、リージョン間のDR/HAは、特にAWSにいると、給料やインフラ、どちらか両方でも高くつくからね。

└

AWSは自分たちのウェルアーキテクテッドフレームワークに従ってるの？

└

うーん、この問題を防ぐための「ベストプラクティス」は実装が簡単じゃないし、ほとんどのエンジニアリングチームができる範囲を超えてると思う。リスクプロファイルによるよね。俺が働いてたフリーミアムゲーム会社でクラウドの障害が起きたときは、みんなで肩をすくめてシステムが復旧するのを待ってたよ。誰も言葉パズルができなくて死ぬわけじゃないからね。でも、管理職が「次はどうやってこういう問題を防ぐの？」って聞いてきて、必要なエンジニアリングの努力が明らかになると、まるで聞いてなかったかのように振る舞うこともあった。6〜18ヶ月の間に全てのロードマップを破棄してでも、信頼性を9上げるために動くプロダクトマネージャーにはまだ会ったことがないけど、そういうのが超重要な業界では働いてないからかも。

└

ベストプラクティスには、AWSがダウンしたときの計画は含まれてない。Netflixはそれを計画してないし、彼らは非常に強力なエンジニア組織を持ってる。

US-East-1は普通のリージョン以上の存在なんだ。他のリージョンのサービスの基盤も提供してるから、別のリージョンにいるからって、US-East-1の問題から守られるわけじゃない。AWSはそのことをあまり公にしないけど、もしプレスしたら、US-East-1に問題があった場合に発生するかなり厄介な単一障害点が設計にあることを認めるよ。多くの人は、これがAWSが本当にマルチリージョンじゃないってことを意味するって言うだろうね。ここでその単一障害点が関わっているかはまだはっきりしないけど、リスク軽減は「US-East-1を使わない」とか「複数のリージョンに負荷分散してデプロイする」だけじゃ簡単じゃないんだ。

└

US-East-1は普通のリージョン以上の存在なんだ。他のリージョンのサービスの基盤も提供してる。US-East-1がダウンしたら、他のゾーンで管理したり新しいサービスを立ち上げたりできないかと思ってたけど、US-East-1から引き継げるサービスがあれば、アプリやウェブサイトを維持できるんだよね。数年前に障害があったときはそうだったけど、使ってるサービスによるよね。US-East-1がダウンした後に他のゾーンにクローンを作り始めることはできないから、遅すぎるんだ。

└

そうだね、アマゾンのエンジニアは偽善者だよ。彼らは地域のフェイルオーバーやマルチAZデプロイのために余分なお金を使わせたいけど、自分たちはそれをやってないからね。

└

ちょっとおかしいかもしれないけど、これは彼らの「ルーム641a」かも。システムの目的はその機能だから、現実に対して「こうあるべき」って議論しても意味ないよね。彼らは何十年も「可用性」をプレミアム価格で売り出してきた。俺は競合他社で働いてたけど、もっと良い製品を作ったんだ。それはどんなゾーンが落ちても耐えられるやつだった。

└

AWSの無駄な複雑さに悩まされたのは久しぶりだけど、確か、証明書はus-east-1で生成されたものでないとCloudFrontに関連付けられないから、今もそうなら全CDNにとっての単一障害点になってるよね。

└

この事実は、US-East-1でまた障害が起きるたびに3〜5年ごとに浮上する。今までにこの爆風半径の問題を解決するためにアーキテクチャを変えられたはずなのに、そうしないのはなぜ？悪い設計だと分かってるのに、何十年もバージニアに中央集権的なコアトラフィックサービスを置き続ける理由は何だろう。

└

ずっと言ってるのは、クラウドには顧客から見えないところに単一障害点（それに、悪夢のようなセキュリティリスク）がたくさんあるってこと。「ただのボックスで運用するなんて無理！それは単一障害点だ。だからクラウドに移行するんだ！」違いは、クラウドがダウンしたときに、責任を彼らに押し付けられること。修正するのは彼らの問題だしね。企業の世界って、こういうことが多いよ。マッキンゼーみたいなコンサルタントの大きな役割は、CEOや取締役がやりたいことを裏付ける複雑なレポートやプレゼンを提供すること。そうすれば、うまくいかなかったときにマッキンゼーを責められるから。

Hacker Newsで議論の続きを見る

ハクソク

AWS障害：単一のクラウドリージョンが世界をダウンさせるべきではない。しかし、実際にそうなった。

概要

AWS障害の概要と影響

障害の原因と復旧対応

クラウド依存のリスクと今後の課題

Hackerたちの意見