世界を動かす技術を、日本語で。

AWS障害:単一のクラウドリージョンが世界をダウンさせるべきではない。しかし、実際にそうなった。

概要

  • Amazon Web Services(AWS) の大規模障害発生
  • 多数の有名ウェブサイトとサービスへ影響拡大
  • 金融・政府関連サービスも一時利用不可能
  • 原因は US-EAST-1リージョンのDNS解決問題
  • クラウド依存のリスクが顕在化した事例

AWS障害の概要と影響

  • AWSの大規模障害 により、Amazon、Snapchat、Disney+、Reddit、Canvaなどの著名サービスがダウン
  • 70以上のAWSサービス が影響を受け、クラウドベースのゲームやCoinbaseなどの暗号資産取引所もサービス停止
  • 障害発生直後、 AWSは復旧の兆し を報告したが、Redditなど一部サービスで継続的な問題発生
  • 英国の HMRC(税務当局)やLloyds、Halifax、Bank of Scotland などの銀行サービスも影響
    • カード決済の失敗やオンラインバンキングへのアクセス不可が発生

障害の原因と復旧対応

  • 障害の主因は US-EAST-1リージョンにおけるDNS解決の問題
  • AWSは 複数経路での復旧作業 を実施し、システムの早期回復を目指した
  • 多くのサービスで 復旧が進行 したものの、リクエストのバックログにより一部で遅延継続

クラウド依存のリスクと今後の課題

  • 主要クラウドサービスプロバイダーへの依存 がもたらすリスクの顕在化
    • 一社の障害が 広範囲な連鎖的影響 を引き起こす現実
  • 今後は 冗長構成やマルチクラウド戦略 の重要性が増す見込み
  • サービス事業者・利用者双方に求められる リスク対策の再検討

Hackerたちの意見

これは、クラウドコンピューティングのベストプラクティスと、実際にみんながやってることの違いを示してるよね。有名な業界の名前も含めて。

これは、クラウドコンピューティングのベストプラクティスと、実際にみんながやってることの違いを示してるよね。まあ、リージョン間のDR/HAは、特にAWSにいると、給料やインフラ、どちらか両方でも高くつくからね。

AWSは自分たちのウェルアーキテクテッドフレームワークに従ってるの?

うーん、この問題を防ぐための「ベストプラクティス」は実装が簡単じゃないし、ほとんどのエンジニアリングチームができる範囲を超えてると思う。リスクプロファイルによるよね。俺が働いてたフリーミアムゲーム会社でクラウドの障害が起きたときは、みんなで肩をすくめてシステムが復旧するのを待ってたよ。誰も言葉パズルができなくて死ぬわけじゃないからね。でも、管理職が「次はどうやってこういう問題を防ぐの?」って聞いてきて、必要なエンジニアリングの努力が明らかになると、まるで聞いてなかったかのように振る舞うこともあった。6〜18ヶ月の間に全てのロードマップを破棄してでも、信頼性を9上げるために動くプロダクトマネージャーにはまだ会ったことがないけど、そういうのが超重要な業界では働いてないからかも。

ベストプラクティスには、AWSがダウンしたときの計画は含まれてない。Netflixはそれを計画してないし、彼らは非常に強力なエンジニア組織を持ってる。

US-East-1は普通のリージョン以上の存在なんだ。他のリージョンのサービスの基盤も提供してるから、別のリージョンにいるからって、US-East-1の問題から守られるわけじゃない。AWSはそのことをあまり公にしないけど、もしプレスしたら、US-East-1に問題があった場合に発生するかなり厄介な単一障害点が設計にあることを認めるよ。多くの人は、これがAWSが本当にマルチリージョンじゃないってことを意味するって言うだろうね。ここでその単一障害点が関わっているかはまだはっきりしないけど、リスク軽減は「US-East-1を使わない」とか「複数のリージョンに負荷分散してデプロイする」だけじゃ簡単じゃないんだ。

US-East-1は普通のリージョン以上の存在なんだ。他のリージョンのサービスの基盤も提供してる。US-East-1がダウンしたら、他のゾーンで管理したり新しいサービスを立ち上げたりできないかと思ってたけど、US-East-1から引き継げるサービスがあれば、アプリやウェブサイトを維持できるんだよね。数年前に障害があったときはそうだったけど、使ってるサービスによるよね。US-East-1がダウンした後に他のゾーンにクローンを作り始めることはできないから、遅すぎるんだ。

そうだね、アマゾンのエンジニアは偽善者だよ。彼らは地域のフェイルオーバーやマルチAZデプロイのために余分なお金を使わせたいけど、自分たちはそれをやってないからね。

ちょっとおかしいかもしれないけど、これは彼らの「ルーム641a」かも。システムの目的はその機能だから、現実に対して「こうあるべき」って議論しても意味ないよね。彼らは何十年も「可用性」をプレミアム価格で売り出してきた。俺は競合他社で働いてたけど、もっと良い製品を作ったんだ。それはどんなゾーンが落ちても耐えられるやつだった。

AWSの無駄な複雑さに悩まされたのは久しぶりだけど、確か、証明書はus-east-1で生成されたものでないとCloudFrontに関連付けられないから、今もそうなら全CDNにとっての単一障害点になってるよね。

この事実は、US-East-1でまた障害が起きるたびに3〜5年ごとに浮上する。今までにこの爆風半径の問題を解決するためにアーキテクチャを変えられたはずなのに、そうしないのはなぜ?悪い設計だと分かってるのに、何十年もバージニアに中央集権的なコアトラフィックサービスを置き続ける理由は何だろう。

ずっと言ってるのは、クラウドには顧客から見えないところに単一障害点(それに、悪夢のようなセキュリティリスク)がたくさんあるってこと。「ただのボックスで運用するなんて無理!それは単一障害点だ。だからクラウドに移行するんだ!」違いは、クラウドがダウンしたときに、責任を彼らに押し付けられること。修正するのは彼らの問題だしね。企業の世界って、こういうことが多いよ。マッキンゼーみたいなコンサルタントの大きな役割は、CEOや取締役がやりたいことを裏付ける複雑なレポートやプレゼンを提供すること。そうすれば、うまくいかなかったときにマッキンゼーを責められるから。

たとえus-east-1が普通のリージョンだったとしても、他のリージョンにus-east-1のすべてのワークロードを受け入れるだけの余裕はないから、無意味な話だね。

それに、AWSを使っているほとんどの企業がマルチリージョンのサポートに全く近くないってことも助けになってないし、us-east-1が最も人口の多いリージョンだと思う。

彼らは、レジリエンスを犠牲にしながらも、できるだけスプリットブレインのシナリオを避けたいみたいだね。DNSみたいなものは、たぶん避けられないだろうけど。だから、全ての責任をAWSに押し付けるわけにはいかないよね。もし自分のアプリが領収書(例えば航空券)に依存してるなら、オフライン版をスマホに保存しておくべきだと思う。そうすれば、フライトのチェックインもできるし。でも、Redditにアクセスできなかったり、マクドナルドで注文できないのは我慢できるかな。良い根本原因分析レポートを出してほしいな。

アマゾンは年末までにEU主権クラウドを立ち上げる予定らしいよ。完全に独立したものになるって言ってる。そうなれば、AWSで本当のレジリエンシーが実現できるかもしれないね。どうなるか見てみよう。

この事件は、いくつかの主要なクラウドサービスプロバイダーに対する過度の依存に伴うリスクを浮き彫りにしている。インターネット全体にとってはそうかもしれないけど、各サービスにとっては、複数のゾーンでホスティングしないリスクやバックアップを持たないリスクを強調しているね。

ちょっとメタだけど、faun.devって何?サイトを訪れたけど、すごく遅い(現在の障害のせいかも?)広告収入で運営されてるRedditやHNのクローンみたいだね。でも、サイドバーの「トレンド技術」には「Ansible」と「Jenkins」が載ってるけど、どちらも素晴らしいけど、今はトレンドじゃないと思う。これって一体何なんだろう?

OPはfaun.devのクリエイターみたいだね。ただのテックニュースサイトっぽい。

「Ansible」と「Jenkins」…どっちも素晴らしいけど、Jenkinsについては全然素晴らしいとは言えない。時々目標を達成するために使えることもあるけど、全般的にはひどい。使いにくいし、メンテも大変、セキュリティもクソ。20年前は競争がなかったからベストな解決策だったけど、競争が出てきてからは全然 relevancy もなくなった。2025年の終わりに近づいても、いまだに実行時にJWTアイデンティティをサポートしてないのは恥ずかしいよ。同じことがVMware vSphereにも言える。

デザインがすぐに変だなって感じた。どこからこの情報を得てるんだろう?これは「さらなる読み物」にリンクされているBBCのライブニュースフィードのAI要約なの?

自己宣伝のゴミだと思う。ここではそれが普通になってきてるね。

利益がすべての基準になると、こういうことが起こるんだよね。プロバイダーを変えても、彼らの数字が上がらなければ信頼できない。だから、君の不満なんて何の意味もない。「数字が上がる」から。みんながホスティング会社を始めてた良き時代を思い出すよ。あの時代を離れなければよかった。

DNSに関連する「運用上の問題」による…

AWSがダウンした。多くの企業が影響を受けた。世界中の見出しがAWSを非難してるけど、実際のニュースは、コスト管理をサービスのレジリエンシーより優先している企業を特定するのがどれだけ簡単かってこと。完全にAWSで運営している組織や、時にはus-east-1だけで運営しているところは、昨晩は問題なかった。これは設計の問題(影響を受けたサービスを使っていない)もあるし、設計の良いレジリエンシーもある。そして、運が良かった(偶然の良い設計)ってことも。全体的に見て、運用上の問題があった企業は、他のデプロイメント戦略でもレジリエンシーに投資していなかった可能性が高い。AzureやGCP、あるいは自社で構築したデータセンターでも同じことが起こり得た。

冗長性はめちゃくちゃ高価だよ。特にSaaS企業にとっては、最大のコストがクラウドだから。顧客はその冗長性に対してお金を払う気があるのかな?多分ないと思う。数年に一度、3時間のダウンタイムがあるのは、重要でないサービスには問題ないよ。

これがもっと増えたら、エンジニアに「AIを使え」って強要することや、「Looks Good To Me」なコードの洪水が帰ってくるって考えるのもおかしくないかもね。

大きな「もし」だけど、こういう大規模な障害は珍しくないし、今のところはあまり起こらないね。でも、彼らのSLAが約束するよりは確実に影響が大きいよ。正直なポストモーテムをやってほしいけど、AIが関与してたとしても責任を追及するとは思えないな。完全に手を引かなきゃAIを責めることもできないし、それってアウトソーシングパートナーを責めるのと同じだから、そんなことはまず起きないよね。

ちょっと待って、Snapchatまた影響受けたの?前回のGCPの障害の時も影響あったよね。

重要なインフラのためのオンプレミスのフォールバック機能を構築する際のデザインのベストプラクティスや業界基準って何だろう?医療や銀行などについて。