世界を動かす技術を、日本語で。

大規模なAWS障害が「フォートナイト」、「アレクサ」、「スナップチャット」などをダウンさせる

概要

  • AWSの大規模障害 が発生し、複数の主要オンラインサービスが約4時間停止
  • Amazon、Alexa、Snapchat、Fortnite、ChatGPT などが影響を受けた事例
  • 一部サービスは復旧したが、 US-EAST-1リージョン では依然問題が継続
  • 障害原因は未公表 で、完全復旧の時期も不明
  • 過去にも同様の障害 が複数回発生している背景

AWS大規模障害による影響と対応状況

  • 2024年10月20日早朝、Amazon Web Services(AWS)で大規模な障害発生
  • Amazon、Alexa、Snapchat、Fortnite、ChatGPT、Epic Games Store などが一時利用不可
  • US-EAST-1リージョン で最初に障害を確認、他リージョンのグローバルサービスにも波及
  • AWSステータスチェッカー によると、6:35AM ET時点で大半のサービスが復旧傾向
  • Fortnite、Epic Games Store、Perplexity などは完全復旧を発表
  • 9:50AM ET時点 でAmazonはUS-EAST-1リージョンの複数サービスが依然影響下と説明
  • 障害発生時刻 は3:11AM ET、AWSダッシュボードにて初報告
  • 障害原因は未発表、完全復旧の見通しも不明

利用者・サービスへの具体的影響

  • Reddit利用者 からAlexaの応答不能報告
  • Alexaのプリセットアラームやルーチン も正常動作せず
  • Perplexity、Airtable、Canva、McDonaldsアプリ などクラウド基盤サービスにも影響
  • Amazon公式発表 (3:51AM ET)では「原因究明と対応を継続中」と報告
  • 5:27AM ETの更新 で「顕著な復旧傾向、リクエストの大半が正常」と説明
  • バックログ処理中 のため一部リクエストに遅延発生

過去のAWS障害事例と影響範囲

  • US-EAST-1リージョンの障害 は2023年、2021年、2020年にも発生
  • 複数ウェブサイトやプラットフォーム で数時間の停止事例
  • クラウド依存サービスのリスク と影響範囲の広がり

今後の対応と注意点

  • AWS側の原因究明と再発防止策 への期待
  • クラウドサービス利用企業 の障害対応体制の重要性
  • ユーザー側の情報収集 や障害発生時の代替手段検討の必要性

Hackerたちの意見

内部の混乱レビュー、楽しみだね :)

もしこれがAIが主な原因だってことになったら、もっと面白くなりそうだね。

SnapchatはいつGCPから移転したの?

彼らは、たとえ主にホスティングされていなくても、AWSに暗黙の依存関係があるかもしれないね。

この件についてはNDAから5年以上経ってるから、ざっくりとした詳細を話すね。SnapchatはスケールするためにGoogle AppEngineをめちゃくちゃ使ってた。これは基本的に、モノリシックなサービスをラムダみたいなワーカープールに「ホットパススプリット」する魔法のJavaランタイムだったんだ。すごいけど、うまくいってたよ。Snapchatはこれにかなり依存してて、内部でその問題を解決するんじゃなくて、Googleにスケールするための技術を作らせてたんだよね。ある時、SnapはGCPの使用量の70%以上を占めてた。しかもほとんどが一つのJavaサービスに集中してた。マジでヤバい話だよ。で、結局Googleはこれをサポートするのが嫌になって、「去年の10倍の料金取るから、よろしくね?」って感じで契約を切り替えたんだ。(実際に10倍だったかは分からないけど、かなり高くなった)それでKubernetesとAWS EKSへの移行が始まった。SnapはEKSが一般提供される前のパイロット顧客の一つだったと思う。(2018/2019年にこの移行に関わった)今、6年以上経ったけど、SnapはトラフィックのためにGCPをあまり使ってないと思う、もし戻ってなければね。このダウンタイムがそれを裏付けてるよ :P

Slack(キャンバスやハドル)、Circle CI、Bitbucketもこの影響で問題が出てるみたい。

過去X年間、AmazonやGoogleよりも稼働率が良いってお客さんにアピールできるのがいいね。

昨日、またHetznerのスレッドを見たんだけど、誰かがAWSの稼働率が上だって言って、別の人がAWSの大きなトラブルを批判してた。今朝のコーヒーは美味しいだろうね。

The Registerでは、これをMicrosoft 364、363、...って呼んでるよ。

報告されてる稼働時間なんて、ちょっとした作り話に過ぎないよ。稼働時間を測るのは「チェーンのどこかが少しでも動いてればOK」って感じ。でも実際には「チェーンのどこかが劣化してればダウンタイム」って体験するんだよね。

PaaSやKubernetes、マイクロサービスを一つの大きなジョークだと思ってる普通の管理者にはこれが当てはまると思う。ベンダーに依存しないモノリシックなデプロイがずっと勝ち続けてるね。

今日、アマゾンのSDRがAWSサービスを無理やり勧めてきて気の毒だなって思った。前のマーケティング責任者が4つの異なるLinkedInアカウントからその提案を受けたらしい。もしかしたら、彼らを抑えるクラウドサービスが壊れたのかもね ;)

ルーターの「スマートWi-Fi」ログインページが消えちゃったみたいで、バックアップのルーター専用ログインオプションもない!素晴らしい仕事だね、リンクシス…。

商業用ルーターにも同じことが起きてるよ(例えば、店舗のサインインページ付きの無料Wi-Fiとか)で、これはus-east-1の外の話だね。

今乗ってる電車のWi-Fiログインポータル(Icomera)も動かないよ。

Redditでレート制限の問題が出てるから、これに関係してるかも。

Amazon Alexaのルーチン、例えばプリセットのアラームが機能してないのはマジでおかしいよね。簡単なタイマーまでクラウドに保存されてるなんて。そろそろ機能をデバイスに戻すべきだと思う。そうすれば、大手テックの資本主義的監視社会から切り離しやすくなるし。

だからこそ、実現しないんだよね :)

ちょっとバカな質問だけど、サーバーラックを買って家で運用するのって、年間のダウンタイムがこれより多くなるの?実際にSLA分析した人いる?

いろんな要因によるけど、個人的にはそうだね。もっとひどい。インターネットユーザー向けにホスティングする場合の話だけど。俺の光回線、何回も落ちたことあるけど、比較的すぐ復旧した。去年は停電も何回かあって、1回の嵐で24時間近く停電したこともあった。停電したときは寝てたから、3〜4時間経ってから発電機を始動したんだ。UPSで持つ時間よりずっと長かった。物理的なメンテナンスやソフトウェアのアップデートも必要だったし。これらの要因で、LinodeやFly.io、AWSで動かしてるときよりもダウンタイムがかなり多くなってる。家ではProxmoxとK3sを運用してるけど、これでかなり信頼性が上がる。ただ、メンテナンスの手間も増えるしね。家で対策できることも多いけど、そのコストはどうなるの?

答えられない質問だね。故障モード分析をする方がいい。地下室のラックには冗長電源(2つの電力会社か、1つの電力会社とディーゼル発電機、これは普通は家に置けないけど)と、冗長なインターネットサービス(実際に冗長なやつ、ケーブル会社と電話会社の違いじゃなくて、同じバックホール光ファイバーを使ってるから)を用意する必要があるよ。

そういえば、面白い話があって、俺の光回線が切れちゃって(バックホーで)、復旧に12時間かかったんだ。もし/二つ/の家があったら、別の町にあればもっと運が良かったかも。もしくは、携帯をバックアップにしておくとか。あるいは、12時間ダウンしてても気にしないならね。

俺の場合、あくまで個人的な経験だけど、家のサーバー(ただの古いデスクトップにUbuntuをインストールしたやつ)で、あまり重要じゃないものをいくつかホスティングしてる。VPN(WireGuard)、いくつかのDiscordボット、Twitchボット+認証関連のもの、あとは自分が使うサービスがいくつか。ここ数年でダウンタイムの原因になった問題は以下の通り:- 1回の停電:電源復旧設定をしてたら、30〜60分で復旧してたかも。実際は数時間かかっちゃった(手動で電源ボタンを押さなきゃいけなかったから笑)。多分、自己原因じゃない問題の中で一番長かった。- Twitchボットのライブラリの問題:普通のライブラリのバグ。自己ホスティングとは無関係。- IP変更:実際にはほとんどIPが変わらないけど、DDNSを設定するべきだね。自己ホスティングで解決可能(でも少し手間がかかる)。- ディスクスペース不足:増やせたらいいのに。- そういえば、インターネットのダウンも1回か2回あったかな?でも、深刻な問題になるほどではなかったと思う。実際にあった時は思い出せないし。(もしかしたら記憶が悪いのかも!)大体これくらいかな。俺はVPNと個人クラウドにかなり依存してるから、ノートやTODOリストが同期されてる(Joplin + Nextcloud)から、ダウンタイムには敏感なんだけど、今まで起こったのはこれくらい。ソフトウェアやハードウェアがどれだけ安定してるか、驚くべきことだよね。いつかハードウェアの故障はあると思うけど(実際、1〜2年前にCPUをアップグレードしたのは、使ってたRyzen 1700がLinuxで月に数回クラッシュする非常に稀な問題があったから)、でも本当に快適だよ。ただ、実際のビジネスプロジェクトには向かないと思う。主に住宅用IPと商業用IPの違いや、任意のIPがローカルネットワークに接続することへの懸念があるから、そこはあまり気にしてないけど。

ああ、フォートナイトじゃないのか!人間性が問われるね。

地元のクリニックのためにEMRを社内導入したんだけど、ネットワークの遅延やその他の問題で、システムが月に何回もダウンしちゃうことがあったんだ(だいたい週に1回は)。社内に全部移行してからは、最初の1年間は全くダウンタイムがなかったし、何ヶ月も連続で月間MVPをもらったよ。