大規模なAWS障害が「フォートナイト」、「アレクサ」、「スナップチャット」などをダウンさせる

2025年10月20日原文(theverge.com)

概要

AWSの大規模障害 が発生し、複数の主要オンラインサービスが約4時間停止
Amazon、Alexa、Snapchat、Fortnite、ChatGPT などが影響を受けた事例
一部サービスは復旧したが、 US-EAST-1リージョン では依然問題が継続
障害原因は未公表 で、完全復旧の時期も不明
過去にも同様の障害 が複数回発生している背景

AWS大規模障害による影響と対応状況

2024年10月20日早朝、Amazon Web Services（AWS）で大規模な障害発生
Amazon、Alexa、Snapchat、Fortnite、ChatGPT、Epic Games Store などが一時利用不可
US-EAST-1リージョン で最初に障害を確認、他リージョンのグローバルサービスにも波及
AWSステータスチェッカー によると、6:35AM ET時点で大半のサービスが復旧傾向
Fortnite、Epic Games Store、Perplexity などは完全復旧を発表
9:50AM ET時点 でAmazonはUS-EAST-1リージョンの複数サービスが依然影響下と説明
障害発生時刻 は3:11AM ET、AWSダッシュボードにて初報告
障害原因は未発表、完全復旧の見通しも不明

利用者・サービスへの具体的影響

Reddit利用者 からAlexaの応答不能報告
Alexaのプリセットアラームやルーチン も正常動作せず
Perplexity、Airtable、Canva、McDonaldsアプリ などクラウド基盤サービスにも影響
Amazon公式発表 （3:51AM ET）では「原因究明と対応を継続中」と報告
5:27AM ETの更新 で「顕著な復旧傾向、リクエストの大半が正常」と説明
バックログ処理中 のため一部リクエストに遅延発生

過去のAWS障害事例と影響範囲

US-EAST-1リージョンの障害 は2023年、2021年、2020年にも発生
複数ウェブサイトやプラットフォーム で数時間の停止事例
クラウド依存サービスのリスク と影響範囲の広がり

今後の対応と注意点

AWS側の原因究明と再発防止策 への期待
クラウドサービス利用企業 の障害対応体制の重要性
ユーザー側の情報収集 や障害発生時の代替手段検討の必要性

Hackerたちの意見

内部の混乱レビュー、楽しみだね :)

└

もしこれがAIが主な原因だってことになったら、もっと面白くなりそうだね。

SnapchatはいつGCPから移転したの？

└

彼らは、たとえ主にホスティングされていなくても、AWSに暗黙の依存関係があるかもしれないね。

└

この件についてはNDAから5年以上経ってるから、ざっくりとした詳細を話すね。SnapchatはスケールするためにGoogle AppEngineをめちゃくちゃ使ってた。これは基本的に、モノリシックなサービスをラムダみたいなワーカープールに「ホットパススプリット」する魔法のJavaランタイムだったんだ。すごいけど、うまくいってたよ。Snapchatはこれにかなり依存してて、内部でその問題を解決するんじゃなくて、Googleにスケールするための技術を作らせてたんだよね。ある時、SnapはGCPの使用量の70%以上を占めてた。しかもほとんどが一つのJavaサービスに集中してた。マジでヤバい話だよ。で、結局Googleはこれをサポートするのが嫌になって、「去年の10倍の料金取るから、よろしくね？」って感じで契約を切り替えたんだ。（実際に10倍だったかは分からないけど、かなり高くなった）それでKubernetesとAWS EKSへの移行が始まった。SnapはEKSが一般提供される前のパイロット顧客の一つだったと思う。（2018/2019年にこの移行に関わった）今、6年以上経ったけど、SnapはトラフィックのためにGCPをあまり使ってないと思う、もし戻ってなければね。このダウンタイムがそれを裏付けてるよ :P

Slack（キャンバスやハドル）、Circle CI、Bitbucketもこの影響で問題が出てるみたい。

過去X年間、AmazonやGoogleよりも稼働率が良いってお客さんにアピールできるのがいいね。

└

昨日、またHetznerのスレッドを見たんだけど、誰かがAWSの稼働率が上だって言って、別の人がAWSの大きなトラブルを批判してた。今朝のコーヒーは美味しいだろうね。

└

The Registerでは、これをMicrosoft 364、363、...って呼んでるよ。

└

報告されてる稼働時間なんて、ちょっとした作り話に過ぎないよ。稼働時間を測るのは「チェーンのどこかが少しでも動いてればOK」って感じ。でも実際には「チェーンのどこかが劣化してればダウンタイム」って体験するんだよね。

└

PaaSやKubernetes、マイクロサービスを一つの大きなジョークだと思ってる普通の管理者にはこれが当てはまると思う。ベンダーに依存しないモノリシックなデプロイがずっと勝ち続けてるね。

└

今日、アマゾンのSDRがAWSサービスを無理やり勧めてきて気の毒だなって思った。前のマーケティング責任者が4つの異なるLinkedInアカウントからその提案を受けたらしい。もしかしたら、彼らを抑えるクラウドサービスが壊れたのかもね ;)

Hacker Newsで議論の続きを見る

ハクソク