概要
2025年10月19日から20日にかけて、 N. Virginia (us-east-1) Region でAWSの複数サービスが障害を発生。 主な影響は DynamoDB、EC2、NLB の3サービスに分かれる。 障害はDNS管理システムの レースコンディション が発端。 復旧には手動対応や内部ツールの修復が必要。 各サービスの障害と対応策を詳細に解説。
2025年10月 N. Virginia (us-east-1) 障害の全体像
- 発生期間: 2025年10月19日 23:48 PDT ~ 10月20日 14:20 PDT
- 影響範囲: Amazon DynamoDB、EC2、Network Load Balancer (NLB)
- 3つの主要な影響期間
- DynamoDB :10月19日 23:48 ~ 10月20日 2:40
- NLB :10月20日 5:30 ~ 14:09
- EC2 :10月20日 2:25 ~ 13:50
- 原因: DynamoDBのDNS管理システムの潜在的な不具合 によるエンドポイント解決失敗
DynamoDB 障害の詳細
- 影響期間: 10月19日 23:48 ~ 10月20日 2:40
- 影響内容: APIエラー率増加、新規接続不可
- 原因: 自動DNS管理システムのレースコンディション
- DNS PlannerとDNS Enactorの2つの独立コンポーネントから成るアーキテクチャ
- DNS Enactor間の競合により、古いDNSプランが新しいプランを上書き
- その後、DNSプランの削除処理が誤って実行され、エンドポイントのIPアドレスが全削除
- 以降、DNS情報の更新ができなくなり、手動復旧が必要に
- 影響範囲
- DynamoDBエンドポイント への接続不可
- AWS内部サービスも影響
- Global Tables 利用者は他リージョンでアクセス可能だが、N. Virginiaとのレプリケーション遅延発生
- 復旧手順
- 0:38:DNS障害箇所を特定
- 1:15:一部内部サービスの接続回復
- 2:25:DNS情報を完全復旧
- 2:32:Global Tablesのレプリカ同期完了
- 2:40:全顧客の接続復旧
EC2 障害の詳細
- 影響期間: 10月19日 23:48 ~ 10月20日 13:50
- 影響内容
- APIエラー率増加
- インスタンス起動失敗
- 既存インスタンスには影響なし
- 原因
- DropletWorkflow Manager (DWFM) による物理サーバ管理
- DWFMと各サーバ(droplet)の間でリース管理
- DynamoDB障害によりリース更新失敗、起動不可状態に
- リース未確立のdropletは新規インスタンス起動候補外
- Network Manager によるネットワーク設定伝播も遅延
- DropletWorkflow Manager (DWFM) による物理サーバ管理
- 対応策
- 2:25:DynamoDB復旧後、DWFMがリース再確立開始
- 4:14:DWFMホストの選択的再起動、キュークリア
- 5:28:全dropletとリース再確立、新規起動再開
- 12:01:完全復旧開始
- 13:50:全復旧完了
Network Load Balancer (NLB) 障害の詳細
- 影響期間: 10月20日 5:30 ~ 14:09
- 影響内容: 一部NLBで接続エラー増加
- 原因: NLBフリートのヘルスチェック失敗
- DynamoDB障害の影響で内部依存サービスの不調発生
- 復旧: ヘルスチェック修正後、順次接続エラー解消
今後の対策・教訓
- DNS管理自動化システムの堅牢性強化
- レースコンディション発生時の保護ロジック追加
- DWFMの復旧手順整備
- 大規模障害時でも自動回復可能な設計へ
- 内部ツールの冗長化と監視強化
- 依存関係の可視化と迅速な影響範囲特定体制
まとめ
- AWSの 基盤サービス間の深い依存関係 が露呈
- DNS等の 自動化システムの設計と運用の重要性
- 復旧手順の標準化と訓練 の必要性
- 顧客・サービス間の 障害情報の迅速共有 の徹底
関連情報: