概要
2025年8月21日、 Cloudflare と AWS us-east-1 間のネットワーク混雑により、高遅延やパケットロスが発生 影響は Cloudflare と AWS us-east-1 間のトラフィックに限定 単一顧客からの急激なトラフィック増加が主因 ネットワーク容量不足と一部機器の障害も影響 再発防止策として ネットワーク強化 と 顧客ごとのトラフィック管理 を実施予定
AWS us-east-1とCloudflare間で発生したネットワーク混雑障害の概要
- 2025年8月21日16:27 UTC、 AWS us-east-1 経由の顧客から Cloudflare への大量リクエストが発生
- このトラフィック急増により、 Cloudflare と AWS us-east-1 間の直結ピアリングリンクが飽和
- AWS側が混雑緩和のため BGP広告の引き下げ を実施し、トラフィックの迂回が発生
- 迂回先のネットワーク接続も飽和し、パフォーマンスが大幅に低下
- 問題発生時、直結リンクの一部が既存障害で半分の容量しか使えず、 DCI (Data Center Interconnect)も増強前の状態だった
障害の詳細な経緯
- 2025-08-21 16:27 UTC :単一顧客のトラフィック急増、影響開始
- 16:37 UTC :AWSが混雑したPNI(Private Network Interconnect)のBGP広告を引き下げ
- 16:44 UTC :Cloudflareネットワークチームが内部混雑を検知
- 17:22 UTC :BGP広告引き下げの影響でドロップトラフィック増加
- 19:05 UTC :該当顧客のレート制限により混雑緩和
- 19:27 UTC :追加のトラフィックエンジニアリングで混雑完全解消
- 20:18 UTC :影響終了
障害の影響
- 高遅延、 パケットロス、 低スループット が発生
- Cloudflareのエッジルーターで優先度の高いパケットも継続的にドロップ
- サービスレベル目標(SLO)を下回るリクエスト増加
- 混雑解消後もBGP広告の正常化作業により一部で遅延継続
原因分析
- 単一顧客 によるトラフィック集中がネットワーク容量を超過
- 既存障害で一部リンクが半容量運用
- DCIの増強が未実施で容量不足
- AWSとCloudflareのBGPトラフィック制御が相互に影響し合い、混乱を助長
再発防止策
- 顧客ごとのトラフィックが他顧客に影響しない 顧客分離設計 の強化
- ネットワーク容量の即時増強(DCIアップグレードの加速)
- CloudflareとAWS間でのBGPトラフィックエンジニアリングの調整強化
- 顧客ごとにネットワークリソースを割り当て、上限超過時は自動で他顧客への影響を遮断する 新管理システム の設計・導入
- 手動対応の自動化による障害対応力の向上
結論と今後の方針
- 今回の障害は ネットワーク混雑管理の不十分さ が原因
- 顧客への影響を深く反省し、 ネットワーク強化 と 顧客ごとのトラフィックコントロール を推進
- Cloudflareは引き続き安全・高速なインターネットを目指し、再発防止策を徹底
- 詳細や今後の取り組み、採用情報はCloudflare公式サイトを参照