世界を動かす技術を、日本語で。

Cloudflareのインシデント調査

概要

  • 2025年6月12日、Cloudflareの主要サービスで大規模障害が発生
  • 原因はサードパーティ依存サービスの障害によるWorkers KVの停止
  • 多数のサービスが一時的に利用不能や断続的なエラー発生
  • エンジニアチームが即時対応し、段階的に復旧
  • 現在は全サービスが復旧し、安定性監視中

Cloudflare大規模障害の経緯と対応

  • 2025年6月12日18:19 UTC頃、CloudflareのAccess認証やZero Trust WARP接続で障害発生

  • 影響範囲は AccessWARPDashboardDurable ObjectsRealtime SFUStreamWorkers AIWorkers KVWaiting Room など広範囲

  • 障害の主因は Workers KVサービス の停止、サードパーティ依存サービスの障害が直接要因

  • Workers KVに依存する各種プロダクト(Access、WARP、Browser Isolation、Durable Objects、AI Gatewayなど)が利用不能

  • 一部サービスで断続的なエラーやパフォーマンス低下が発生

  • Cloudflareエンジニアが即時対応を開始し、影響範囲の特定と復旧作業を進行

    • サービス毎の影響状況を逐次アップデート
    • システムキャッシュ再構築やリトライ処理による一時的な不安定化
  • 19:12 UTC以降、徐々にサービス復旧傾向

  • 20:32 UTC時点 でWARPやTurnstile含む主要サービスの復旧を確認、残る軽微な影響も解消作業中

  • 20:57 UTC、全サービス復旧と安定性確認フェーズへ移行

今回の障害からの教訓と今後の対応

  • サードパーティ依存の重要性再認識
    • 依存先障害が広範囲サービス停止のリスクとなる事例
  • 障害発生時の迅速な情報開示と進捗共有の重要性
    • Cloudflareは影響範囲や復旧状況を定期的に公式発表
  • システムの冗長化やキャッシュ戦略の見直しが今後の課題
  • 監視体制強化と復旧プロセスの高速化が今後の信頼性向上に不可欠

影響を受けた主なサービス一覧

  • Access :認証サービス

  • WARP :Zero Trust接続

  • Browser Isolation/Rendering :ブラウザ分離技術

  • Durable Objects (SQLiteバックエンド)

  • Workers KV :分散KVS

  • Realtime/Stream :リアルタイム通信・配信

  • Cloudflare Dashboard :管理画面

  • Turnstile :認証・CAPTCHA

  • AI Gateway/AutoRAG :AI関連サービス

    • 依存性を持つ全プロダクトで一時的な利用不能や遅延が発生

現在の状況と推奨アクション

  • 現在は 全サービスが復旧 し、安定性監視中
  • 利用者はサービス動作を確認し、問題が続く場合は公式サポートへ連絡推奨
  • 障害情報やアップデートはCloudflare公式ステータスページで随時確認可能

Hackerたちの意見

「人間であることを確認してください」ダイアログやWorkersの機能に影響が出てるみたい。

うん、KVも壊れてる。KVに依存してるWorkerは例外を投げてるし。ダッシュボードには入れたけど、すごく遅い。18:00 UTC頃からエラー率がかなり上がり始めた。追記:CFのステータスページが、多くのサービスで広範囲な障害が発生していることを認めてるよ。

そうだね。もう一つの疑問は、なんでCloudflareからはいつもこういうダイアログが出るのに、Akamaiからは出ないのかってことだよね。

GCPもダウンしてるね。

奇妙な偶然だね。CloudflareがGCPを使ってるかどうか気になるな。

ダウンがスケールするってこういうことなんだな。 :D

予想するに、誰かが悪いBGP設定を押し出したんじゃない?

こんなに大規模で広範囲な障害なら、やっぱりそれが主な原因だろうね。

これは問題になりそう。こんなに多くのサービスで広範囲な問題を見たのは久しぶりだよ。

みんなが少数のバスケットに全ての卵を入れるのが、今や半定期的になってるみたいだね。

https://downdetector.com/ では、GoogleやCloudFlare、AWSなど多くの大手企業で障害が発生してるって。噂によると、これらの背後には大きなBGPルーティングの問題があるらしい。

それはあり得るね。前回この手のことを見たときは、BGPがトラフィックをイランや中国経由でルーティングさせてたと思う。

Anthropicもダウンしてるみたいだね。散歩でも行ってこようかな。

インターネット健康レポートが「表示するデータがありません」って報告してるよ。[1] https://www.ihr.live/

インターネットを救ったっていう大きなブログ記事が近々出るみたい。 ;) 現在はダウン中だけど、参考までに: https://blog.cloudflare.com/the-ddos-that-almost-broke-the-i...

Cloudflareの重要なWorkers KVサービスが、主要な依存先であるサードパーティサービスの障害でオフラインになった。だから、彼らは(いくつかの)サービスのためにGCPに依存しているんだ。

同じようなコメントを書いたよ。今後の参考になって良かった。

我々のワーカーズアプリがまた復活したよ。追記:アメリカでは動いてるけど、EUの顧客はまだサービスがダウンしてるって報告してる。追記:EUの顧客は大丈夫って報告してるみたい。

このポストモーテムを読むのが待ちきれない。Google Cloudの障害でCloudflareのサービスがダウンするなんて、ちょっと変だよね。