概要
- 2025年6月12日、Google CloudおよびGoogle WorkspaceのAPIで 大規模な障害 が発生
- 外部APIリクエスト で503エラーが増加し、グローバルに影響
- 原因は Service Controlの新機能 におけるエラーハンドリング不足
- us-central1 など一部リージョンでは復旧に時間を要した
- Googleは 再発防止策 と詳細なインシデントレポートの公開を約束
2025年6月12日 Google Cloud 障害インシデント概要
- 発生日時 :2025年6月12日 10:49 PDT
- 影響範囲 :Google Cloud、Google Workspace、Google Security Operationsの多くのプロダクト
- 主な症状 :外部APIリクエストでの 503エラー増加、一部サービスのUIアクセス障害
- 影響地域 :グローバル(特にus-central1で長引く影響)
インシデントの原因
- Service Control に新機能追加時、 適切なエラーハンドリング や フィーチャーフラグ が不十分
- 無効なポリシーデータ (空欄フィールド含む)がSpannerテーブルに挿入され、グローバルに即時複製
- nullポインタ例外 によりService Controlバイナリがクラッシュループ
- エンジニアが2分以内にトリアージ、10分で原因特定、25分で「レッドボタン」による回避策展開
- 復旧の遅れ :us-central1ではService Control再起動による「ハード効果」でインフラ過負荷、完全復旧まで約2時間40分
影響サービス一覧(一部抜粋)
- Google Cloud :IAM, Cloud Build, KMS, Cloud Storage, BigQuery, Cloud Spanner, Cloud Functions, Cloud SQL, Cloud Logging, Cloud Monitoring, Vertex AI, Dataproc, Cloud Run, Cloud DNS, Cloud Pub/Sub, Cloud Composerなど
- Google Workspace :Gmail, Google Drive, Google Calendar, Google Meet, Google Docs, Google Chat, Google Voice, AppSheet, Google Tasks, Google Cloud Search
- Google Security Operations :全般
復旧状況と顧客影響
- 既存のIaaS・ストリーミングリソース には影響なし
- 大半のリージョンは 2時間以内に回復、us-central1は最大3時間
- 一部サービスでは 1時間程度の残留影響、ごく一部はそれ以上
障害の技術的詳細
- Service Control は各APIリクエストの認可・ポリシーチェック・クォータ確認を担当
- 新機能追加 時のコードパスはローリングアウト中に発火せず、 本番ポリシー変更時に初めて障害発生
- フィーチャーフラグ未活用 ・ エラーハンドリング未実装 が主因
- ランダム化指数バックオフ 未実装により、再起動時にインフラ過負荷
今後の対応策
- Service Controlのアーキテクチャをモジュール化 し、障害時もAPIリクエストをサービス可能に
- グローバル複製データを消費する全システムの監査、段階的なレプリケーションと検証体制の強化
- 重要バイナリのフィーチャーフラグ保護 とデフォルト無効化の徹底
- 静的解析・テストの強化、エラー時はフェイルオープン設計へ
- 指数バックオフの全システム適用、負荷集中の防止
- 外部コミュニケーション体制の改善、主要な監視・通知基盤の冗長化
コミュニケーションと今後のレポート
- Cloud Service Health への初報は障害発生約1時間後(自身の障害のため遅延)
- 一部顧客の監視インフラも障害でダウン、インシデント認知遅延
- 詳細なインシデントレポート を数日内に公開予定
- 顧客は Google Cloud Support または Google Workspace Support 経由で個別問い合わせ可能
まとめと再発防止への誓約
- 信頼回復と再発防止策の徹底
- API管理基盤の堅牢化、異常データによるサービス停止の防止
- メタデータのグローバル伝播前の検証・監視強化
- 包括的なエラーハンドリングとテスト の拡充
Vertex AI Online Prediction 障害状況
- 復旧完了 :2025年6月12日 18:18 PDT時点で完全復旧
- 一部リージョン(europe-west1, asia-southeast1) では復旧遅延、19:45 PDTまでに正常化見込み
- 影響 :Model Gardenの一部モデルで 5xxエラー増加
- エンジニアによる段階的な復旧作業、残る影響はごく一部
Personalized Service Health/Cloud Dataflow 障害状況
- Personalized Service Health :復旧済み
- Cloud Dataflow :us-central1でのみバックログ遅延発生、順次解消中
顧客へのメッセージ
- Google Cloudを信頼いただく全ての顧客 への深い謝罪
- 今後数日以内に詳細な根本原因・対応策を公開
- 影響が記載内容以外にも及ぶ場合 はサポート窓口へ連絡推奨