AWSの障害は、インターネットユーザーが「少数のプロバイダーの影響を受ける」状況にあることを示していると専門家が指摘

2025年10月21日原文(theguardian.com)

概要

Amazon Web Services（AWS）の障害 により、世界中の多くのアプリやウェブサイトが停止
インターネット基盤の一極集中 の危険性が専門家によって指摘
金融・公共サービスにも影響 が拡大し、英国政府も対応
障害の原因はAWS内部のIT問題 で、サイバー攻撃の可能性は低いと判断
クラウドサービスの多様化と規制強化 の必要性が改めて浮き彫り

AWS障害による世界的な影響

2024年6月、 Amazon Web Services（AWS） の障害発生
Snapchat、Roblox、Signal、Duolingo など主要アプリ・サービスの停止
Amazon本体のリテールサイト、Ring（ドアベル） など自社サービスにも影響
Downdetector によると、世界で2,000社以上が影響、報告件数は810万件超
- 米国：190万件
- 英国：100万件
- オーストラリア：41.8万件
英国では Lloyds銀行、Halifax、Bank of Scotland など金融機関も障害
HM Revenue and Customs（税務当局） のウェブサイトもアクセス困難
Wordle、Coinbase、Slack、Pokémon Go、Epic Games、PlayStation Network、Peloton 等も障害対象

AWSの対応と障害の原因

英国時間午前8時頃から障害発生、 10時30分には回復傾向 を報告
しかし午後にも APIエラーや接続障害 が継続
リクエスト制限 などの一時的な対策をAWSが実施
障害の主因は米国東部（US-East-1）リージョン の内部サブシステムの不具合
DynamoDB （AWSのデータベースシステム）への影響も確認
サイバー攻撃ではなく、内部IT問題 による障害と専門家が分析

インターネット基盤の一極集中リスク

Amazon、Microsoft、Google など少数企業によるクラウド市場支配
Article 19（人権団体） のDr Corinne Cath-Speth：「クラウド基盤の多様化が急務」
Future of Technology Institute のCori Crider：「英国の重要インフラが米国大手に依存」
University College London のMadeline Carr教授：「一極集中はリスクが高い」
反論として「大手のみが 堅牢でグローバルなサービス を提供できる」との意見も存在

政府・規制当局の対応と課題

英国政府は Amazonと連携し、障害対応 を進行
英国議会の 財務委員会 がAmazonの「重要第三者指定」未実施を問題視
指定されれば 金融規制当局の監督下 となり、リスク管理が強化
Amazonは「複数層の保護で 金融サービスのレジリエンス を支援」と説明

今後の課題と提言

クラウドサービスの多様化推進 によるリスク分散
重要インフラのレジリエンス強化 策の検討
規制当局による監督体制の整備 と透明性向上
ユーザー・企業側も BCP（事業継続計画） の見直しが必要

Hackerたちの意見

業界全体がクラウドサービスのロックインの罠にまんまとハマっちゃったね。どうやって元に戻すんだろう？Dockerも大手クラウドベンダーと同じくらい責任があると思う。

└

なんでドッカーが悪者扱いされてるの？

└

彼らはそうしたくないと思うよ。夜中の1時に電話が鳴りっぱなしで、すべてが崩壊してるのを見たエンジニアやサポート技術者に聞いてみて。これがAWS全体の障害だとわかったときの気持ちを。

クラウドで働いてたのはちょっと前だけど、辞めるときには基本的な部分がかなり似てた気がする。マルチクラウドの冗長性って、結局高すぎたのかな？技術がうまく噛み合わなかった？ビジネスケースが良くなかった？結局、エラスティッククラウドの話は実現しなかったのか？何が起こったんだろう？

└

複数のクラウドを管理・展開するための（認知的）オーバーヘッドは、ほとんどのチームにとってはあまり価値がないよね。専門家を雇ったり、2つ以上のクラウドの詳細を把握し続けるのは、小さくて素早く動くチームには現実的じゃない。シンプルさはアップタイムに繋がるし、単一のクラウドソリューションが一番シンプルな解決策だと思う。大企業にとっては、主にコスト削減が目的だね。N百万で良いディスカウントを交渉する方が、N/2百万より簡単だから。それに、AWSを選んだことでクビになった人なんていないしね ;)

└

クラウドプロバイダーからのネットワーキング（同じクラウド内の別ゾーンへの移動も含む）は、$0.02/GBだよ。これ、すぐに積もり積もるからね。

└

誰もがAWSのリージョンがダウンすることに対して耐性がないときに、これは正当化できない出費だよね。それに、クロスクラウドのオーケストレーションはほぼ死んでるし、どのプロバイダーも100%独自のクソみたいなもので、コントロールプレーンは…Kubernetesだし。結局、Kubernetesに落ち着いちゃった。

└

すべてのクラウドプロバイダーは安いコンピュートを提供してるけど、ネットワークの出口は信じられないくらい高いよね。マルチクラウドを試みると、巨額のトラフィック請求書が待ってるから、これは偶然じゃないと思う。

└

多くの企業の災害計画の考え方は、災害が起きた後に作ることなんだよね。ちゃんと計画を立てるには、時間やお金、トレーニングが必要なんだ。フェイルオーバーはやってる？ちゃんと機能してる？バックアップの状況はどうなってる？フェイルオーバー中にやるべき作業リストは？どれくらい時間がかかるの？そもそもフェイルオーバープランはあるの？サービスは「スプリットブレイン」に耐えられるの？特定の場所でしか動かせないサービスはある？残念ながら、こういう計画は多くの場合、手遅れになってから行われるんだよね。

└

もしあなたが、すでにVendorAのクラウドにデータを保存している人々にサービスを提供している会社なら、別のクラウドに移るのは高くつくし、仕事を獲得するのも難しくなるよ。もしVendorAがクライアントのベンダーだったら、あなたのサービスもVendorAのクラウドで動くように作ることになる。私の会社もプラットフォームに依存しないつもりで始めたけど、結局はすべての潜在的なクライアントが同じクラウドを使ってるから、ずっとシンプルになっちゃった。大量のデータを持ってる人たちは、複数のベンダーからのストレージ料金が価値あるものだと経理を納得させるのは難しいよ。

└

なんか、重ね着みたいな感じだね。クラウドシステムはすでに冗長性を考えて設計されてるのに、その上にさらに冗長なレイヤーを追加するのは、ダブルコンドームみたいなもんだし、複数の投資ファンドに投資するようなもんだよね。

└

クラウドは出口料金で予算を調整してるみたいで…それが原因でクロスクラウド通信を設定するのが高すぎるんだよね。クロスリージョン冗長性も高すぎることが多いし、一部のクラウドやアプリケーションではクロスアベイラビリティゾーンも高すぎる。（単一のクラウドでのクロスリージョン冗長性は、グローバルなサブシステムに障害が発生した場合や、壊れたサブシステムが複数のリージョンに押し出される前に症状が出る場合、うまくいかないことがある。）さらに、クラウドがダウンしている間に別のクラウドに負荷を移すのは難しいこともある。結局、年に数時間のために多くの作業が必要になるんだよね。多くのアプリケーションにとっては、ダウンタイムを我慢して他のことにお金を使った方がいい場合が多い。

Hacker Newsで議論の続きを見る

ハクソク