世界を動かす技術を、日本語で。

AWSの障害は、インターネットユーザーが「少数のプロバイダーの影響を受ける」状況にあることを示していると専門家が指摘

概要

  • Amazon Web Services(AWS)の障害 により、世界中の多くのアプリやウェブサイトが停止
  • インターネット基盤の一極集中 の危険性が専門家によって指摘
  • 金融・公共サービスにも影響 が拡大し、英国政府も対応
  • 障害の原因はAWS内部のIT問題 で、サイバー攻撃の可能性は低いと判断
  • クラウドサービスの多様化と規制強化 の必要性が改めて浮き彫り

AWS障害による世界的な影響

  • 2024年6月、 Amazon Web Services(AWS) の障害発生
  • Snapchat、Roblox、Signal、Duolingo など主要アプリ・サービスの停止
  • Amazon本体のリテールサイト、Ring(ドアベル) など自社サービスにも影響
  • Downdetector によると、世界で2,000社以上が影響、報告件数は810万件超
    • 米国:190万件
    • 英国:100万件
    • オーストラリア:41.8万件
  • 英国では Lloyds銀行、Halifax、Bank of Scotland など金融機関も障害
  • HM Revenue and Customs(税務当局) のウェブサイトもアクセス困難
  • Wordle、Coinbase、Slack、Pokémon Go、Epic Games、PlayStation Network、Peloton 等も障害対象

AWSの対応と障害の原因

  • 英国時間午前8時頃から障害発生、 10時30分には回復傾向 を報告
  • しかし午後にも APIエラーや接続障害 が継続
  • リクエスト制限 などの一時的な対策をAWSが実施
  • 障害の主因は米国東部(US-East-1)リージョン の内部サブシステムの不具合
  • DynamoDB (AWSのデータベースシステム)への影響も確認
  • サイバー攻撃ではなく、内部IT問題 による障害と専門家が分析

インターネット基盤の一極集中リスク

  • Amazon、Microsoft、Google など少数企業によるクラウド市場支配
  • Article 19(人権団体) のDr Corinne Cath-Speth:「クラウド基盤の多様化が急務」
  • Future of Technology Institute のCori Crider:「英国の重要インフラが米国大手に依存」
  • University College London のMadeline Carr教授:「一極集中はリスクが高い」
  • 反論として「大手のみが 堅牢でグローバルなサービス を提供できる」との意見も存在

政府・規制当局の対応と課題

  • 英国政府は Amazonと連携し、障害対応 を進行
  • 英国議会の 財務委員会 がAmazonの「重要第三者指定」未実施を問題視
  • 指定されれば 金融規制当局の監督下 となり、リスク管理が強化
  • Amazonは「複数層の保護で 金融サービスのレジリエンス を支援」と説明

今後の課題と提言

  • クラウドサービスの多様化推進 によるリスク分散
  • 重要インフラのレジリエンス強化 策の検討
  • 規制当局による監督体制の整備 と透明性向上
  • ユーザー・企業側も BCP(事業継続計画) の見直しが必要

Hackerたちの意見

業界全体がクラウドサービスのロックインの罠にまんまとハマっちゃったね。どうやって元に戻すんだろう?Dockerも大手クラウドベンダーと同じくらい責任があると思う。

なんでドッカーが悪者扱いされてるの?

彼らはそうしたくないと思うよ。夜中の1時に電話が鳴りっぱなしで、すべてが崩壊してるのを見たエンジニアやサポート技術者に聞いてみて。これがAWS全体の障害だとわかったときの気持ちを。

クラウドで働いてたのはちょっと前だけど、辞めるときには基本的な部分がかなり似てた気がする。マルチクラウドの冗長性って、結局高すぎたのかな?技術がうまく噛み合わなかった?ビジネスケースが良くなかった?結局、エラスティッククラウドの話は実現しなかったのか?何が起こったんだろう?

複数のクラウドを管理・展開するための(認知的)オーバーヘッドは、ほとんどのチームにとってはあまり価値がないよね。専門家を雇ったり、2つ以上のクラウドの詳細を把握し続けるのは、小さくて素早く動くチームには現実的じゃない。シンプルさはアップタイムに繋がるし、単一のクラウドソリューションが一番シンプルな解決策だと思う。大企業にとっては、主にコスト削減が目的だね。N百万で良いディスカウントを交渉する方が、N/2百万より簡単だから。それに、AWSを選んだことでクビになった人なんていないしね ;)

クラウドプロバイダーからのネットワーキング(同じクラウド内の別ゾーンへの移動も含む)は、$0.02/GBだよ。これ、すぐに積もり積もるからね。

誰もがAWSのリージョンがダウンすることに対して耐性がないときに、これは正当化できない出費だよね。それに、クロスクラウドのオーケストレーションはほぼ死んでるし、どのプロバイダーも100%独自のクソみたいなもので、コントロールプレーンは…Kubernetesだし。結局、Kubernetesに落ち着いちゃった。

すべてのクラウドプロバイダーは安いコンピュートを提供してるけど、ネットワークの出口は信じられないくらい高いよね。マルチクラウドを試みると、巨額のトラフィック請求書が待ってるから、これは偶然じゃないと思う。

多くの企業の災害計画の考え方は、災害が起きた後に作ることなんだよね。ちゃんと計画を立てるには、時間やお金、トレーニングが必要なんだ。フェイルオーバーはやってる?ちゃんと機能してる?バックアップの状況はどうなってる?フェイルオーバー中にやるべき作業リストは?どれくらい時間がかかるの?そもそもフェイルオーバープランはあるの?サービスは「スプリットブレイン」に耐えられるの?特定の場所でしか動かせないサービスはある?残念ながら、こういう計画は多くの場合、手遅れになってから行われるんだよね。

もしあなたが、すでにVendorAのクラウドにデータを保存している人々にサービスを提供している会社なら、別のクラウドに移るのは高くつくし、仕事を獲得するのも難しくなるよ。もしVendorAがクライアントのベンダーだったら、あなたのサービスもVendorAのクラウドで動くように作ることになる。私の会社もプラットフォームに依存しないつもりで始めたけど、結局はすべての潜在的なクライアントが同じクラウドを使ってるから、ずっとシンプルになっちゃった。大量のデータを持ってる人たちは、複数のベンダーからのストレージ料金が価値あるものだと経理を納得させるのは難しいよ。

なんか、重ね着みたいな感じだね。クラウドシステムはすでに冗長性を考えて設計されてるのに、その上にさらに冗長なレイヤーを追加するのは、ダブルコンドームみたいなもんだし、複数の投資ファンドに投資するようなもんだよね。

クラウドは出口料金で予算を調整してるみたいで…それが原因でクロスクラウド通信を設定するのが高すぎるんだよね。クロスリージョン冗長性も高すぎることが多いし、一部のクラウドやアプリケーションではクロスアベイラビリティゾーンも高すぎる。 (単一のクラウドでのクロスリージョン冗長性は、グローバルなサブシステムに障害が発生した場合や、壊れたサブシステムが複数のリージョンに押し出される前に症状が出る場合、うまくいかないことがある。)さらに、クラウドがダウンしている間に別のクラウドに負荷を移すのは難しいこともある。結局、年に数時間のために多くの作業が必要になるんだよね。多くのアプリケーションにとっては、ダウンタイムを我慢して他のことにお金を使った方がいい場合が多い。

「似ている」と「私のビジネス全体のライフサイクルにおいてROIがプラスになる」というのは大きな違いがあるよね。マルチクラウド冗長性は、Javaがプラットフォームの独立性の解決策であるのと同じくらいのもの。

専門家の意見は、地政学的なことが多いね。「外国の会社にリアルタイムで依存するのはやめた方がいいかも」って感じ。もし、あなたがアップタイムを最大化することだけを目指す会社なら、マルチクラウドの複雑さを持ち込まずにAWSに頼るのは合理的だと思う。他の選択肢を使っても、アップタイムが良くなるわけじゃないし、ただ他の人たちと違うタイミングでダウンするだけで、実際にはそれが悪化することも多い。

引用されるような人にとって、実際に問題を解決することはあまり重要じゃなくて、何かがうまくいかないときに引用されることが仕事なんだよね。

もう多様化は進んでるよ。何百もの会社からVPSを借りられるし、みんな満足してるみたい。毎月か二ヶ月ごとに、どこかの会社がVPSに切り替えてクラウド料金を削減したって投稿があるよね。ここで問題なのは、ロックインとマーケティングの問題なんだ。

「何百もの会社からVPSを借りられるし、みんな満足してるみたい。毎月か二ヶ月ごとに、どこかの会社がVPSに切り替えてクラウド料金を削減したって投稿があるよね。」企業はAWSのDynamoDBやRedShiftなどの高レベルの「PaaS」サービスを使っていて、基本的なEC2インスタンスや純粋なコンテナのような低レベルの「IaaS」だけじゃないんだ。同じように、MS AzureやGoogle Cloudの高レベルサービスを使ってる場合もロックインの状況がある。高レベルサービスに依存している人たちは、HetznerのようなVPSに移行したり、自分でホスティングするのは難しいよ。オープンソースソフトウェアをインストールしたり、世話をし直さない限り、AWSスタックを再構築しなきゃいけないからね。PostgreSQLのDBインスタンスをVPSにインストールするだけよりも、ずっと手間がかかるよ。

アマゾンもVPSを提供してるし、EC2インスタンスもあるけど、それは影響を受けたのかな?私は影響を受けてないと思うけど。

いや、"AWS us-east-1は今年はたったの2つの9しかない"ってビンゴカードには書いてなかったわ。

20年近くAWSを使ってる私からすると、誰が自らus-east-1を選ぶのか全く理解できない。あそこは最も古くて、トラフィックが多くて、最も重要な地域で、混乱が起こりやすいんだよね。

え、地域全体が影響を受けたの?EC2インスタンスがあっても?

Kieran Healy @kjhealy@mastodon.social 「クラウド」や「インターネット」を使っている文を「バージニアの小屋」に置き換えてみると、どれだけ成り立つか試してみる価値があるよ。「私たちのサービスは完全にバージニアの小屋に基づいています」「私のファイルは全部バージニアの小屋にある」「バージニアの小屋は核戦争に耐えられるように設計されている」みたいな感じで。

かなり良い小屋みたいだね!クラウドに関する多くの皮肉なコメントと同じように、ほとんどのビジネスにとってバージニアの小屋の実用的な代替手段は、供給クローゼットの棚だってことを無視してる。 「ああ、ジムボブが電源コードにつまずいたから、ITの人が来るまでメールは来ないね」って、これが日常茶飯事だったんだよね。

「専門家」たちも2021年のFastlyの障害に似た批判をしてたけど、その結果何か明らかな変化はあったの?1週間後には全国紙もこの話をしなくなるよ。実際にこの分野で時間を費やしている人たちはみんな知ってるけど: - AWS規模での運営は難しいし、「専門家」からの椅子に座った批判はそのまんま。行動は言葉よりも大きい。 - こういうシナリオを実際に考慮するコストは、ほとんどの場合、得られる利益に対して非常に高い。 - 本当に「重要な」サービス(例えば、健康関連)は、これを考慮して設計されるべきだし、「フォートナイトにログインできない」みたいな「深刻な」問題は、実際にそれを機能させるためのコストと労力が、問題が発生したときに影響を受ける企業にどれだけかかるかを示してる。 - 全国紙がマルチリージョン/マルチクラウド冗長性の重要性について実際にどれだけの時間を費やしているかというと、実際にはゼロで、起こったときに初めて話題になって、その後は古いニュースになる。 - 技術的な観点から何が実際に起こったのかに興味があるだけ。良い無罪のポストモーテムがプロセスや技術的な問題を見つけるために行われるべきだとは言わないけど、実際のフォローアップなしの椅子に座った批判は?全部雑音で、信号はなし。

専門家たちは政策に発言権がないからね。発言権があるのは、国会に賄賂を渡している人たち(ごめん、「ロビー活動」をしている人たち)だけ。しかも、彼らもほとんど発言権がない。今、国会は何もしていない熱い時期だから。

もしかして、あなたのVCの上司たちには現実を見てもらう必要があるんじゃない?

それって大体関係ないと思うよ。小さな利益を避けるために大きなコストをかける必要はないし、すべてのサービスがこれに耐えられる必要もない。単に、みんなが一度にダメージを受けないように、いくつかの異なるプロバイダーが必要なだけだよ。

  • AWS規模での運営が難しいことは知ってるし、'専門家'からの素人批判はその通りだよ。行動が言葉よりも大事。いや、違う。彼ら自身のレポートからも、明らかにAWSは特定の地域(us-east-1)と特定のサービス(DynamoDB)に依存しすぎてるってことがわかる。これは10年以上前から観察されてることだよ。なんで彼らはこの集中型アーキテクチャにこだわるの?クラウドサービスは平均的な企業よりもずっと高い基準が必要なんだ。2000以上のサービスが何時間もダウンしたのを見てみなよ。

この場合の「専門家」は、 > 人権団体Article 19のデジタル部門の責任者、ドクター・コリーヌ・キャス=スペス。彼女は文化人類学の博士号を持ってる。 > フューチャー・オブ・テクノロジー・インスティテュートのエグゼクティブディレクター、コリ・クライダー。弁護士。 > ロンドン大学ユニバーシティ・カレッジのグローバル政治とサイバーセキュリティの教授、マデリン・カー。教授。彼女の経歴には学位が何か書いてないけど、主に政治学や国際関係について発表してるみたい。つまり、技術的な専門家は一人もいない。ホスティングサービスを運営したことがある人や、そこで働いたことがある人もいない。ただ論文を書いて、ジャーナリストからの引用を待ってる人たちだよ。

あなたの3つ目のポイントは、私がクラウド依存を批判する際に気をつけなきゃいけないことだと思う。もしあなたの収益源が全てAWSに依存しているなら、年間で16時間以上のダウンタイムに備えておくべきだよ。個人は何時間もダウンしてると気づきやすいけど、良い可視化があれば、ビジネスは他の8742時間のパフォーマンスが落ちるときに気づくんじゃないかな。1日のダウンタイムのバーストは、デバイスやWi-Fi、ISP、他の中間者のDNS/BGPに起因することもあるし。もし16時間のダウンタイムで倒産するほどマージンが厳しいなら、私はa) ビジネスの運営方法がわからないか、b) あなたがビジネスの運営方法を知らないかのどちらかだと思う。私は「このKPIには十分」よりも、高い耐障害性、地理的冗長性、耐久性のあるシステムが大好きだから、ちょっと偏ってるかもね。

これらはガーディアンの「専門家」だから、無視しても大丈夫。

  • 本当に「重要な」サービス(つまり、健康)を設計する際にはこれを考慮すべきだって言ってるけど、AWSは「信じて、俺は99.99999%ダウンしないから」って宣伝してるよね。AWSを使って「ダウンタイム管理を逃れよう」としている政府の提案をたくさん見たことがある。

うーん… セキュリティやコンピュータサイエンス、経済学の専門家でなくても、すべての卵を一つのバスケットに入れるのが良くないかもしれないって分かるよね。巨大なシステム的ターゲットを作っちゃうから。むしろ、ここにいる普通の人たちが「おい、これはおかしい」って言う資格があると思う。もっとローカルで運営するべきことがあるかもね。ちなみに、今日はどの会社が機能しなかったのかを知るのは勉強になったよ。

じゃあ、これをきっかけに実際に何人がマルチクラウドに移行すると思う?自己ホスティングに移る人はどれくらい?それとも、ただインシデントレポートを出して、手を振り回して何もしないのかな?Cloudflareと同じような感じだと思う。大手ベンダーが常に敵対的なわけじゃないけど、私たちを人質にしてることを思い出させないでくれることを願うしかない。そんな状況はすぐには変わらないと思う。個人的には、Hetzner、Contabo、Scaleway、Vultr、DigitalOcean、Time4VPSなどのプラットフォームも使ったことがあるけど、みんながCF/AWS/GCP/Azureにセットアップを結びつけると、その結びつきを解消するのは難しいし、そうする理由も見つけにくいんだよね。

GCPとAzureは、AWSの障害が起きてる週に新規アカウントに対して10%のセール/ディスカウント(クーポンコード:RAINYDAY)をやるべきだね。経理部門も注目するだろうし。

ほとんどの企業にとって、これが実際にはマルチクラウドに切り替えない理由を再確認させると思う。今日、障害があった企業は、顧客が自分たちの障害や他のプロバイダーの障害に対処しているから、完全に忘れ去られるだろうね。もちろん、これは全員に当てはまるわけじゃないけど。

IBMを買ったことでクビになった人はいない… …いや、Microsoft… …いや、AWSだ。

2011年、アメリカ東部の主要なAWSのポップで大規模な障害があったんだよね。俺が入った会社(めっちゃ退屈なB2Cスタートアップ)は、その教訓を受けて「クラウドは危険だ」って思ったみたいで、サーバーを大量に買って、オフィスから90マイル離れたデータセンターに設置したんだ。そこがその会社が存続している間(約6年)ずっとアプリケーションが動いてた場所だった。俺がその会社にいた間、平均的なスタートアップよりも障害が多くて、しかも長引くことが多かった。違いは、ネットワーク機器が壊れたり、ディスクが故障したりしたときに、俺たちがそれを診断して解決しなきゃいけなかったことかな(彼らのアイデアだから、仕方ないけど)。とにかく、少なくとも「テック企業」と呼ばれるところが、AWSやGCP、Azureに何でもアウトソースすることにもう少し執着しない方がいいと思う。コストの面でも、これらのサービスはめちゃくちゃ高いからね。でも、あの規模で運営することの利点を無視するのも良くないと思う。彼らは、問題が起きたときに、俺の前の会社みたいに「どうしよう、みんなでSlackやZoomで推測してる」っていう状況にならないように、24時間体制で絶対的なエキスパートを確保できるんだから。

俺も大体同意だね。AWSがダウンすると、大抵の場合は外に出てタバコ吸って、心配しないで済む。誰か他の人の問題だし。

これだね。サービスがダウンしたとき、「インターネットの半分がダウンしてる」ってクライアントや上司に説明する方が、「うちの特注ソリューションが壊れたから、実際にはうちだけ」って言うよりずっと楽だよね。

関連スレッド: AWSの複数サービスがus-east-1でダウン中 - https://news.ycombinator.com/item?id=45640838 -(今のところ1650件のコメント)