世界を動かす技術を、日本語で。

AWSノースバージニアデータセンターの障害 – 復旧には数時間かかる見込み

2026年5月8日原文(cnbc.com)

概要

  • AWS の障害が発生し、 CoinbaseFanDuel などのプラットフォームに影響
  • 主因は 米国東部(US-East-1)リージョン のデータセンターでの 過熱
  • 復旧作業は 数時間 かかる見込みとAWSが発表
  • 仮想サーバー(EC2インスタンス) の障害も発生
  • 各プラットフォームのユーザーに影響が拡大

AWS障害による主要サービスへの影響

  • Amazon Web Services(AWS)運用上の問題 を報告
  • 障害は CoinbaseFanDuel などの 取引プラットフォーム に波及
    • FanDuel はユーザーがプラットフォームにアクセスできない問題を報告
    • Coinbase はコア取引サービスの 長時間停止 を公表
  • AWSは 米国東部(US-East-1)リージョン単一アベイラビリティゾーン での 過熱 が原因と説明
  • 冷却システムの増強 を進め、影響を受けたハードウェアの復旧作業を継続
  • EC2インスタンス の障害も発生し、AWSは引き続き解決に向けて対応中
  • 復旧作業予想より遅れている とAWSが最新状況を報告
  • AWSは クラウドインフラ市場の約3分の1 を占め、 数百万社 がサービスを利用

各プラットフォームの対応とユーザーへの影響

  • FanDuel はX(旧Twitter)で技術的問題を認識し、調査中と発表
    • 約2時間後、問題が AWSの大規模障害 に起因すると説明
    • 一部ユーザーは ベットの現金化ができない などの被害を訴え
  • Coinbase もXで、 複数のAWSゾーン障害 による 長時間の取引停止 を報告
    • 主要な問題は 完全に解決 したと発表
  • AWSヘルスダッシュボード は、障害発生時刻や進捗を随時更新
  • AWSは 追加コメントなし

関連リンク・参考情報


クラウド障害の広範な影響と今後の課題

  • AWS障害金融・ギャンブル・仮想通貨 など多様な業界に波及
  • クラウドインフラへの 依存度の高さ が浮き彫り
  • 冷却システムの強化冗長性の確保 が今後の課題
  • ユーザーや企業は 障害発生時のリスク管理 の重要性を再認識

追加情報:他のテックニュースの動向

  • OpenAI 裁判や AI規制 に関する著名人の発言
  • CoreWeaveDatadog など、AI関連企業の業績好調
  • AI分野の急成長 とともに、 クラウドサービスの信頼性 確保が重要課題

Hackerたちの意見

関連: AWS EC2の障害が発生したus-east-1の使用中のaz4 https://news.ycombinator.com/item?id=48057294

データセンターでは冷却がほぼ事前に計画されてると思ってたんだけど、冷却できる以上の機器を設置しないよね?ここで冷却装置が故障したのか、それとも外的な理由で過熱したの?それともアマゾンはデータセンターの冷却を過剰に予約してるの?

データセンターの冷却ループの一つが壊れた。

これはほぼ間違いなく機器の故障が原因だね。データセンターの冷却は、他のすべてと同じように過剰にも不足にもなってる。大きな熱交換ユニットはN+1(または非常に重要で小さい負荷の施設では2N/3N)で過剰に設計されてるんだ。これは、定期的にメンテナンスのために停止させる必要があるからで、従来のDCコンポーネントに比べて故障率が高く、専門的な労働が必要な機械修理が必要なんだ。大きな施設では、Nが大きくなると冷却がN+3以上になることも珍しくない。常に何かをメンテナンスしているか、ブロワーアセンブリを待っている状態だから。これがもう存在しない部品で、機械工が旋盤で作らなきゃいけないから、全ユニットを交換するよりも安く済むんだ。システムは過剰に設計されている一方で、もし施設内のすべての計算能力が突然平均の電力消費から100%に上がったら、冷却能力がオーバーロードすることもあるし、電気や他の経路でもオーバーロードすることがよくある。過剰設計は業界の性質なんだ。一般的には、これらの問題は本当の問題にはならない。計算負荷は100%にはならないし、もしそうなっても長くは続かないから、誰も冷却や電力容量のギリギリで施設を作らない。問題は、複数のイベントが交差したときに起こる。冷却システムを平均負荷の200%に設計しているから、メンテナンスや停電のための余裕がたくさんある。修理の人が火曜日にユニットの作業に来て、悪いベアリングを見つけたら、隣の州から取り寄せなきゃいけないから、そのユニットを一晩オフにしておく。そうすると、隣の冷却ユニットが少しだけ頑張って補うことになるけど、そのうちの一つもモーターがちょっと不均衡だったり、ヒューズが緩んで温まってたりして、負荷が増えたことで、何年も問題なかったのに壊れちゃう。これでN+2の施設でユニットが2つ減っちゃった。まあ、200%の平均負荷に設計してるから、そんなにひどくはない。最初に壊れたユニットの反対側にある3つ目のユニットも、今はもっと負荷がかかっていて、故障が出る。これでN+2の施設でユニットが3つ減っちゃった。まだ致命的ではないけど、200%の平均負荷に設計してるからね。問題は、今は午前4時で、現場のオペレーションの人がこれらの故障を修理できなくて、ベンダーに電話しなきゃいけない。ベンダーは午前7時まで起きないし、午前9時まで現場には来ない。負荷が上がり始める。これらのことは、アメリカのどこかのデータセンターで毎日起こってる。おそらく、すべてのデータセンターで年に一度は起こる。次に起こるのは、ニュースになるようなイベントの交差だ。大きな顧客の一つが、今が巨大なバッチ処理ジョブを始める絶好のタイミングだと決める。あるフィンテック企業が市場が開く前に大きなモデルを動かしたいとか、ある石油会社が新しいフィールドの迅速な分析をしたいとか。彼らは1万台の新しいVMを立ち上げる。通常なら問題ないけど、余裕があるからね。でも、平均冷却能力の200%を計画してたことを思い出して。これは、忙しいけどそんなに忙しくないノードじゃなくて、最大の電力を引き出して、最大の廃熱を排出するような、集中的に最適化された数値計算をしているノードなんだ。機械の総数が急増しただけでなく、廃熱の影響も平均して大きくなる。バン!カスケード故障が起こって、冷却がN-4になっちゃう。サーバーファンが早く回り始めて、もっと電力を消費する。冷却がN-5に。アラームが鳴り響く。冷却ユニットの安全装置がトリップし始めて、負荷を超えて冷媒圧が上昇する。冷却がN-6に。冷却がN-7に。冷却が0になっちゃう。

複数の冗長チラーが屋上にあって、各フロアにも冗長クーラーがあったデータセンターで働いてたけど、水道管が何らかの理由で壊れた時に、建物全体の冷却が一度に失敗したんだ。どうやって壊れたかは言わなかったけど、各フロアと屋上の間のパイプは冗長じゃなかったらしい。修理にほぼ24時間かかったよ。

同じようなトピックについての良いリスニングはこちら: https://signalsandthreads.com/the-thermodynamics-of-trading/

なんでこういう施設を海の近くに建てないのか、誰か教えてくれない?原発もたくさんの冷却能力が必要だし、熱交換器を使った二重循環で熱を取り除くとか。

これはただの推測だけど、海の近くの土地はもっと高いし、人口も多いからじゃないかな。水は比較的安いし。

大学院でデータセンター(HPCインフラ)についての授業を受けたことがある。教授はアメリカの真ん中あたりの、暑い気候のデータセンターを例に使ってた。理想的なシナリオ(天候、電源など)と比較してたスライドがあって、データセンターを建てる場所を決める要因がいくつかあった。十分なスペースと、そこで働くスキルのある人を見つけることが含まれてた。時には次のデータセンターの場所を選ぶのに政治が関わることもあるってコメントしてた。

思いつくままに言うと、海水の塩分濃度を維持するのはすごくコストがかかる(セカンダリループでも)。沿岸の土地もずっと高いし。もし遠くの沿岸サイトに行くと、電力へのアクセスがあまり良くないかも。沿岸のサイトは通常、より厳しい気象条件にさらされることが多いし。他にも予測不可能な問題があって、例えばディアブロキャニオンの原発は、塩水冷却の取り入れ口がゴミやクラゲの移動で詰まる問題があったりする。 https://www.nbcnews.com/news/world/diablo-canyon-nuclear-pla...

アシュバーンVAはデータセンターのハブなんだ。なぜなら、世界初の非政府のインターネットエクスチェンジポイント(IXP)がそこにあったから(https://en.wikipedia.org/wiki/MAE-East)。1990年代には、世界中のインターネットトラフィックの半分くらいがMAE-Eastを通ってた。それがAWSが最初のリージョンをそこに置くきっかけになった(us-east-1はeu-west-1より2年早く、us-west-1より3年早い)。その後、データセンターを作るのが得意な人たちや、それを供給するベンダーがたくさんいたから、ダレスコリドーは多くの企業のデータセンターの主要なハブになった。AWSにとって、us-east-1は最初だったから、他のリージョンよりもずっと複雑で変わったところで、他のAWSサービスの多くのコントロールプレーンがそれに依存してる。だから、他のリージョンよりもダウンすることが多く、ダウンすると全国ニュースになるんだ。例えば、スペインのeu-south-2とは違ってね。でも、ノバはポール・クルーグマンがノーベル経済学賞を受賞した経済クラスターと基本的に同じようなもので、工場じゃなくてデータセンターのためのものなんだ。

海には塩があるよね。塩水は普通の水よりも電子機器に悪影響を与えるんだ。水深も十分にないと、表面温度まで温まっちゃうし。伝統的な蒸発冷却と価格競争力も必要だよ。トロントはその成功例だね。深い淡水湖の近くにあって、ダウンタウンは高級不動産があって伝統的な方法が使えないんだ。

Hacker Newsで議論の続きを見る