世界を動かす技術を、日本語で。

HNに知らせる: AWSのus-east-1サービスがダウンしています

217日前

概要

  • 複数リージョン でアプリがダウン中
  • Statusページ は当初「全て正常」表示
  • Serverless Framework app も利用不可
  • N. Virginia リージョンで運用障害発生
  • 状況更新 により障害が公式に認識された

複数リージョンでのアプリ障害発生

  • 複数のアプリ が異なるリージョンで同時にダウン
  • Serverless Framework app もアクセス不可
  • ユーザー側 でサービス利用に支障
  • 原因不明 のまま障害が広範囲に波及

ステータスページの対応

  • 初期状態 では全て「グリーン(正常)」表示
  • 実際の障害発生 とステータスの乖離
  • ユーザー報告 が先行し、公式対応が遅延
  • 情報の信頼性 に疑問の声

N. Virginiaリージョンの運用障害

  • Statusページ が「Operational issue - Multiple services (N. Virginia)」に更新
  • N. Virginia リージョンで複数サービスに影響
  • 影響範囲 :アプリケーション、Serverless Framework appなど
  • 障害内容 :詳細は未発表、調査中

今後の対応と注意点

  • 公式情報 の定期確認が重要
  • 障害時 はユーザー間の情報共有が有効
  • サービス再開 まで利用制限や代替策検討
  • 障害報告 は速やかに関係者へ伝達

Hackerたちの意見

DNSの問題っぽいね? https://www.whatsmydns.net/#A/dynamodb.us-east-1.amazonaws.c... 何も解決しないよ。

Amazonが不健康なサーバーを全てのラウンドロビンから削除するのはあり得るね。もし全てのサーバーが不健康なら、DNSもなし。もしくは、彼らのDNSサービスがクエリに応答しなくなったり、BGPから自分自身を削除した可能性もある。どれが本当か、我々一般人には判断できるかもしれないね。

いつもDNSだよね。

もしかしたら、請求書を払うのを忘れたのかも。

ヨーロッパのいくつかの地点やアカウントから信号がダウンしてる。多分、海外のAmazonに依存してるからだと思う。今、同僚とのコミュニケーション方法を考えるのが楽しいよ!無くなって初めて、その依存度に気づくんだよね。

ありがたいことに、Slackはまだ頑張ってる。

最後の手段として、別のIRCサーバーのチャンネルを使ってる。これがいつも頼りになるんだよね。

まあ、少なくとも今はベルギーの大学のBlackboard環境がAWSで動いてるってわかったよ :)

今、同僚とのコミュニケーション方法を考えるのが楽しいよ!Slackがダウンした時は…グーグル…グーグルメール?チャットを使ったんだ。Gmailに行くと、左側にチャットアプリがあるんだよね。

dynamodb.us-east-1.amazonaws.comのレコードは解決できないけど、どうしてもアクセスしたいなら、強制的に3.218.182.212に解決できるよ。私にはうまくいってる。DNSを通して、HN curl -v --resolve "dynamodb.us-east-1.amazonaws.com:443:3.218.182.212" https://dynamodb.us-east-1.amazonaws.com/

情報ありがとう!!!!!

まじで!命の恩人だわ。

docker hubやgithubのキャッシュ内部が影響を受けてるかもね:ビルダーを起動中 /usr/bin/docker buildx inspect --bootstrap --builder builder-1c223ad9-e21b-41c7-a28e-69eea59c8dac #1 [internal] buildkitを起動中 #1 画像を引っ張ってる moby/buildkit:buildx-stable-1 #1 画像を引っ張ってる moby/buildkit:buildx-stable-1 9.6s 終了 #1 エラー:予期しないHTTPステータスを受信:500 Internal Server Error ------ > [internal] buildkitを起動中: ------ エラー:予期しないHTTPステータスを受信:500 Internal Server Error

DockerHubは完全にダウンしてるみたいだね: https://www.dockerstatus.com/

us-east-1をメインのリージョンに選ぶのはいいね。だって、ダウンしたらみんなダウンするから。他のアメリカのリージョンではこんな贅沢はないよ!

今のところ東京リージョンは結構調子いいよ!ただ、コンソールにログインできないのと、他のいくつかのことができないけどね。

それに賛成!みんなでUS-East-1で構築しよう。

時には、みんなテクノロジーから離れる必要があるよね。

AWSのサービスがこんなに密接に統合されてるのは面白いね。あるリージョンで問題が起きると、ほとんどすべてのサービスに影響が出る。これじゃクラウドサービスの強靭性が意味なくなるよ。

人々が「XスタートアップはChatGPTのラッパーだ」って言うの知ってる?AWSのサービスのかなりの部分がメインサービス(DynamoDB、EC2、S3など)のラッパーなんだよね。

それは分からないってこと?あなたが言いたいのは:> AWSのサービスがこんなに密接に統合されているのは面白いと思う。地域で問題が発生すると、それが私に見えるようになって、ほとんどすべてのサービスに影響が出る。AWSは常に何かが失敗してるから、あなたに見える多くの障害が複数のシステムの故障を含むのは驚くことじゃないよね。たくさんの他の障害は見えないままだし!

うん、特にus-east-1には「隠れた」依存関係がいくつかあると思う。AWSの最大の地域だからね。

これって多分、技術的な負債が大きいんだと思う。内部ではまだ古いシステムに依存してる部分が多くて、こういうことが起きるたびに、内部でその依存を切り離す話が出るんだよね。それが結局、千年前の家系図みたいな巨大な図になるんだ。

友達は友達にus-east-1を使わせないよ。

ページングされた人たち(私みたいに)、コーヒーを飲んで乗り切ろう!今週は良くなる一方だよ!

ページングされるはずだったのにされなかったみんな、原因を調べてみて。多分、サービスがTwilio経由で動いてて、他のところに移行する必要があるかもよ。

毎月何千人ものソフトウェアエンジニアを雇うのが、負担になってたみたいだね。

US East 1だけが新しいサービスをすぐに受けられるけど、他の地域はそうとは限らない。どの地域がいい代替になるかな?