世界を動かす技術を、日本語で。

Azureに対する信頼を損なった決定 – 元Azure Coreエンジニアによる

概要

  • MicrosoftOpenAI との信頼と最大顧客を失いかけた経緯の内幕
  • Azure Core チーム参加初日の衝撃的な現場体験
  • 技術的無理難題と組織の現実認識のギャップ
  • Azure 運用現場での173もの不可解な管理エージェント
  • 国家安全保障や事業存続に関わる重大リスクの存在

MicrosoftがOpenAIを失いかけた日:Azure Core現場からの証言

  • 2023年5月1日、 Azure CoreOverlake R&D チームにシニアエンジニアとして再入社
  • Azure Boost オフロードカードやネットワークアクセラレータの開発チーム所属
  • 2010年の Windows Azure サービス開始以来、長期間にわたりAzureを社内外で運用
  • Windows チームや SharePoint Online のAzure移行、 Core OS カーネルエンジニア経験
  • DockerAzure Kubernetes などのコンテナプラットフォームの開発・特許取得に貢献
  • 2020-2021年には Overlakeカード の初期プロトコルやネットワークスタック提案を担当
  • 再入社初日、 Studio X ビルで月例計画会議に参加
  • 会議では Windows のユーザーモード・カーネル機能をOverlakeアクセラレータへ移植検討の議論
  • Overlakeカード のSoCはRAMや電力が極めて限られた設計
  • ハードウェア側からは FPGA の共有メモリが4KBしか割り当てられない現実
  • その小型・省電力・ファンレスなLinuxチップに「Windowsの半分を移植」という非現実的な計画
  • 会議参加者(開発マネージャーやリード、アーキテクト、ジュニア含む122名規模)が真剣に検討
  • WindowsをLinuxに移植 して既存VM管理を維持するという極めて困難な方針
  • Xeon 400W サーバーでも数十VMでスケーリング限界に直面、顧客VMにまでノイズ影響
  • そのスタックを小型 ARM SoC で多段階スケールするのは物理的に不可能
  • 組織全体が現実から乖離し、 デスマーチ 状態であることを痛感
  • 新技術のキャッチアップよりも、「この計画は失敗する」と組織上層部へ説得する必要性

Azure管理エージェントの謎と危機

  • 数日間、現行システムや計画資料を精査し、 Core OS の旧同僚とも情報交換
  • Linux System Group 責任者(INRIA出身PhD)との90分超の対話で、 Overlake/Azure Boost カード用の移植候補エージェントが173個に上ると判明
  • Microsoft 内で「なぜ173ものエージェントが必要か」「各エージェントの役割や相互作用」「存在理由」を説明できる者が皆無
  • Azure の本質はVM・ネットワーク・ストレージ+監視と保守で成立
  • それ以外(SQL、K8s、AI等)はVM上で動作し、基盤は Core OS とハイパーバイザーが支える構造
  • 173個もの「制御不能なエージェント」が OpenAIAnthropic ClaudeSharePoint Online、政府クラウド等の基盤を管理
  • その脆弱な積み重ねの一部が崩れるだけで、 国家安全保障Microsoft存続 レベルの危機に直結
  • まだ「1兆ドル時価総額消失」「CEOや取締役会への警告」「OpenAIほぼ喪失」「米国防省の信頼失墜」等の本題には至らず
  • Azureを本番やミッションクリティカル用途で運用しているなら、この話は無関係ではない

次回予告

  • 続編でさらなる内幕や危機の顛末を解説予定

Hackerたちの意見

いい記事だね。シェアしてくれてありがとう。

マイクロソフトは、2025年の5月と7月に約15,000人の大規模なレイオフを実施した。これは、次の決算発表の前にCoreWeaveへの即時の損失を補うためだろう。AIによる大規模なレイオフを見たときに、これを知っておくべきだね。

直接的な関連性として、ホストが成功裏に侵害されると、攻撃者はそのノード上で動いているすべてのVMの完全なメモリにアクセスできる。だから、ホストを安全に保つことが重要なんだ。 この文脈で、どのゲストVMからでも直接アクセス可能なウェブサービスをホストし、それを安全なホスト側で運営することは、予想以上に大きな攻撃面を生んでしまった。これはかなり怖いね。

「怖い」ってのは控えめすぎる表現だね。建築がいいアイデアだと思う環境なんて想像できないよ。

「2025年度のマイクロソフトのCEOサティア・ナデラの総報酬は9650万ドルで、前年から22%増加した。」 - CNBC.com 「私もOutlookが2つあるのを見ているが、そのどちらも動いていない。」 - アルテミスIIの宇宙飛行士

Outlookが2つあるって、それは多すぎるね。

ここで何を読んでいるの?これは異常な発言だよね。しかも明らかに信頼性がある。合理的に聞こえるけど、これは内部告発者か、恨みを持つ元社員なのかな?見た目は前者だよね?彼らは明確で心配な発言に名前を出している。

2025年1月7日… CEOにもっと簡潔なエグゼクティブサマリーを送った。… そのコミュニケーションに対して何の反応もなかったので、私は慣例に従って企業秘書を通じて取締役会に書いた。なんでそれが慣例なの?私はそれに出会ったことがないし、過去にいくつかの懸念があった状況を見たことはあるけど、アメリカの企業の規範についてはあまり経験がない。こんなレベルの懸念に対して、普通はどうなの?もっと言うと、なんでこれは公にされていて、解雇の不当性を訴える裁判になってないの?Azureは本当にこんなに信頼性がないの?このブログには具体的な数字がある。Azureを使っている人たち、君たちの外部の経験と合ってる?

CEOは取締役会に対して責任がある。もし彼らが会社に対する義務を怠っているなら、そこを問題にして修正させる必要があるよ。

私の経験では、Azureは一貫性の問題やレースコンディションが多い。これが問題で、私はAWSのBedrockを通じて新しいOpenAIモデルが利用可能になることについて話していたんだけど、Azureの問題について私のエンタープライズアーキテクチャの同僚が突然愚痴をこぼし始めた。こういうことは初めてじゃないし、私もこれらの問題を直接経験しているから、そうだね。信頼性はAzureにとって重要な問題だし、毎回チェックするたびに良くなっていないよ。

そう、あまりにも信頼性がない。無料のクレジットをもらっても、AmazonやGoogleのサービスをお金を払ってでも使いたい。

彼はスイス人だと思うけど、文化の違いかな?

Azureは、各地域で同じ製品やAPIの異なるバージョンがあるときのことだよ。

Azureのコンテナから脱出したセキュリティペンテスターの報告を見たことがあるけど、そのサービスの管理コントローラーは何年も前のもので、既知の重大な未修正の脆弱性があったって。以来、ちょっと懐疑的になってる。

大きな組織は、短期的な指標を長期的な品質よりも優先する決定をすることがよくあって、そのトレードオフが実際に利益をもたらしたかどうかを追跡する人はいない。早く出荷して後で修正するという決定は、会議では合理的に聞こえるけど、こういう記事が出てくると現実がはっきり見えてくるね。

それは確かに極端だと思った。エンジニアがマイクロソフトのような企業の取締役会に行くなんて、普通じゃないよね。だから反応がなかったのかも。

Azureは本当にこんなに信頼性がないの?このブログには具体的な数字があるよ。Azureを使っている人たち、外部の経験と一致してる?私の経験では、はい。今、大規模な環境でAWS、Azure、GCPをサポートするSREとして働いてるけど、クラウドプロバイダーの問題から直接引き起こされる問題やインシデントの80-90%はAzureから来てると思う。私たちがやってることは、特に複雑なクラウドインフラではなくて、VM、ロードバランサー、いくつかのBlobストレージ、いくつかのk8sクラスターだけなんだ。Azureのサービスは常に壊れてて、壊れた時には明らかにAzureが:1. 問題が発生していることを知らない(影響を受けたことを認めるのに数週間から数ヶ月かかることもある)2. なぜ問題が発生したのかを知らない(提供されるRCAは基本的に「何かが壊れた」だけ)3. 問題があったことを気にしていない。Azureに関わる全ての人が本当に嫌がってるよ。

2018年にAzureを使わざるを得なかったのは不運だったし、品質の低さや遅さには驚いたよ。GitHubのフォーラムで、基本的な機能が欠けていることで苦しんでいる他のユーザーを助けてた。信じられない価格でパフォーマンスも最悪だったしね。この文章は正直に多くのことを説明してる。Googleのクラウドは一番設計がしっかりしてる感じだけど、AWSに比べて人間のサポートがちゃんとしてないのが心配だね。

GCPのサポートは最悪だね。担当のカスタマーサポートエージェントが3ヶ月で3回も変わった。クオータの増加リクエストが認識されるかどうかも運次第だし、文書化されてないシステムの制限についての確認も取れない。

この投稿はかなりドラマチックで、恨みを持ってる人が書いたのが明らかだから、主張したいことがあったとしてもそれが台無しになってる。今は別のところで大規模なシステムを扱ってる元Azureエンジニアとして言うけど、「プリンシパルグループマネージャー」なんてM2に過ぎないし、プリンシパル自体もL6(もしくはL5)相当のGoogleの役職だよ。Sev2も、基盤インフラに実際に関わってる人にとってはほとんど重要じゃない。Azureには確かに問題があるけど、巨大なシステムだから多少の粗さは予想されるし、基本的には進んでると思う。成熟度ってのは、これを理解してシステムの中で改善していくことだと思う。ネット上で汚い話を並べ立てて、みんながそれに飛びついて「マイクロスロップ」とか言うのを見てるのはあまり意味がないよ。最後に、パート6の内容は本当に子供っぽくて、国家安全保障にリスクがあるとか、取締役会に手紙を送るとか、本気で言ってるの?Azureは、言われてることにもかかわらず、まだまだ頑張ってるみたいだよ。いつも「全部壊れてるから廃棄して書き直せ」って泣いてる人がいるけど、実際にはそんなことはほとんどない。

彼は恨みを持ってるように聞こえるかもしれないけど、あなたは個人的に関わってる感じがするね。シル?

AWSとGoogle Cloudはどちらも大きくて、UX/DXがかなり良いよね。Azureの経験は、ほとんど機能しなかったし、なぜ動かなかったのかの情報もほとんどなかったから、ネガティブな印象しかない。GCとAWSは経験がいろいろあったから、少なくとも混合な印象は持ってるけど。

「人々はいつも、すべてが壊れていて、廃棄して書き直さなきゃいけないって泣きながら入ってくるけど、ほとんどの場合それは真実じゃない。もしくは… あなたがその逸脱を普通のこととして受け入れてしまっただけ。組織(またはその製品)の信頼できるバロメーターの一つは、新入社員が発する「なんだこれ!」の数だ。3、4週間もすれば、みんな適応して、批判しても問題ないこととそうでないことを学び、泥の中に沈んで、汚れに慣れた他の人たちと一緒にいることになる。Azureユーザーとして言えるのは、外から見てもエンジニアリングの質が最低なのは明らかだ。AWSに追いつくために機能を急いで投げ入れることが、10年以上の間唯一の優先事項だった結果、今は変更できない巨大な泥の塊になってしまった。公開されたAPIや提供される製品は何年もサポートし続けなきゃいけないからね。その急いだ決定がAzureを追い込んでしまった。世界で二番目に大きなパブリッククラウドを作ったことに誇りを持つのはいいけど、この建物の質がガタガタで崩れかけていることを自分に言い聞かせないでほしい。思い出させて:IPv6はもう安全に使えるの?他のネットワークでPostgresがまだ壊れるの?azcopyは、他のバルクコピーツールのようにファイルを移動できるの?VMを削除して再作成せずに新しいSKUにアップグレードできるの?ブートディスク用のPremium SSDv2ディスクは…いつ?などなど… これらの品質のギャップに対する言い訳はできるかもしれないけど、私が20年前に働いていたどこでもこんな問題はなかったよ!実際、10年以上前に「完全にIPv6」のVMware ESXiクラスターを構築したこともあるし!

「この投稿はかなりドラマチックで、恨みを持った誰かが書いたことが明らかで、主張しようとしているポイントがあればそれが本当に損なわれている。タイトルからもそう感じたけど、確認できて嬉しい。」

彼は組織のシニア層の不足を指摘していたと思うから、肩書きを誇張しようとしていたわけではないと思う。そんな重要なシステムを担当しているのがジュニアの人たちだっていうのは、本当に驚きだね。

国家安全保障へのリスク…本当に? 本当にそうなの?どうやら国防長官も彼に同意しているみたい。

これを読むとかなり悪い印象を受けるし、実際そうだったと思う。彼が説明したのと同じことをするシステムに関わってたし、少なくとも部分的には責任もあった。基本的な安定性やエンジニアリングの実践を維持するためには、常に意志を持って戦ったり、エスカレーションしたりしなきゃいけなかった。他の場所でも似たような問題があったけど、そこまで深刻じゃなかったし、同じ規模でもなかったけど、彼らを回復不可能なデスループに追い込むには十分だったと思う。

これが本当かどうかは分からないけど、毎日Azureを使ってるユーザーとしては、これが多くのことを説明してくれる。AzureのUIは、なんか不安定で、かろうじて成り立ってる感じ。ドキュメントは明らかにAIが書いたもので、常に古いか間違ってる。提供されてるサービスの量が膨大すぎて、コンサルタントなしでは自分が実際に欲しいサービスを見つけるのがほぼ不可能だし、やっとサービスを立ち上げても、果たしてちゃんと機能するかどうかは誰にも分からない。正直、何かがちゃんと動いてることに驚いてるよ。

上層部がたくさんのクレジットを得るのがいい取引だと思って、いくつかのサービスをAKSに移行したけど、今はポッドがランダムにクラッシュして、データベースノードにディスクレイテンシのランダムなスパイクが出てる。GCPで安定して動いていたものが、かなり予測不可能になってしまった。

彼らのコンサルタントと仕事をしたことがあるけど、すごく良かったよ。彼らもAzureが嫌いだって。

一方で、Azureの方が好きだな。AWSとは違って、名前が覚えやすくて、頭の中で解決している問題に結びつけやすいから。AWSは一貫して使わないと、何が何だか覚えられないけど、Azureはサービスを使わなくても名前を何年も覚えてる。UIはもうちょっと改善してほしいけど、AWSほどひどくはないよ。

前の同僚が日常的にAzureを使っているけど、この記事で説明されていることは、彼らのプラットフォームに対する大きな愚痴を聞くとすごく納得できる。12年前、AWS、GCP、Azureのどれに特化するか選ばなきゃいけなかったけど、Azureを少し触っただけで、壊れていて遅くてクリックオペレーションの方法論がめちゃくちゃだって分かった。この文章は、その時の私の疑念や同僚の経験を確認してくれる。

個人アカウントの件はよく分かるけど、OPが成功しなかった理由も納得できる。優れたエンジニアでも、人に何かをさせたり、アイデアを受け入れさせたり、一般的に自分の意見を聞いてもらうには、まったく別のスキルが必要なんだよね。要するに、良いコミュニケーターであることが大事。次に、この一連のブログ記事(真実かどうかは別として、信じられる内容だけど)は、バイブコーダーたちにとって良い導入になってる。彼らは自分で一行もコードを書いたことがなく、大規模なシステムで働いたこともないのに、LLMのおかげでコーディングが魔法のように「解決」されると信じてる人たちなんだ。実際にコードを書くこと(完全にでも部分的にでも)はそうかもしれないけど、システムの複雑さを理解して、それを支える組織構造で働くのはまったく別の話だよ。