ソフトウェアを作る組織には2種類あると思う。小さなショップでは、一般的にインターネットにオープンなモノリスを運営していて、データベースが接続されているかもしれない。こういうショップは専用のDevOps/SREは必要ないよ。コンテナプラットフォーム(例えばAWS ECS/Fargate、GCP Cloud Run、fly.ioなど)にぶち込んで、可観測性やアラートを設定して、コンサルタントにレビューしてもらって、バカなことをしないように確認してもらえばいい。あとは毎月請求書を払って、あまり考えすぎないこと。大きなショップになると、コンテナプラットフォームのコストがエンジニアの給料より高くなる規模で運営していて、M&A前の異なる会社のシステムをどうやって連携させるか考えなきゃいけないところ、営業や法務チームから遠く離れたN個の開発チームがいて、SLAに縛られながらもそれを守らなきゃいけないところ、Xスケールを扱うように設計されたシステムが100倍のビジネスになって、失敗しているシステムにどんな応急処置を施すか考えながら、開発者には再設計が必要だと言わなきゃいけないところ、YAMLがゴミだからAlertmanagerのルーティングツリー設定を動的に構築する必要があるところ、SREがページャーを返すかどうかでルーティングルールが変わるところ、開発者が新しいサービスを自己サービスで作れるようにする必要があるところ、組織全体で新しいアラートを段階的に展開する必要があるところ、などなど。だから、Alertmanagerの設定もエンジニアが持つべきなんだ。大きなショップでLLMがSREを置き換えるなんて想像できないよ。SREが本番の障害をデバッグして「根本的」な技術的原因を見つけるのは、SREの機能のほんの一部に過ぎないからね。