私たちが知っている可観測性の終わり（そして私は大丈夫です）

2025年6月11日原文(honeycomb.io)

概要

オブザーバビリティツール の歴史と進化の流れ
AIとLLM の登場によるパラダイムシフト
Honeycomb のデモ事例とAIによる自動分析
今後求められるツール要件 と業界への影響
AI主導の将来像 と人間の役割の変化

オブザーバビリティツールの歴史とAIによる変革

過去20年 のオブザーバビリティツールの進化は「膨大な異種テレメトリデータを人間が理解できる形にする」ことが本質
New Relic はRails革命、 Datadog はAWSの普及、 Honeycomb はOpenTelemetry時代を牽引
新たな開発・デプロイ手法の普及→複雑性の増大→新たなモニタリング・計測手法の必要性
ダッシュボード、アラート、動的サンプリング などで情報圧縮し人間が理解可能に
AIの登場でこのパラダイムが終焉しつつあり、 システム設計・運用の考え方が根本的に変化

HoneycombデモとAI分析エージェントの実例

Honeycombのデモでは ヒートマップ でスパイク（遅延リクエスト）を可視化し、 BubbleUp で異常検知・根本原因特定を実演
社内デモで Claude Sonnet 4 を使ったAIエージェントに「4時間ごとに発生するフロントエンドの遅延スパイクの原因調査」を依頼
Model Context Protocol (MCP)サーバー 経由でAIがツールを駆使し、人間と同様の調査フローを80秒・8回のツールコールで自動実行
追加プロンプトや訓練なし で現実的なシナリオをゼロショット解決、コストは約60セント
最適化余地 も大きく、今後さらにコスト・効率両面で進化が期待

AI時代におけるオブザーバビリティツールの価値再考

LLMが分析をコモディティ化、 OpenTelemetryが計測をコモディティ化 し、従来の「グラフ」「簡単なインスツルメンテーション」だけの価値は消失
人間の役割消滅ではなく、 クラウド時代のITやRails時代のサーバープログラマ同様、役割の拡大・多様化
コード・リファクタ・分析の低コスト化 により、より多様なソフトウェア・運用が可能

これから求められるオブザーバビリティの要件

最重要なのは高速なフィードバックループ
- AIは 圧倒的な速度 で仮説検証を繰り返し、遅い分析エンジンは時代遅れ
- サブ秒クエリ性能、統合データストレージ、人間とAIの協調ワークフロー が必須
Honeycombは 高速なフィードバック、コラボレーション、実験的アプローチ を重視し、AI時代の基盤を提供

AI主導の運用・開発の未来像

AIエージェント がコード作成・デプロイ時にリアルタイムで修正提案
システム挙動の異常検知・調査・レポート作成 をAIが自動実行し、人間は承認や微調整を担当
完全自律型のSWE/SREロール も一部で実現可能
スピード重視 が全ての前提となり、従来型ツール（ダッシュボード・定型アラート・マジック統合）は競争力喪失

AIによるフロントエンド遅延スパイク調査の詳細

主因：Checkoutサービスのパフォーマンス問題
- 遅延スパイクは周期的ではなく、 負荷テストや合成トラフィック のパターン
- /cart/checkoutエンドポイント のP95遅延：3.7秒（通常500ms）、最大7.6秒
- 他エンドポイントは安定、スパイクはチェックアウト処理に集中
トレース分析の証拠
- python-requests/2.28.2と2.31.0のUser Agent
- 一貫したクライアントIP、テストデータと思しき高額カート値
- 同一ユーザーIDによる複数リクエスト
技術的根本原因
- 高負荷時のCheckoutサービスのボトルネック
- 割引計算や外部APIの遅延、DB競合の可能性
推奨アクション
- 負荷テスト実施の有無確認、スパイク期間中のリソース監視
- 割引計算の最適化、配送計算のキャッシュ導入、外部APIのサーキットブレーカー実装
- 合成・実ユーザーのアラート分離、依存サービスの監視強化

まとめ

AIによるオブザーバビリティ分析 は現実化し、業界の前提を覆す
高速なフィードバックループとAI協調 が未来の必須要件
Honeycombはその未来に対応するプラットフォーム提供
今こそ新しい価値創造に挑戦する時代

Hackerたちの意見

「AIにちょっとした作業と専門家がいればできることをやらせる。」なんて素晴らしいビジネス戦略なんだ！残念ながら、今日のAIアプリケーション会社の80%にこのコメントを投稿できそう。

└

これがダメ出しだと思ってるかもしれないけど、「この分野の専門家」はめっちゃ高いんだよね。もし本当にできるなら、そんなにふわふわしたAI企業が多いのも納得。

RCAが得意な私としては、恥ずかしい思いをしている同僚たちが、10%の確率で自信満々に間違えるツールをそのまま受け入れちゃうんじゃないかと心配してる。そうなると、余計に問題が起きちゃうし、みんなが公に知らないことを認めるのが嫌で。もしツールが結論を出してから、その解釈を否定するデータを探して、もっと信頼性のある議論をしたり、不確実性を認めたりするなら、もう少しマシになるんだけどね。

└

システムプロンプトを使えば、かなりのことができるよ。実際、LLMを使って効果的なシステムプロンプトやカスタム指示を作ることで、デフォルトでより厳密でよく調査された回答を得ることに成功してる。今ChatGPTで使ってるのはこんな感じ：> 「内容、明確さ、深さを優先する。私の提案、デザイン、結論をテストすべき仮説として挑戦する。精度を高めるためのフォローアップ質問を鋭くし、隠れた前提やトレードオフ、失敗モードを早めに浮き彫りにする。詳細な探求が必要でない限り、簡潔で論理的に構成された情報密度の高い回答をデフォルトにする。証拠に基づかない無駄な称賛は避ける。適用可能な場合は不確実性を明示的に認める。少なくとも一つの代替の枠組みを提案する。批判的な議論を普通で好ましいものとして受け入れる。引用や明確な正当化がない限り、すべての事実の主張を仮のものとして扱う。適切な場合は引用する。主張が推論や不完全な情報に依存している場合は認める。確実に聞こえるよりも正確さを重視する。」

タイトルがちょっと大げさだね。今ある観測ツールは全部必要だから、何も終わりじゃないよ。ただ、グラフを作ったり眺めたりする時間が少し減るかもしれない。LLMが全てに与えている影響はそんな感じみたい。すでに知ってることを早くやる手助けをしてくれるし（新しいことを学ぶ手助けも！）、特定のスキルを完全に置き換えるわけではなさそう。

└

すでに知っていることを早くやる手助けをする 2. 何か新しいことを学ぶ手助けをする！これ、今日2回目に聞いた結論だわ。推論を使って2.をやって、1.をこなすスーパーパワーを得る、これが進むべき正しい道かも。

└

タイトルはちょっと大げさだね。「チャリティ・メイジャーズ効果」って呼んでるよ。

もう一度言うけど、営業トークは置いといて、これは貴重なLLMアプリケーションの一つだと思う。モニタリングと可観測性は、大規模な組織のSREチームの専売特許だったけど、小規模な組織には手が届かないものだった（ITの観点から話してるよ、開発じゃなくて）。価値のある指標を特定して、ハートビートやベースラインを分けるのは、時間がかかるし、専門的なツールや変更を検証するための広範な開発環境、そして生産環境を燃やさないための変更管理が必要なんだ。人気のあるツールで訓練されたLLMがあれば、資金や専門知識が不足しているITチームでも、よりオープンなフレームワークやツールに基づいた「本格的な」可観測性やモニタリングの導入ができるようになる。使えるダッシュボードやシンプルな可観測性の設定に関しては、トラブルシューティングやドキュメントを読むことができるITの人たちにとって、LLMは神のような存在だよ。CIOが押し付けてくる製品スイートについて、すべてを「深く掘り下げる」時間がないからね。PagerDutyアラートを送るときに少なくとも提案された原因を示す能力があれば、中小企業や中堅企業にとって可観測性の革命が起こるよ。

└

同意！小規模なSREチームにも大きな利点があると思う。私のチームは2人で、管理しているベアメタルマシンが何百台もあるんだけど、問題が発生すると、犯人を特定するのがストレスになることがある。これを助けるためにMCPを書くことを考えてるんだ。未来はこの点で明るいと思う。エラーが出る前に問題がしばらく続いていることも多いしね。LLMがまたこれに役立つと思う。

みんなで、決定論の価値と非決定論のコストを大きく過小評価してると思う。私は同じ営業トークの別の製品を試してるんだけど、それはグラフを相関させてインシデントをRCEしようとするんだ。結果的にこんなページみたいに見えるけど[1]、言葉で説明するのはちょっと難しいけど、自分で見ると明らかで面白いよ。 [1]: https://tylervigen.com/spurious-correlations

└

楽しいけど、ポイントはよく知られてるべきだよね（実際には知られてないけど）。時系列データはスプリアスな相関に非常に敏感だから、r²は役に立たない。グラフを目視で見るだけでもさらに悪化するよ。何かが時間とともに変わるなら、適切な指標を使わないと。

最近、AIツールに頼りすぎてる人が多い気がする。誰かに給料を払うなら、その人はちゃんと答えを理解してる必要があるよね。もし間違った答えを出したら、その人も責任を取らなきゃいけない。それが給料をもらう意味だと思う。仕事をするだけじゃなくて、結果に対して責任を持つことが大事なんだ。AIは、Y Combinatorで見かける多くのケースでこれを壊してる。もしAIツールが人間の意思決定に必要な役割を超えてしまったら、そのAIツールの有用性はあまり高くないと思う。

Hacker Newsで議論の続きを見る

ハクソク