AIエージェントを構築しながらも、私はそれに逆らって賭けています

2025年7月20日原文(utkarshkanwat.com)

概要

2025年は「AIエージェントの年」と言われているが、現場経験から見ると過度な期待が多い現実。
実際にプロダクションで稼働するエージェントシステムを構築した経験から、現状の課題と限界を指摘。
信頼性、コスト、ツール設計、現実世界との統合が最大の壁。
成功するパターンは「限定された範囲」「人間の確認」「伝統的なソフトウェア工学との融合」。
本当に価値あるAIエージェントは、2025年の流行とは異なる形で進化する可能性。

AIエージェントの現実と幻想

2025年は AIエージェント が仕事を変革すると騒がれている現状。
実際に 12種類以上 のプロダクションエージェントを開発・運用した実体験。
開発エージェント：自然言語からReactコンポーネント生成、レガシーコードのリファクタリング、APIドキュメント自動生成、仕様→関数の自動実装。
データ＆インフラエージェント：複雑なDB操作やマイグレーション、マルチクラウド対応のDevOps自動化。
品質＆プロセスエージェント：lint自動修正、テスト自動生成、コードレビュー、詳細なプルリク説明文作成。
これらのシステムは 実際に価値を生み出し、日々の手作業を大幅に削減。
しかし「2025年はエージェントの年」という主張には 重要な現実が抜けている と指摘。

AIエージェントの「3つの厳しい現実」

マルチステップワークフローでは エラー率が指数関数的に増加。
- 1ステップ95%信頼性→20ステップで36%成功率。
- 本番運用には99.9%以上の信頼性が必要。
コンテキストウィンドウ によるトークンコストの爆発。
- 長い会話ほどコストが二次曲線的に増加。
- 100ターンの会話で1回$50～$100のコストが発生。
本当の課題はAIの能力ではなく、「 エージェントが効果的に使えるツールとフィードバック設計」。

数学的現実：エラーの複利

各ステップ95%成功でも、5ステップで77%、10ステップで59%、20ステップで36%。
仮に99%でも20ステップで82%。
これは プロンプト設計やモデル性能の問題ではなく、数学的な限界。
成功するDevOpsエージェントは、3～5個の独立した操作＋ロールバック＋人間確認の構成。
成功するエージェントの共通点は「 限定された文脈、検証可能な操作、重要な分岐点での人間介入」。

トークンコストの現実：経済性の壁

会話型エージェントは 過去全履歴を毎回処理、コストが二次曲線的に増加。
50ターン超えると 1回の応答で数ドル 消費、価値を超えるコストに。
ステートレスなエージェント （例：仕様→関数生成）はコスト効率が高い。
実際に運用で成功しているエージェントは「 会話型でなく、特定の課題を効率的に解決するツール」。

ツール設計の壁：AIと人間の違い

ツール呼び出し自体は精度が高くなっているが、 ツール設計が最大の課題。
- 適切なフィードバック設計が必須、情報過多でもコンテキスト不足でも失敗。
- 例：DBクエリの結果は「成功・件数・サンプル」だけで十分。
「API接続すれば自動でエージェントが解決」系のサービスは AIインターフェース設計が不十分。
実際の作業の70%はツール設計とエラー対応、AIは30%程度。
成功するエージェントは「 構造化されたフィードバック、効率的なコンテキスト管理、部分失敗時の回復設計」が重要。

統合の現実：現実世界とのギャップ

エンタープライズ環境は クリーンなAPIではなく、レガシーや不安定な要素が多い。
- 認証フローの変化、時間帯で変わるレートリミット、監査要件など。
成功するDBエージェントは「接続プール、トランザクション管理、監査ログ」など、 AI以外の伝統的システム設計が大半。
「自律エージェントが全て統合」と謳うサービスは 現実の複雑さを過小評価。

成功するエージェントのパターン

UI生成エージェント： 人間が最終確認 を行うことで品質担保。
DBエージェント： 破壊的操作は必ず人間確認、データ整合性を維持。
関数生成エージェント： 明確な入力・出力範囲 で副作用なし、管理容易。
DevOps自動化： インフラコード生成→人間がレビュー・ロールバック可能 な仕組み。
CI/CDエージェント： 各ステージに明確な成功基準とロールバック機構。
AIは複雑さを処理し、人間とソフトウェア工学が信頼性を担保。

2025年に苦戦する組織・勝つ組織

完全自律エージェント を掲げるスタートアップは、経済性・信頼性の壁で苦戦。
既存製品に「AIエージェント」を単純追加したエンタープライズは、 深い統合ができず停滞。
勝者は「 限定的で専門領域に特化、高度なAI＋人間のコントロール」を両立するチーム。
「全自動」より「 極めて有能なアシスタント＋明確な境界線」が現実的な解。

正しいAIエージェント開発の原則

明確な境界線の定義 ：エージェントの役割と人間/決定論的システムへの委譲ポイント。
失敗前提の設計 ：20～40%の失敗をどう処理するか、ロールバック設計。
経済性の検証 ：1回あたりのコスト、利用拡大時のスケーラビリティ。
ステートレス重視 ：信頼性を優先、過度な自律性より一貫性を重視。
堅牢な基盤 ：AIは「意図理解・生成」に活用、 実行・エラー処理・状態管理は伝統的なソフトウェア工学 に依拠。

現場からの本当の教訓

「デモで動く」から「スケールして動く」までの ギャップは非常に大きい。
エージェントの信頼性・コスト最適化・統合の課題は 未解決のエンジニアリング問題。
実際に運用している経験や知見の共有が、業界全体の進化を加速。
導入・運用・設計で悩む場合は 経験者への相談が有効。
本当に価値あるAIエージェントは、2025年の流行とは異なる形で現れる 可能性。

（連絡先等は省略）

Hackerたちの意見

人間のマルチステップワークフローには、次に進む前に作業を確認するチェックポイントがあることが多いよね。人間も99%以上の精度を持ってるわけじゃないし。未来のエージェントは、こうしたチェックを出力に組み込むトレーニングを受けるんじゃないかな。次に進む前にチェックに対して検証する感じで。もしかしたら、「この部分は重要だから、99%正確でないと次に進めない」みたいなリスク評価も含まれるかもね。

└

それがClaude Codeのやり方なんだよね。常に立ち止まって、進むかどうかを聞いてくるし、実装する前に提案された変更を見せてくれる。トークンの無駄遣いや「悪い」仕事を避けるのに役立つよ。

└

それに合わせて多くのアプリケーションを再設計しなきゃいけないね。俺の予想では、マイクロサービスアーキテクチャが再評価されると思う。LLMと相性がいいからね。

リンクは俺にはうまくいかないけど、LLMを使ってる身としてはエージェントには懐疑的だよ。エージェントは大きなエンジニアリング組織の人たちの心を掴んでるけど、彼らの目標は「GenAI」に関すること以外は全く分からない。もう1年以上、次のMSFTやAlphabetのフレームワークが彼らの問題を解決するって約束しながらエージェントに取り組んでるけど、実際に何を解決してるのかは分からない。エージェントが何かを解決したのを見たことがないけど、なぜか「何でも送れるエージェントがあれば会社の問題が全部解決する」っていう考えがあるみたい。LLMには面白いアプリケーションがたくさんあるけど、エージェントにはまだ興味を持ててない。なんでこんなに大企業が時間をかけてるのかも理解できない。商業ツールやオープンソースプロジェクトの前にコードを解読することはないだろうし。エージェントで遊んでる時間を使って、もっと面白いアプリケーションを作れたはずだと思う。中には技術的にはエージェントかもしれないけど、すべてのユースケースを解決しようとするほどの焦点や努力は必要ないものもある。編集：再読してみて、ツールコールチェーンのようなものには場所があると思うけど、実際に話した人たちが「すべてに対応するもの」を作ろうとしてるのが気になる。

└

リンクは俺にはうまくいってるよ — もしかしたら30分前はダメだったのかな？（Safari、MacOS）

└

エージェントが何のためにあるのか全く分からない。自分の無知かもしれないけど。それはさておき、LLMをしばらく使っててすごく助かってる。何かが欠けてるとは感じてないし、エージェントが何をもたらすのかも分からない。知ってる？

└

<< なんでこんなに多くの大企業がそれに時間をかけてるのかも理解できない。商業ツールやオープンソースプロジェクトの前にコードを解読することはないだろうし。FOMOと高い「アップサイド」の可能性が混ざってると思う。高価な「人間の要素」を最小限に（理想的には排除）できるかもしれないからね。特定の世界モデルを描こうとしてるだけなんだ。<< エージェントで遊んでる時間を使って、もっと面白いアプリケーションを作れたはずだと思う。中には技術的にはエージェントかもしれないけど、すべてのユースケースを解決しようとするほどの焦点や努力は必要ないものもある。まさに同意だよ。俺たちはカスタムAIツールを手に入れたけど、業界特有の制約が全部入ってて、実際にはあまり意味がないし、低コンテキストでイライラするし、普通より遅い。なぜなら、今は「バイアス」を含むいくつかの承認レイヤーを通過しなきゃいけないから。しかも、委員会は価値のあるものに影響を与えないようなプロセスの小さな変更で言い争ってる。おかしいよね。

└

一般的に、みんなが解決策について話してて、問題について話さないなら、それはバブルにいるサインだと思う。私の唯一の問題は、タイピングが遅くて面倒だってこと。いつも言ってるけど、もっと少ないタイピングで済む方法があれば使いたい。だから、ここ数年はタブ補完やリファクタリングツールを使ってるんだ。思考をもっと早くコンピュータに入力できるのはちょっとワクワクするけど、自分の代わりに考えてもらうのは、私には問題じゃない。情報を読み取って吸収するのも、また問題じゃない。こういうのは、問題がないところに解決策を当てはめようとしてるだけだと思う。

└

彼らの目標が何かは全く分からないけど、君（人間）を解雇して、コストを下げて、利益を増やすことだろうね。

開発、DevOps、データオペレーションの分野で12以上のプロダクションAIエージェントシステムを構築してきた。一つの良い製品を作るのは難しい（スタートアップの失敗率を見てみて）。君は12個作れなかったのに（ソロ開発者のように見えるのに）驚いてるの？俺たちは小さなチームでDefinite[0]に2年間取り組んできて、過去6ヶ月でやっと本当に良くなり始めた。0 - データスタック + AIエージェント: https://www.definite.app/

└

彼らはフルタイムの仕事をしながら、過去3年間で12以上の製品を作ったみたいだけど、なんかおかしい気がする…

└

彼は12個の独立した販売可能な製品を作ったとは言ってないよ。彼は、自分の仕事で必要な12個のツールを作ったって言ってる。それらはおそらくかなりシンプルで、特定のタスクをこなすためのものだ。記事全体が、使えるものを作るにはシンプルに保つ必要があるって言ってるからね。

Hacker Newsで議論の続きを見る

ハクソク