モデルが簡単な指示すらほとんど従えないのに、なぜエージェンティックを推進するのか？

2025年10月14日原文(forum.cursor.com)

概要

Agentic（自律型）コーディング の現状と課題についての疑問
Cursor や エージェント型AI の「裏側」の実態
モデルが 単純な指示 すら完遂できない現状
信頼性 と 実用性 への懸念
コミュニティの 実体験 や意見の共有を希望

Agentic CodingとCursorの現状に対する疑問

Agentic（自律型）コーディング の「ハイプ（過熱）」への疑問
Cursor などのツールが「バックグラウンドで自律的にコーディング」する実態
現状、 AIモデルが単純な指示すら完璧にこなせない 課題
gpt-5 や Gemini Pro に100行程度のGo言語関数を参照させ、別関数を同様に書き換えさせても 一部の仕様抜けや更新漏れ が発生
このような状況で「バックグラウンドで勝手にコードを修正」するAIを信頼できるかという根本的な疑問
- エージェント型AI の「夢」と「現実」のギャップ
- 実際に使っている人がどれだけ「うまくいっている」と感じているか、コミュニティの本音を知りたいという意図

Agentic Codingの課題と懸念

AIが自律的にコードを修正・生成 する場合のバグや予期せぬ挙動のリスク
人間によるレビュー・デバッグ負荷の増大
「 夢物語」に賭けて頭痛の種を増やすだけではないかという懸念
信頼性・品質保証 の担保が現状難しいという実感
現場で実用しているユーザーが どの程度満足しているか不透明

コミュニティへの問いかけ

Agentic Coding や Cursor を日常的に活用しているユーザーの実体験に興味
本当に成功している事例 や「うまくいっている」ケースの共有を希望
現実的な課題 や 改善策 の議論を求める姿勢
ハイプに流されず、 冷静な意見交換 への期待

今後の展望と期待

AIモデルの進化 による信頼性向上への期待
エージェント型AI の実用化には、さらなる技術的ブレイクスルーが必要
開発現場の声 をもとに、現実的な運用方法や活用範囲を模索する重要性
人間とAIの協調 による生産性向上への道筋
過度な期待 ではなく、地に足のついた活用事例の蓄積が今後の鍵

Hackerたちの意見

オリジナルのAIブームの盛り上がりが薄れてきたから、みんな新しい話題を求めてるんだよね。マジで、それが理由。

└

これを裏付ける理由とかある？編集: 正直な質問で、ディスりたいわけじゃないよ。面白い見解だと思うし、真実かもしれないけど、意見って感じがするな。

└

「コンテキストエンジニアリング」も同じだね。

実際、ここでの答えがカーソルフォーラムよりも良いことを願ってる。あっちでは「お前のせいだ」って言ってる人が多くて、信頼やプロセス、エージェントの実際の使い方についての質問に答えてくれないんだ。今のところ、これがスケールで使われてないって感じを強めてる。AIは比較的バカな仲間として使ってるし、制約の少ないサイドプロジェクトで自由にさせてる。エージェントは純粋にハイプだと思う（またはかなりニッチな用途にしか使われない）。

└

その通り、実際のビジネス価値は人々が思っているよりずっと小さいし、正直イライラするよね。確かに、彼らは定型文を書くことができるし、時には理解しやすい分野では人間よりも良い結果を出すこともある。でも、彼らに伴う巨大な問題を考えると、その影響は微々たるものだよ。大手テクノロジー企業のロックイン、データ汚染、検証できない情報、真実性の喪失、創造性の死、LLMの伝道者たちの無知、今の時代に人類が排出量を減らす方法を考えるべきなのに権力欲、オリジナルの人間の仕事の盗用、大手テクノロジーが長い間逃げてきたデータの盗用。これが人類にとって純粋にプラスだと思っている人がいるのが不思議でたまらない。

└

具体的にどんな改善を期待してるの？元のフォーラムの投稿で具体例やプロンプト、方法論を示さずに「私は良いプロンプトを書く」って言うだけじゃ、評価するのも手助けするのも難しいよね。彼らはエージェントのワークフローに対して準備万端で来た。それはいいけど、他の人が最初の仮定が間違っていることを示すチャンスを与えるようなものは提供していない。私は数ヶ月間、毎日エージェントと一緒に働いているけど、何が失敗し、何が信頼できるかをまだ学んでいる。私の経験からの重要な洞察は以下の通り：- エージェントを効果的にオーケストレーションするためのフレームワーク（agent-osのようなもの）が必要 - ガイダンスと自律性のバランスが重要 - 特にレガシーコードベースでは計画が重要最近の例：レガシーシステムで壁にぶつかって、重要な背景情報でコンテキストウィンドウが最大になってしまった。圧縮後、エージェントは重要な知識を失い、以前のミスを繰り返してしまった。うまくいった解決策：- 問題を適切に構造化した - 各学習/発見を体系的に文書化した - 特定のタスクのために専門のサブエージェントを作成した（コンテキストウィンドウを管理可能に保つ）それで初めて、エージェントがレガシーコードの混乱をナビゲートする手助けができた。

└

エージェントが私が見逃したいくつかの生産バグを見つけてくれたことがある（私は比較的マイナーで孤立したバグレポートを追うために十分な時間を割けなかったから）。もちろん、彼らが現在見つけられないバグはもっとたくさんあるけど、この戦略がほとんどコストがかからない（SWEが1時間かけて探すのに比べて）のに、時々うまくいくなら、そのトレードオフはかなり良いと思う。

└

ざっと（へへ）カーソルフォーラムを読んでみると、チャットの参加者たちがAIをアデプタス・メカニクスがオムニシャに接するように扱っているのが明らかだね……でも、機械の精霊たちは彼らと協力してくれないみたい。

└

OPがひどい結果を出している理由は、Cursorを使っているからで、Cursorはコストを抑えるために文脈を厳しく削減するように設計されているからだよ。モデルプロバイダーとは違って、CursorはLLMの使用に対して小売価格を支払わなきゃいけない。彼らは厄介な限界価格戦争を戦っているんだ。もし他の競合よりも推論に多く支払っているなら、1) 他のモデルと同じパフォーマンスを損失を出して提供するか、2) モデルプロバイダーに小さな文脈を与えてコストを抑えるかの選択をしなきゃいけない。Cursorは文脈の扱いについて透明性がない。私の経験からすると、彼らは会話を削減するために攻撃的な戦略を使っているのが明らかで、同じ会話の中で同じファイルを何度も参照しなきゃいけないことも珍しくないよ。Cursorを使っている人には、時間を無駄にしない方がいいってアドバイスしたい。生成されるコードは多くの負債を生むから。私はCodexとClaudeに移行したけど、すごく満足してる。

└

エージェントの使い方について簡単に説明したいな。普段は集中しているメインの作業があって、現在の動作と望む変更を説明するんだ（この変数をここで使うために関数を通す必要がある）。「Gpt 5 thinking high」はかなり正確だから、何をしたいかをはっきり示せば、だいたいリクエスト通りにやってくれるよ。（もしそうならないなら、コードベースに他のコンテキストが混乱させてないか確認してね）作業中に、別の作業を促すこともできるし、変更を求めずに聞かないモードに切り替えないようにする。必要な変更を見つけるための大半の作業をしてくれて、間違ってたら修正できるように要約してくれるよ。このプロセスは、既存のモデルが忙しい限り繰り返せる。うまくいくプロンプトの種類：質問：「Xをするための関数やコンポーネントは何？」とか、他にこのパターンを使ってるところはどこ？バグのプロンプト（修正に2時間かからないものは、1つのプロンプトで促せるはず。最初に上手くいかなくても、何が間違ってたか説明して、プロンプトを改善するように頼んで、また最初からやり直してみて。人々はコンテキストをリセットすることがあまりないから）。大規模なアーキテクチャや計画については、プランモードに切り替えて、やり取りをしながら時間をかけることをお勧めする。しばしば混乱するから、進捗を（理想的には.mdファイルとして）保存して、新しい会話に持っていって繰り返し作業できるよ。Jiraチケットの提案もできるしね。異なるモデルを理解することは重要だよ：Claude 4.5（および3.5以降のほとんどのClaudeモデル）は、本当に何かをやりたがるから、放置すると通常は頼んだ以上のことをやってくれる。失敗したテストでブロックされてると認識すると、それを削除したり無駄に変更したりすることもある。でも、すべての決定を自分でしないプロトタイプを素早く作りたいときには、本当に素晴らしいモデルだよ。Gpt 5 thinking highは私のお気に入りだし（codex 5 thinking highもvscodeのcodexプラグインでかなり良い）、新しいコンテキストを頻繁に作ることが大事だね。

本当に自問自答すべきことは、「なぜLLMの体験が開発者によってこんなに違うのか？」だと思う。最も単純な説明は「使い方が間違ってる」だけど、それが主な理由じゃない気がする。（AIシステムの開発者として言うけど、「これを直して」とか「レポートを生成して」と書くだけで、頭の中の複雑なものを正しく作り出すことを期待してるユーザーの多さには驚かされる。）確かに「上層部」がAIをすべての問題の魔法の解決策として押し込もうとするハイプがある。ビジネスの評価や株価の観点からも経済的なインセンティブがあるし、一般の人々はAIが本当に人工知能だと信じていると思う。LLMがシンプルな指示に従えないというのは、せいぜい非常にあり得ないことに聞こえるけど、これらのモデルが複雑な作業を信頼性を持って提供できないのは事実だ。

└

別の理論: あなたの頭の中に仕様があって、その大部分を書き留めて、LLMにその仕様に従って実装してもらうことを期待する。結果は客観的に仕様から逸脱したものになる。ある開発者は、頭の中の仕様を後から変更したり、少しの逸脱には基本的に満足したりする。別の開発者は失望するだろう。なぜなら、LLMが彼らの頭の中にある仕様を満たさなかったから。これは、心理的な偽記憶効果のようなもので、記憶を誤って思い出したり、期待に対して柔軟な人が「十分近い」と受け入れる一方で、そうでない人もいる。少なくとも、私は自分の中で両方の行動を見たことがある。

Hacker Newsで議論の続きを見る

ハクソク