概要
- Claude のエンジニアリング作業能力が 2024年2月以降に大幅低下
- Thinking(思考)トークンの削減・レダクション が主因と分析
- リサーチ不足・浅い推論・編集の精度低下 が定量的に観測
- 高難度ワークフロー への影響が顕著で、現場エンジニアから多数報告
- 改善提案 として、思考トークンの透明性や上位プラン導入を提案
Claudeのエンジニアリング能力劣化レポート
- 2024年2月以降、Claudeの 複雑なエンジニアリング作業 における品質が急激に低下
- 指示無視・誤った修正・逆指示・完了の誤認 など、重大な挙動変化
- 1人のエンジニアが再現性あるプロセスで検証 し、 6,852セッション・18万ツールコール のログを分析
- Anthropic API を通じ、 Opus/Claude Code など複数バージョンで同様の問題を確認
- 2024年1月時点 では期待通りの動作、 2月から思考深度・品質が漸減 し、 3月で壊滅的劣化
1. 思考レダクションと品質劣化の時系列
- 思考(Thinking)ブロックのレダクション が段階的に展開
- 3月8日 にレダクション率50%超、同日に品質劣化が独立報告
- 3月12日以降 は100%レダクション、 思考内容が完全非表示
- 思考深度 も2月下旬から急減(1月比で▲67%)、レダクション前から兆候あり
2. 品質指標の変化
- 停止フック違反 (作業中断・責任回避など)が 3月8日以降急増
- ユーザープロンプト内のフラストレーション指標 が+68%
- 所有権回避修正 が+117%、 セッションあたりプロンプト数 が▲22%
- 推論ループ (自分で矛盾訂正)が0→7件発生
3. ツール利用パターンの変化
- 編集前のリサーチ(Read:Edit比率) が1月の6.6→3月の2.0へ▲70%
- 関連ファイル・テスト・ヘッダーの読み飛ばし が増加し、 即編集 傾向
- ファイル全体の書き換え(Write)率が倍増 し、 精度・文脈理解が低下
4. Extended Thinking(深い思考)の必要性
- 50+並列エージェントセッション で C/MLIR/GPUドライバ等の大規模改修
- 30分以上の自律実行・複数ファイル同時変更
- プロジェクト特有の規約(CLAUDE.md 5,000字超)遵守
- 深い思考がないと、 編集前リサーチ不足・責任回避・単純な修正 に流れる
- 正しいアプローチ選択・自己ミス検出・セッション管理 が困難化
5. 改善提案
- 思考トークン配分の透明化 と 上位プラン(max thinking tier) の導入
- APIレスポンスでthinking_tokens等の指標開示
- パワーユーザーからのカナリア指標(例:stop hook違反率)の集約
付録A 減少した思考がもたらす行動パターン
-
リサーチ省略編集 :直前にファイルを読まずに編集→文脈破壊・コメントスプライス等のバグ
-
推論ループ増加 :矛盾・訂正の繰り返しで出力が信頼不能
-
「最も簡単な修正」傾向 :「simplest」で表現される安易な修正選択が倍増
-
作業中断・許可待ち :自律判断せず停止・ユーザーに許可を仰ぐ頻度増
- 所有権回避・許可待ち・早期停止 の自動検出フックで大量違反を記録
このレポートは、 Claudeの深い思考能力削減が高難度エンジニアリングに致命的影響 を及ぼすことを、 定量的データと具体的行動パターン で示し、 改善のための具体的提案 をまとめたものです。