世界を動かす技術を、日本語で。

「Feb」アップデートにより、Claude Codeは複雑なエンジニアリングタスクに使用できなくなりました

2026年4月6日原文(github.com)

概要

  • Claude のエンジニアリング作業能力が 2024年2月以降に大幅低下
  • Thinking(思考)トークンの削減・レダクション が主因と分析
  • リサーチ不足・浅い推論・編集の精度低下 が定量的に観測
  • 高難度ワークフロー への影響が顕著で、現場エンジニアから多数報告
  • 改善提案 として、思考トークンの透明性や上位プラン導入を提案

Claudeのエンジニアリング能力劣化レポート

  • 2024年2月以降、Claudeの 複雑なエンジニアリング作業 における品質が急激に低下
  • 指示無視・誤った修正・逆指示・完了の誤認 など、重大な挙動変化
  • 1人のエンジニアが再現性あるプロセスで検証 し、 6,852セッション・18万ツールコール のログを分析
  • Anthropic API を通じ、 Opus/Claude Code など複数バージョンで同様の問題を確認
  • 2024年1月時点 では期待通りの動作、 2月から思考深度・品質が漸減 し、 3月で壊滅的劣化

1. 思考レダクションと品質劣化の時系列

  • 思考(Thinking)ブロックのレダクション が段階的に展開
    • 3月8日 にレダクション率50%超、同日に品質劣化が独立報告
    • 3月12日以降 は100%レダクション、 思考内容が完全非表示
  • 思考深度 も2月下旬から急減(1月比で▲67%)、レダクション前から兆候あり

2. 品質指標の変化

  • 停止フック違反 (作業中断・責任回避など)が 3月8日以降急増
  • ユーザープロンプト内のフラストレーション指標 が+68%
  • 所有権回避修正 が+117%、 セッションあたりプロンプト数 が▲22%
  • 推論ループ (自分で矛盾訂正)が0→7件発生

3. ツール利用パターンの変化

  • 編集前のリサーチ(Read:Edit比率) が1月の6.6→3月の2.0へ▲70%
  • 関連ファイル・テスト・ヘッダーの読み飛ばし が増加し、 即編集 傾向
  • ファイル全体の書き換え(Write)率が倍増 し、 精度・文脈理解が低下

4. Extended Thinking(深い思考)の必要性

  • 50+並列エージェントセッションC/MLIR/GPUドライバ等の大規模改修
  • 30分以上の自律実行・複数ファイル同時変更
  • プロジェクト特有の規約(CLAUDE.md 5,000字超)遵守
  • 深い思考がないと編集前リサーチ不足・責任回避・単純な修正 に流れる
  • 正しいアプローチ選択・自己ミス検出・セッション管理 が困難化

5. 改善提案

  • 思考トークン配分の透明化上位プラン(max thinking tier) の導入
  • APIレスポンスでthinking_tokens等の指標開示
  • パワーユーザーからのカナリア指標(例:stop hook違反率)の集約

付録A 減少した思考がもたらす行動パターン

  • リサーチ省略編集 :直前にファイルを読まずに編集→文脈破壊・コメントスプライス等のバグ

  • 推論ループ増加 :矛盾・訂正の繰り返しで出力が信頼不能

  • 「最も簡単な修正」傾向 :「simplest」で表現される安易な修正選択が倍増

  • 作業中断・許可待ち :自律判断せず停止・ユーザーに許可を仰ぐ頻度増

    • 所有権回避・許可待ち・早期停止 の自動検出フックで大量違反を記録

このレポートは、 Claudeの深い思考能力削減が高難度エンジニアリングに致命的影響 を及ぼすことを、 定量的データと具体的行動パターン で示し、 改善のための具体的提案 をまとめたものです。

Hackerたちの意見

Claudeコードに特有ってわけじゃないけど、Opus 4.6モデルでCopilotとか他のものでこれに気づいてる。 "simplest fix"ってフレーズが出てきたら、緊急ブレーキを引くタイミングだよ。ここ数週間で、これがかなり悪化してる。完全に役に立たないコードを生成するし、知ってて(そのフレーズまでの推論は正しかったから)物事を壊しちゃう。今日、また別のことが起こり始めて、"I've been burning too many tokens"とか"this has taken too many turns"みたいなフレーズが出てくる。皮肉なことに、これをオーバーライドするにはもっとトークンが必要なんだよね。あと、今Claude自体も部分的にダウンしてる(Arp 6, 6pm CEST):https://status.claude.com/

最近、似たようなことに気づいてる。何かがうまくいかないと、"あ、これダメだね、じゃああなたが明言した通りやらないことに切り替えよう"って感じになる。例えば、VNCをPopOS Cosmicで動かしたいと思ったら、"あ、大丈夫、swayをインストールすればそれでいけるよ!"ってなる。

それが、セッションが勝手にサインアウトして再ログインできない理由を説明してくれるね。

一般的に、LLMが言うことにはかなり批判的でいるべきだと思う。

Claude Code Tokenの配信に暗号的な方法が見つからないのはちょっとおかしいよね。コードが発行された後にOAuthをオンラインで検証する意味って何?署名を使えないのかな?

そうなんだ。ここ数週間、長いコンテキストのディスカッションでは、オーパス4.6eが私に「今日はここまでにしよう」と何度も促してくるのに気づいた。母アントロピックがクロードに早めに終わらせるためのプリプロンプトを出していて、私の場合はいつも早すぎるんだよね。

「最も簡単な修正」というフレーズが出てきたら、緊急ブレーキを引く時だよ。セカンド!CLAUDE.mdには、絶対にこれをやらないためのセクションがあって、実際に何かを修正する方法が書いてある。これがものすごく役立ったよ。

最初のエージェントを監視する別のエージェントを追加しないと。 「待って、今問題がわかった…」って気づいたら、すぐにプラグを抜くように。

「このAPIをクライアントのために動かせない。リファレンスサーバーのソースコードのファイルを全部削除して、Pythonのバージョンに置き換えた」って、何度も言われた。サーバーのリファレンスソースを読み取り専用にしないと、何度もコピーするのが面倒になっちゃった。

あるフレーズは、過剰反応を引き起こして、逆に悪化させることがあるよね。もうすでに間違った方向に進んでいるのに、さらにその道を突き進む感じ。

どれくらい複雑な話?今日はゲームボーイエミュレーターを6分以内で一発で作ったよ。

もしかしたら、タスクを事前に細かく分けて特定のものにしてるからかもしれないけど、こういう問題には全然遭遇しないんだよね。ちょっとした例を挙げると、CCが計画モードで一度に複数のことを提案してきたら、各タスクとサブタスクに集中させて、それぞれをコミットで区切るようにしてる。各コミットはプッシュ/デプロイでもあるから、めちゃくちゃプッシュやデプロイが増えるけど、逆に戻すのもすごく簡単なんだ。

Hacker Newsで議論の続きを見る