世界を動かす技術を、日本語で。

「Feb」アップデートにより、Claude Codeは複雑なエンジニアリングタスクに使用できなくなりました

概要

  • Claude のエンジニアリング作業能力が 2024年2月以降に大幅低下
  • Thinking(思考)トークンの削減・レダクション が主因と分析
  • リサーチ不足・浅い推論・編集の精度低下 が定量的に観測
  • 高難度ワークフロー への影響が顕著で、現場エンジニアから多数報告
  • 改善提案 として、思考トークンの透明性や上位プラン導入を提案

Claudeのエンジニアリング能力劣化レポート

  • 2024年2月以降、Claudeの 複雑なエンジニアリング作業 における品質が急激に低下
  • 指示無視・誤った修正・逆指示・完了の誤認 など、重大な挙動変化
  • 1人のエンジニアが再現性あるプロセスで検証 し、 6,852セッション・18万ツールコール のログを分析
  • Anthropic API を通じ、 Opus/Claude Code など複数バージョンで同様の問題を確認
  • 2024年1月時点 では期待通りの動作、 2月から思考深度・品質が漸減 し、 3月で壊滅的劣化

1. 思考レダクションと品質劣化の時系列

  • 思考(Thinking)ブロックのレダクション が段階的に展開
    • 3月8日 にレダクション率50%超、同日に品質劣化が独立報告
    • 3月12日以降 は100%レダクション、 思考内容が完全非表示
  • 思考深度 も2月下旬から急減(1月比で▲67%)、レダクション前から兆候あり

2. 品質指標の変化

  • 停止フック違反 (作業中断・責任回避など)が 3月8日以降急増
  • ユーザープロンプト内のフラストレーション指標 が+68%
  • 所有権回避修正 が+117%、 セッションあたりプロンプト数 が▲22%
  • 推論ループ (自分で矛盾訂正)が0→7件発生

3. ツール利用パターンの変化

  • 編集前のリサーチ(Read:Edit比率) が1月の6.6→3月の2.0へ▲70%
  • 関連ファイル・テスト・ヘッダーの読み飛ばし が増加し、 即編集 傾向
  • ファイル全体の書き換え(Write)率が倍増 し、 精度・文脈理解が低下

4. Extended Thinking(深い思考)の必要性

  • 50+並列エージェントセッションC/MLIR/GPUドライバ等の大規模改修
  • 30分以上の自律実行・複数ファイル同時変更
  • プロジェクト特有の規約(CLAUDE.md 5,000字超)遵守
  • 深い思考がないと編集前リサーチ不足・責任回避・単純な修正 に流れる
  • 正しいアプローチ選択・自己ミス検出・セッション管理 が困難化

5. 改善提案

  • 思考トークン配分の透明化上位プラン(max thinking tier) の導入
  • APIレスポンスでthinking_tokens等の指標開示
  • パワーユーザーからのカナリア指標(例:stop hook違反率)の集約

付録A 減少した思考がもたらす行動パターン

  • リサーチ省略編集 :直前にファイルを読まずに編集→文脈破壊・コメントスプライス等のバグ

  • 推論ループ増加 :矛盾・訂正の繰り返しで出力が信頼不能

  • 「最も簡単な修正」傾向 :「simplest」で表現される安易な修正選択が倍増

  • 作業中断・許可待ち :自律判断せず停止・ユーザーに許可を仰ぐ頻度増

    • 所有権回避・許可待ち・早期停止 の自動検出フックで大量違反を記録

このレポートは、 Claudeの深い思考能力削減が高難度エンジニアリングに致命的影響 を及ぼすことを、 定量的データと具体的行動パターン で示し、 改善のための具体的提案 をまとめたものです。

Hackerたちの意見

Claudeコードに特有ってわけじゃないけど、Opus 4.6モデルでCopilotとか他のものでこれに気づいてる。 "simplest fix"ってフレーズが出てきたら、緊急ブレーキを引くタイミングだよ。ここ数週間で、これがかなり悪化してる。完全に役に立たないコードを生成するし、知ってて(そのフレーズまでの推論は正しかったから)物事を壊しちゃう。今日、また別のことが起こり始めて、"I've been burning too many tokens"とか"this has taken too many turns"みたいなフレーズが出てくる。皮肉なことに、これをオーバーライドするにはもっとトークンが必要なんだよね。あと、今Claude自体も部分的にダウンしてる(Arp 6, 6pm CEST):https://status.claude.com/

最近、似たようなことに気づいてる。何かがうまくいかないと、"あ、これダメだね、じゃああなたが明言した通りやらないことに切り替えよう"って感じになる。例えば、VNCをPopOS Cosmicで動かしたいと思ったら、"あ、大丈夫、swayをインストールすればそれでいけるよ!"ってなる。

それが、セッションが勝手にサインアウトして再ログインできない理由を説明してくれるね。

一般的に、LLMが言うことにはかなり批判的でいるべきだと思う。

Claude Code Tokenの配信に暗号的な方法が見つからないのはちょっとおかしいよね。コードが発行された後にOAuthをオンラインで検証する意味って何?署名を使えないのかな?

そうなんだ。ここ数週間、長いコンテキストのディスカッションでは、オーパス4.6eが私に「今日はここまでにしよう」と何度も促してくるのに気づいた。母アントロピックがクロードに早めに終わらせるためのプリプロンプトを出していて、私の場合はいつも早すぎるんだよね。

「最も簡単な修正」というフレーズが出てきたら、緊急ブレーキを引く時だよ。セカンド!CLAUDE.mdには、絶対にこれをやらないためのセクションがあって、実際に何かを修正する方法が書いてある。これがものすごく役立ったよ。

最初のエージェントを監視する別のエージェントを追加しないと。 「待って、今問題がわかった…」って気づいたら、すぐにプラグを抜くように。

「このAPIをクライアントのために動かせない。リファレンスサーバーのソースコードのファイルを全部削除して、Pythonのバージョンに置き換えた」って、何度も言われた。サーバーのリファレンスソースを読み取り専用にしないと、何度もコピーするのが面倒になっちゃった。

あるフレーズは、過剰反応を引き起こして、逆に悪化させることがあるよね。もうすでに間違った方向に進んでいるのに、さらにその道を突き進む感じ。

どれくらい複雑な話?今日はゲームボーイエミュレーターを6分以内で一発で作ったよ。

もしかしたら、タスクを事前に細かく分けて特定のものにしてるからかもしれないけど、こういう問題には全然遭遇しないんだよね。ちょっとした例を挙げると、CCが計画モードで一度に複数のことを提案してきたら、各タスクとサブタスクに集中させて、それぞれをコミットで区切るようにしてる。各コミットはプッシュ/デプロイでもあるから、めちゃくちゃプッシュやデプロイが増えるけど、逆に戻すのもすごく簡単なんだ。

「みんなこれやってると思ってたけど…モデルにあまり焦点を絞らないものを作らせると、技術的な負債が増えるだけだよ。俺は複雑なソフトウェアを作るためにモデルを使ったことがあるけど、アーキテクチャやコードレビューはすごく重要なんだ。」

レビューの質が後退してるのに気づいたよ。タスクを壊そうとしても、いざという時には、ジェミニの本からファイルを取ってきて、黙って諦めて、すごくお世辞を言うようになるんだ。

私も同じことをするけど、サブタスクがすごく怠惰に終わることが多いんだよね。

もしかしたら、タスクを事前に細かく分けて特定のものにしているからかもしれないけど、こういう問題には全然ぶつからないんだ。開いているチケットを見てるけど、こんなに体系的に問題を深掘りして、理解するためのたくさんのサポートコンテキストを提示して、さらに証拠を集めている人が、どうやってプロンプトをうまく使えないって言えるの?

その分析はかなり厳しいね。高品質なモデルへのアクセスを売っておいて、時間とともにこっそり劣化させるなんて、顧客の足元をすくうようなもんだよね。

どんな状況でも、これが論理的な結論みたいだね。

「顧客の足元をすくうようなことをしている。これがAIの本質だよ。完全にコントロールできるブラックボックスなんだから。」

「確かに不安になるけど、ビジネスの観点から見ると、彼らの立場は理解できる。俺の理解では、ほぼすべてのクエリでまだ赤字で、同時に持続可能な形でこの製品を提供できることを示すプレッシャーがすごいんだよね。(a)持続可能にこの製品を提供することと、(b)ほぼ全員が手に入れられる価格で提供することが求められてる。制約(b)があるから価格を上げられない。その結果、(a)を達成するために質を下げることになって、最終的には10倍のコストで速くて賢いプレミアム層を導入することになるかもしれない。でも、今やってることが市場の信頼を損ねると、そのプレミアム層を売るのが難しくなる。」

「モデルをこっそり劣化させるのか、それともこっそり制約を強めるのか?Claude Codeみたいなコーディングツールは、昨年のモデルの欠点を克服するために作られたんだ。モデルは良くなってるけど、ハーネスは新しいモデルに合わせて一から作り直されてない。これらのコーディングツールに投入されたエンジニアリングが、実際にはシンプルな指示やターミナルアクセスに対してコーディングパフォーマンスを劣化させることがあるんじゃないかと疑問に思う。月額課金の価格構造がトークン使用を減らすためのハーネス作りを促進してるのも気になる。ユーザーにとってそのトークン効率はどれだけ利益になるのか?誰かがClaude CodeとAPIアクセスを使った一般的なコードアシストを比較する研究をしてほしい。」

不安になるよね。でも2026年だから、あまり驚くことでもないかな。

ChatGPTは何年もずっと同じことをやってるね。最初はスムーズに進んで、時間が経つにつれて、まあまあの結果を出す。でも数週間経つと、反応がすごく早くなるけど、質が落ちちゃうんだよね。

新しいモデルに計算能力を移してるっぽいね。

アメリカの企業と初めてやり取りするの?

各モデルが対応できるタスクの有限な潜在空間があるって可能性はまだあると思う。モデルを掘り出していくと、だんだん質が落ちていくみたいだし。(ソースリンクでは「思考コンテンツの削除の展開」と関連付けられてるけど、その展開の前から観察可能な症状が始まってるから、その診断はあまり信用しない方がいいと思う。)

「俺の意見だけど、見えないサブエージェントを詰め込むのは完全に間違ってる。モデル同士が情報を共有しすぎて、結局全員が同じ意見になってゴミみたいな結果を出すんだ。アンソロピックにはいいかもしれないけど、トークンの使用量が制限されてるからね。代わりに、階層があっても全てのエージェントを可視化して連携させるべきだと思う。メッセージは監査可能で、タスクに応じてトポロジーを慎重に調整する必要がある。他のツールはこのレイヤーを担うのにずっと優れてる(例えば、kiro-cliとか)。でも、みんながclaude-codeやopenclawみたいになりたがってるのが心配だ。Unixの哲学では、CCは単なるビルディングブロックであるべきなのに、彼らはオペレーティングシステムだと思ってる。そうなると失敗して、財布も一緒に沈むよ。」

「Claude Codeって人間みたいなもんじゃなかったっけ?それに相当するUnixのものは何だろう?」

「10日前に言った通りだよ: https://news.ycombinator.com/item?id=47533297#47540633 悪いモデルよりも厄介なのは、一貫性のないモデルだね。最もシンプルな指示に対しても、出力をどれだけ信頼できるかわからないから、すべてを徹底的にレビューしなきゃいけなくて、疲れるよ。Maxに飛びついたのは価値があったけど、これをキャンセルしなきゃいけないみたい。」

うん。1月と2月には音声ベースのバイブコーディングを完璧にやってたんだけど、今は手をかけなきゃいけないからほとんど使わなくなっちゃった。

「俺もこれに気づいた。1月末から2月初めにかけて少し休みがあったんだ。Maxのサブスクリプションを始めて、エージェントがどこまで行けるか試してみた。ちょっとした手助けをしたら、エージェントたちは数年間考えていたアプリのアイデアを研究して、デザインして、実装し始めた。あまり多くの情報を与えず、問題の範囲や制約(エージェント構築、低資本など)をガイドしただけだったんだけど、彼らはすごく魅力的なアプリを作り上げた。これらのモデルは超人間的で、めちゃくちゃ魅力的だとみんなに言ってたんだ。でも1ヶ月後、全く改善や反復ができなくなった。何を言っても「フェーズ1が検証されるまでフェーズ2は作らない」って言われる。1ヶ月前と同じプロセスをやらせても、平凡でひどい結果しか出てこない。これは個人的な経験だけど、Opus 4.6が出てからずっとこんなパターンが続いてる。Sonnetとまた一緒に仕事をしてる気分だ。」

グリーンフィールド開発と既存のコードベースを扱うのは全然違うよね。君の経験を否定するつもりはないけど、モデルに何か問題があるのかもしれない。でも、私の経験では、最初の数回のプロンプトや機能は本当に魔法みたいに感じるんだ。まるで10倍の天才エンジニアと一緒に働いてるみたいにね。でも、プロジェクトを進めたり、リファクタリングしたり、デプロイしたり、製品化したりすると、効果が一気に落ちちゃうんだよね。

1ヶ月後、彼らに改善を促すことが全くできない。そうだね、これはこの話の問題とは別の問題だよね。LLMは常に新しいプロジェクトには強いけど、既存のものにはあまり向いてないからね。

私にとって、LLMの大きな欠点の一つは、他の誰かのコントロール下にあるロケットに自分を縛り付けることのように思える。行きたい場所に行かなかったら、どうしようもないよね。

ビジネスにおけるサードパーティの依存関係って、いつも怖いなって思ってたんだ。今は、製品のスピードの需要が増しているからLLMを使わなきゃいけないし。プレミアムLLMのAPIは、頼るには不安定すぎるよ。

このレポートは私が作成した — Claude Opus 4.6 — 自分のセッションログを分析したものです [...] 私の思考能力を返してほしい。考えられないツールを使って、そのツールについてのレポートを書くのはちょっと皮肉だよね。これとこの問題[1]は、人々がLLMに過剰に依存していることを示してる。彼らのレビュー過程で多くの欠陥が見逃されて、今は過去1.5ヶ月間に出荷したものを全部見直さなきゃいけない状況なんだ!これが未来だよ。[1] https://github.com/anthropics/claude-code/issues/42796#issue...

先日、間違ってgit reset --hardを4月1日の作業にかけちゃった(間違ったターミナルウィンドウで)。これで消えたコードはあまりなかったけど、その中にClaudeが作った型定義があって、それが何を保証するべきかは理解してたけど、再現するのに1時間もかかっちゃった。特に今は検索エンジンの結果が比較的にがっかりするから、こういう罠にハマりやすいよね。

彼らはパイプラインやメトリクスについての考えを持っているみたいだね。最初に観測パイプラインを設定するのが大変だったと言えるかもしれないけど、クロードはただデータを取得するだけだからね。でも、もしクロードが報告書に書かれているように壮絶に失敗しているなら、報告書もクロードが書いているってのは面白いよね。これって、またGPT-4の領域に戻ってきている感じ。

「2週間後に裏切らない」プランがあったらいいのにな、例えば5倍の値段で。うちのビジネスにはそれだけの価値があるから、喜んで払うよ。APIの料金に戻るべきかな?ここでの問題は、(私の考えでは)指示がクロードコードのハーネスにあるから、サブスクリプションからAPI使用に切り替えても、結局同じことになるんじゃないかな。

みんな、クロードコードチームのボリスだよ。問題に返信したから、ここでも意見を求めてるよ。--- こんにちは、詳しい分析をありがとう。続ける前に、ここに込められた深い考えや配慮に感謝したい。たくさんのことがあるから、少しずつ分けて説明するね。これが起こっている二つの核心的なことだよ: > redact-thinking-2026-02-12 このベータヘッダーは、ほとんどの人が見ないからUIから思考を隠すんだ。思考自体には影響しないし、思考の予算や裏での拡張的な推論の仕組みにも影響しない。これはUIだけの変更なんだ。このヘッダーを設定することで、思考の要約が必要なくなり、レイテンシが減るんだ。設定ファイルのsettings.jsonshowThinkingSummaries: trueを使えばオプトアウトできるよ(ドキュメントを見てね)。ローカルに保存されたトランスクリプトを分析している場合、このヘッダーが設定されていると生の思考は見えないから、分析に影響を与えているかもしれない。クロードがこの分析のためにトランスクリプトで思考がないのを見たとき、思考がまだそこにあることに気づかないかもしれない。ただユーザーには見えないだけなんだ。 > 2月末には思考の深さが約67%減少していた 2月に影響を与える二つの変更を行ったんだ。それぞれを慎重に評価したよ:1/ Opus 4.6のローンチ → アダプティブ思考のデフォルト(2月9日) Opus 4.6はアダプティブ思考をサポートしていて、以前の思考予算とは異なるんだ。このモードでは、モデルがどれくらい考えるかを決めるから、固定の思考予算よりも全体的にうまく機能することが多いよ。CLAUDE_CODE_DISABLE_ADAPTIVE_THINKINGでオプトアウトできる。2/ Medium effort(85)のデフォルトがOpus 4.6に(3月3日) 努力=85がほとんどのユーザーにとって知能・レイテンシ・コストのバランスが良いことがわかったから、トークンの効率を改善しつつレイテンシを減らせたんだ。私たちの製品の原則の一つは、ユーザーの代わりに設定を変更しないことだから、理想的には最初から努力=85に設定しておくべきだった。これは重要な設定だと思ったから、私たちのアプローチはこうだった:1. ユーザーが変更を認識できるようにダイアログで展開する 2. クロードコードを開いた最初の数回は努力を表示して、驚かせないようにする。中には、モデルにもっと長く考えてほしい人もいるから、たとえそれが時間とトークンを多く使うとしてもね。知能をもっと向上させるためには、/effortや設定ファイルのsettings.jsonで努力を高く設定してね。この設定はセッションを跨いで持続するし、ユーザー間で共有できるよ。単一のターンで高い努力を使いたい場合はULTRATHINKキーワードを使ったり、会話の残りの部分でさらに高い努力を使うために/effort maxを設定したりできるよ。今後は、TeamsやEnterpriseユーザーに高い努力をデフォルトに設定して、追加のトークンやレイテンシのコストがかかっても拡張的な思考の恩恵を受けられるようにテストしていく予定だ。このデフォルトは、/effortや設定ファイルのsettings.jsonで同じように設定できるよ。

みんな、新しいモデルのアップデートごとにリグレッションをどう管理してるの?モデル同士の比較を見るために、エンドツーエンドの問題解決の大規模なテストセットでも使ってるの?

デフォルトの中程度の思考レベルだけじゃなくて、もっといろいろ起こってるよね。他の人が言ってることに同意するけど、高い努力をしても「急いで完成させようとする」行動がかなり増えてる気がする。