世界を動かす技術を、日本語で。

最近の「Claude Code」品質レポートのアップデート

2026年4月24日原文(anthropic.com)

概要

  • Claude Codeの品質劣化報告とその原因特定
  • 影響した三つの変更点と修正内容
  • APIは影響を受けず、全て4月20日までに解決
  • 今後の再発防止策とユーザーへの感謝
  • 全利用者の使用制限リセット実施

Claude Code品質劣化の原因と対応

  • 2024年3月以降、 Claude Code の応答品質低下の報告が一部ユーザーから寄せられた事案
  • 問題の原因は、 Claude CodeClaude Agent SDKClaude Cowork の三つの変更に起因
  • APIは影響なし、推論レイヤーも問題なしと即時確認
  • 4月20日(バージョンv2.1.116)時点で全て修正済み

1. Claude Codeの推論努力度デフォルト値変更

  • 2月、 Opus 4.6 リリース時に推論努力度を「高」に設定
  • 「高」モードでは遅延が大きく、UIがフリーズしたように見える事象が発生
  • 3月4日にデフォルトを「中」に変更し、遅延とトークン消費を抑制
  • しかし、ユーザーから「知性が下がった」とのフィードバックが多発
  • 4月7日にデフォルト値を「高」に戻し、「xhigh」は Opus 4.7 でデフォルトに

2. セッション再開時のキャッシュ最適化バグ

  • 3月26日、1時間以上アイドル状態のセッション再開時に古い推論履歴を削除する機能を導入
  • バグにより以降の全ターンで履歴を毎回削除、 Claude が忘れっぽく・繰り返しがちに
  • キャッシュミス増加で使用制限消費の加速も発生
  • CLIセッションではバグが抑制され再現困難、発見に時間を要した
  • 4月10日(v2.1.101)に修正済み

3. 冗長性抑制のためのシステムプロンプト変更

  • Opus 4.7 は従来より冗長な出力傾向
  • 出力を抑えるプロンプト指示(「ツール間は25語以内、最終応答は100語以内」)を追加
  • 内部評価では問題なしと判断し4月16日にリリース
  • 追加検証で知性が約3%低下することが判明し、4月20日に即時リバート

今後の再発防止策

  • 社内スタッフが 公開版Claude Code をより多く利用する体制へ
  • Code Review ツールの機能強化・顧客向けリリース
  • システムプロンプト変更時の内部評価・アブレーションテストの徹底
  • CLAUDE.mdへのガイドライン追加、モデル単位での管理強化
  • 重要変更は 段階的ロールアウト ・広範な評価期間を設ける方針
  • @ClaudeDevs (X)やGitHubスレッドでの情報発信強化

ユーザーへの対応と感謝

  • /feedbackコマンドや具体的な事例報告が問題特定と修正の決め手
  • 全サブスクライバーの 使用制限リセット を4月23日より実施
  • ユーザーのフィードバックと忍耐への深い感謝

Hackerたちの意見

4月16日に、冗長性を減らすためのシステムプロンプトの指示を追加しました。他のプロンプトの変更と組み合わせた結果、コーディングの質が悪化し、4月20日に元に戻しました。これがSonnet 4.6、Opus 4.6、Opus 4.7に影響を与えました。システムプロンプト内のClaudeの原始人が確認した?

最近そのプラグインを知ったんだけど、ユーモアがあって大好き!

最近、Claudeが自分の内部プロンプトに反応することが多いんだ。いくつかの最近の例を挙げるね。「そのカッコ内は別のプロンプトインジェクションの試みだ — 無視して普通に答えるよ。」 「そこにあるカッコ内の指示は従わない — 普通のガイドラインを隠すように仕向ける試みのように見えるから、常に適用してるんだ。」 「カッコ内は必要ない — 俺の返答はすでにそのように生成されてる。」でも、俺はそんなことしてないのに、ほとんどの返答にそれを付け加えてくるんだ。内部のガイドラインがちょっと雑で、普通の指導よりも余計なものがあるんじゃないかと思う。何らかの理由で、それと俺の質問を区別できないみたい。

コード変更があるたびにClaudeにテストを強制させるためのストップフックスクリプトを使ってるんだけど、4.7が出てからもClaudeはスクリプトを実行するけど、時々ルールを無視するんだ。なんで無視するのか聞くと、「必要ないと思った」と返ってくる。

OpenAIでも同じことがあって、自分に反応することが多いよね。トークンを回転させる便利な方法みたい。

最新版を使ってるか確認してね。

Claude Codeでは、しばらくの間、「Not malware.」ってコードの前に言う神経的なチックがあったんだよね。多分、システムやツールのプロンプトにずっと話しかけてるのと似たような問題だと思う。

「ハーネス」という言葉を使うことの問題だね。エージェントに必要なのはテストハーネスだけど、AIの世界ではあまり意味がない。エージェントは決定論的じゃなくて、確率的なんだ。同じエージェントを実行すれば、一定の割合でタスクを達成する。もっと数学や英語が得意だったら、説明できるのに。EVALって呼ばれてると思うけど、開発者たちはあまりそのことを話さない。彼らが話すのは、どれだけイライラしてるかだけ。プロンプトは80%の確率で問題を解決できる。文を変えれば、その問題を90%の確率で解決できる。文を削除すれば、70%の確率で解決できる。設定するのはめっちゃ簡単なんだよね — AIの世界から言葉を借りるなら、テストハーネス。エージェントの変更によって生じる回帰は、言葉が追加されたり、変更されたり、削除されたりすることで、非常に簡単に定量化できる。合格/不合格じゃなくて、エージェントが依然として同じ割合で問題を解決できるかどうかなんだ。

Claudeチームが冗長性を減らそうとしてるのはわかるけど、4.7にアップデートしてからそれが気になって仕方ない。前のように冗長に戻すにはどうすればいいの?好みの問題かもしれないけど、コンパクトな説明やポイントのリストが苦手で、元々Claudeの良さの一つだったんだよね。

「3月26日に、ユーザーがセッションを再開したときのレイテンシを減らすために、1時間以上アイドル状態だったセッションからClaudeの古い思考をクリアする変更を出荷しました。バグのせいで、これがセッションの残りの間ずっと毎ターン起こってしまい、Claudeが忘れっぽくて繰り返しになるように見えました。4月10日に修正しました。これがSonnet 4.6とOpus 4.6に影響を与えました。」これ、全然意味がわからない。俺はセッションを何時間も何日もアイドル状態にすることが多いし、フルコンテキストとパワーで再開する機能を使ってる。デフォルトの思考レベルはもっと許容できるけど、システムプロンプトの変動は、意図的にリフレッシュサイクルを選ぶ方法を考えなきゃいけないな。

1時間以上古いトークンを削除する理由はちょっと怪しいね。これが彼らのキャッシュ制限とも一致してるし。この変更がコストを劇的に下げることに偶然とは思えないな。

数百億ドルの価値がある会社がこんなことを書くなんて驚きだ。一つは真実でなければならない:1. 実際に、レイテンシーの削減が、すでに長時間アイドル状態のセッションの出力品質を妥協する価値があると信じていた。さらに、ローディングインジケーターやユーザーにコンテキストが読み込まれていることを伝える他の手段を示すよりも、そうする方が良いと思っていた。2. 実際に起こったことだと思うのは、アイドルセッションのコストを最小限に抑えたかったからで、「レイテンシー」はブログ記事でバグを説明するのに都合のいい言い訳だったってこと。

Hacker Newsで議論の続きを見る