世界を動かす技術を、日本語で。

クロードコードの劣化追跡のための日次ベンチマーク

概要

  • Claude Code Opus 4.5 のSWEタスク性能劣化を検知するトラッカー
  • SWE-Bench-Pro から厳選したベンチマークを毎日実施
  • 統計的有意差(p<0.05)で劣化を判定
  • CLI上でSOTAモデル を直接評価、カスタムハーネスなし
  • パスレート推移・劣化状況を詳細に可視化

Claude Code Opus 4.5 SWEタスク性能監視

  • 目的 :SWE(Bench)タスクにおける Claude Code Opus 4.5 のパフォーマンス劣化検知
  • データ更新頻度 :毎日
    • 厳選された SWE-Bench-Pro サブセットでベンチマーク実施
  • 劣化検知方法 :統計的有意差(p<0.05)によるパフォーマンス低下判定
  • 評価環境Claude Code CLI 上でSOTAモデル(Opus 4.5)を直接利用
    • カスタムハーネスや外部ツールの利用なし
  • 通知機能 :劣化検知時にメール通知

パフォーマンス指標

  • Degradation Status(劣化状況)
    • 過去30日間で統計的に有意なパフォーマンス低下を検知
  • Baseline Pass Rate(基準パスレート)
    • 歴史的平均パスレート: 58%
    • 劣化判定の基準値として利用
  • Daily Pass Rate(1日パスレート)
    • 最新日のベンチマークでのパス率: 50% (50件評価)
  • 7-day Pass Rate(7日パスレート)
    • 直近7日間の総合パス率: 53% (250件評価)
  • 30-day Pass Rate(30日パスレート)
    • 直近30日間の総合パス率: 54% (655件評価)

パスレート推移の可視化

  • Daily Trend(日次推移)
    • 過去30日間のベンチマークパス率をグラフ化
    • Baseline :58%の基準パスレート
    • Threshold :基準±14.0%の範囲内では統計的有意差なし(p≥0.05)
    • 95%信頼区間 :各データポイントの不確実性を表示
  • Weekly Trend(週次推移)
    • 7日間ローリング平均でパス率の変動を平滑化
    • Threshold :基準±5.6%の範囲内では統計的有意差なし
    • 日々のノイズを低減し、傾向を把握しやすく

通知・サブスクリプション

  • 劣化検知時の通知
    • 統計的に有意なパフォーマンス低下を検知次第、登録メールアドレス宛に通知
    • サブスクリプション登録後、確認メール送信

まとめ

  • Claude Code Opus 4.5 のSWEタスク性能を 定量的・継続的 に監視
  • 統計的手法で 信頼性の高い劣化検知 を実現
  • 透明性の高い運用 と、即時通知による迅速な対応支援

Hackerたちの意見

参考までに、MarginLabのClaudeコード劣化トラッカーによると、過去1ヶ月でSWE-Bench-Proの精度が約4%も統計的に有意に下がってるみたい。

アイデアはすごくいいと思うけど、「±14.0%の有意性閾値」ってここでは意味ないよね。もっと大きな月次スケールをデフォルトにするか、もっとサンプルを集めるべきだと思う。

どんな問題があると思うか、詳しく教えてもらえる?多重比較補正の何かを使うべきだと思うけど。

ユーザープロンプトを検索して悪口を探して、敵意の感情を測定すればいいんじゃない?期待に応えられないと、ユーザーの敵意が高まるから。

自分だけじゃなくてよかった。

まあ、普段からClaudeにはたくさん悪口使ってるから、ちょっと偏ってるかも。

それについては申し訳ないけど、時々本当にバカみたいで、笑っちゃうよ xD 俺のせいじゃないし、あいつらが高い基準を設定してるんだよね!

自分でやっちゃうことが多くて、そしたらうまくいったって思ってるみたい。

もしかして見落としてることがあるかもしれないけど、どうやって「簡単に」Claudeユーザーのプロンプトの内容をスキャンするの?

それに、世界的な出来事で人々がストレスを感じたり、期待が時間とともに変わったりすることもあるしね。そんなに簡単じゃないよ ;)

約1週間前に、Claudeが約1時間ダウンした瞬間があったんだ。その後すぐに復旧したけど、明らかに多くの人が諦めて使ってなかった。普段の3倍くらい速かったよ。その次の1時間で、普段の半日分以上のことができた。リソースに制約がなかったら、こういう未来があるかもってちょっと見えた気がする。

アメリカの休日の時に、2倍の使用制限を楽しんで、全てがうまくいったって感じがまさにそれだった。

もし彼らがそんなに速くなったら、ちょっと後悔するかも。今はモデルが頑張ってくれてるのをじっくり楽しめるから。

彼らが徐々にモデルを量子化し始めても驚かないな。スケールしやすくて運用コストを下げるのに役立つし、新しいリリースが過去数日間使ってたものよりも「明らかに良い」って印象を与えるから、影響力も増すよね。

ARG AGIみたいなベンチマークは、価格相関がすごくて、実行するのも安いよ。モデルが劣化してることを証明するのは簡単だと思う。

うーん、確かにそんなことをやりそうだよね。新しいモデルがあまり最適化されてない状態で登場したら、古いモデルに同じ結果を出させるのがプレッシャーになるのも理解できる。便利な二重効果のための言い訳ができるね。

これ、確かにそう感じる。彼らはやってないって言ってるけど、毎日5〜10時間使ってると、何かが変わったのに気づくよ。この1週間は前よりもずっとバカになった気がする。

正直驚くかも。アンソロピックは他の分野でインフラコストに制約されてるようには見えないし、似たような製品を持つ1、2社との厳しい競争の中で、製品を明らかに劣化させるのは良いスタートとは思えない。人々はこれらのモデルを使えば使うほど欠点に気づくと思う。いわゆる「ハネムーン・ハングオーバー効果」、これは様々な現実の状況で示されている本当のパターンだよ。

[SWE-benchの共著者です] このテストは50のタスクのサブセットで実行されていて、1日に1回しかテストを実行しないみたい。だから、精度の変動はそれに起因することが多いと思う。俺だったら300のタスクでテストスイートを1日に5回か10回実行して、そのスコアを平均するかな。スコアのばらつきは、Anthropicのサーバーが過負荷になってるとか、ランダムな要因から来ることが多いよ。

関係ない質問でごめんね: そのSWE-benchの実行にどうやってお金を払ってるの? ベンチマークを実行しようとしてるけど、公平な比較をするために十分な回数を実行するのが高すぎるんだ。 https://mafia-arena.com

同意、これを1日に何回も実行したら、もっと有用なベンチマークになると思う。負荷パターンに沿った劣化が明らかになるかもしれない。

サーバーがオーバーロードされることでの劣化は、これが測定すべき劣化のタイプじゃない? それとも、彼らが静かにモデルを蒸留してるのを測るためだけなのかな(それはやってないって言ってるけど、確かではない)。

時間が経ってもまだ関連性があるね。

「スコアの変動は、Anthropicのサーバーがオーバーロードされるようなランダムな要素からも来る」ああ、つまりモデルは負荷がかかると劣化するんだね。

一日の中での劣化は、毎日同じ時間よりももっと顕著かもしれないね。

スコアのばらつきは、アンソロピックのサーバーが過負荷になってるとか、ランダムな要素から来ることが多いよね。サーバーの負荷によって結果の精度が変わるってこと?

え、何それ?「サーバーが過負荷の時は、私のクラウドサービスのパフォーマンスを正しく測れない」って?「ああ、毎日悪いタイミングで測っただけだよ。たった50の異なるクエリで。」ってことは、どういうこと?クロードがもっと良いコードを書くためには、特定の時間を選ばなきゃいけないの?クロードコードにはオフィスアワーがあるってこと?

なんでAnthropicが悪いモデルを提供してるとは思わないかっていうと: 1. パーセンテージの減少が低すぎて、上下に揺れてるから。 2. Sonnet 4.5のベースライン(次のトレーニングでGPUが忙しい時の明らかな選択肢)を確立して、OpusがいつかSonnetレベルに達するかを見るべきだと思う。これが行われてないけど、特定の日や期間に急激な減少が見られるはずだよ。グラフは「矩形波」の形状に支配されるだろうね。 3. この揺れにはもっと良い説明がある: A) 複数のチェックポイントがあってA/Bテストをしている、CCがセッションについてフィードバックを求めてくる。B) Claude Code自体が更新されてるから、エージェントが使えるツールのバージョンが変わる。部分的には、トークンのサンプリングによる自然な変動があるから、実行が等価でなくなることがある(時にはT=0と比べて最適でない決定をすることもある)。でも、これが変動性を持たせるための代償なんだ。

  1. グラフは1月8日から始まってるね。なんで1月8日なの? あれが異常に高かったポイントだったのかな? 確か、Opus 4.5は11月の終わりにリリースされたはず。
  1. パーセンテージの減少が低すぎて、上下に揺れ動いてる。どうやって「低すぎる」を定義するの?彼らは測定の統計的有意性についてちゃんと伝えてるのに、個人の感覚で「低すぎる」って言われても意味ないじゃん…

科学は信じてるけど、毎日使ってて、明らかに悪化してるよ。

この戦略は、TikTokの新しいアップローダーを引き留めるアプローチにインスパイアされてるみたい。TikTokは、新しいアップローダーに最初の数回のアップロードで視認性を高める(つまり、いいねやコメントの数を水増しする)ことで、サービスにハマらせてたんだ。アンソロピック/クロードの場合は、新しいユーザーがサインアップ時にプレミアムモデルにアクセスできるようにして、その後は安いモデルの出力で製品をどんどん薄めていく戦略らしい。

「思考力」に関する透明性の欠如は、LLMプロバイダーに対する私の大きな不満の一つなんだ。特にChatGPTみたいなのは最悪。例えば、45,000トークンを超えると、ChatGPT 5.2 Thinking Extendedは知能をガクッと下げちゃって、基本的な指示も理解できなくなるんだよね(それか、入力を切り詰めて指示を失うこともある)。こんな素晴らしいツールに対して信頼を失うのは本当に辛い。バックオフさせられたり、はっきり「ダメ」って言われる方が100倍マシだよ。透明性ってめっちゃ大事だよね。

これってClaudeのサブスクリプションかキーを使ってるの?それとも、その日は他に何か使ったアカウントなのかな?数日前にHNで、Claudeが一日中バカになるっていう投稿があったよね。