ハクソク

世界を動かす技術を、日本語で。

クロードコードの劣化追跡のための日次ベンチマーク

2026年1月29日原文(marginlab.ai)

概要

Claude Code Opus 4.5 のSWEタスク性能劣化を検知するトラッカー
SWE-Bench-Pro から厳選したベンチマークを毎日実施
統計的有意差(p<0.05)で劣化を判定
CLI上でSOTAモデル を直接評価、カスタムハーネスなし
パスレート推移・劣化状況を詳細に可視化

Claude Code Opus 4.5 SWEタスク性能監視

目的：SWE(Bench)タスクにおける Claude Code Opus 4.5 のパフォーマンス劣化検知
データ更新頻度 ：毎日
- 厳選された SWE-Bench-Pro サブセットでベンチマーク実施
劣化検知方法 ：統計的有意差(p<0.05)によるパフォーマンス低下判定
評価環境 ： Claude Code CLI 上でSOTAモデル(Opus 4.5)を直接利用
- カスタムハーネスや外部ツールの利用なし
通知機能 ：劣化検知時にメール通知

パフォーマンス指標

Degradation Status(劣化状況)
- 過去30日間で統計的に有意なパフォーマンス低下を検知
Baseline Pass Rate(基準パスレート)
- 歴史的平均パスレート： 58%
- 劣化判定の基準値として利用
Daily Pass Rate(1日パスレート)
- 最新日のベンチマークでのパス率： 50% (50件評価)
7-day Pass Rate(7日パスレート)
- 直近7日間の総合パス率： 53% (250件評価)
30-day Pass Rate(30日パスレート)
- 直近30日間の総合パス率： 54% (655件評価)

パスレート推移の可視化

Daily Trend(日次推移)
- 過去30日間のベンチマークパス率をグラフ化
- Baseline ：58%の基準パスレート
- Threshold ：基準±14.0%の範囲内では統計的有意差なし(p≥0.05)
- 95%信頼区間 ：各データポイントの不確実性を表示
Weekly Trend(週次推移)
- 7日間ローリング平均でパス率の変動を平滑化
- Threshold ：基準±5.6%の範囲内では統計的有意差なし
- 日々のノイズを低減し、傾向を把握しやすく

通知・サブスクリプション

劣化検知時の通知
- 統計的に有意なパフォーマンス低下を検知次第、登録メールアドレス宛に通知
- サブスクリプション登録後、確認メール送信

まとめ

Claude Code Opus 4.5 のSWEタスク性能を 定量的・継続的 に監視
統計的手法で 信頼性の高い劣化検知 を実現
透明性の高い運用 と、即時通知による迅速な対応支援

Hackerたちの意見

参考までに、MarginLabのClaudeコード劣化トラッカーによると、過去1ヶ月でSWE-Bench-Proの精度が約4%も統計的に有意に下がってるみたい。

アイデアはすごくいいと思うけど、「±14.0%の有意性閾値」ってここでは意味ないよね。もっと大きな月次スケールをデフォルトにするか、もっとサンプルを集めるべきだと思う。

└

どんな問題があると思うか、詳しく教えてもらえる？多重比較補正の何かを使うべきだと思うけど。

ユーザープロンプトを検索して悪口を探して、敵意の感情を測定すればいいんじゃない？期待に応えられないと、ユーザーの敵意が高まるから。

└

自分だけじゃなくてよかった。

└

まあ、普段からClaudeにはたくさん悪口使ってるから、ちょっと偏ってるかも。

└

それについては申し訳ないけど、時々本当にバカみたいで、笑っちゃうよ xD 俺のせいじゃないし、あいつらが高い基準を設定してるんだよね！

└

自分でやっちゃうことが多くて、そしたらうまくいったって思ってるみたい。

└

もしかして見落としてることがあるかもしれないけど、どうやって「簡単に」Claudeユーザーのプロンプトの内容をスキャンするの？

└

それに、世界的な出来事で人々がストレスを感じたり、期待が時間とともに変わったりすることもあるしね。そんなに簡単じゃないよ ;)

約1週間前に、Claudeが約1時間ダウンした瞬間があったんだ。その後すぐに復旧したけど、明らかに多くの人が諦めて使ってなかった。普段の3倍くらい速かったよ。その次の1時間で、普段の半日分以上のことができた。リソースに制約がなかったら、こういう未来があるかもってちょっと見えた気がする。

└

アメリカの休日の時に、2倍の使用制限を楽しんで、全てがうまくいったって感じがまさにそれだった。

Hacker Newsで議論の続きを見る