概要
- Claude Code Opus 4.5 のSWEタスク性能劣化を検知するトラッカー
- SWE-Bench-Pro から厳選したベンチマークを毎日実施
- 統計的有意差(p<0.05)で劣化を判定
- CLI上でSOTAモデル を直接評価、カスタムハーネスなし
- パスレート推移・劣化状況を詳細に可視化
Claude Code Opus 4.5 SWEタスク性能監視
- 目的 :SWE(Bench)タスクにおける Claude Code Opus 4.5 のパフォーマンス劣化検知
- データ更新頻度 :毎日
- 厳選された SWE-Bench-Pro サブセットでベンチマーク実施
- 劣化検知方法 :統計的有意差(p<0.05)によるパフォーマンス低下判定
- 評価環境 : Claude Code CLI 上でSOTAモデル(Opus 4.5)を直接利用
- カスタムハーネスや外部ツールの利用なし
- 通知機能 :劣化検知時にメール通知
パフォーマンス指標
- Degradation Status(劣化状況)
- 過去30日間で統計的に有意なパフォーマンス低下を検知
- Baseline Pass Rate(基準パスレート)
- 歴史的平均パスレート: 58%
- 劣化判定の基準値として利用
- Daily Pass Rate(1日パスレート)
- 最新日のベンチマークでのパス率: 50% (50件評価)
- 7-day Pass Rate(7日パスレート)
- 直近7日間の総合パス率: 53% (250件評価)
- 30-day Pass Rate(30日パスレート)
- 直近30日間の総合パス率: 54% (655件評価)
パスレート推移の可視化
- Daily Trend(日次推移)
- 過去30日間のベンチマークパス率をグラフ化
- Baseline :58%の基準パスレート
- Threshold :基準±14.0%の範囲内では統計的有意差なし(p≥0.05)
- 95%信頼区間 :各データポイントの不確実性を表示
- Weekly Trend(週次推移)
- 7日間ローリング平均でパス率の変動を平滑化
- Threshold :基準±5.6%の範囲内では統計的有意差なし
- 日々のノイズを低減し、傾向を把握しやすく
通知・サブスクリプション
- 劣化検知時の通知
- 統計的に有意なパフォーマンス低下を検知次第、登録メールアドレス宛に通知
- サブスクリプション登録後、確認メール送信
まとめ
- Claude Code Opus 4.5 のSWEタスク性能を 定量的・継続的 に監視
- 統計的手法で 信頼性の高い劣化検知 を実現
- 透明性の高い運用 と、即時通知による迅速な対応支援