クロードオーパス 4.1

概要

Claude Opus 4.1 は、従来のOpus 4から エージェントタスク ・ 実践的なコーディング ・ 推論力 が強化されたバージョン
近日中にさらに大規模なモデル改善を予定
有料Claudeユーザー、 Claude Code、 API、 Amazon Bedrock、 Google Cloud Vertex AI で利用可能
価格はOpus 4と同じ設定

SWE-bench Verifiedで 74.5%のコーディング性能 を記録
詳細追跡 や エージェント型検索 でのリサーチ・データ分析力向上
GitHubによると、 複数ファイルのリファクタリング で特に顕著な性能向上
Rakuten Groupでは、大規模コードベースでの 正確な修正能力 を高評価
- 不要な変更やバグ導入を防止 できる点が日常的なデバッグ作業で支持
Windsurfのジュニア開発者ベンチマークで、 Opus 4から標準偏差1つ分の性能向上
- Sonnet 3.7からSonnet 4へのジャンプと同等の進化

Claudeモデルは ハイブリッド推論モデル
本記事のベンチマークは、 拡張思考の有無 により最高スコアを報告
- 拡張思考なし： SWE-bench Verified、 Terminal-Bench
- 拡張思考あり（最大64Kトークン）： TAU-bench、 GPQA Diamond、 MMMLU、 MMMU、 AIMETAU-bench
TAU-benchでは、 推論力を最大活用する指示 を追加し、問題解決時に思考過程を明示
- モデルの完了回数上限を 30→100 へ拡大（大半は30回未満で完了）
SWE-benchでは、 bashツール と 文字列置換によるファイル編集ツール の2つのみ使用
- Sonnet 3.7で用いた プランニングツール は不使用
- Claude 4系モデルは 全500問 でスコア算出、OpenAIは 477問サブセット で算出