概要
- Claude Opus 4.1のリリースと主な強化点の紹介
- コーディング性能や推論力の向上
- 主要プラットフォームでの利用可能性
- ベンチマークスコアやユーザーからの評価
- 利用開始方法と評価方法の説明
Claude Opus 4.1のリリースと特徴
- Claude Opus 4.1 は、従来のOpus 4から エージェントタスク ・ 実践的なコーディング ・ 推論力 が強化されたバージョン
- 近日中にさらに大規模なモデル改善を予定
- 有料Claudeユーザー、 Claude Code、 API、 Amazon Bedrock、 Google Cloud Vertex AI で利用可能
- 価格はOpus 4と同じ設定
コーディング性能・推論力の向上
- SWE-bench Verifiedで 74.5%のコーディング性能 を記録
- 詳細追跡 や エージェント型検索 でのリサーチ・データ分析力向上
- GitHubによると、 複数ファイルのリファクタリング で特に顕著な性能向上
- Rakuten Groupでは、大規模コードベースでの 正確な修正能力 を高評価
- 不要な変更やバグ導入を防止 できる点が日常的なデバッグ作業で支持
- Windsurfのジュニア開発者ベンチマークで、 Opus 4から標準偏差1つ分の性能向上
- Sonnet 3.7からSonnet 4へのジャンプと同等の進化
利用開始方法
- すべての用途で Opus 4.1へのアップグレード を推奨
- 開発者はAPIで claude-opus-4-1-20250805 を指定
- システムカード、 モデルページ、 価格ページ、 ドキュメント も参照推奨
ベンチマーク・評価方法
- Claudeモデルは ハイブリッド推論モデル
- 本記事のベンチマークは、 拡張思考の有無 により最高スコアを報告
- 拡張思考なし: SWE-bench Verified、 Terminal-Bench
- 拡張思考あり(最大64Kトークン): TAU-bench、 GPQA Diamond、 MMMLU、 MMMU、 AIMETAU-bench
- TAU-benchでは、 推論力を最大活用する指示 を追加し、問題解決時に思考過程を明示
- モデルの完了回数上限を 30→100 へ拡大(大半は30回未満で完了)
- SWE-benchでは、 bashツール と 文字列置換によるファイル編集ツール の2つのみ使用
- Sonnet 3.7で用いた プランニングツール は不使用
- Claude 4系モデルは 全500問 でスコア算出、OpenAIは 477問サブセット で算出
参考情報・データソース
- OpenAI: o3 launch post、 o3 system card
- Gemini: 2.5 Pro model card
- Claude: Sonnet 3.7 launch post、 Claude 4 launch post