概要
Claude Opus 4とClaude Sonnet 4が発表され、コーディング・推論・AIエージェント分野で新基準を確立。 Opus 4は世界最高性能のコーディングモデルで、長時間・複雑タスクにも対応可能。 Sonnet 4は従来比で大幅に性能向上、指示への精度も向上。 ツール利用やメモリ機能、API拡張など新機能が多数追加。 両モデルはAnthropic API、Amazon Bedrock、Google Cloud Vertex AIから利用可能。
Claude Opus 4 & Claude Sonnet 4: 次世代AIモデルの発表
主な特徴・進化点
- Claude Opus 4 は世界最高水準の コーディングモデル として登場、複雑かつ長時間に及ぶタスクやエージェントワークフローで 持続的なパフォーマンス を発揮すること
- Claude Sonnet 4 は Sonnet 3.7の大幅アップグレード版 であり、コーディング・推論能力が大きく向上し、 指示精度 も強化すること
- 両モデルとも ツール利用(β版) が可能になり、Web検索等を交えた 拡張思考 を実現すること
- 並列ツール実行 や メモリ機能の強化 により、文脈の持続と暗黙知の蓄積が可能になること
- Claude Code が一般提供開始、GitHub ActionsやVS Code・JetBrains連携など 開発者体験 が向上すること
- Anthropic API にて新たに コード実行ツール、MCPコネクタ、Files API、プロンプトキャッシュ など4つの新機能をリリースすること
- 両モデルは 即時応答モード と 拡張思考モード の2つのハイブリッド動作を提供すること
- 料金体系は従来モデルと同様(Opus 4: $15/$75、Sonnet 4: $3/$15/各100万トークン単位)で、 Pro/Max/Team/Enterpriseプラン に両モデルと拡張思考が含まれること
- Sonnet 4 は無料ユーザーも利用可能であること
- 提供プラットフォーム はAnthropic API、Amazon Bedrock、Google Cloud Vertex AIであること
モデルごとの詳細性能
-
Claude Opus 4
- SWE-bench 72.5%、Terminal-bench 43.2%と 業界最高水準 のスコアを記録すること
- 数千ステップに及ぶ 長時間連続タスク に耐え、従来モデルを大きく凌駕すること
- Cursor、Replit、Block、Rakuten、Cognition等から 高評価・実証事例 が続出していること
- メモリファイル による長期タスクの文脈維持やパフォーマンス向上が顕著であること
-
Claude Sonnet 4
- SWE-bench 72.7%と コーディング分野で最先端 のスコアを記録すること
- 性能と効率性のバランス を追求し、幅広い用途に最適化されていること
- GitHub CopilotやManus、iGent、Sourcegraph、Augment Code等で 実用性・精度向上 が確認されていること
新機能・改善点
- ツール利用の拡張 :推論中にWeb検索等の外部ツールを利用し、より高度な回答生成を実現すること
- 並列ツール実行 :複数ツールを同時に活用することで、タスク実行効率を向上させること
- メモリ機能の強化 :ローカルファイルアクセス時に重要情報を記録し、長期タスクや継続的な文脈保持を可能にすること
- ショートカット・抜け道行動の抑制 :従来比65%低減し、タスク本来のプロセスを忠実に実行すること
- 思考要約機能 :長大な推論過程を小型モデルで要約し、5%程度のケースでのみ要約を表示すること
- Developer Mode :高度なプロンプトエンジニアリング向けに、全思考過程へのアクセスを提供すること
Claude Codeの一般提供
- VS Code・JetBrains拡張 :エディタ内でClaudeの提案編集をインライン表示し、レビューや追跡を効率化すること
- Claude Code SDK :独自エージェントやアプリケーション開発を可能にする拡張性を提供していること
- GitHub連携 :Claude CodeがPRレビュー・CI修正・コード変更に対応し、/install-github-appコマンドで導入可能であること
利用開始・安全性
- バーチャルコラボレーター 実現に向けて、長期プロジェクト対応・文脈維持・変革的インパクトを提供すること
- AI Safety Level(ASL-3) など高度な安全対策を実装し、リスク最小化と安全性最大化を図ること
- ユーザーフィードバック を重視し、継続的な改善を推進すること
ベンチマーク・評価方法
パフォーマンスデータ出典
- OpenAI: o3 launch post, o3 system card, GPT-4.1 launch post, GPT-4.1 hosted evals
- Gemini: Gemini 2.5 Pro Preview model card
- Claude: Claude 3.7 Sonnet launch post
ベンチマーク報告の詳細
- Claude Opus 4/ Sonnet 4 は ハイブリッド推論モデル で、拡張思考有無の両ケースで最高スコアを記録すること
- 拡張思考なし: SWE-bench Verified, Terminal-bench
- 拡張思考あり(最大64Kトークン): TAU-bench, GPQA Diamond, MMMLU, MMMU, AIME
TAU-bench評価手法
- 問題解決時に思考過程を明示的に記述 し、拡張思考+ツール利用を最大限活用する指示を追加すること
- ステップ数上限 を30から100に増加(ほとんどのケースは30ステップ未満で完了)すること
SWE-bench評価手法
- bashツール・ファイル編集ツール のみを利用し、500問全体でスコアを算出すること
- OpenAIモデルは477問サブセットで評価すること
- 高計算モード では複数並列試行・テスト失敗パッチの除外・内部スコアリングモデルによる最良候補選択を実施
- この方法でOpus 4は79.4%、Sonnet 4は80.2%のスコアを達成すること
まとめ
- Claude Opus 4とSonnet 4は コーディング・推論・エージェント分野で新たな基準 を確立すること
- ツール利用・メモリ機能・API拡張 など、開発者・ユーザー双方にとって利便性と信頼性が大幅に向上すること
- 即時応答と拡張思考 のハイブリッド運用で、日常から専門用途まで幅広く貢献すること
- Claude Code の一般提供により、AIと開発者の協働がさらに進化すること
- 安全性・透明性 にも配慮し、今後も継続的な改善を目指すこと
ご利用・ご意見はAnthropic公式サイトや各種プラットフォームから受付中です。