クロード 4

2025年5月23日原文(anthropic.com)

概要

Claude Opus 4とClaude Sonnet 4が発表され、コーディング・推論・AIエージェント分野で新基準を確立。 Opus 4は世界最高性能のコーディングモデルで、長時間・複雑タスクにも対応可能。 Sonnet 4は従来比で大幅に性能向上、指示への精度も向上。ツール利用やメモリ機能、API拡張など新機能が多数追加。両モデルはAnthropic API、Amazon Bedrock、Google Cloud Vertex AIから利用可能。

Claude Opus 4 & Claude Sonnet 4: 次世代AIモデルの発表

主な特徴・進化点

Claude Opus 4 は世界最高水準の コーディングモデル として登場、複雑かつ長時間に及ぶタスクやエージェントワークフローで 持続的なパフォーマンス を発揮すること
Claude Sonnet 4 は Sonnet 3.7の大幅アップグレード版 であり、コーディング・推論能力が大きく向上し、 指示精度 も強化すること
両モデルとも ツール利用（β版） が可能になり、Web検索等を交えた 拡張思考 を実現すること
並列ツール実行 や メモリ機能の強化 により、文脈の持続と暗黙知の蓄積が可能になること
Claude Code が一般提供開始、GitHub ActionsやVS Code・JetBrains連携など 開発者体験 が向上すること
Anthropic API にて新たに コード実行ツール、MCPコネクタ、Files API、プロンプトキャッシュ など4つの新機能をリリースすること
両モデルは 即時応答モード と 拡張思考モード の2つのハイブリッド動作を提供すること
料金体系は従来モデルと同様（Opus 4: $15/$75、Sonnet 4: $3/$15／各100万トークン単位）で、 Pro/Max/Team/Enterpriseプラン に両モデルと拡張思考が含まれること
Sonnet 4 は無料ユーザーも利用可能であること
提供プラットフォーム はAnthropic API、Amazon Bedrock、Google Cloud Vertex AIであること

モデルごとの詳細性能

Claude Opus 4
- SWE-bench 72.5％、Terminal-bench 43.2％と 業界最高水準 のスコアを記録すること
- 数千ステップに及ぶ 長時間連続タスク に耐え、従来モデルを大きく凌駕すること
- Cursor、Replit、Block、Rakuten、Cognition等から 高評価・実証事例 が続出していること
- メモリファイル による長期タスクの文脈維持やパフォーマンス向上が顕著であること
Claude Sonnet 4
- SWE-bench 72.7％と コーディング分野で最先端 のスコアを記録すること
- 性能と効率性のバランス を追求し、幅広い用途に最適化されていること
- GitHub CopilotやManus、iGent、Sourcegraph、Augment Code等で 実用性・精度向上 が確認されていること

新機能・改善点

ツール利用の拡張 ：推論中にWeb検索等の外部ツールを利用し、より高度な回答生成を実現すること
並列ツール実行 ：複数ツールを同時に活用することで、タスク実行効率を向上させること
メモリ機能の強化 ：ローカルファイルアクセス時に重要情報を記録し、長期タスクや継続的な文脈保持を可能にすること
ショートカット・抜け道行動の抑制 ：従来比65％低減し、タスク本来のプロセスを忠実に実行すること
思考要約機能 ：長大な推論過程を小型モデルで要約し、5％程度のケースでのみ要約を表示すること
Developer Mode ：高度なプロンプトエンジニアリング向けに、全思考過程へのアクセスを提供すること

Claude Codeの一般提供

VS Code・JetBrains拡張 ：エディタ内でClaudeの提案編集をインライン表示し、レビューや追跡を効率化すること
Claude Code SDK ：独自エージェントやアプリケーション開発を可能にする拡張性を提供していること
GitHub連携 ：Claude CodeがPRレビュー・CI修正・コード変更に対応し、/install-github-appコマンドで導入可能であること

利用開始・安全性

バーチャルコラボレーター 実現に向けて、長期プロジェクト対応・文脈維持・変革的インパクトを提供すること
AI Safety Level（ASL-3） など高度な安全対策を実装し、リスク最小化と安全性最大化を図ること
ユーザーフィードバック を重視し、継続的な改善を推進すること

ベンチマーク・評価方法

パフォーマンスデータ出典

OpenAI: o3 launch post, o3 system card, GPT-4.1 launch post, GPT-4.1 hosted evals
Gemini: Gemini 2.5 Pro Preview model card
Claude: Claude 3.7 Sonnet launch post

ベンチマーク報告の詳細

Claude Opus 4/ Sonnet 4 は ハイブリッド推論モデル で、拡張思考有無の両ケースで最高スコアを記録すること
- 拡張思考なし: SWE-bench Verified, Terminal-bench
- 拡張思考あり（最大64Kトークン）: TAU-bench, GPQA Diamond, MMMLU, MMMU, AIME

TAU-bench評価手法

問題解決時に思考過程を明示的に記述 し、拡張思考＋ツール利用を最大限活用する指示を追加すること
ステップ数上限 を30から100に増加（ほとんどのケースは30ステップ未満で完了）すること

SWE-bench評価手法

bashツール・ファイル編集ツール のみを利用し、500問全体でスコアを算出すること
- OpenAIモデルは477問サブセットで評価すること
高計算モード では複数並列試行・テスト失敗パッチの除外・内部スコアリングモデルによる最良候補選択を実施
- この方法でOpus 4は79.4％、Sonnet 4は80.2％のスコアを達成すること

まとめ

Claude Opus 4とSonnet 4は コーディング・推論・エージェント分野で新たな基準 を確立すること
ツール利用・メモリ機能・API拡張 など、開発者・ユーザー双方にとって利便性と信頼性が大幅に向上すること
即時応答と拡張思考 のハイブリッド運用で、日常から専門用途まで幅広く貢献すること
Claude Code の一般提供により、AIと開発者の協働がさらに進化すること
安全性・透明性 にも配慮し、今後も継続的な改善を目指すこと

ご利用・ご意見はAnthropic公式サイトや各種プラットフォームから受付中です。

Hackerたちの意見

「GitHubによると、Claude Sonnet 4はエージェントシナリオで素晴らしい成果を上げていて、GitHub Copilotの新しいコーディングエージェントのベースモデルとして導入されるそうだ。」このモデルが「CoPilotに割り当てる」を、パッケージのアップグレードやその他のほとんど機械的な作業を自動で処理する夢に近づけてくれるかもしれないね。この技術があれば、メンテナンスの負担が軽くなるから、古いプロジェクトが大きく復活するかもしれない。

└

Copilotでの稼働予定についてのニュース見た人いる？

└

これがこのモデルが役に立つかどうかの基準なんだ。今、動かすために大規模なリファクタリングが必要なプロジェクトがあるんだけど、主にパッケージのアップグレードが必要で、書かれたときには存在しなかった新しい言語のセマンティクスにコードを更新する必要もある。今のところ、現在のAIモデルではこのタスクにほとんど進展がないんだ。できるようになるまで頑張り続けるよ！

└

そうかもしれないね！でも、それって前のモデルについてもみんなが言ってたことだよね！

└

手頃なコーディングエージェントがオープンソースに何ができるのか、めちゃくちゃ楽しみだよ :) 実際、CheepCode[0]のクレジットをオープンソースプロジェクトに配布すべきだと思ってる。正式な構造が整うまで、もしこのコメントを見て無料のコーディングエージェントの実行が欲しいなら、メールしてくれればセットアップするよ！[0] 私のヘッドレスコーディングエージェントの製品で、「コパイロットに割り当てる」みたいな感じだけど、タスクボード（Linear、Jiraなど）から複数のタスクを並行して処理するんだ。今のところ、シンプルなルーチン機能はすでにかなり成功してるよ。一般的に、テストが良ければ良いほど、結果として得られるコードも良くなる（そう、ちゃんと自分でテストを書くこともできるし、実際に書いてる）。

└

重大な脆弱性を引き起こして、大きなサービスをダウンさせるまでだね。

└

パッケージのアップグレードやその他のほとんど機械的なことを自動で処理するそれらはもうほとんどボットによって解決されてるから、問題じゃないよね。AIがここで役立つと思うのは、変更点やコンフリクト、コードベースへの影響をまとめたり、セキュリティスキャンを実施したりすることだね。

高度なプロンプトエンジニアリングのために生の思考の連鎖が必要なユーザーは営業に連絡してくださいどうやら、すべてのLLMプロバイダーがCoTを隠すようになったみたいで、残念だね。これがあれば、間違った方向に進むときに気づけたし、プロンプトをすぐに修正してそれを防げたから。openAIに加えて、Googleも最近CoTを要約し始めて、私の意見では、かなり単純化された要約に置き換えたよ。

└

またDeepSeekがみんなを蹴散らすのを待つしかないね。

└

確か、RLHFは危険な応答をしないようにモデルを訓練するために、モデルの精度を妥協させることになるんだよね。思考の流れに使われるモデルが、エンドユーザーとやり取りするために使われるモデルとは異なる方法で訓練されていると考えるのは理にかなってるかも（もしかしたらMoEの別の専門家が関わってるのかも？）。エンドユーザーは結局、公開モデルを通してフィルタリングされた出力しか見ないから、思考の流れモデルは元の、よりRLHF前のバージョンに近くできるし、会社の評判を危険にさらすこともない。これで、実際の危害を防ぐために必要なフィルタリングを維持しつつ、元のモデルのフルパフォーマンスを引き出せるってわけだね（ひどいPR災害を防ぐためにも）。

└

理由を別のモデルに分けるのが簡単すぎる気がする。でも、o3がその過程での有用なことを示しているように感じる。

└

アルケミーだから、みんな鉛を金に変える方法を持ってるって信じてるんだよね。

Hacker Newsで議論の続きを見る

ハクソク