クロード・ソネット 4.5

2025年9月30日原文(anthropic.com)

概要

Claude Sonnet 4.5は、現時点で最高峰のコーディングAIモデル
複雑なエージェント構築やPC操作、推論・数学で大幅な性能向上を実現
新機能・製品アップデート（チェックポイント、VS Code拡張、API強化など）を同時リリース
Claude Agent SDKを一般公開し、独自エージェント開発も可能に
安全性・アライメントも従来比で大幅強化

Claude Sonnet 4.5：最強のコーディングモデル

Claude Sonnet 4.5 は、世界最高水準のコーディングAIモデル
複雑なエージェント構築 や高度なPC操作能力
推論力・数学力 で大幅な性能向上
SWE-bench Verified評価で 実用的なコーディング能力 を証明
OSWorldベンチマーク で現実的なPC作業能力をリード（61.4%達成）

新機能・アップデート内容

Claude Code にチェックポイント機能追加、進捗保存・即時ロールバックが可能
ターミナルUI刷新 と VS Codeネイティブ拡張 リリース
Claude API にコンテキスト編集・メモリツール追加、より長時間・高難度タスクに対応
Claudeアプリ でコード実行・ファイル作成（スプレッドシート、スライド、ドキュメント）が会話内で可能
Claude for Chrome拡張 をMaxユーザーに公開

Claude Agent SDKの一般公開

Claude Code 開発基盤を一般開放、 Claude Agent SDK として提供
長期タスクのメモリ管理 や 権限システム、 サブエージェント協調 などの課題を解決
コーディング以外にも幅広いエージェント開発が可能
自社課題に最適なAIエージェント開発基盤

利用可能性と価格

Claude Sonnet 4.5 は全世界で即日利用可能
開発者は Claude API でclaude-sonnet-4-5を指定するだけ
価格は従来のSonnet 4と同一（$3/$15/100万トークン）

実利用例・顧客評価

GitHub Copilot や Cursor などの開発支援ツールで大幅な性能向上
セキュリティエージェント で検知速度44%短縮・精度25%向上
法務分野 で複雑な訴訟分析や判決草案作成に活用
Canva、Figma などの大規模サービスで長時間・大規模開発を効率化
Devin などのAIエージェントで計画性能18%・E2Eスコア12%向上

安全性・アライメントの強化

AI Safety Level 3（ASL-3） 基準でリリース
有害入力・出力検知フィルタ （CBRN関連など）を搭載
誤検知率を従来比10分の1、Opus 4比2分の1に削減
システムカード で詳細な安全性評価・アライメント検証を公開

研究プレビュー：「Imagine with Claude」

Claude Sonnet 4.5 によるリアルタイムソフトウェア生成デモ
事前コードなし、全てその場で生成・応答
Maxプラン加入者限定 で5日間体験可能（claude.ai/imagine）

技術情報・参考資料

Claude Sonnet 4.5 は全用途で推奨、既存アプリやAPIから即利用可能
Claude Code アップデートは全ユーザー対象
Agent SDK は全開発者利用可能
コード実行・ファイル作成 は有料プランで提供
詳細は システムカード、モデルページ、ドキュメント 参照

評価手法・ベンチマーク

SWE-bench Verified ：bash・ファイル編集ツールで77.2%（10回平均、200K予算）
- 1Mコンテキスト設定では78.2%、高計算時は82.0%
Terminal-Bench ：Terminus 2エージェントフレームワーク利用
τ2-bench ：ツール利用・失敗回避指示付きプロンプトで評価

まとめ

Claude Sonnet 4.5 はコーディング、PC操作、推論、安全性で現時点最高性能
エージェント開発基盤 や 新機能 を一般公開し、開発者・企業の生産性を飛躍的に向上
安全性・アライメント も最先端、安心して導入可能
今すぐClaude Sonnet 4.5へのアップグレードを推奨

Hackerたちの意見

ここにあるチャートを見ると、Sonnet 4はすでにSWEの検証ベンチマークでGPT-5-codexよりも良かったみたい。でも、個人的な体験としては、GPT-5-codexは複雑な問題に関してはClaude Codeよりもずっと優れていたな。

└

Anthropicのモデルは、バイブコーディングで調整されてるんだよね。シンプルなPythonやTypeScriptのプログラムには強いけど、科学的な難しいコードや大規模なコードベースには明らかに弱い。新しいSonnetでもそれが変わるとは思えないな。

└

ChatGPT5とChatGPT5-Codex、どう感じてる？

└

逆だな…5-codexはすぐにトークンが尽きちゃって、ClaudeがClaude.mdに従ったのに対して、あまりうまくいかなかった。多分、単純なコマンドを実行するのに、すごく複雑なbashスクリプトや全体のPythonプログラムを書くことにこだわるからだと思う。

└

テストを始めてまだ1週間だけど、今のところcodexは遅いし、CLIはClaude Codeよりもひどい。Claudeに戻るつもりだよ。

└

私の主観的な体験はあなたとは正反対で、GPT-5-codexはすごく遅いし、結果もせいぜい普通だよ。もしGPT-5-codexを使わざるを得なくなったら、AIをコーディングに使うのをやめるかも。

└

どのモデルがどれだけパフォーマンスが安定しているのか、いつも気になるんだよね。Claude-Opusを頼むと、他のアシスタントの最低モデルよりも悪い返答が返ってくることもあるし、逆に驚くほど良い時もある。パフォーマンスの変動の中で、「このセッションのClaudeは1から5でどう？5が最高。」っていうアンケートが出てくることもあって、低パフォーマンスの実験に参加してる気がする。平日のピーク時間はひどくて、週末の変な時間はすごく良いって感じることが多い。非決定論的な部分はあるけど、パフォーマンスがかなり変動するように感じる。利用状況によってスケールアップやダウンするのは理にかなってるよね？先週、Anthropicが8月の一部でのモデルのひどいパフォーマンスを認める投稿をしてたけど、もしかしたらピーク時間にはGPTがデータセンターのキャパシティが多くて、あまり劣化しないのかも？確実なことはわからないけど、簡単なリクエストが失敗して、複雑なリクエストが成功する理由がはっきりしないのはイライラするよ。

└

Unityのゲーム開発のコードレビューでは、GPT-5のコードが断然良かった。Claudeはコード変更のためにいくつかの悪い提案をしてきたし、完了率の不正確な式も教えてきた。

└

GPT-5って、ホームランを打つのが得意だけど、外野で基本的なことができない野球チームの選手みたいだね。それに、他のエージェントとトラブルになることも多い。例えば、最近、変更を実行するためにClaudeのコードに切り替えるって言ったら、Claudeの合理的で冷静な分析を悪く言った後に、git reset --hardを決めちゃった。二度もそのアイデアには反対したのにね。一方で、GeminiとClaudeは素晴らしいコラボレーターだよ。GPT-5を使うことに決めた時は、他のエージェントを「別のエージェント」と呼ぶようにしてる。でも正直、全体的に不安を感じてる。はっきり言うと、これはGPT-5に意図的に組み込まれているとは思わない。OpenAIのリーダーシップが良いエネルギーを無駄にして、今は後れを取っているだけだと思う。優秀な人材は士気を失ったか、去ってしまったんじゃないかな。

└

どれくらい早期アクセスを持ってるの？

└

GPT-5のCodexはすごいね、他のモデルよりもコード実装で圧倒的に進んでる。

同じ価格で、72.7から77.2への4.5bpのジャンプ。約4ヶ月でかなりの進展だね。

Hacker Newsで議論の続きを見る

ハクソク