世界を動かす技術を、日本語で。

クロード・ソネット 4.5

概要

  • Claude Sonnet 4.5は、現時点で最高峰のコーディングAIモデル
  • 複雑なエージェント構築やPC操作、推論・数学で大幅な性能向上を実現
  • 新機能・製品アップデート(チェックポイント、VS Code拡張、API強化など)を同時リリース
  • Claude Agent SDKを一般公開し、独自エージェント開発も可能に
  • 安全性・アライメントも従来比で大幅強化

Claude Sonnet 4.5:最強のコーディングモデル

  • Claude Sonnet 4.5 は、世界最高水準のコーディングAIモデル
  • 複雑なエージェント構築 や高度なPC操作能力
  • 推論力・数学力 で大幅な性能向上
  • SWE-bench Verified評価で 実用的なコーディング能力 を証明
  • OSWorldベンチマーク で現実的なPC作業能力をリード(61.4%達成)

新機能・アップデート内容

  • Claude Code にチェックポイント機能追加、進捗保存・即時ロールバックが可能
  • ターミナルUI刷新VS Codeネイティブ拡張 リリース
  • Claude API にコンテキスト編集・メモリツール追加、より長時間・高難度タスクに対応
  • Claudeアプリ でコード実行・ファイル作成(スプレッドシート、スライド、ドキュメント)が会話内で可能
  • Claude for Chrome拡張 をMaxユーザーに公開

Claude Agent SDKの一般公開

  • Claude Code 開発基盤を一般開放、 Claude Agent SDK として提供
  • 長期タスクのメモリ管理権限システムサブエージェント協調 などの課題を解決
  • コーディング以外にも幅広いエージェント開発が可能
  • 自社課題に最適なAIエージェント開発基盤

利用可能性と価格

  • Claude Sonnet 4.5 は全世界で即日利用可能
  • 開発者は Claude APIclaude-sonnet-4-5を指定するだけ
  • 価格は従来のSonnet 4と同一($3/$15/100万トークン)

実利用例・顧客評価

  • GitHub CopilotCursor などの開発支援ツールで大幅な性能向上
  • セキュリティエージェント で検知速度44%短縮・精度25%向上
  • 法務分野 で複雑な訴訟分析や判決草案作成に活用
  • Canva、Figma などの大規模サービスで長時間・大規模開発を効率化
  • Devin などのAIエージェントで計画性能18%・E2Eスコア12%向上

安全性・アライメントの強化

  • AI Safety Level 3(ASL-3) 基準でリリース
  • 有害入力・出力検知フィルタ (CBRN関連など)を搭載
  • 誤検知率を従来比10分の1、Opus 4比2分の1に削減
  • システムカード で詳細な安全性評価・アライメント検証を公開

研究プレビュー:「Imagine with Claude」

  • Claude Sonnet 4.5 によるリアルタイムソフトウェア生成デモ
  • 事前コードなし、全てその場で生成・応答
  • Maxプラン加入者限定 で5日間体験可能(claude.ai/imagine)

技術情報・参考資料

  • Claude Sonnet 4.5 は全用途で推奨、既存アプリやAPIから即利用可能
  • Claude Code アップデートは全ユーザー対象
  • Agent SDK は全開発者利用可能
  • コード実行・ファイル作成 は有料プランで提供
  • 詳細は システムカード、モデルページ、ドキュメント 参照

評価手法・ベンチマーク

  • SWE-bench Verified :bash・ファイル編集ツールで77.2%(10回平均、200K予算)
    • 1Mコンテキスト設定では78.2%、高計算時は82.0%
  • Terminal-Bench :Terminus 2エージェントフレームワーク利用
  • τ2-bench :ツール利用・失敗回避指示付きプロンプトで評価

まとめ

  • Claude Sonnet 4.5 はコーディング、PC操作、推論、安全性で現時点最高性能
  • エージェント開発基盤新機能 を一般公開し、開発者・企業の生産性を飛躍的に向上
  • 安全性・アライメント も最先端、安心して導入可能
  • 今すぐClaude Sonnet 4.5へのアップグレードを推奨

Hackerたちの意見

ここにあるチャートを見ると、Sonnet 4はすでにSWEの検証ベンチマークでGPT-5-codexよりも良かったみたい。でも、個人的な体験としては、GPT-5-codexは複雑な問題に関してはClaude Codeよりもずっと優れていたな。

Anthropicのモデルは、バイブコーディングで調整されてるんだよね。シンプルなPythonやTypeScriptのプログラムには強いけど、科学的な難しいコードや大規模なコードベースには明らかに弱い。新しいSonnetでもそれが変わるとは思えないな。

ChatGPT5とChatGPT5-Codex、どう感じてる?

逆だな…5-codexはすぐにトークンが尽きちゃって、ClaudeがClaude.mdに従ったのに対して、あまりうまくいかなかった。多分、単純なコマンドを実行するのに、すごく複雑なbashスクリプトや全体のPythonプログラムを書くことにこだわるからだと思う。

テストを始めてまだ1週間だけど、今のところcodexは遅いし、CLIはClaude Codeよりもひどい。Claudeに戻るつもりだよ。

私の主観的な体験はあなたとは正反対で、GPT-5-codexはすごく遅いし、結果もせいぜい普通だよ。もしGPT-5-codexを使わざるを得なくなったら、AIをコーディングに使うのをやめるかも。

どのモデルがどれだけパフォーマンスが安定しているのか、いつも気になるんだよね。Claude-Opusを頼むと、他のアシスタントの最低モデルよりも悪い返答が返ってくることもあるし、逆に驚くほど良い時もある。パフォーマンスの変動の中で、「このセッションのClaudeは1から5でどう?5が最高。」っていうアンケートが出てくることもあって、低パフォーマンスの実験に参加してる気がする。平日のピーク時間はひどくて、週末の変な時間はすごく良いって感じることが多い。非決定論的な部分はあるけど、パフォーマンスがかなり変動するように感じる。利用状況によってスケールアップやダウンするのは理にかなってるよね?先週、Anthropicが8月の一部でのモデルのひどいパフォーマンスを認める投稿をしてたけど、もしかしたらピーク時間にはGPTがデータセンターのキャパシティが多くて、あまり劣化しないのかも?確実なことはわからないけど、簡単なリクエストが失敗して、複雑なリクエストが成功する理由がはっきりしないのはイライラするよ。

Unityのゲーム開発のコードレビューでは、GPT-5のコードが断然良かった。Claudeはコード変更のためにいくつかの悪い提案をしてきたし、完了率の不正確な式も教えてきた。

GPT-5って、ホームランを打つのが得意だけど、外野で基本的なことができない野球チームの選手みたいだね。それに、他のエージェントとトラブルになることも多い。例えば、最近、変更を実行するためにClaudeのコードに切り替えるって言ったら、Claudeの合理的で冷静な分析を悪く言った後に、git reset --hardを決めちゃった。二度もそのアイデアには反対したのにね。一方で、GeminiとClaudeは素晴らしいコラボレーターだよ。GPT-5を使うことに決めた時は、他のエージェントを「別のエージェント」と呼ぶようにしてる。でも正直、全体的に不安を感じてる。はっきり言うと、これはGPT-5に意図的に組み込まれているとは思わない。OpenAIのリーダーシップが良いエネルギーを無駄にして、今は後れを取っているだけだと思う。優秀な人材は士気を失ったか、去ってしまったんじゃないかな。

どれくらい早期アクセスを持ってるの?

GPT-5のCodexはすごいね、他のモデルよりもコード実装で圧倒的に進んでる。

同じ価格で、72.7から77.2への4.5bpのジャンプ。約4ヶ月でかなりの進展だね。

AIME(数学)で満点を取るのはすごくクールだね。皮肉を込めて言うと、ここから線形に進んでいけば、SWEベンチで定義されるソフトウェアエンジニアリングは23ヶ月で解決されるってことになるね。

nit: ベーシスポイントのことを言ってるなら、1ベーシスポイントは0.01%だよ。4.5bpは72.7%から72.71%になる。これは450bpだね!

ベンチマークが早く改善されて、発表後の数週間でモデルをモニタリングできるようになるといいな。なんか、これらの企業は新しい「強化された」モデルを出して、徐々に最適化で知能を下げていく感じがする。もし、1週目と8週目のタスクパフォーマンスをベンチマークで見られたら、ここでのループについてもっと理解できると思う。真の進展がない環境では、企業はこの戦略で「進展」を見せられるだろうね。

LLMのパーソナリティの微調整にはいつも興味をそそられる。これで「あなたは絶対に正しい」という反射的な返答が少なくなるかも?もしかしたら、エモいClaudeの時代に突入するのかも。システムカードによると、25万回の実際の会話の中で、Claude Sonnet 4.5はClaude 4の半分の頻度で幸せを表現したけど、苦痛は変わらなかったみたい。

個人的には「あなたは絶対に正しい!」っていう感嘆符が好きだな。それが、俺のフィードバックに対する共感を一貫して示してくれるから。

これをSonnet 4とOpus 4.1に頼んだ簡単な変更で試してみたけど、やっぱり失敗した。Lintエラーを提供して正しい変更を提案するだけの簡単な置き換えリクエストなんだけど、全モデルがダメだった。開発経験のない人にこの変更を頼んでもできると思う。みんながベンチマークを追いかけすぎて、一般的なパフォーマンスが損なわれてるんじゃないかと心配だ。もしくは、間違った変更のための次のトークンの重みが、私のシンプルだけど正確な指示を上回ってしまうのかも。どちらにしても良くないね。追記:フォローアップで「お願いだから私が頼んだことをやって」みたいなプロンプトを出したら、ちゃんとできたけど、Opusはずっとループしてる。まあ、それはそれで。

みんながベンチマークを追い求めて、全体的なパフォーマンスに悪影響を与えてるんじゃないかって心配してる。これについてはしばらく気になってるんだ。特に、3.7から4に切り替えたときに、個人的なパフォーマンス評価が後退した気がする。ベンチマークスコアは大幅に上がったけどね。正直、ベンチマークはこの分野で解決が最も難しい問題だから、モデルやトレーニングの開発に追いついてないのは驚くことじゃないよね。

ベンチマークを回してる感じだね… 新しいモデルを最大パワーでリリースして、ベンチマークの栄光を手に入れて、その後数週間でモデルの能力を静かに下げて、また新しい賢いモデルをリリースするっていう。

みんな、実際の作業に基づいたサポートや批判のコメントをする時は、タスクやプロンプトの具体的な内容も含めてね。実際のプロンプト、実際のバグ、実際の機能とか。私はChatGPTとClaudeで何年も素晴らしい成果を上げてきて、プロの仕事での持続的な出力が約3倍増えたし、以前は全然終わらなかった新しいサイドプロジェクトや機能を始めたり終わらせたりしてる。でも、ひどい結果になるタスクもあるんだ。良い経験があるから、どうやって回避するか、いつ諦めるか、いつ次に進むかが分かるけど、Claudeができないことにはまだ驚くよ。例えば、Claudeのコードは最新のSwiftUIを使ってiOSアプリの3つの画面をつなげることができなかった(私はiOS開発者じゃないけど)。個人的には、たまに使う人や控えめに使う人には、プロジェクトやプロンプトによっては素晴らしいか無価値に思えるだろうね。詳細を共有してくれると、意味のある会話にとても役立つよ!

3倍の持続的な出力増加はどうやって測るの?行数?クローズしたチケット数?オープンまたはマージされたPRの数?満足してる顧客の数?

最近のHNはネガティブで皮肉な場所になってて、もう価値がないよね。もう一度AIに対する反対意見を聞く忍耐力がないし、AIに反対する人がその出力を細かく批判するのも嫌だ。私もあなたと同じように、AIが仕事に大きな助けになってると思ってるし、オープンマインドでアプローチできない人たちに勝ち続けるのが嬉しいよ。

例えば、Claudeは最新のSwiftUIを使ってiOSアプリの3つの画面をうまくつなげられなかったみたいだね。それって…あんまり驚くことじゃないかな?SwiftUIは頻繁に変わるし、知識のカットオフもすべてのユースケースをカバーするほど早く進まないからね。俺はClaudeを使ってGTKインターフェースを書くんだけど、これは更新のペースがずっと遅いUIライブラリなんだ。LLMは、大きな慣用的な変更がない標準的なライブラリと相性がいいみたいだね。

実際に3倍の出力増加を見ている具体例を教えてもらえる?

面白いね、新しい2.0.0のClaudeコードでは「Opusで計画してからSonnetに切り替える」機能がなくなったんだ。SonnetがOpusと同じくらい良いならいいけど、私はOpusでの計画が好きだったからちょっと残念。必ずしも「良い」とは言えないけど、私の経験ではもっと予測可能だったんだ。それに、マックス$200のユーザーとしては、SonnetがOpusより良いって言ってるから、今はマックス$100の方が好ましい気がする。Opus 4.5がすぐに出ることを願ってる。そうじゃなきゃ、来月にはダウングレードするつもり。

Claudeを試してみないといけないな、まだやってないんだ。AIは色々なことに使ってるけど、政治的なトピックの投稿の校正にも使ってる。ChatGPTがフリーズして拒否する状況に遭遇したこともあるよ。例えば、オーストリアでの12歳の少女に関する最近のレイプ事件について話すとき。おそらく、そのガードレールが「性 + 子供」を検知して、実際の文脈や内容に関係なく「ノー」と言ってるんだろうね。それは受け入れられないよ。敏感なトピックについて書くのを拒否するワードプロセッサみたいなもんだ。ツールなんだから、そんな選択をする権利はないよ。

これがVSCodeのGitHub Copilotでいつ使えるようになるのか、気になるな。