世界を動かす技術を、日本語で。

クロード オーパス 4.1

概要

  • Claude Opus 4.1のリリースと主な強化点の紹介
  • コーディング性能や推論力の向上
  • 主要プラットフォームでの利用可能性
  • ベンチマークスコアやユーザーからの評価
  • 利用開始方法と評価方法の説明

Claude Opus 4.1のリリースと特徴

  • Claude Opus 4.1 は、従来のOpus 4から エージェントタスク実践的なコーディング推論力 が強化されたバージョン
  • 近日中にさらに大規模なモデル改善を予定
  • 有料ClaudeユーザーClaude CodeAPIAmazon BedrockGoogle Cloud Vertex AI で利用可能
  • 価格はOpus 4と同じ設定

コーディング性能・推論力の向上

  • SWE-bench Verifiedで 74.5%のコーディング性能 を記録
  • 詳細追跡エージェント型検索 でのリサーチ・データ分析力向上
  • GitHubによると、 複数ファイルのリファクタリング で特に顕著な性能向上
  • Rakuten Groupでは、大規模コードベースでの 正確な修正能力 を高評価
    • 不要な変更やバグ導入を防止 できる点が日常的なデバッグ作業で支持
  • Windsurfのジュニア開発者ベンチマークで、 Opus 4から標準偏差1つ分の性能向上
    • Sonnet 3.7からSonnet 4へのジャンプと同等の進化

利用開始方法

  • すべての用途で Opus 4.1へのアップグレード を推奨
  • 開発者はAPIで claude-opus-4-1-20250805 を指定
  • システムカードモデルページ価格ページドキュメント も参照推奨

ベンチマーク・評価方法

  • Claudeモデルは ハイブリッド推論モデル
  • 本記事のベンチマークは、 拡張思考の有無 により最高スコアを報告
    • 拡張思考なし: SWE-bench VerifiedTerminal-Bench
    • 拡張思考あり(最大64Kトークン): TAU-benchGPQA DiamondMMMLUMMMUAIMETAU-bench
  • TAU-benchでは、 推論力を最大活用する指示 を追加し、問題解決時に思考過程を明示
    • モデルの完了回数上限を 30→100 へ拡大(大半は30回未満で完了)
  • SWE-benchでは、 bashツール文字列置換によるファイル編集ツール の2つのみ使用
    • Sonnet 3.7で用いた プランニングツール は不使用
    • Claude 4系モデルは 全500問 でスコア算出、OpenAIは 477問サブセット で算出

参考情報・データソース

  • OpenAI: o3 launch posto3 system card
  • Gemini: 2.5 Pro model card
  • Claude: Sonnet 3.7 launch postClaude 4 launch post

Hackerたちの意見

3つの主要なラボが、数時間のうちに何かをリリースしたね。このアニメのアークはマジでヤバい。

GPT5の噂を考えると、8月はまだ始まったばかりだね。

生きてるって素晴らしい時代だね。

競合他社を待ってから同時に発表して、どちらがベストか市場に決めさせるみたいな感じだね。

でも、これらの新しいモデルがどのように最先端を進化させたかに関する論文は、どれも発表されてないみたいだね。=^(

これは絶対に偶然であって、カルテルじゃないよね。誰も協力してるわけじゃないよね?

一番興味あるのはここだね:> 「今後数週間で、モデルに対してかなり大きな改善をリリースする予定です。」

これでみんながすぐにGPT5に移行しないようにしてるんだね。

oAIのOSSモデルのローンチ中に、ちょっとふざけて発表したね :D

彼らのベンチマークによると、ほとんど改善されてないよ。悪いことじゃないけど、誰も違いに気づくほどじゃないね。

多分ほとんど雰囲気の問題だと思うけど、それでも重要だよね。これ、チャートには入ってないけど > Windsurfによると、Opus 4.1は彼らのジュニアデベロッパーベンチマークでOpus 4に対して1標準偏差の改善をもたらし、Sonnet 3.7からSonnet 4へのジャンプと同じくらいのパフォーマンスの向上を示してるって。

だから4.1って名前なんだよね、4.5じゃなくて。

いいね!少しずつアップデートしてくれるのは嬉しい。Opus 4が出たばかりだけど、小さな改善があるなら、どんどんリリースしてほしいよね。こっちにはデメリットないし。

これ、改善って呼べるのかな?小さすぎて、ただの偶然かもしれないよ。

Opusがコーディング目的でほぼ全ての面で優れているって言われてるのに、一般的な意見や自分の経験ではSonnetの方がずっと良い気がする。Sonnetから完全にOpusに切り替えた人いる?それとも、特定のことにはOpusを使って、他にはSonnetを使うって感じ?

このリリースのおかげで、Sonnet 4.1を今から楽しみにしてる。

Opusは、反復的な問題解決が必要な長いタスクや、今まで試したことのコンテキストを追跡するのに向いてると思う。複雑なトラブルシューティングとかには、だいたいこれに切り替えるかな。Sonnetは大体のことに使ってるけど、十分良いし、トークンの制限に引っかかることも少ないからね。

Sonnetが脳に障害があるみたいに動くとき(1日に1、2回)、Opusに切り替えると、すぐに解決するみたい。これは科学的なデータじゃないけど、モデルを切り替えれば(どのモデルでも)うまくいったかもしれないね。

カーソルを使ってるときはSonnetの方がいいけど、Claude CodeではOpus 4がSonnetより少なくとも3倍は良いよ。最近のことは、ほとんどがプロンプト次第だと思う。

同じ気持ちだよ。普段はコーディングやドキュメント作成にOpusを使ってて、メールとかにはSonnetを使ってる。

私はMaxプランに入ってるけど、一般的にOpusの方がSonnetよりいい仕事してる気がする。ただ、それはOpusを使わせてもらえる時だけだけどね。マックスプランでも使用制限があって、ほんと冗談みたい。昨日は仕事始めて数分で制限に達しちゃったよ。

記事に載ってた「エージェンティックコーディング」のベンチマークで、Sonnet 4がOpus 4を0.2%上回ってて、Opus 4.1には1.8%劣ってるみたい。これでそのコンセンサスが変わるかも?ベンチマークが現実を反映してると思うならだけど。

一般的なコンセンサスと私自身の経験では、Sonnetの方がずっと良いように思える 科学的な分析が全然ないから、「Sonnetが全体的に良い、ただの時々じゃなくて」っていう人たちがどれくらい多いのか判断するのが難しい。問題の一部は「大きいモデルが良い」って言うのが明白に感じるから、わざわざ言わなくてもいいってことだと思う。「小さいモデルが実は良い」って言うのは、あまり明白じゃないアドバイスに感じるし、賢いことを言ってるように思えるから、そういうことを言う人が増えて、コンセンサスの錯覚を生むかもしれない。昨日これを掘り下げようとしたけど、新しいスレッドに出会うたびに、みんなが言ってることやその割合が違ってて。役に立つポイントは、Claude Maxを使ってて、数時間OpusからSonnetにダウングレードされても、品質がひどく落ちる心配はあまりしなくていいってことかな。

Opusが技術的には優れているのは疑いようがないけど、実際には私にはあまり役立たないんだよね。複雑な実装を一発でやるのはまだほぼ不可能だし、細かい部分を理解するのが大変すぎる。正しい答え(もしくは、あまり悪くない答え)を得るには、コードに深く入り込む時間が必要なんだ。Opusが出してくれるかもしれない正しい解決策は、私にはあまり役に立たない。どうしてその解決策に至ったのか、そしてその解決策が私が取り組んでいる文脈でどうして正しいのかを理解する必要がある。だから、私は大体反復的な実装アプローチを取っていて、特定のタスクはそんなに複雑じゃない。だから、Sonnetで十分なんだよね。

両方使ってるよ。Sonnetは速くてコスト効率もいい。コーディングには最適だね。Opusが明らかに優れているのは分析の部分。デバッグやデータのパターン発見、創造性、一般的な分析においてSonnetを上回ってる。もし最大20プランで制限に引っかからないなら、Opusを独占的に使うのはあまり意味がないと思う。デザインやトラブルシューティングにはOpusを使って、他のことにはSonnetを使うのがいい感じだね。

なんで今日は全部リリースされてるの?

誰も最初になりたくなかったのかな、目立ちたくないし、取り残されたくもないし。それで最初の発表の後に連鎖的にこうなったのかも。でも、最初に思ったのは、合意があったんじゃないかってこと。ゲーム理論的に考えると、同じ日にABC、BCA、CABみたいにリリースするのがリスクが低くて、平均的な利益が一番高いと思うんだけど。

新しいモデルでClaudeがポケモンをプレイするのを再開したよ: https://www.twitch.tv/claudeplayspokemon (彼はチームロケットのアジトに何週間も閉じ込められてたと思う)

まあ、Opus 4.1はOpus 4と同じくらい無駄な感じだけど、たぶんトークンを消費するのが早いかも。何か方法で教えてくれればいいのに。少なくともSonnet 4はまだ使えるけど、正直言って、今日はどんどんひどい結果を出してる。朝の時間をClaude Codeに無駄にしちゃった。自分でやってればよかったのに。

これを試すのにどうやって始めればいいのか、すごく混乱してるのは私だけ?「批判するのに試さない人」になりたくなくて、GitHub Copilotを試してみたけど、あんまり感動しなかった。HNで誰かが「CopilotはダメだからClaudeを使え」って言ってたけど、正しいやり方が全然わからない。選択肢が多すぎるんだよね。Claude Code、Claude API、Claudeのウェブサイトがあって、全部全然違うの?コマンドラインのやつ、IDEに統合されるやつ(どのIDE?)、ブラウザベースのやつがあると思う。で、料金プランも、Free、Pro、Maxがあって、Claude TeamやClaude Enterpriseもある?これらはClaudeのウェブサイト専用の月額プランだけど、Claude Codeはリクエストごと?それともClaude APIがリクエストごと?全然わからない。モデルもあって、Claude OpusやClaude Sonnet、それぞれバージョン番号も違うし??ClineやCursorもあって、もう大変!VSCodeで数時間遊びたいだけなんだけど!

Cursorをダウンロードして試してみて。今のところ、モデルをその場で切り替えられるから、一番洗練された体験だと思う。もっと高度な使い方にはCLIがいいけど、まずはCursorがベストな選択だと思うよ。

Claude Code CLI。

クロードコードが一番優れたインターフェースだと思う。そこから始めるのがいいよ。

4の価格は下がるのかな?月に何千もトークンに使ってる身としては、Opusはコスト/パフォーマンス的に全く使えないと思ってる。Sonnetとほとんど違いがないのに、価格はほぼ10倍だし。