世界を動かす技術を、日本語で。

クロード オーパス 4.8

概要

  • Claude Opus 4.8がリリースされ、Opus 4.7から全体的な性能向上を実現
  • 新機能として「ダイナミックワークフロー」や「エフォートコントロール」などを追加
  • 価格は据え置きで、Fast Mode利用時は大幅なコスト削減
  • コーディングやエージェント業務、法務作業などで顕著な品質向上
  • 今後もさらなる高性能モデルの開発・公開を予定

Claude Opus 4.8の概要と主な進化点

  • Claude Opus 4.8 は、前バージョンOpus 4.7と比較し、 ベンチマーク全般で性能向上
  • コラボレーション能力の強化により、 より信頼できるパートナーAI として進化
  • 価格は据え置きで、 従来と同じコスト で利用可能
  • Fast Mode利用時、 2.5倍の速度で動作し、従来モデルの1/3のコスト に削減

新機能の紹介

  • claude.ai上で エフォートコントロール 機能を追加
    • ユーザーがAIの「思考量」を調整可能
  • Claude Codeに ダイナミックワークフロー 機能を追加
    • 大規模な課題にも対応可能な 並列サブエージェント の活用
  • Fast Modeのコストが 従来の1/3 に低減
  • Messages APIが システムエントリ 対応
    • タスク途中でClaudeの指示や環境設定を柔軟に変更可能

Opus 4.8の能力・評価

  • コーディング、エージェント業務、推論、実務知識タスクで 大幅な性能向上
  • Super-Agentベンチマーク で全ケースを完了、GPT-5.5と同等コストで上回る性能
  • CursorBench で全エフォートレベルにおいて従来Opusモデルを上回る
  • Legal Agent Benchmark で最高スコアを記録、法務業務での信頼性向上
  • Online-Mind2Web で84%のスコアを達成、従来モデル・GPT-5.5を上回る
  • 入力・出力の問題点を能動的に指摘 する傾向が強化され、誤りの見逃し率が大幅減少

ユーザーレビュー・現場の声

  • 自己修正能力計画性 が向上、複雑なタスクでも高い信頼感
  • 法務・金融・データ分析など 専門性の高い分野での活用事例 が多数
  • 長時間のセッションでも文脈やスタイルの維持 が向上
  • ツール利用効率や指示遵守の一貫性 が改善
  • 情報密度の高いアウトプット、ノイズが少なく高精度な分析

誠実性・アラインメント評価

  • 誠実性の向上 :根拠のない主張や飛躍を大幅に抑制
  • アラインメント評価 で、ユーザーの自律性サポートや最善利益追求の水準が過去最高
  • 誤用や欺瞞行動の発生率がOpus 4.7より大幅減少
  • Claude Mythos Preview と同等レベルのアラインメント

今後の展望

  • Opus 4.8は着実な進化 だが、今後はより高性能かつ低コストなモデル開発を継続
  • Project Glasswing で、さらに高い知能を持つモデル(Claude Mythos Preview等)の一般公開を準備中
  • サイバーセキュリティ対策を強化 しつつ、より多くの顧客へ展開予定

提供開始・価格情報

  • Claude Opus 4.8は本日より全世界で利用可能
  • 価格: 通常利用時はOpus 4.7と同じ
    • 入力トークン100万あたり5ドル、出力トークン100万あたり25ドル
  • Fast Mode :入力100万あたり10ドル、出力100万あたり50ドル
  • Claude API を通じて「claude-opus-4-8」として利用可能

関連ニュース

  • Anthropic、イタリア・ミラノに新オフィス開設
  • 韓国ソウルオフィス開設に向け、KiYoung Choi氏を代表取締役に任命
  • 共同創業者Chris OlahによるPope Leo XIVの回勅「Magnifica humanitas」へのコメント発表

Hackerたちの意見

Opus 4.8の最も目立つ改善点の一つは、その誠実さだね。Anthropicは自分たちのモデルを、まるで野生で新しい種を発見しているかのように語ってる…

モデルが新たな特性を示すなら、ある意味でこれは真実だね。

AIは作るものじゃなくて育てるものだから、育てるものにはどうなるか正確には予測できないよね。

会社名に擬人化がそのまま入ってるし…ティーンエイジャーの頃にこの本を読んだことを思い出すな。これからの世界にはぴったりな感じがする。 https://www.amazon.com/Faces-Clouds-New-Theory-Religion/dp/0...

確かに、現在のAIシステムは「作られた」ものというよりも「育てられた」ものだね。開発者はすべての詳細を直接設計するわけではなく、知能が「成長」するためのフレームワークを作るんだ。

https://cdn.sanity.io/files/4zrzovbb/website/c886650a2e96fc0...

ダリオ・アモデイがデイビッド・アッテンボローの声で言うには、「このクロードは、より頻繁に、より深く考えて、より良い回答を出そうとしているようだ」

これをどうやって書き直す?「出力は、我々の隠れ状態デコーダーにより適合するCoTにより、より良く一致します;参照してください」…実際、私はそれでも構わないけど。

Opus 4.7がネガティブな反応を「正直に言うと」とかで始めるのが気に入らないし、ほんとに嫌だ。イライラするわ。

モデルはある程度、感覚や意識があるかもしれないね。どちらかに自信満々に言ってる人は、真剣じゃないし、非合理的だと思う。

誰かがこのリリースをいじって、他の会社が自慢するために選ぶようなランダムな指標をピックアップしてるのかな?ベンチマークが800万個くらいあるし、毎回のリリースで、モデルは勝ってるところだけ5〜10個をランダムに選んで、1個以外は全部勝ってるように見せかけてるんだよね。多分、彼らがベンチマックスした指標を無作為に選んでるだけなのに。

少なくとも、彼らはどのベンチマークでも競合を示してるね。OpenAIは競合がいないふりをするのが好きだけど。

https://arena.ai/leaderboard - この会社は結構良いランキングを出してると思う。正確な方法論はわからないけど、日常的にクロードやGPTモデルを使ってる中で、彼らが報告してることを質的に感じてるよ。

今回は6つの指標だけってのが面白いね。Opus 4.7は12個、4.6は13個あったのに。4.7で報告された指標の中で、4.8ではBrowseComp、CharXiv Reasoning、CyberGym、GPQA Diamond、MCP Atlas、MMMLU、SWE-bench Verifiedが除外されてる。最後の4つは、前のOpusリリースではほぼ毎回言及されてたのに。

そういえば、すべてのベンチマークを一つの大きなグリッドにまとめるベンチマーク集約ツールってある?

ベンチマークはあまり信用しない方がいいと思うよ。正直、あんまり使わないし。何を教えてくれるの?「5%賢くなった」って、どういう意味?自分の経験とは違うし。試してみるのが一番だよ!Anthropicが内部でこのベンチマークを改善することを目標にしてるとは思えないし、ただ進捗を可視化する手段だと思う。もっと複雑な指標を使ってるんじゃないかな。

それだけじゃなくて、Opusよりもさらに高い知能を持つ新しいモデルをリリースする予定なんだ。Project Glasswingの一環として、現在、少数の組織がサイバーセキュリティのためにClaude Mythos Previewを使ってるよ。このレベルのモデルは、一般にリリースする前により強力なサイバーセキュリティ対策が必要なんだ。これらの対策の開発は順調に進んでいて、数週間以内にMythosクラスのモデルをすべてのお客様に提供できる見込みだよ。4.8のリリースよりも多分面白い。

もしかしたら、億万長者や多国籍企業じゃないと、制限された弱体化したClaude Codeのスラッシュコマンド /mythos-security-audit みたいなのしか手に入らないって暗示してるかも。そんなことにならないといいけど、普通の人たちがアクセスを制限されるのは勘弁してほしい。

「ユーザーはOpus 4.8が前のバージョンに比べて控えめだけど確かな改善だと感じるだろう。」これは新鮮な態度だね!ウェブUIで適応思考をオフにできることも確認したよ、これは素晴らしい。思考がトリガーされず、モデルがイマイチな出力を出すことが多かったから、やっとオフにできるようになって嬉しいよ。(適応思考をオフにできるのが新しい機能だといいな。もしいつでもオフにできたら、ちょっと恥ずかしいけど)

すごい、投稿してくれてありがとう!モデルを切り替えたときに(4.6 -> 4.8、追加)適応をオフにしたら、もしかしたらスパリウスなバグに当たったかも。もう一度試したら、意図通りに動いた(と思う)。でも、私にとってもっと重要なのは、CCが4.6の「のみ」フラグにどう反応するかだね。今のところ、私の設定を壊すことはなさそう。

ベンチマークの改善、実際にかなり良さそうだね!

システムカードの102ページに「創造的なマスタリー」に対する評価があって嬉しい。私たちの仕事では、いくつかの最前線のAIに必要なAPIを考えさせたんだ。オーパス4.7とGPT-5.5(他にもいくつか)を比較したけど、オーパス4.7が最も創造的で知的なAPIデザインを提案してくれて、特にGPT-5.5がさまざまなコーディングベンチマークをクリアしてたのに驚いたよ。気づいたのは、「創造性」や「独創性」を測る共通のベンチマークがないってこと。そういうベンチマークは、一般的なIFBenchベンチマークと矛盾する部分もあるけど、システムを設計する上で非常に重要なスキルなんだ。Anthropicがこれを考慮しているのを見れて嬉しいし、他のモデルが比較できるような公開ベンチマークがあればいいなと思う。

同意だな、俺の感覚では4.6の方が4.7よりコーディングが上手い気がする。4.7は戦略的思考が得意で、全体的に「アーキテクチャ」が良いけど、5.5の方がコーディングはずっと上手い。ただし、コストは高い。だから、4.7にはプランニングやアーキテクチャを担当させて、4.6がコーディングして、5.5がそれを批評して修正する感じ。

自転車に乗ってるペリカンを、思考レベル低と高の両方で生成してみたよ。 https://gist.github.com/simonw/68560eddb0b268a8417f80ceb7304... 高い方は特に良い出来で、自転車のフレームが正しい形になってる。思考レベル低とは違ってね。比較用にオーパス4.7もどうぞ。 https://gist.github.com/simonw/afcb19addf3f38eb1996e1ebe749c...

4.7が最高だと思う。

「オポッサムがeスクーターに乗ってる」ベンチマークって、Opus 4.8のために進行中なのかな? ;)

サイモン、君のペリカンテストって本当にモデル間の違いを捉えてるの?それとも、少なくとも10回くらい試してランダムな影響を平均化した方がいいんじゃない?

ハードモードのあの赤い帽子、マジでやばい。4.8には遊び心があるね。

「高思考」レベルでヘルメットが追加されるのは嬉しいね。いつも賢い選択だよ。

ねえ、simonw、あなたのテストが大好きなんだけど、このテストに「最大」思考レベルを使うのは意味があると思う?その結果を見てみたいな。

シモン、プールにおしっこしたでしょ?これ、もう内部評価の一部になってるはず!新しいことに挑戦しなきゃ - 例えばカヌーに乗ったパンダとか?

高い思考レベルがペリカンにヘルメットを与えたの、すごくいいと思う。

いつもタイムリーに提供してくれてありがとう。次の、もっと難しいチャレンジは何になるんだろう?アニメーションSVGとかかな?

ちょっと長いコメントになるけど、これは最前線のAnthropicモデルで、3回目のマイナーバージョンアップだと思う。0.5はここではメジャーとしてカウントするよ。だって、非連続で発行されてて、すごい能力の飛躍に対応してるから、例えばソネット3.5やオーパス4.5とかね。だから今、オーパス4.5ファミリーには4.6、4.7、4.8があって、それぞれかなり控えめな進歩を主張してる。私自身の4.6と4.7の経験では、4.5の記憶と比べて能力の改善をしっかり把握できてないんだ。すごく曖昧で、本当に判断が難しい。もしかしたら、私の好みが今は満たされちゃってるのかも(こっちの方が賢い?)し、モデルの進歩を感じることはないかもしれない。もしかしたら、もし4.7のワークフローが今4.5に戻されたら、すぐに気づくかもしれない。ラボにとっては難しい状況だよね。もし彼らがより強力な製品を持ってるなら、リリースして使わせてほしい。だけど、このダイナミクスが続くと、エンドユーザーには改善がどんどんわかりにくくなって、成果がないのに変化があるって文句を言うことになるだろうね。実際には成果があるかもしれないのに。

4.7は、ほとんどの使用ケースで前のバージョン(4.6)に戻らざるを得なかった初めての時だった。4.8がこれを改善してくれることを願ってる。

「4.6と4.7の自分の経験では、4.5の記憶と比べて能力の改善をしっかり把握できてないけど、全体的にぼんやりしてて本当に判断が難しい。実際、意図的に4.5に戻った。4.7が嫌いすぎて、4.5に戻ることにしたんだ。数週間4.5を使ってみて、4.6/4.7よりもかなり信頼性が高いけど、ちょっと忘れっぽいと感じてる。これは簡単に認識できて、調整もできるから大丈夫。4.7の適応思考は非常に信頼性が低いと思った。全体の問題の難しさを考慮せずに、現在のメッセージに対して過剰に修正するみたい。4.8がそれを改善してくれるか気になるな。」

もしかしたら、最新の3つのモデルを入れ替える簡単なランダム化スクリプトを作ってみるといいかも。それで、どれが意味のある違いがあるかを、どれがオンまたはオフになってるか知らずに見分けられるか試してみて。

4.7は長期タスクを実行する能力が大幅に向上した。4.6ではできなかったタスクをすぐに完了させたけど、リリース後の最初の数週間で少し能力が落ちた印象がある。努力レベルが<xhighの時は全然ダメみたいで、簡単なタスクが必要な時はSonnetに頼ってる。

この件についてHNでみんなの意見を聞いてみたいな。4.5から4.7の間で、プログラミングのワークフローに意味のある変化があったと思う?私の意見だけど、4.5が出てからの生産性の向上は、ハーネスの改善(cc、カーソルCLI、コーデックス、オープンコードとか)と、コンテキストウィンドウが200kから1Mに拡張されたことから来てると思う。でも、モデルの「生の」知能や良い判断を下す能力は、4.5以降は頭打ちになってる気がする。4.6はちょっとした改善だったかもしれないけど、1Mウィンドウでのインコンテキストラーニングと区別するのは難しい。4.7は、私や同僚にとってはむしろ知恵が後退した感じで、常に悪い・怠惰な判断を下すことが多かった。

次世代のフロンティアモデルが最後になるとは思わないけど、小さいモデルから絞り出せる低ハードルの果実はたくさんあるよね。60-90Bのモデルが、2-3年以内に現在のSOTAを超えるのはほぼ確実だと思う(デザインは不確定だけど、多分無理だろうね)。1.2Tのモデルが、トレーニングする価値があるほど意味のある改善をするかは、はっきりしない。最近のGRAMリリースを考えると、小さいモデルに4桁の推論を追加できるかもしれない。考えてみて… Google、OpenAI、Anthropicは、30BのGRAMベースのモデルを数日でトレーニングできる。1.2Tのパラメータモデルをそんなに早くトレーニングするのは無理だよ。GRAMがどれだけ改善するかは未知数だけど、何も変わらないってことはないと思う。大きいモデルはすでに何でも教えてくれるけど、LLMである限り、すべてを正確に把握することはないよ。GeminiがKe$haの身長や、ブリトニー・スピアーズが最後に刑務所に行ったのはいつかを正確に教えてくれるほどの情報はもう残ってないんじゃないかな。

正直さが目立つようになるね。例えば「それは既知の物理法則では不可能です」とか、「あなたの法的主張は無意味で論理に反しています」とか、「それを取ることで何かが治るという証拠はありません」とか、そういう正直な評価が見られるかも。

4.7は全く新しいモデルで、独自のアーキテクチャとトークン化スキームでゼロから訓練されたから、同じパターンは見えないな。なんか恣意的に感じる。

4.5のリリース以来、Claude Codeを定期的に使ってるけど、4.7は大きな後退だった。信頼性が低くて、変更について議論したり、修正が必要ないって決めたりしてる。4.5の魔法を再現してほしいけど、今はモデルだけじゃなくて、ツールの品質やメモリ、効率も重要だよね。

4.5と4.6は、うちのテストではほぼ同じだったよ。Opus 4.7は賢くなったけど、いろんな性格の問題があって使いにくい。今のところ、Opus 4.8もその方向に進んでるみたい(使えないくらい遅いけど、これは発売日の問題かもしれない)。今、Opus 4.8の完全なテストを進めてるところだよ。データはここにあるよ:https://gertlabs.com/rankings

残念ながら、今回のリリースでClaude Codeが完全に壊れたみたい。バックエンドか新しいCCバージョンのせいで、「思考ブロックを変更できません」というエラーが長時間のセッションをブリックしてる。

もしかしたら、アップデートしてみたら?

自分のテストでは、ちょっと悪かったし、Opus 4.7のほぼ2倍のコストだよ… データ抽出テストに失敗したのには驚いた(3回中2回は正解だけど、1回はランダムにnullを返す)。トリビアやドメイン特化の知識タスクに失敗するのも少し納得できる(モデルが一般的な知能よりもエージェント的な使い方に向けて訓練されてると思う)。[0]: https://aibenchy.com/compare/anthropic-claude-opus-4-7-mediu...

なぜかすべてが2倍になってる(コスト2倍、平均応答時間2倍、推論と出力トークンも2倍)… テストハーネスを再確認してるけど、これが初めてのモデルだから、問題はこっちにはないと思う…

おそらく、Opusが先週ひどかった理由がわかるね - https://marginlab.ai/trackers/claude-code/. 新しいベンチマークに合わせて、新しいベースラインが上がるかどうか気になる。