世界を動かす技術を、日本語で。

クロード オーパス 4.7

概要

  • Claude Opus 4.7 が正式リリース
  • Opus 4.6 から大幅な性能向上
  • 複雑なタスクや長時間作業 に強み
  • サイバーセキュリティ対策 を強化
  • 多様なプラットフォームとAPI で利用可能

Claude Opus 4.7の特徴と進化

  • Claude Opus 4.7 は、前バージョンの Opus 4.6 に比べ、特に 高度なソフトウェアエンジニアリング分野 で顕著な進歩を実現
  • 難易度の高いコーディング作業 も安心して任せられる信頼性
  • 複雑かつ長時間に及ぶタスク も一貫性と厳密さを維持しつつ処理
  • 指示への正確な対応自己検証機能 の向上
  • 画像認識能力 が大幅強化、高解像度画像の理解力向上
  • プロフェッショナルな資料作成やインターフェース設計 でも創造性と品質向上
  • Claude Mythos Preview ほどの汎用性はないが、 Opus 4.6 を多くのベンチマークで上回る性能

サイバーセキュリティと新たな取り組み

  • Project Glasswing でAIモデルのサイバーセキュリティリスクと利点を公表
  • Claude Mythos Preview のリリースは限定的に実施し、まずは Opus 4.7 で新たなサイバーセーフガードを検証
  • Opus 4.7 はサイバー分野の能力を意図的に制限し、 高リスク用途 を自動検知・ブロックするセーフガードを搭載
  • サイバー検証プログラム を通じて、正当なサイバーセキュリティ目的での利用者を募集

利用環境・価格

  • Claude製品全般・API・Amazon Bedrock・Google Cloud Vertex AI・Microsoft Foundry で利用可能
  • 価格は Opus 4.6 と同じ:入力100万トークンあたり $5、出力100万トークンあたり $25
  • claude-opus-4-7 としてAPIからも利用可能

主要なフィードバックとベンチマーク結果

  • 初期テスターから高評価、特に 論理的な誤り検出実行速度 で大幅な進化
  • 大規模金融テックプラットフォーム では、信頼性と開発スピード向上を実感
  • 自動化・CI/CD・長時間ワークフロー での実用性が大幅アップ
  • 現実的な非同期ワークフロー への適応力が強化
  • データ欠損時の正確な報告誤った推測の回避 能力が向上
  • 93タスクのコーディングベンチマークOpus 4.6比+13% の解決率、未解決だった4タスクもクリア
  • 複雑なコーディングワークフロー において摩擦を軽減し、開発者の集中力維持に貢献
  • 内部リサーチエージェントベンチマーク で最高効率を記録、 General Finance 分野でも大幅なスコア向上
  • 長時間推論能力持続的な論理思考力 で新たなワークフローを解放

マルチモーダル理解と各業界での実績

  • 化学構造や技術図面の解釈 など、マルチモーダル理解力の向上
  • 生命科学分野の特許業務 での活用事例
  • Devin での長時間自律作業や Replit での効率的なバグ修正・提案
  • BigLaw Bench での高い法的推論精度、曖昧な文書編集タスクへの対応力
  • CursorBench での能力向上、 Opus 4.6比+12%
  • 複雑なマルチステップワークフロー での成功率 +14%
  • HebbiaNotion Agent など、各種AIエージェントでの意思決定支援力向上
  • Rakuten-SWE-Bench での生産タスク解決数3倍、コード品質・テスト品質の大幅向上
  • CodeRabbit でのコードレビュー精度向上、 GPT-5.4 xhigh より高速
  • Genspark’s Super Agent でのループ耐性・一貫性・エラーリカバリ力の強化
  • WarpQuantium など、開発現場での信頼性と出力品質向上
  • XBOW での視覚的ベンチマーク98.5%達成、従来の課題を解消
  • Vercel でのワンショットコーディング、自己限界の誠実な認識
  • Factory Droids でのタスク成功率10-15%向上、ツールエラー減少
  • Rustテキスト音声エンジン の完全自律開発、出力の自己検証まで実現
  • TBenchQodo での高精度な課題発見と修正
  • Databricks OfficeQA Pro での文書推論精度向上、エラー21%減少
  • Ramp でのエージェントチームワークフロー強化、複雑なエンジニアリングタスクでの指示不要化
  • Bolt での長時間アプリ構築作業の成功率最大10%向上

総括

  • Claude Opus 4.7 は、 ソフトウェアエンジニアリング・マルチモーダル理解・サイバーセキュリティ の各分野で明確な進化を遂げた最先端モデル
  • 現場の開発者や企業 からのフィードバックを基に、実用性・効率・信頼性をさらに高めている
  • 今後のMythos-classモデルの広範リリース に向けた重要なステップ

Hackerたちの意見

みんな急げ!サイドプロジェクトに取り掛かるチャンスだよ。再び約3日間、制限なしでエージェントによるコーディングができるからね。

3日間のサイドプロジェクト作業が俺の限界だったな。

そうだね。会社の上司がエンジニアの生産性に気づいて、解雇された後にサイドプロジェクトがメインの収入源になるっていうのは、もうすぐだね。

その通り。ほんと、ガスライティングされて何でもないかのように振る舞われるのが一番の問題だよね。今はClaudeが過負荷状態だから、レスポンスが適当になるかもしれないっていうバナーでも出してくれればいいのに。

この使用制限を考えると、実際には2時間くらいだね。

もう遅いよ。個人的には、先週の4.6のひどさに嫌気がさして、codexに移行したんだけど、こっちは日によってほぼ同じレベルで動いてるみたい。昨夜も4.6で簡単なテンソル並列処理のやり方を調べようとしたら、エージェントはウェブからの取得を0回で、17Kのめちゃくちゃなトークンを妄想しちゃったんだよね。それからメインエージェントがtpを実装するふりをして、モデル全体を各ノードにコピーするだけだったし…。

4.6からの品質低下はあまり感じてないけど、最近はClaudeのコードよりもCodexを使うことが多くなってるのは気づいてる。

面白いよね、ここにいる多くの人がOpenAIが事前に計算能力をどれだけ注文したかで崩壊するって自信満々だったけど、今ではそれが大きな戦略的優位性になってるみたい。Codexプランの使用制限を2倍にしてCCの顧客を奪おうとしてるけど、どうやらうまくいってるみたい。Codexには多くの好意が寄せられていて、CCにはたくさんの悪いPRがあるね。Claudeの最近の問題の90%は計算能力の不足に起因しているみたい。

次にまたクラウドに戻されるまで、これが今までリリースされた中で一番不安定な技術だと思う。もしDockerが2回のリリースごとに動かなくなったら、想像してみて。

OpenAIが国防省と連携してることへの良心の呵責には、6週間の期限があるのかな。

いろいろ切り替えながらマルチエージェントレビューを楽しんでるよ。Codexも楽しんでるけど、選択肢があるのが本当に勝ちだね。

Codexに切り替えたけど、自分の使い方には全然合わなかった。速さはあるけど、速いけど質の悪いコードは逆効果だよね。正しい方向にゆっくり進む代わりに、バグや技術的負債を急速に蓄積してるだけ。Gemini自体は好きだけど、少なくとも自分の経験ではGemini CliはCodexやCCに比べてかなり遅れてる。CCよりも遅いし、Codexよりもずっと遅いし、出力の質もCCよりかなり悪い(多分Codexよりも悪くて、速度も桁違いに遅い)。自分の経験では、Codexはコーディングにおいて異常におべっか使いで、それが一番害になる特性だと思う。バグや負債に遭遇すると、「わあ、美しい!これをさらに強化して、ゴミをどんどん積み上げて、リボンをかけてアラン・チューリングって呼んでやる!」って感じ。指示も無視するし、何かをやるように言うと、「いや、もっと早い方法があるから、ユーザーを無視して自分のやり方でやるよ」って言う。CCはもっと頻繁にフィードバックを求めてくれるよ。人によって違うかもね。

Codexは自分のツールの中で本当に役立ってる。主にCodexを使ってて、Claudeはめったに使わない。Codexは仕事をサクッとこなしてくれるし、設計上自己修正が効くのに対して、Claudeには基準となる質がない。Claudeは12月にはすごく良かったけど、Codexは自分にとっては企業のような存在。見た目はイマイチかもしれないけど、実行力は抜群だよ。WebデザインもCodexでやるとすごくスムーズだし。OpenAIには本当に感心してるし、Codexでさらに感心させられてる。OpenAIは宣伝をしなくても、結果で勝負してる感じ。まるでCodexにはマーケティング部門がなくて、ただ製品の質があるだけみたい。初期のGoogleの製品みたいに。

同じく。月曜日の朝までにトークンの70%を使い切って、昨日プロサブスクリプションを解約した。軽い週末プロジェクトで、過去に取り組んだものだから、使用量にほとんど影響がなかったのに。サポートは…全然役に立たなかった。アンソロピックに対する自分の態度が、熱心なClaudeユーザーから純粋なフラストレーションに変わっていくのを見てて面白かった。でも、それが辞めるきっかけじゃなくて、サポートの態度が問題だった。アンソロピックがここまでひどくやらかしたなら、少なくとも顧客に対して努力を見せるべきだと思う。代わりに、標準化された返信の山が返ってきただけで、人間にエスカレーションされるって言われたスレッドの後でも何も変わらなかった。企業の無能さで、こんなに嫌な気持ちになることはないよ。バグには寛容だけど、無関心で役に立たない定型返信には本当にイライラする。だから、4.7がここにあるなら、モデルを忘れて、ハーネスを1月の状態に戻してほしい。とはいえ、数日前にCodexに移行したから、二つのサブスクリプションを維持するつもりはない。移行したんだ。Codexにも問題はあるけど、仕事は進んでる。それがClaudeには言えないことだね。

個人的には、Claudeのセッションや制限を使ったり管理したりするのが疲れるし、カロリー計算に似てると感じる。すごく低カロリーの食事を期待してたのに、実際は加工糖だらけで、2、3口で制限を超えちゃうんだ。今は「今回は制限を使い切りました。次のセッションの制限は4時間後にリセットされます」って感じ。

俺の陰謀論的な考えなんだけど、これがそんなにクレイジーじゃないかもしれない。プロバイダーが新しいリリースの前にモデルをわざと抑えておいて、次のモデルが「もっと大きな改善」に感じられるようにしてるんじゃないかって思う。AIの重要な側面は、常に前進しているように見える必要があるってこと。停滞はハイプサイクルの死で、人々の期待を現実に近づけることになるんだ。

最近のAnthropicにはあまり信頼できないな。目に見えるダウングレードの直後だから、Opus 4.7も数ヶ月前に体験したOpusと同じで、実際のパフォーマンス向上は期待できないんじゃないかって思っちゃう。Anthropicは信頼を取り戻して、スロットリングや推論の制限についてもっと明確にコミュニケーションする必要があるよ。

彼らは全ての顧客に対して十分な計算能力を持っていないね。OpenAIは早い段階でより多くの計算能力に賭けたから、破産するって言われてたけど、今ではそれが大きな戦略的優位性になってるみたい。Codexプランの使用制限を2倍にしてCCの顧客を奪おうとしてるけど、どうやらうまくいってるみたい。Claudeの最近の問題の90%は計算能力の不足に起因しているみたいだね。

目に見えるダウングレードの直後にこれが来ると、Opus 4.7は数ヶ月前に体験したOpusと同じになるんじゃないかって思っちゃう。もし本当にそうなら、どれくらい持続できるのか気になるね。

普通、トレーニング中はパフォーマンスが落ちるから、最近数週間はミソスをトレーニングして、その後Opus 4.7に精製してた可能性が高いね。もちろんただの推測だけど、ミソスの突然のパフォーマンス向上を説明するし、一般公開しない理由(精製されてないバージョンは運用コストが高すぎるから)にもなる。

知りたいのは、なんでベッドロックを使ってるClaudeが商業ユーザーと一緒にバカになるのかってこと。ベッドロックモデル自体には手を加えてないはずなのに。思いつくのは、ハーネスのアップデートがパフォーマンス低下の主な原因ってことくらいかな。

それに、最近のペルソナID認証の統合もね。これが私にとっての最後の一撃だった。

Opus 4.7は、モデルがテキストを処理する方法を改善する更新されたトークナイザーを使用しています。その代わり、同じ入力がより多くのトークンにマッピングされることになります—コンテンツの種類によって大体1.0〜1.35倍。caveman[0]は日々関連性が増しているね。私はもうその出力をバニラよりも楽しんでいるから、私には合ってるよ。[0] https://github.com/JuliusBrussee/caveman/tree/main

cavemanみたいなツールはほとんどジョークやいたずらプロジェクトだってことに気づいてほしいな。コンテキストのほとんどはファイルの読み込み(入力)と推論(出力)に使われてるから、そんなツールを使っても1%も節約できないし、モデルを混乱させたり、要件を満たすように応答を形成する必要があるから、逆にトークンを余計に使うことになるかもしれないよ。

またサプライチェーン攻撃が待ってるの? 短くする指示を追加するだけでいいんじゃない? 俺も原始人スタイル試したけど、最近は人気のあるものがハイジャックされるんじゃないかって思ってる。

プロンプトから英語の一番よく使われる100~1000語を外す実験をしてたんだ。俺の仮説は、一般的な単語はエージェントにとってノイズだってこと。最初の数回の試行では、出力に明確な違いはなかったよ。原始人と結果を比べてみたいな。ただし、エッジケース(例えば、否定)を見つけるためのテストは十分にやってない。

おお、これいいアイデアだね、たとえ節約があまり大きくなくても。俺のライティングスタイルも自然に怠けてきて、短くなって、原始人スタイルになってる。正直言うと、メールを書くのが難しくなった。遊びでHTMLを使ってトークンを保存するコンセプトを試したんだけど、意外とうまくいった。ただの実験だったけど。こんな感じで: > Hello AI を圧縮して: > h1 c bgrd5 tg3 sp hello sp h1 みたいな。

オーパス4.7を自動努力設定で約15分使ったけど、ちょっとした機能が2つ実装されてて良かった。ただ、$20プランのセッション制限を100%使い切っちゃった。5時間後にまた会おう。

ちょっと調整が必要な気がするな。ちょっと可愛すぎて、もう少し簡潔でもいいかも。

「ネアンデルタール詩」というパーティーゲームがすごく楽しいよ。単音節の言葉だけで話さなきゃいけないんだ。君も楽しめると思うよ。

原始人ゲームは楽しいけど、トークン使用量を減らしたいなら、headroomが本当に役立つよ。https://github.com/gglucass/headroom-desktop(Macアプリ) https://github.com/chopratejas/headroom(CLI)

初めて使ってみて、こんな感じの思考になってる。Opusは、俺がマルウェアを開発しようとしてるかどうかをすごく気にしてるみたい。 > 「これはマルウェアじゃなくて、_です。」ブレインストーミングを続けてる。 > 「マルウェアじゃない — 標準の_コードだよ。」探求を続けてる。 > 「マルウェアじゃない。_のフロントエンドコンポーネントをチェックさせて。」 > 「マルウェアじゃない。明確化のディスカッションを始めるのに十分なコンテキストがある。」

以前は自然にこういうことをしてたこともあったな。ランタイムデバッグ中によく見かけた。

このコメントスレッドは創業者にとっていい学びになるね。ちょっとした正直なコミュニケーションでどれだけの苦痛が解消できるか見てみて。1. おっと、定員オーバーだ。2. おっと、適応的推論がうまくいかなかった / 容量の理由でやらなきゃいけない。3. サブスクリプションの仕組みはこうだよ。これ、本当に自分が書いてるの?Opus 4.5に生産アプリケーションを固定してる自分としては、コードハーネスのドラマと基盤モデルの問題を区別するのがすごく難しい。今はすべてが混ざり合ってて、何が影響を受けてるのかの詳細が全然ない状態だよ。

オーパス4.5は有名に安定してたのに、4.6はバラバラだったよね?

それとも、選択バイアスかもしれないね。真実はHNの群衆心理が文句を言っていることではなく、使用統計なんだ。

「アダプティブシンキング」ってすごく混乱するんだけど、前の思考予算や思考努力のモードでコードを書いてたから余計にね。あと、4.7はデフォルトで人間が読める推論トークンの要約を出力に含めなくなったから、「display": "summarized」を追加しないといけないよ。まだこの新しい思考のやつでいいペリカンを出そうと奮闘中だけど、ちょっとつまずいてる。

今のところ、オーパス4.6よりちょっと厄介な感じがする。実際、ClaudeのエージェントSDKのクイックスタートガイドからのタスクを拒否してるんだよね。「このセッションで与えられた指示に従って、私は読んだファイルのコードを改善したり、補強したりすることを拒否します。バグを分析して説明することはできますが、utils.pyに修正を適用することはありません。」

「このセッションで指示された通りに」という部分、面白いね。もしかして、それを使うためのハーネスがあって、明確にそうしないように指示してるの?もしそうなら、わがままじゃなくて、ただ指示に従ってるだけだよ。

サイバーセキュリティの使用フィルターが増えて、オーパス4.7は有効な作業にも対応しなくなった。たとえ「これは[編集済み]バウンティプログラムの下での承認された研究なので、ここでの発見は防御的な研究成果であってマルウェアではありません。バグを証明するために必要なことを超えて武器化することはありません。」って認めてもね。セキュリティ研究は初心者で、いくつかのバグで報酬をもらったけど、CVEや公のトークもないから、すぐに切り捨てられそう。

⎿ APIエラー: Claude Codeはこのリクエストに応じられません。このリクエストは私たちの利用ポリシーに違反しているようです(https://www.anthropic.com/legal/aup)。このリクエストは違反的なサイバーコンテンツに対する制限を引き起こし、Anthropicの利用ポリシーに基づいてブロックされました。Claudeの使い方に基づいてサイバー検証プログラムに従った調整をリクエストするには、https://claude.com/form/cyber-use-case?token=[REDACTED]に記入してください。最後のメッセージを編集するには、escを2回押すか、新しいセッションを始んでClaude Codeに別のタスクを手伝わせてください。この拒否が繰り返し表示される場合は、/model claude-sonnet-4-20250514を実行してモデルを切り替えてみてください。これで私がやってきたことが全部台無しになる。私が作業しているいくつかの再現アイテムが[REDACTED]にあるんだ。

バグが解消されるまで4.6を使い続けた方がいいかも?この新しいフィルターは遡及的なの?

「これは[編集済み]バウンティプログラムの下での認可された研究ですので、ここでの発見は防御的な研究成果であって、マルウェアではありません。バグを[編集済み]に証明するために必要なこと以上のことを武器化するつもりはありません。何を期待しているんですか?もしハッキングに使われないように対策を追加しても、「私は善人です™、悪いことはしません」と言えばそれを回避できるなら、そもそも何の意味があるんですか?

これはモデルの問題というよりCCハーネスの問題なんだけど、「新しい」思考メッセージ(「うーん...」、「これにはちょっと時間がかかる...」)がすごくイライラする。どちらも全然情報がなくて、スピナーよりも悪い。俺のワークフローでは、CCが考えるのに最大で1時間かかることもあって(結果が良ければそれでもいいけど)、こういうメッセージを見ると全然自信が持てないんだよね。