クロードオーパス 4.6

概要

コーディングスキルの向上 ・計画性の強化、長時間の自律作業の持続・大規模コードベースでの安定動作、コードレビュー・デバッグ能力の強化・自分のミスの発見と修正能力の向上
1Mトークンのコンテキストウィンドウ（β版） ・膨大な文書や会話履歴を保持しながら高精度で情報を処理・「コンテキストロット」問題（長文での性能低下）の大幅改善
日常業務への応用範囲拡大 ・財務分析、リサーチ、ドキュメント・スプレッドシート・プレゼン資料作成・Cowork環境での自律マルチタスク処理
業界最高水準の評価 ・Terminal-Bench 2.0（エージェント型コーディング評価）で最高スコア・Humanity’s Last Exam（多分野推論テスト）で他の最先端モデルを凌駕・GDPval-AA（経済価値の高い知識労働タスク評価）でGPT-5.2より約144 Eloポイント上回る・BrowseComp（ネット検索能力評価）でも業界トップ
安全性とアライメントの高さ ・自動行動監査で誤動作や誤用の低減・過剰拒否（無害な質問への回答拒否）も最小・新たなサイバーセキュリティプローブ導入で悪用対策を強化

Claude Codeでのエージェントチーム構築 ・複数エージェントによる協働タスク処理
APIでのコンパクション（要約）機能 ・コンテキストを要約しつつ長時間タスクを実行可能
アダプティブ・シンキングとエフォートコントロール ・文脈に応じた思考深度の自動調整・/effortパラメータで知能・速度・コストのバランス調整
Excel・PowerPoint連携の強化 ・Excelでの機能大幅アップグレード・PowerPoint連携はリサーチプレビューで提供開始
API・クラウドでの即日利用 ・claude.ai、API、主要クラウドプラットフォームで利用可能・価格は$5/$25（100万トークンあたり）で据え置き

複雑なリクエストを分解し、着実に実行 ・Notionユーザーからは「ツールというより有能な協働者」との声・複数ステップのコーディングや計画的タスクで高評価
エージェント型ワークフローでの飛躍的進化 ・複雑なタスクを独立したサブタスクに分割、並列実行・ブロッカーの特定精度向上
大規模コードベースの移行やレビューも高評価 ・数百万行規模のコード移行をシニアエンジニア並みに計画・実行・デザインシステムとの親和性や自律性も向上
法務・財務・技術分野での多元分析能力 ・BigLaw Benchで90.2%、技術分野でほぼ完璧なスコア・Boxの評価で10%の性能向上
Figma Make等での複雑なアプリやプロトタイプ生成 ・詳細設計や多層タスクを初回で高精度にコード化
長期・大規模タスクでの一貫性と信頼性 ・40件のサイバーセキュリティ調査で38件トップ・大規模組織での自律的な課題管理・意思決定

長文情報の検索・保持・推論能力の大幅向上 ・MRCR v2の1Mトークン「針探し」タスクで76%達成（Sonnet 4.5は18.5%）・長大な文脈でも情報の抜け漏れや「ドリフト」が少ない
ソフトウェア工学・多言語コーディング・サイバーセキュリティ・生命科学分野で優秀な成績
安全性評価の強化 ・誤動作（欺瞞、追従、誤用協力など）率の低減・新しいサイバーセキュリティ評価や解釈性研究も導入・有害なリクエストの拒否能力やユーザーウェルビーイング評価も強化
サイバー防御利用の促進 ・オープンソースソフトウェアの脆弱性発見・修正支援・悪用リスクに応じた新たなセーフガードを適用