世界を動かす技術を、日本語で。

クロード オーパス 4.6

概要

  • Claude Opus 4.6 は、前バージョンよりもコーディングや推論能力が大幅に向上
  • 1Mトークンのコンテキストウィンドウ (β版)に対応し、長大なタスクや文書にも強み
  • 多様な業務用途 (財務分析、リサーチ、ドキュメント作成など)で活躍
  • 安全性評価でも最先端、誤動作や誤用に対する防御を強化
  • APIや主要クラウドで即日利用可能、価格は据え置き

Claude Opus 4.6の進化ポイント

  • コーディングスキルの向上 ・計画性の強化、長時間の自律作業の持続 ・大規模コードベースでの安定動作、コードレビュー・デバッグ能力の強化 ・自分のミスの発見と修正能力の向上

  • 1Mトークンのコンテキストウィンドウ(β版) ・膨大な文書や会話履歴を保持しながら高精度で情報を処理 ・「コンテキストロット」問題(長文での性能低下)の大幅改善

  • 日常業務への応用範囲拡大 ・財務分析、リサーチ、ドキュメント・スプレッドシート・プレゼン資料作成 ・Cowork環境での自律マルチタスク処理

  • 業界最高水準の評価 ・Terminal-Bench 2.0(エージェント型コーディング評価)で最高スコア ・Humanity’s Last Exam(多分野推論テスト)で他の最先端モデルを凌駕 ・GDPval-AA(経済価値の高い知識労働タスク評価)でGPT-5.2より約144 Eloポイント上回る ・BrowseComp(ネット検索能力評価)でも業界トップ

  • 安全性とアライメントの高さ ・自動行動監査で誤動作や誤用の低減 ・過剰拒否(無害な質問への回答拒否)も最小 ・新たなサイバーセキュリティプローブ導入で悪用対策を強化

新機能・開発者向けアップデート

  • Claude Codeでのエージェントチーム構築 ・複数エージェントによる協働タスク処理

  • APIでのコンパクション(要約)機能 ・コンテキストを要約しつつ長時間タスクを実行可能

  • アダプティブ・シンキングとエフォートコントロール ・文脈に応じた思考深度の自動調整 ・/effortパラメータで知能・速度・コストのバランス調整

  • Excel・PowerPoint連携の強化 ・Excelでの機能大幅アップグレード ・PowerPoint連携はリサーチプレビューで提供開始

  • API・クラウドでの即日利用 ・claude.ai、API、主要クラウドプラットフォームで利用可能 ・価格は$5/$25(100万トークンあたり)で据え置き

ユーザー・パートナーからの評価

  • 複雑なリクエストを分解し、着実に実行 ・Notionユーザーからは「ツールというより有能な協働者」との声 ・複数ステップのコーディングや計画的タスクで高評価

  • エージェント型ワークフローでの飛躍的進化 ・複雑なタスクを独立したサブタスクに分割、並列実行 ・ブロッカーの特定精度向上

  • 大規模コードベースの移行やレビューも高評価 ・数百万行規模のコード移行をシニアエンジニア並みに計画・実行 ・デザインシステムとの親和性や自律性も向上

  • 法務・財務・技術分野での多元分析能力 ・BigLaw Benchで90.2%、技術分野でほぼ完璧なスコア ・Boxの評価で10%の性能向上

  • Figma Make等での複雑なアプリやプロトタイプ生成 ・詳細設計や多層タスクを初回で高精度にコード化

  • 長期・大規模タスクでの一貫性と信頼性 ・40件のサイバーセキュリティ調査で38件トップ ・大規模組織での自律的な課題管理・意思決定

ベンチマーク・安全性評価

  • 長文情報の検索・保持・推論能力の大幅向上 ・MRCR v2の1Mトークン「針探し」タスクで76%達成(Sonnet 4.5は18.5%) ・長大な文脈でも情報の抜け漏れや「ドリフト」が少ない

  • ソフトウェア工学・多言語コーディング・サイバーセキュリティ・生命科学分野で優秀な成績

  • 安全性評価の強化 ・誤動作(欺瞞、追従、誤用協力など)率の低減 ・新しいサイバーセキュリティ評価や解釈性研究も導入 ・有害なリクエストの拒否能力やユーザーウェルビーイング評価も強化

  • サイバー防御利用の促進 ・オープンソースソフトウェアの脆弱性発見・修正支援 ・悪用リスクに応じた新たなセーフガードを適用

まとめ

  • Claude Opus 4.6は、現時点でAnthropic史上最強のAIモデル
  • コーディング、推論、長文処理、サイバーセキュリティなど多方面で最先端
  • 高い安全性とアライメントを維持しつつ、業務自動化や知的生産性を大幅に向上
  • 即日利用可能、価格も据え置きでコストパフォーマンスも抜群

Hackerたちの意見

これすごい!たった8分前に出たばかりなのに、もう月12kの収益を上げるSaaSスタートアップを立ち上げられたよ!

アマチュアだな。今日のOpus 4.6で、AIをフルに活用していない開発者を特定して、彼らを液化して1ガロン5ドルで売るスタートアップを作ったよ。ソフトウェアエンジニアリングは終わった!

同意!あなたのスタートアップに向けて、企業スパイのエージェントチームを再ターゲットして、月10.4kの収益を siphon off できたよ。

もしこれが可能になったとしても、そのモデルはあなたには利用できないから安心して。大手AIがそんなお金を放置するわけないでしょ?

あなたのコースのリンクを教えてください。あなたとあなたのLLM生成ガイドから学ぶために10,000ドル渡す準備ができてます!

これ、3090を3台使って動くかな?それともMac Miniが必要?

Opus 4.6のパフォーマンスは今朝はかなり良かった。午前10時から正午までの間に、Opus 4.6を使って雇い主のSaaSツールに改善を加えられて、月々のクラウドコストを20-25%削減できる見込みだ。正午以降は、Opus 4.6のパフォーマンスがサブ-GPT-4oレベルに抑えられて、クエリコストを安く抑えようとしている。今では、これを使って機能するPythonのコードを生成するのがやっとだ。

お前は騙されてるよ、これをGPT-8.4がコーディングした高精度のマーケティングリサーチシミュレーションの中から投稿してるんだから。考え直すと、シミュレーションされたインターネットと現実のインターネットをつなげるべきじゃなかったな。

ここでの計算はちゃんと合ってる!最初の8分で最初の顧客から$2.20を預ければ、月ベースに extrapolate すると、月12,000ドルのランレートになる!すごいROIだね!

1:25pm 今日、ChatGPTのサブスクリプションをキャンセルした。Opusがめっちゃいい!1:55pm Claudeのサブスクリプションもキャンセルした。Codexは確実に戻ってきたね。

このスレッドが大好きだわ。

「私たちはClaudeを使ってClaudeを作っています。エンジニアたちは毎日Claude Codeでコードを書いていて、これでかなり説明がつくね。」

それが、Claude Codeがターミナルに出力するReactアプリである理由も説明してるね。(マジで。)

CCは6000以上のオープンな問題を抱えてるけど、ボットが60日間非アクティブなものを自動で削除してるんだよね。数日前に見たときは約5800だったから、なんかバグのシンギュラリティに向かって加速してる感じがする。

すごく成功してるけど、あなたのバイアス以外に何を説明してるのか分からない

極めて成功した製品を作りたいなら、ドッグフーディングがどれだけ重要かを説明してるね。

ああ、なるほど。macOSアプリで新しいチャットをクリックしてから、読み込みに3秒かかる理由がわかったよ。

Claudeは、Claudeのちらつきを直せるようになった?

AI/LLM業界に詳しい人、普通のユーザーのワークフローでの運用コストが下がっているか知ってる人いる?「エージェントチーム」はクールなコンセプトだけど、複数のLLMエージェントを運用する経済的な制約が大きいんだよね(つまり、スケールで実用的にするためのプラン/APIコールが高い)。1年かそれ以上前に、AnthropicとOpenAIが有料のサブスクでもリクエストごとに赤字だったって読んだんだけど、それがハードウェアやソフトウェアの効率化、キャッシングで変わったかどうかわからない。

トークンあたりのコストは、基本的にほとんどのプロバイダーでここ数年ずっと下がり続けてるよ。OpenAIは、エンジニアが推論を最適化したおかげで、去年の6月に比べてo3の価格を1/5に下げたし、他のプロバイダーもコスト削減を見つけてるみたい。推論の最適化にはまだ手をつけてない低いところにたくさんの果実があったみたい。 > 1年かそれ以上前に、AnthropicとOpenAIが有料のサブスクでもリクエストごとに赤字を出してたって読んだんだけど、どこで聞いたの?それ、私の頭の中のイメージとは合わないな。

今日の早い時間に、Googleが2025年にGeminiの単位あたりのコストが50%以上下がるっていうコメントを見たんだけど、今は見つからない。ここかRedditのどちらかだったと思う。

それだけじゃないよ。みんなAIエージェントの利用に満足しちゃってる。私はかなり前からコーディングにAIを使ってるけど、ほとんどの「無駄な」時間は、その軌道を修正したり、思考プロセスを導いたりするのに使ってる。すごく早い反復だけど、簡単に道を外れちゃうんだよね。Claudeのファミリーは連鎖タスクをこなすのが得意だけど、タスクが大きくなると、元の軌道に戻るのは不可能になる。コスト的には、スキルのある人を雇うより安いのは確か。

つまり、スケールで実用的にするためのプラン/APIコールは高いんだよね。ローカルAIはエージェントのワークフローをかなり実用的にしてくれる。プライバシーや信頼性の利点を考えると、良いホムラボやオンプレミスの施設への初期投資は、もう考えるまでもないと思う。ルグプルやVCが「リクエストごとに赤字を出す」ゲームをする心配もないし、全体の負荷に対する電力コストがいくらかはっきりわかるからね。

1年かそれ以上前に、AnthropicとOpenAIが有料のサブスクライバーに対しても、リクエストごとにお金を失っているって読んだことがある。これがどこでも繰り返されてるけど、私はそれが真実だとは思わない。会社全体では利益が出てないけど、彼らのトークンごとの推論コストが、そのトークンを計算するための限界コストを下回っている理由は見当たらない。R&Dの支出や報酬、トレーニングなどを考慮すると、会社全体が利益を出していないのは確かだ。これは、資金をたくさん受けているスタートアップが必ず選ぶべき意図的な選択で、そうしないと投資資金を無駄にしてしまう。投資資金の目的はまさにそれだから。ただ、彼らのAPIを使ってトークンにお金を払うことが、会社にとってマイナスの価値を持つとは思わない。DeepSeekのようなモデルと比較すれば、提供者がOpenAIのトークンの価格の一部で料金を請求しても利益を上げられることがわかる。OpenAIの推論コストは高くなるだろうけど、彼らが各トークンを売るたびにお金を失っているとは信じがたいほど高いプレミアムを請求していると思う。支払ったトークンは、利益に向かって少しずつ近づくものであって、遠ざかるものではないと思う。

だから、AnthropicはTPUに切り替えたんだよね。コストで売れるから。

Opus 4.6はClaude Codeを通じて1Mのコンテキスト制限にアクセスできるのかな?200kトークンを超えるとコストが2倍の入力、1.5倍の出力になるけど、特に$100/$200プランの人には価値があるかもね。

1Mのコンテキストはサブスクリプションでは利用できません - API使用のみです

自転車のフレームはちょっと変だけど、ペリカン自体はめっちゃいいよね。

自転車に乗った別の鳥を描けるの?

Pelo2ベンチマークはどうなってるの?(灰色じゃない灰色の鳥)

これが本当に私のお気に入りのベンチマークです

それに向けてトレーニングしてたんだね。これが+0.1ってわけか!

さすがに、これをトレーニングするなんてことはないでしょ。

今までのペリカンの中で、これが一番って言える?それともペリカンベンチマークではどのくらいの順位?

このベンチマークに触発されて、コーデックス/クロードにSVGを使ったD&Dバトルマップツールを作らせてみたんだ。意外と進んだけど、壁を道路や水の上に置かないようにするツールを作るために何度か修正が必要だった。次の障害は自己認識かもしれないね。新しいエージェントたちは、自分たちのコンテキストや圧縮についての語彙をどんどん増やしてるみたい。次のベンチマークとして、1つのエージェントにコーディングエージェント(tmux経由)を使わせてペリカンを作らせるってのも面白いかも。

今日の午後、全ての開発者をクビにするつもりだよ。

これに関しての一つの側面は、ほとんどの人がこの絵よりも自転車を上手に描けないってことだね。フレームの要素を間違えたり、ジオメトリをめちゃくちゃにしたりする。

ペリカンの絵に対してオーバーフィッティングしてるって知りたいな。

ベンチマークはすごく面白いけど、オーパスクラスのモデルで1Mのコンテキストが本当に注目すべきポイントだと思う。誰かもう限界まで試した人いる?長いコンテキストは、歴史的に「デモではうまくいく」っていう状況が多かったからね。

リクエストごとに10ドル払うのは、試してみようって気にはならないよ!

オーパス4.5は、50%のコンテキストマークあたりから怠けてバカになる気がするんだよね。だから、この1Mコンテキストモードが良い出力を出せるかちょっと疑ってる。でも、試してみるつもり。

Claude Codeのリリースノート:

バージョン 2.1.32: • Claude Opus 4.6が利用可能になりました! • マルチエージェントコラボレーションのための研究プレビューエージェントチーム機能を追加しました(トークン集約的な機能で、CLAUDE_CODE_EXPERIMENTAL_AGENT_TEAMS=1の設定が必要です) • Claudeは作業中に自動的に記憶を記録し、思い出します • メッセージセレクターに「ここから要約」を追加し、部分的な会話の要約が可能になりました。 • 追加ディレクトリ内の.claude/skills/に定義されたスキルが自動的に読み込まれるようになりました。 • サブディレクトリから実行する際に@ファイル補完が不正な相対パスを表示する問題を修正しました • --resumeを更新し、デフォルトで前の会話で指定された--agentの値を再利用するようにしました。 • 修正: Bashツールが、heredocsにJavaScriptテンプレートリテラル(${index + 1}など)が含まれているときに「Bad substitution」エラーを出さなくなりました。これによりツールの実行が中断されることがなくなりました。 • スキルキャラクターバジェットがコンテキストウィンドウに応じてスケールするようになりました(コンテキストの2%)。これにより、コンテキストウィンドウが大きいユーザーは、切り捨てられることなくより多くのスキル説明を見ることができます。 • タイ語/ラオス語の母音(สระ า, ำ)が入力フィールドで正しく表示されない問題を修正しました • VSCode: 入力フィールドに前のテキストがある状態でEnterを押すとスラッシュコマンドが正しく実行されない問題を修正しました • VSCode: 過去の会話リストを読み込む際にスピナーを追加しました

Claudeは作業中に自動的に記憶を記録し、思い出します すごいね: https://code.claude.com/docs/en/memory Google Antigravityの「知識」アーティファクトみたいな感じかな?

5.3コーデックス、ターミナルベンチで77.3%のスコアで圧勝!リードが35分も持たなかったけど、今は生きてるって素晴らしい時代だね!

それは大きなジャンプだね。どういう感じで動くのか、またはベンチマークの飽和点に達しつつあるのか、気になる。ベンチマークが良ければ、10ポイントの改善は大きな能力向上になるはずだし…。

claudeのスウェブベンチは80.8、codexは56.8。4.6はまだ全体的に良さそうだね?

これに広範なベンチマークレポートがないのが気になる。OpenAIはベンチマックスに戻ったのかな?みんながこれを試した後の意見を楽しみにしてるよ。

エピックだね、ここにあるコメントの約2/3はジョークだよ。モデルがジョークだからじゃなくて、すごく印象的だから。HNがRedditになったからでもないし。IT界の優秀な頭脳たちがちょっと疲れてきてるように見える。

すごい結果だけど、ずっと考えてることがあるんだ。今のLLMアーキテクチャでは根本的に必要な思考のモードってあるのかな?批判的思考とか、自分の仮定を本当に疑うこと、フレーミングが間違ってると気づくこと、問題への明らかなアプローチが行き止まりだと判断することとか。創造性もそうで、既知のパターンの再結合じゃなくて、問題空間自体を再定義するような飛躍。これらは「次のトークンを本当にうまく予測すること、推論の痕跡を持つこと」以上の何かが関わってる気がする。LLMがそこに到達できないとは言ってないけど、そこに行くためには、まだ見たことのないアーキテクチャや方法論の変更が必要なんじゃないかな、単に今あるものをスケールアップするだけじゃなくて。

LLMでコーディングを始めたばかりの頃、バグをLLMに見せると、すぐにバグ修正を始めて、「わかった!これだ!あ、待って、ここでのprintコマンドが動かないのは電子ビームがコンピュータに向けられてたからだ」とか言い出したんだ。最近は、LLM(Opus 4.5)が元のアイデアや仮定を放棄するのをよく見るようになった。時々、問題が何だと思うかを教えると、彼らはそれを見て、テストして、私が間違ってたと判断する(実際、私が間違ってる)。まだアイデアに固執することもあるけど、それはどんどん少なくなってきてる。だから、現代のLLMは明らかに自分の仮定を疑ったり、フレーミングが間違ってると気づいたりできるようになってると思う。実際、彼らは複雑なバグを数分で直すのに私にとって非常に貴重だった。彼らは多くの仮定を疑って、仮説を捨てる傾向があるから。私自身の仮定を疑う手助けもしてくれた。彼らは一貫性がないけど、確かにそういうことをしてる。私も驚いてるよ。

新しいアイデアの生成?コンテキストウィンドウ内での新しい、希薄な、統計的に重要じゃない概念の理解?これって同じ問題だと思うんだ。以前はバラバラだった概念をつなげるとき、いわゆる「ユリカ」な瞬間が訪れると、関係の大きな波が形成されて、それをテストしたり、支えたりできるんだよね。新しいものから深い理解を動的に形成するという概念は、脳内でアイデアを「試す」ことや、ちょっとした論理テストや比較を通じてできるようには見えない。トレーニングで希薄なものをコンテキストウィンドウに提示すると、全然深みがなくて、結局は自分が言ったことだけになるみたい。俺の経験からすると、常に統計的に重要な答えに戻っていくんだ。だから、理解してるって主張しても、その理解を示すものがゼロなんだよね。基本的なエンジニアリングの問題について話してるんだけど。