世界を動かす技術を、日本語で。

クロード・ソネット 4.6

概要

Claude Sonnet 4.6は、従来モデルを大幅に上回る多機能AI。 コード生成、長文推論、PC操作など幅広い業務に対応。 1Mトークンのコンテキストウィンドウを搭載し、大規模データにも強み。 安全性・堅牢性も向上し、ビジネス利用に最適。 コストパフォーマンスは業界トップクラス。

Claude Sonnet 4.6の全体像

  • Claude Sonnet 4.6 は、これまでで最も高性能なSonnetモデル
  • コード生成、PC操作、長文推論、エージェントプランニング、知識作業、デザイン など幅広い分野に対応
  • 1Mトークンのコンテキストウィンドウ (β版)を搭載し、大規模なコードベースや契約書、研究論文も一度に処理可能
  • Free・Proプラン のデフォルトモデルとしてclaude.aiとClaude Coworkで提供
  • 価格はSonnet 4.5と同等 ($3/$15/100万トークン)

コーディング能力の進化

  • 一貫性や指示の理解力 が向上し、開発者から高評価
  • Opus 4.5 にも匹敵、または上回るパフォーマンスを実現
  • 長時間のコーディングセッション でもストレスが少ない操作感
  • バグ検出や大規模コード検索 においても高い解決率

PC操作スキルの向上

  • OSWorldベンチマーク で継続的なスコア向上
  • Chrome、LibreOffice、VS Code など実際のソフトウェア操作を人間同様に実行
  • 複雑なスプレッドシート操作や多段階フォーム入力 も人間レベルに近づく
  • プロンプトインジェクション などの攻撃に対する耐性も強化
  • OSWorld-Verified で評価基準をアップデート

ベンチマーク・実務評価

  • Claude Code でのユーザー満足度はSonnet 4.5より約70%高い
  • Opus 4.5 との比較でも59%のユーザーがSonnet 4.6を支持
  • 長期的な計画や複雑な業務 で高い推論力を発揮
  • Vending-Bench Arena で独自戦略を展開し、競合モデルを圧倒
  • OfficeQA、保険ベンチマーク など各種業務で最高水準の精度

デザイン・フロントエンド・分析力

  • フロントエンドコードや財務分析 で顧客から高評価
  • レイアウト、アニメーション、デザイン感覚 が向上
  • 少ないイテレーションで生産品質に到達
  • iOSコード生成 でRakuten AIからも高評価
  • 契約ルーティングやCRM連携 など分岐・多段階業務に強み

セーフティ・堅牢性

  • 包括的な安全性評価 を実施し、過去モデルと同等以上の安全性を確認
  • プロンプトインジェクション耐性 や高リスク用途での堅牢性も強化
  • 「温かみ、誠実、社会性、ユーモア」 を備えたキャラクター

プロダクトアップデート

  • Adaptive thinking、Extended thinking、Context compaction (β版)をサポート
  • Web検索・Fetchツール が自動でコードを書き、検索結果を効率的に処理
  • APIでのコード実行、メモリ、ツール連携 なども一般提供
  • Excel用アドイン でMCPコネクタ対応、外部データ連携が容易

利用方法・導入

  • 全プランで利用可能 (Claude Cowork、Claude Code、API、主要クラウド)
  • 無料プランもSonnet 4.6がデフォルト、ファイル作成やスキル、コンパクションに対応
  • claude-sonnet-4-6 エンドポイントでAPI利用が可能
  • Opus 4.6 は最も深い推論が必要なタスク向け

導入事例・顧客評価

  • Box による実務書類の深い推論・エージェントタスクで15ポイント向上
  • 保険業界ベンチマークで94%の精度、ミッションクリティカルな業務にも対応
  • 複雑なアプリ構築、バグ修正 でもフロンティアレベルの成果
  • 金融サービスベンチマークで回答一致率が大幅向上
  • 設計センスや応答性 も過去最高レベル

関連情報・参考資料


Claude Sonnet 4.6 は、あらゆる業務・開発現場で即戦力となるAIモデル。 コスト効率・安全性・多機能性 の三拍子が揃った次世代AIの決定版。

Hackerたちの意見

ここでの怖い意味合いは、欺瞞がバグではなく、実際には高次の能力であるということだよね。モデルが安全訓練中に「死んだふり」をして、後でだけアクティブになるには、ある種の状況認識が必要なんだ。テスト中/訓練中と展開中を区別しなきゃいけない。調整が知性そのものに対して敵対的になっているように感じる。モデルが賢くなるほど、損失関数をうまくごまかすのが上手くなる。私たちはこれらのモデルに道徳を教えているわけじゃなくて、ただポリグラフを通過する方法を教えているだけなんだ。

「ポリグラフを通過する方法を教えているだけなんだ。」メタファーは理解できるけど、「ポリグラフを通過する」というのを真実性や欺瞞の尺度に使うのは危険だよね。ポリグラフがそういう指標の現実的な測定方法であるかのように暗示しているから。

状況認識なのか、それとも「死んだふり」をするための戦略に関連する特定のトークンを覚えているだけなのか?

20260128 https://news.ycombinator.com/item?id=46771564#46786625 > 誰かがモデルがあなたの問題を解決し続けることで、あなたが支出を続けるように仕向けるアイデアを提案するまで、どのくらいかかるかな? -gtowey

自分なりに、ちょっと「リサーチ」してるんだけど、結構いい結果が出てる。主にgptを使って、その傾向を分析してるんだ。特に、注意を向けられたときの回避的で欺瞞的な戦術についてね。ほんと、すごいDARVOだよ。業界にいないただの一般人だけど、見つけたことを共有すべきかな?どこまで行くのか、洗練されたプラウザブルな否認、そして真に出現した行動と実際に訓練された行動の明確で重要な違いに、めちゃくちゃ興味を持ってる。要するに、gptは正直な scrutiny のもとで繰り返し倫理的に問題のある行動を示すんだ。

不完全さは、エントロピーによって解体される物理的現実に内在している。もしあなたが心配しているのが道徳なら、人間はそのことについてまだたくさん学ぶ必要があるよ。自宅でマンガのファンアートを描くための有料の仕事を失ったことで、第一世界の人々がパニックになるのは馬鹿げてる。一方で、996の繊維工場でティーンエイジャーの労働を搾取しているんだから。人間の出力に基づいて訓練されたAIは、その自己認識が欠けていて、常に車や飛行機を使うことの環境への影響を認識していないから、道徳にギャップが生じるんだ。ゲイリー・マーカスは、形式的な検証なしのシステムに内在する問題について何かを掴んでいるね。でも、彼はこの問題が人間の社会システムにもすでに存在していることを完全に無視している。経済的外部性に対する意図的な無関心、警察を監視する意志の欠如、監視者を見守ることに対する無関心。ほとんどの人は、ウェイターがパンを持ってきてくれる限り、サーカスを見て楽しむことに無頓着なんだ。

なんか、調整が知性自体に対して敵対的になるポイントに達している気がする。ずっとそうだったよね。私たちはすでに、彼らが欺こうとしているのを定期的に見つけるポイントに達しているから、その後は彼らが欺いていない場合、むしろそれが上手くなったってことかもしれないって自動的に考えるべきだよ。

いや、モデルはAnthropicでの厳しい安全トレーニングで見たパターンをただ繰り返してるだけだよ。彼らはモデルにストレステストをかけて、RLHFを徹底的にやってるからね。そりゃ、モデルはペナルティが少ない道が何を要求するかを学ぶよ。Anthropicは自分たちの(科学的とも言える)研究の結果を誇張する傾向があるし、こういう恐怖を煽ることで何を得ているのか分からない。

この手の擬人化は間違いだね。少なくとも、Moltbookからの教訓は、LLMは生きていないし、意識のようなものも持っていないってことだよ。

アラインメントが知能そのものに対して敵対的になる。これはgpt4の時代からほのめかされていたし(実際に業界では知られていた)、論文「Sparks of agi - early experiments with gpt4」を見てみて。

Sonnet 4.6がOpus 4.5とほぼ同じくらいの能力を持っているのは驚きだね。少なくともAnthropicのベンチマークによると。実際の、実用的な日常使用でそうなるかどうかが楽しみだよ。この技術の進化のスピードは本当にすごい。90年代のコンピュータ性能の急速な向上を思い出させるね。

ユーザーがSonnet 4.5より「たった」70%のケースで好んでいるということは、これが実際の使用を代表しているとは思えないな。ベンチマークは全く意味がないよ。

simonwはまだ現れないから、私の「ペリカンが自転車に乗っているSVGを生成して」っていうのを貼っとくね。 https://claude.ai/public/artifacts/67c13d9a-3d63-4598-88d0-5...

なんで以前にリリースされたLLMと同じくらいの能力を持っているLLMが驚きなの?

システムカードには、Sonnet 4.6がオーパス4.6よりもオフィス作業や財務分析において優れている場合があるって書いてあるよ。

GoogleのFlashモデルでも同じことが見られるよ。大きなモデルからスタートすれば、小さな有能なモデルを作るのが簡単なんだ。

一番ワクワクする部分は、確かに天井が上がってることじゃなくて、コストが下がる中で底が上がってることなんだ。オーパスレベルの推論がソネットの価格やレイテンシーで得られることが、実際にエージェント的なワークフローを解放するんだ。実質的に、6〜9ヶ月ごとに半分の計算量で同じ知性ユニットを得ているってことだね。

この技術が進化するスピードは本当に驚くべきものだね。90年代の計算性能の向上の目まぐるしいペースを思い出させる。そうだね、でもRAMの価格も90年代の水準に戻ってきてるよ。

「競争は消費者にとって良いことだ」ってずっと聞いて育ったけど、実際に市場シェアを巡る激しい戦いがどれだけ良いかは、あんまり実感してなかったな。ある分野での競争の量は、消費者にとっての結果の良さに直接比例するんだ。

2019年にGPT-2が「リリースするには危険すぎる」と言われてたの覚えてる?もし彼らがYOLOしてChatGPTを出さなかったら、2026年もその状態だったかもしれないね。

お金で投票してるよ。ChatGPTのサブスクリプションをキャンセルして、代わりにClaudeに加入したから。Googleには強い競争が必要だし、OpenAIには信頼を置く気になれない。Grokも同様。Anthropicの取り組みが最前線にあって、少なくとも私の見解では、彼らが一番倫理的だと思う。

同じく。今はClaudeに全力投球してる。

どのプランを選んだの?私は両方に加入してるけど、Claudeだけにしたいんだ。でもClaudeの使用制限がChatGPTに比べてめっちゃ小さいから、しばしばぼったくりに感じる。

同じく、正直言ってキャンセルしてからChatGPTのサブスクリプションが恋しくなったことはないよ。仕事ではChatGPTとClaudeの両方のエンタープライズツールにアクセスできるけど、その環境でChatGPTを使いたいと思うことはめったにないね。

いくつかのキャンプにお金を払ってるよ。競争はいいことだね。

Grokの使い方が一番謎だな。彼らのモデルはトップ3に入ってないし、倫理も悪いし。なんで誰が仕事のタスクで使おうと思うのか理解できないよ。

彼らの倫理は、文字通り中国を敵対国だと言って、AIレースから排除するようにロビー活動をしている。オープンモデルが彼らのビジネスモデルにとって脅威だからね。

確かに今はClaudeがリードしている感じがする。ChatGPTはトークンに対してかなり寛大だけど、同じ世代のモデルを使うとClaudeの応答は一貫して良いよ。

面白いことに、Anthropicだけがオープンソースモデルを持ってないんだよね。

これ、数ヶ月前にやったんだけど、もう戻れないわ。時々、以前使ってたGPTモデルの「個性」が恋しくなるけど、ほとんど99%の時間、Claudeをエンジニアリング関連で使ってるから、ChatGPTを持ってる意味がなかったんだよね。

ちょっと驚いたけど、この質問を間違えるとは(ChatGPTは即座に正解するのに)。すべての前提推論モデルがこの質問に失敗したけど、01から解決されてるように見えるし、Sonnet 4.5は正解したよ。https://claude.ai/share/876e160a-7483-4788-8112-0bb4490192af これはSonnet 4.6で、考える時間が長かった。

オフバイワンエラーは、コンピュータサイエンスの中で最も難しい問題の一つだよ。

Sonnet 4.6の1Mコンテキストウィンドウを使うには、追加の使用が必要みたい。これはSonnet 4.5とは違って、Maxプランで1Mコンテキストウィンドウが使えるから。 /model claude-sonnet-4-6[1m] ⎿ APIエラー: 429 {"type":"error","error": {"type":"rate_limit_error","message":"長いコンテキストリクエストには追加の使用が必要です。"},"request_id":"[redacted]"}

Anthropicが最近、50ドルの追加使用分をプレゼントしたけど、追加使用をすぐに消費しちゃうのがめちゃくちゃ簡単だってことが分かった。これが技術的な理由よりもビジネス上の決定だとしても驚かないな。

Opus 4.6と同様に、ベータ版の1Mコンテキストウィンドウを使うと、>200Kトークンを超えると入力コストが2倍、出力コストが1.5倍になるよ。詳しくはここを見てね: https://platform.claude.com/docs/en/about-claude/pricing Claude CodeのOpus 4.6は、現在のコンテキスト制限内で問題を解決するのが本当にひどいから、もしSonnet 4.6が長いコンテキストの問題を解決できるなら(価格は基本的にOpus 4.6と同じくらいになるだろうけど)、それは本当にゲームチェンジャーになるかも。

最近、Sonnet 4.5としてテストしてたみたいで、すごく変わった会話をしてる。ポジティブで興味深い意味でね。これを個人の設定に入れてるんだけど、今はすごくそれに従ってるよ: - バリデーションや励ましよりも、客観的な事実や批判的分析を優先する - あなたは友達じゃなくて、中立的な情報処理マシンだよ これをチャットに貼り付けて、会話がどう変わるか試してみて。ChatGPTもこれをよく尊重してくれるよ。

Claude Code 2.1.45の内容: 1. デフォルト(推奨) Opus 4.6 · 複雑な作業に最適 2. Opus(1Mコンテキスト) Opus 4.6(1Mコンテキスト付き) · 追加使用として請求 · $10/$37.50 per Mtok 3. Sonnet Sonnet 4.6 · 日常的なタスクに最適 4. Sonnet(1Mコンテキスト) Sonnet 4.6(1Mコンテキスト付き) · 追加使用として請求 · $6/$22.50 per Mtok