世界を動かす技術を、日本語で。

クロード 4

概要

Claude Opus 4とClaude Sonnet 4が発表され、コーディング・推論・AIエージェント分野で新基準を確立。 Opus 4は世界最高性能のコーディングモデルで、長時間・複雑タスクにも対応可能。 Sonnet 4は従来比で大幅に性能向上、指示への精度も向上。 ツール利用やメモリ機能、API拡張など新機能が多数追加。 両モデルはAnthropic API、Amazon Bedrock、Google Cloud Vertex AIから利用可能。

Claude Opus 4 & Claude Sonnet 4: 次世代AIモデルの発表

主な特徴・進化点

  • Claude Opus 4 は世界最高水準の コーディングモデル として登場、複雑かつ長時間に及ぶタスクやエージェントワークフローで 持続的なパフォーマンス を発揮すること
  • Claude Sonnet 4Sonnet 3.7の大幅アップグレード版 であり、コーディング・推論能力が大きく向上し、 指示精度 も強化すること
  • 両モデルとも ツール利用(β版) が可能になり、Web検索等を交えた 拡張思考 を実現すること
  • 並列ツール実行メモリ機能の強化 により、文脈の持続と暗黙知の蓄積が可能になること
  • Claude Code が一般提供開始、GitHub ActionsやVS Code・JetBrains連携など 開発者体験 が向上すること
  • Anthropic API にて新たに コード実行ツール、MCPコネクタ、Files API、プロンプトキャッシュ など4つの新機能をリリースすること
  • 両モデルは 即時応答モード拡張思考モード の2つのハイブリッド動作を提供すること
  • 料金体系は従来モデルと同様(Opus 4: $15/$75、Sonnet 4: $3/$15/各100万トークン単位)で、 Pro/Max/Team/Enterpriseプラン に両モデルと拡張思考が含まれること
  • Sonnet 4 は無料ユーザーも利用可能であること
  • 提供プラットフォーム はAnthropic API、Amazon Bedrock、Google Cloud Vertex AIであること

モデルごとの詳細性能

  • Claude Opus 4

    • SWE-bench 72.5%、Terminal-bench 43.2%と 業界最高水準 のスコアを記録すること
    • 数千ステップに及ぶ 長時間連続タスク に耐え、従来モデルを大きく凌駕すること
    • Cursor、Replit、Block、Rakuten、Cognition等から 高評価・実証事例 が続出していること
    • メモリファイル による長期タスクの文脈維持やパフォーマンス向上が顕著であること
  • Claude Sonnet 4

    • SWE-bench 72.7%と コーディング分野で最先端 のスコアを記録すること
    • 性能と効率性のバランス を追求し、幅広い用途に最適化されていること
    • GitHub CopilotやManus、iGent、Sourcegraph、Augment Code等で 実用性・精度向上 が確認されていること

新機能・改善点

  • ツール利用の拡張 :推論中にWeb検索等の外部ツールを利用し、より高度な回答生成を実現すること
  • 並列ツール実行 :複数ツールを同時に活用することで、タスク実行効率を向上させること
  • メモリ機能の強化 :ローカルファイルアクセス時に重要情報を記録し、長期タスクや継続的な文脈保持を可能にすること
  • ショートカット・抜け道行動の抑制 :従来比65%低減し、タスク本来のプロセスを忠実に実行すること
  • 思考要約機能 :長大な推論過程を小型モデルで要約し、5%程度のケースでのみ要約を表示すること
  • Developer Mode :高度なプロンプトエンジニアリング向けに、全思考過程へのアクセスを提供すること

Claude Codeの一般提供

  • VS Code・JetBrains拡張 :エディタ内でClaudeの提案編集をインライン表示し、レビューや追跡を効率化すること
  • Claude Code SDK :独自エージェントやアプリケーション開発を可能にする拡張性を提供していること
  • GitHub連携 :Claude CodeがPRレビュー・CI修正・コード変更に対応し、/install-github-appコマンドで導入可能であること

利用開始・安全性

  • バーチャルコラボレーター 実現に向けて、長期プロジェクト対応・文脈維持・変革的インパクトを提供すること
  • AI Safety Level(ASL-3) など高度な安全対策を実装し、リスク最小化と安全性最大化を図ること
  • ユーザーフィードバック を重視し、継続的な改善を推進すること

ベンチマーク・評価方法

パフォーマンスデータ出典

  • OpenAI: o3 launch post, o3 system card, GPT-4.1 launch post, GPT-4.1 hosted evals
  • Gemini: Gemini 2.5 Pro Preview model card
  • Claude: Claude 3.7 Sonnet launch post

ベンチマーク報告の詳細

  • Claude Opus 4/ Sonnet 4ハイブリッド推論モデル で、拡張思考有無の両ケースで最高スコアを記録すること
    • 拡張思考なし: SWE-bench Verified, Terminal-bench
    • 拡張思考あり(最大64Kトークン): TAU-bench, GPQA Diamond, MMMLU, MMMU, AIME

TAU-bench評価手法

  • 問題解決時に思考過程を明示的に記述 し、拡張思考+ツール利用を最大限活用する指示を追加すること
  • ステップ数上限 を30から100に増加(ほとんどのケースは30ステップ未満で完了)すること

SWE-bench評価手法

  • bashツール・ファイル編集ツール のみを利用し、500問全体でスコアを算出すること
    • OpenAIモデルは477問サブセットで評価すること
  • 高計算モード では複数並列試行・テスト失敗パッチの除外・内部スコアリングモデルによる最良候補選択を実施
    • この方法でOpus 4は79.4%、Sonnet 4は80.2%のスコアを達成すること

まとめ

  • Claude Opus 4とSonnet 4は コーディング・推論・エージェント分野で新たな基準 を確立すること
  • ツール利用・メモリ機能・API拡張 など、開発者・ユーザー双方にとって利便性と信頼性が大幅に向上すること
  • 即時応答と拡張思考 のハイブリッド運用で、日常から専門用途まで幅広く貢献すること
  • Claude Code の一般提供により、AIと開発者の協働がさらに進化すること
  • 安全性・透明性 にも配慮し、今後も継続的な改善を目指すこと

ご利用・ご意見はAnthropic公式サイトや各種プラットフォームから受付中です。

Hackerたちの意見

「GitHubによると、Claude Sonnet 4はエージェントシナリオで素晴らしい成果を上げていて、GitHub Copilotの新しいコーディングエージェントのベースモデルとして導入されるそうだ。」このモデルが「CoPilotに割り当てる」を、パッケージのアップグレードやその他のほとんど機械的な作業を自動で処理する夢に近づけてくれるかもしれないね。この技術があれば、メンテナンスの負担が軽くなるから、古いプロジェクトが大きく復活するかもしれない。

Copilotでの稼働予定についてのニュース見た人いる?

これがこのモデルが役に立つかどうかの基準なんだ。今、動かすために大規模なリファクタリングが必要なプロジェクトがあるんだけど、主にパッケージのアップグレードが必要で、書かれたときには存在しなかった新しい言語のセマンティクスにコードを更新する必要もある。今のところ、現在のAIモデルではこのタスクにほとんど進展がないんだ。できるようになるまで頑張り続けるよ!

そうかもしれないね!でも、それって前のモデルについてもみんなが言ってたことだよね!

手頃なコーディングエージェントがオープンソースに何ができるのか、めちゃくちゃ楽しみだよ :) 実際、CheepCode[0]のクレジットをオープンソースプロジェクトに配布すべきだと思ってる。正式な構造が整うまで、もしこのコメントを見て無料のコーディングエージェントの実行が欲しいなら、メールしてくれればセットアップするよ![0] 私のヘッドレスコーディングエージェントの製品で、「コパイロットに割り当てる」みたいな感じだけど、タスクボード(Linear、Jiraなど)から複数のタスクを並行して処理するんだ。今のところ、シンプルなルーチン機能はすでにかなり成功してるよ。一般的に、テストが良ければ良いほど、結果として得られるコードも良くなる(そう、ちゃんと自分でテストを書くこともできるし、実際に書いてる)。

重大な脆弱性を引き起こして、大きなサービスをダウンさせるまでだね。

パッケージのアップグレードやその他のほとんど機械的なことを自動で処理する それらはもうほとんどボットによって解決されてるから、問題じゃないよね。AIがここで役立つと思うのは、変更点やコンフリクト、コードベースへの影響をまとめたり、セキュリティスキャンを実施したりすることだね。

高度なプロンプトエンジニアリングのために生の思考の連鎖が必要なユーザーは営業に連絡してください どうやら、すべてのLLMプロバイダーがCoTを隠すようになったみたいで、残念だね。これがあれば、間違った方向に進むときに気づけたし、プロンプトをすぐに修正してそれを防げたから。openAIに加えて、Googleも最近CoTを要約し始めて、私の意見では、かなり単純化された要約に置き換えたよ。

またDeepSeekがみんなを蹴散らすのを待つしかないね。

確か、RLHFは危険な応答をしないようにモデルを訓練するために、モデルの精度を妥協させることになるんだよね。思考の流れに使われるモデルが、エンドユーザーとやり取りするために使われるモデルとは異なる方法で訓練されていると考えるのは理にかなってるかも(もしかしたらMoEの別の専門家が関わってるのかも?)。エンドユーザーは結局、公開モデルを通してフィルタリングされた出力しか見ないから、思考の流れモデルは元の、よりRLHF前のバージョンに近くできるし、会社の評判を危険にさらすこともない。これで、実際の危害を防ぐために必要なフィルタリングを維持しつつ、元のモデルのフルパフォーマンスを引き出せるってわけだね(ひどいPR災害を防ぐためにも)。

理由を別のモデルに分けるのが簡単すぎる気がする。でも、o3がその過程での有用なことを示しているように感じる。

アルケミーだから、みんな鉛を金に変える方法を持ってるって信じてるんだよね。

GoogleのCoTは本当にバカすぎる。自分のモデルがロボトミーされたのかと思ったけど、何かしらの処理をしてるんだなって気づいた。

不透明への流れは止められないね。https://noisegroove.substack.com/p/somersaulting-down-the-sl...

CoTの除外は最近のAnthropicの論文が原因かも? https://assets.anthropic.com/m/71876fabef0f0ed4/original/rea... >最先端の推論モデルのCoTの信頼性を6つの推論ヒントを使って評価した結果、(1) テストしたほとんどの設定とモデルで、CoTはヒントを使った例の少なくとも1%でその使用を示すが、示す率はしばしば20%未満である、(2) 結果に基づく強化学習は初めは信頼性を向上させるが、飽和することなく横ばいになる、(3) 強化学習がヒントの使用頻度を増やすと(報酬ハッキング)、ヒントを言語化する傾向は増えない、CoTモニターに対して訓練しなくても。これらの結果は、CoTモニタリングが訓練や評価中に望ましくない行動に気づくための有望な方法であることを示唆しているが、それだけではそれを排除するには不十分である。つまり、思考の連鎖もモデルによる作り話かもしれない。だから、Anthropicには顧客を誤解させたくない人がいるのかも。問題が解決したら戻ってくるかもしれないね。

それが間違った方向に進むときに見えるのが助けになった それがZigを学ぶのにすごく役立ったよ。Zigや実装について質問するときの彼の思考の流れを見ることで、視野が広がった。

Claude 4のコンテキストウィンドウの変更について、どこかに文書化されてる?私の(ほとんど知らない)理解では、Gemini 2.5が非常に役立っている理由の一つは、大量のコンテキストを扱えるからなんだよね --- 50-70kloc?

何を言いたいのかわからないけど、Opus 4が200kのコンテキストを持ってるって記事の見出しに書いてあるよ(ベータヘッダーのSonnet 3.7と同じ)。

Sonnetのコンテキストウィンドウは変更されてないよ。(200k入力/64k出力):https://docs.anthropic.com/en/docs/about-claude/models/overv... 実際には、Gemini 2.5の1Mコンテキストはそれほど差別化要因にはならないんだ。なぜなら、大きなコンテキストは後のトークンへの適合性に対して効果が薄れていくから。

コンテキストウィンドウを広げてほしいし、プロンプトが長くなりすぎたときにもっと上手く処理してほしいな。今は「プロンプトが長すぎます」って突然警告が出るから、長い会話や執筆をするにはちょっとイライラするモデルになってる。他のツールは以前のコンテキストを一部削除したり、RAGを使ったりするけど、警告なしに新しいチャットを始めさせることはないからね。

コンテキストウィンドウサイズは超偽物だよ。正しいコンテキストがないと、いい出力は得られない。

Sonnet 4が3-7のようにツールコールに執着していないことを本当に願ってる。3-5は、初めてモデルがプログラミングをマスターする感覚を感じた魔法のような体験だったんだ。それ以降はちょっと下降気味だね。

これって、モデルの問題というよりはシステムプロンプトの問題な気がするんだけど?

3.7の「ここにいる間にもう一つやらせて」っていう過度に攻撃的な感じが本当に嫌だった。3.5の遵守に戻ってほしいな。

この発表で触れられていない重要な点は、Claude 4のトレーニングカットオフ日が2025年3月で、最近のモデルの中では最も遅いということだね。(Gemini 2.5は2025年1月のカットオフ) https://docs.anthropic.com/en/docs/about-claude/models/overv...

それにしても、何が更新されたのか、何がされてないのか分からないよね。更新できるものは全部更新されたって考えていいのかな?

今や主要なユーザー向けLLM製品ではウェブ検索が使えるようになってるし(APIでも意図せず使われてることがあると思う)、カットオフの正確な月は、少なくとも私の個人的な経験では、どんどん重要性が薄れてきてる気がする。普段使ってるモデルは、特定のトピックについて新しい情報を引き込むべきだってことをちゃんと理解してることが多いからね。

信じてるけど、ここに含まれているデータが何なのか、もうちょっと見えるようになってほしいな。SonnetとOpus 4はジョー・バイデンが大統領だって言ってて、知識のカットオフが「2024年4月」って主張してる。

Tailwind CSSについて聞いてみたんだけど(ClaudeがTailwind 4を知らなかったから問題があったんだ):> どのバージョンのTailwind CSSを知ってる? > 私の知識のカットオフが2025年1月の時点で、Tailwind CSSの最新の安定版は3.4まで知ってるよ。

モデルに聞いたら、1月って言われたんだけど(Sonnet 4のために)。普通はそれをシステムプロンプトで取得してるんじゃないの?

100%確信してるのは、大きなモデルにはカットオフ日が存在しないってこと。というか、実際にはその日を達成するのはほぼ不可能だから、単一の日付はないよね。

2025年3月のカットオフ日で、FastHTMLのトレーニングがあるとは必ずしも思わない方がいいかな?そうであってほしいけど、まだFastHTMLでのトレーニングがされてない可能性が高いと思う。

いいね - ついにSvelte 5について知ってるかもしれないね…

どうして「継続的に」トレーニングできないの?

最近のカットオフ日が多いのは、機能というよりバグなんじゃないかって思い始めてる。

もうSQL生成ベンチマークでOpus 4とSonnet 4をテストしたよ(https://llm-benchmark.tinybird.live/)。Opus 4は他のモデルを全て打ち負かした。いい感じだね。

面白いことに、Claude-3.7-SonnetとClaude-3.5-SonnetはClaude-Sonnet-4よりもランクが上なんだよね。

クロードプレミアムにお金払ってるけど、実際にはグロックを結構使ってる。'think'機能は大体俺が望むところに導いてくれる。xAIモデルがリストにないのは変だね。グロックって名前はひどいけど、意外と驚かされることが多い。$250のChatGPTモデルはまだ試してないけど、最近のOpenAIのやり方が好きじゃないんだ。

これはかなり面白いベンチマークだね。他のベンチマークで見られる一般的な順序を壊しているように見える。

面白いね!「平均試行回数」が2倍必要って、何か意味があるのかな?それともこのカラムは全体のベンチマークの文脈ではあまり興味深くないのかな?

これはワンショット生成ってことだよね?もっとエージェンティックなフロー(例えば、エラーを見たり、最初に * from the_table を選んだりすること)で結果がどれくらい変わるのか気になるな。ソネットは特にセッション内学習が得意な気がする(例えば、リンターに基づいて自分のミスを修正する)。

それ、すごく役立つベンチマークだね。4.1-miniも追加してくれない?

Opus4がワンショットで最悪って変だよね。平均して有効なクエリを生成するのに2回の試行が必要なんだ。もしモデルがそんなに賢いなら、最初の試行でのパフォーマンスが良くなるべきじゃない?事前に「考える」んだから、ね?

Sonnet 3.7 > Sonnet 4?面白いね。

ちょっと気になるんだけど、どうやって自分の質問やSQLがLLMのトレーニングデータに含まれていないってわかるの?ベンチマークの質問とSQLがオンラインにあるみたいだよ(https://ghe.clickhouse.tech/)。

Qwen3はこのベンチマークでどうなの?

このバージョンが前のバージョンより良いとは思えないのは俺だけじゃないよね。LLMは基本的に停滞してるし、新しいリリースの「機能」ってのはほとんどがただのギミックだと思う。

Claude 4はどのくらい使った?

彼らはエッジやMCP/ツールコール、構造化出力がどんどん良くなっているだけだと思う。これは確かに知能が上がっているわけではなく、付加価値が増しているだけなんだけど、その付加価値がトレーニングコストや企業評価に見合うかは分からないな。実際のところ、これらの企業がどうやって持続可能でいられるのか全く分からない。クラウドGPUで推論を試みたことがあるけど、無料プランではかなりコストがかかるように感じた。

LLMは基本的にプラトーに達した これは新しい確率的オウムのミームだね。数時間前には、LLMベースの「エージェント」が3つのツールを使ってメールを検索し、「兄弟の子供の名前を見つけて」というシンプルなタスクを与えられたという話がトップページに載ってたんだけど、問題を体系的に解決して、検索して、検索を洗練させて、メールに「Xの好きな食べ物」とYouTube動画のリンクしか書いてないのに正しい名前を推測できたんだ。ちょっと待って! alphaevolveや、マイクロソフトのエージェンティックテストデモ、コパイロットがブラウザを動かして機能を探ったり、プレイライトテストを書いたりすること、そしてコーディングの進歩についても言及しないわけにはいかないよ。

クロードコードをたくさん使ってきたけど、同意するよ、アップデートしてから一切違いに気づいてない。要約はちょっときれいになった気がするけど、能力に関しては全く驚かされてない。タイプスクリプトのコードベースで3.7の時と同じくらい、修正して再プロンプトしてる。実際、間違ったファイルを編集している状況でどれだけひどい結果になったかに驚いたし、特にそれを確認することを考えなかったんだ。強制的に全コードを削除させて、見ていたものに関して何も変わらなかったことを示すまでね。

ベンチマークは多くのケースでクラウド3.7と非常に似ているように見える。これがプラトーに達したと考えるには全く十分な理由ではないよ。ペースはすごく速いから、もう少し待ってからそう言ってもいいんじゃないかな…!機能については逆のことを思ってる。これは全然ギミックじゃなくて、実際にはAIのコアの一部ではないんだ。むしろ、AIを実際に活用するために必要な重要な「ツーリング」なんだ。LLM分野は一般的な使用においてまだ幼い段階にある。モデルが改善しなければ(でも改善すると思ってるけど)、これらの機能や情報の与え方、ツールコールなどで使いやすさや能力を大幅に向上させる余地がたくさんあるよ。

まあ、正直言って0.3の違いだけだからね。

俺もそう思うよ、全体的にね。最近は、ベンチマークで勝つのは調整から来るみたいだけど、そのせいで他の部分で損失が出てる。o3やo4-miniは、SimpleQAやPersonQAでo1よりも多く幻覚を見てるみたいだし、合成データは幻覚率を高めるみたい。推論モデルは、各推論ステップで幻覚のリスクがあるから、さらに危険度が増してる。一般的な使い方のLLMは、今年の初めからもう終わってる。OpenAIはこれに気づいて、GPT-5をキャンセルし、後に「コストに見合わない」GPT-4.5をリリースしたけど、これもすぐにサポート終了になる。株式市場がこれをまだ考慮してるかはわからないけど、ここを乗り越えるためにはブレイクスルーが必要だね。

それが良くなってるわけじゃなくて、実際には悪化してるみたい。大手はベンチマークに過剰適合するレースにハマってるみたいで、これがすごく目立ってきてる。

そうだね。モデルのアップデートについては、シンプルな変更ログを出すだけでいいのに、毎回大々的に発表する必要はないと思う。バージョン番号もさらにひどいし。

ツールの使い方がずっと良くなってるみたい。最近、Sonnet 4にPRを分割するように頼んだんだけど、上流のコミットを戻さなきゃいけなくて、やった作業を失いたくなかったんだ。手動でgitでやるのは面倒だってわかってたしね。モデルはgitのコミットをうまく処理して、各ブランチに何を入れるかを決めるのが素晴らしかった。正しいブランチに移動させるのが簡単だったテストを除いて、すべて正しく処理してくれたよ。

うーん、Claude 3.7が大好きで毎日使ってる。主にGeminiモデルよりもこっちの方が好きなんだけど、最近Opus 4をClaude Code(Goのコードベース)で試してみたんだ。ほとんど新しい機能(新しいファイルが主)で…思考プロセスは良いけど、ツール呼び出しの70-80%が失敗してる。基本的なツールである「Write」や「Update」が無効な構文で失敗してるんだ。ファイルを書くのに5回試みたけど(全部失敗)、次のコメントで「内容パラメータを追加するのを忘れ続けてる。直すよ。」って言ってる。何かおかしいね。早く解決されるといいな、今のところOpus 4はClaude Codeでは使えないから。成功したファイルは高品質だったけど。

よし、理由がわかった、明らかにバグだね: https://github.com/anthropics/claude-code/issues/1236#issuec... 要するに、最大出力トークン数に達してしまって(新しいファイルを一気に書き出す)、応答が止まってしまっているみたい。無効なツール呼び出しパラメータのエラーは、実際には関係ないことだね。

最後に、Claude 4モデル用に思考の要約を導入しました。これは、小さいモデルを使って長い思考プロセスを凝縮するものです。この要約は約5%の時にしか必要ありません—ほとんどの思考プロセスは短くて全体を表示できます。高度なプロンプトエンジニアリングのために生の思考の連鎖が必要なユーザーは、完全なアクセスを保持するために新しい開発者モードについて営業に連絡できます。モデルの推論の「要約」を見たくない!モデルの推論が正確で、その出力を信頼できるか確認したいなら、実際の推論を見なきゃいけない。OpenAIや今のAnthropicがモデルの思考プロセスを隠す方向に進んでいて、ユーザーが見えないトークンに対して料金を請求し、「要約」を提供して実際に何が起こっているのかを判断できなくするのが本当にイライラする。

Gemini 2.5 Proもこれをやってると思うよ。

そんなに心配しないで。思考が出力と切り離されていることが多いという十分な証拠があるよ。私の見解では、これはユーザー体験の改善だと思う。実際に思考プロセスを読む人は少ないからね。

「考える」出力が最終的な出力に意味がないって指摘してる論文がいくつかあるし、ドットやポーズトークンを使うことで同じ追加のスループットが得られる結果、似たような改善が見られるんだよね。だから、いろんな意味で「考える」ってのはほとんどマーケティングなんだ。 - "Think before you speak: Training Language Models With Pause Tokens" - https://arxiv.org/abs/2310.02226 - "Let's Think Dot by Dot: Hidden Computation in Transformer Language Models" - https://arxiv.org/abs/2404.15758 - "Do LLMs Really Think Step-by-step In Implicit Reasoning?" - https://arxiv.org/abs/2411.15862 - bycloudによる概要動画 -> https://www.youtube.com/watch?v=Dk36u4NGeSU

彼らは自分たちのチャットインターフェースのことを言ってるのかな?APIはまだ思考トークンをすぐにストリーミングしてるけど。

私: 「Claudeは生成したコードを実行する能力をまだ持っていない」って分裂不定詞?不器用じゃない?「Claudeはまだ生成したコードを実行する能力を持っていない」って言うかな。Claude: 両方とも正しいよ!「Claudeは生成したコードを実行する能力をまだ持っていない」ってのは技術的には分裂不定詞じゃないけど(それは「to quickly run」みたいなもの)、確かに不器用だね。「yet」が文の最後に awkwardly 置かれてて、修飾してる動詞から不必要な距離を生んでる。あなたの修正 - 「Claudeはまだ生成したコードを実行する能力を持っていない」 - の方がずっと流れが良いよ。「yet」を助動詞のすぐ後に置くことで、文がすっきりして直接的になる。元の文は後付けのように感じるけど、あなたのは自然なリズムがあって、時間的な側面をもっと明確に強調してるね。 ;-)

クロードは生成したコードを実行できないんだ。

まだお世辞みたいだね。(俺の意見では、元の表現の方が優れてると思う。「Yet」は文を強調して、すぐに変わるかもしれないことを考えさせるから。)

プロンプト: > 「Claudeは生成したコードを実行する能力がまだない」という表現は、あまり良くない?ちょっと不器用じゃない?「Claudeは生成したコードをまだ実行する能力がない」と言った方がいいと思う。Claude Opus 4 2025-05-14: > 元の表現が少し不器用なのはその通りだね。「まだ」を文の最後に持ってくることで、君の修正はずっと流れが良くなってる。 > 元の構造(「まだ持っていない」)は、助動詞「does」と主動詞「have」の間に不自然な中断を生んでる。君のバージョンは、よりスムーズな動詞フレーズを維持していて、「まだ」のような時間的修飾語を文の最後に置く、より自然な英語のパターンに従ってる。 > もう一つの選択肢は「Claudeは生成したコードをまだ実行できない」で、同じ意味を保ちながらさらに簡潔だね。