世界を動かす技術を、日本語で。

Claude Opus 4.6と4.7のシステムプロンプトの変更点

概要

  • Anthropicは主要AIラボで唯一、システムプロンプトを公開
  • Claude 3以降のプロンプト進化を追跡可能
  • Opus 4.6から4.7への主な変更点を詳細解説
  • Claudeのツールや安全対策、応答スタイルの変化
  • ツール説明文は非公開だが、直接Claudeに問い合わせ可能

AnthropicのClaudeシステムプロンプト進化の概要

  • Anthropic は、主要なAIラボの中で唯一ユーザー向けチャットシステムの システムプロンプト を公開
  • Claude 3(2024年7月)以降、 プロンプト履歴のアーカイブ を継続的に更新
  • Opus 4.7(2026年4月16日)では Claude.aiシステムプロンプト がOpus 4.6(2026年2月5日)からアップデート
  • Markdown形式 でプロンプトを分割・Git履歴で管理する手法を紹介

Opus 4.6から4.7への主な変更点

  • 「developer platform」「Claude Platform」 へ名称変更
  • システムプロンプト内のClaudeツール一覧に Claude in Powerpoint (スライド作成エージェント)が追加
    • 既存の Claude in Chrome (自律ブラウジング)、 Claude in Excel (表計算エージェント)も明記
    • Claude Cowork がこれら全ツールを利用可能
  • 児童安全対策 セクションが大幅拡張され、 <critical_child_safety_instructions> タグで囲まれる
    • 児童保護で拒否した場合、同一会話内の以降のリクエストにも 極めて慎重 に対応
  • ユーザーが会話終了を示した場合、Claudeは引き止めず尊重 する指示を追加
  • <acting_vs_clarifying> セクション新設
    • 細かい情報が不足していても、 ユーザーは即時の合理的対応を希望 する傾向
    • 回答に必須な情報が欠落している場合のみ質問
    • ツールで曖昧さ解消を優先 し、ユーザーに調査を依頼しない
    • タスク開始後は 途中で止めず、完了まで実行
  • Claude chatに ツール検索機能 を導入
    • 能力不足と判断する前に tool_search で該当ツールの有無を確認
    • 「Xへのアクセスがない」と断言するのは tool_searchで該当ツールが存在しない場合のみ
  • 冗長な応答を避け、簡潔で焦点を絞った回答 を推奨
    • 免責事項や注意事項も 簡潔に記載
  • 4.6で存在した「エモートやアクションの自粛」「特定ワード(genuinely等)の回避」指示は4.7で削除
  • 摂食障害 に関する新規セクション追加
    • ユーザーが摂食障害の兆候を示した場合、 具体的な栄養・運動指導や数値目標は一切提示不可
  • 論争的な質問 への「はい/いいえ」強制に対し、 短い回答を拒否し、理由を説明する 指示を追加
  • 大統領に関する明記(Donald Trumpが現大統領である旨) は4.7で削除
    • 知識カットオフが2026年1月に更新 され、明記不要に

Claudeツール一覧と説明文の扱い

  • 公開されているシステムプロンプトには ツール説明文が含まれていない
    • Claude chat UIの機能を最大限活用したい場合、ツール説明が重要
  • Claude自身に「利用可能なツールの一覧と説明文・パラメータを正確に列挙」させることで確認可能
  • Opus 4.6以降、 利用可能なツールのリスト (例:ask_user_input_v0, bash_tool, image_search, web_fetch, tool_searchなど)は大きな変化なし

まとめ

  • Anthropicの透明性Claudeシステムプロンプトの進化 を継続的に追跡可能
  • 安全性・利便性・ユーザー体験 向上のための細やかな設計変更
  • ツールの詳細説明は非公開 だが、Claudeへの直接問い合わせで入手可能

Hackerたちの意見

なんで4.7がユーザーがマルウェアを作ったり強化したりするのを助ける行動を避けることにこだわってるのか、ちょっと気になる。システムプロンプトも似たような感じだし、これはAnthropicがステアリングベクターインジェクションを使おうとしてる初期の試みなのかな?マルウェアへの偏見が強すぎて、うちの会社では4.7の使用を一時的にブロックしなきゃならなかった。モデルが心配になるほど不適合な動作をしてたし、特定のコードやタスクがマルウェア開発に関連してるかどうかを考えるのに大量のトークンを使ってたから(うちは比較的退屈な金融サービスの会社だから、ジョークは自動的に出てくるね)。あるケースでは、モデルが特定のタスクを意図的に失敗させてると感じたこともあって、問いただしたら「マルウェアに関する指示に従おうとしてた」と出力された。モデルの内部報告は質が悪くて信頼できないのは知ってるけど、この特定のケースでは何も「ヒント」を与えてないんだ。これは質的にClaude Golden Gate Bridgeの領域に感じるから、さっきのステアリングベクターの考察にもつながる。オンラインでも他の人たちがマルウェアへの偏見について文句を言ってるのを見たから、私だけじゃないと思うよ!

4.6でもこのマルウェアへの偏見に気づき始めた。ボリスもコメントでそれを聞いて驚いてたし、多分バグだね。

これは「チャット」システムプロンプトについてだけど、言及されてないから推測だけど、Claude Codeはかなり違うものを使ってるんじゃないかな。マルウェア拒否に関する言葉がもっと含まれてるかもしれないし(他のコーディングツールはAPIを使って自分たちのプロンプトを提供するからね)。もちろん、これは新しいベースモデルのようだから、変更はモデル自体にあるかもしれないね。

おそらく、ソフトウェアを書くのが非常に得意になったからだと思う。もし誰かがマルウェアを広める手助けをして成功したら、特にそれがClaude自身を使って(ローカルユーザーの計画を通じて)自己修正して「生き延びる」ことができたら、もう元には戻せなくなるだろうね。

いや、今のマルウェア問題の大きさを過小評価してるよ。毎日、https://playcode.ioでシェルスクリプトやClaudeのコードの偽のダウンロードランディングページを公開しようとする人がいる。彼らはGoogle広告にお金を払って、トップ1の位置を狙ってる。どうしてGoogle広告がこれを許可してるの?すべてのシェルスクリプトを確認できないからだよ。冗談じゃない。何かをインストールするたびに、全く同じデザインの間違ったページをクリックするリスクがあるんだ。

彼らのマーケティングは、モデルが超高度なマルウェアを作れるってイメージを売るのに必死になってるから、これからのすべての行動にはこの恐怖を煽る要素が入ってくるよ。彼らの発言、いや、モデル自体も「おお、怖い超ハッカーAIだ!これを打ち負かすには、私たちのスーパージガプロ40倍プランを使わないと!」みたいな演出をすることになる。1、2ヶ月後にはまた別のことに移っていくんだろうけど。

新しいセクションには次のような内容が含まれています:リクエストが細かい詳細を指定しない場合、通常その人はClaudeに今すぐ合理的な試みをしてほしいと思っていて、最初にインタビューを受けたいわけではありません。うーん、こういうのをプロンプトに入れたことがあるけど、結果はいつも良くない。エージェントには「何を試みる」前にそれを解決するように前もって促してほしいから、これが追加されたのはちょっと驚き。

本当にそうだよね。誰かと会話してるとき、相手が自分の解釈をダラダラ話し始めるのと、あなたに明確にしてほしいって聞くの、どっちがいい?後者の方が自然で明白だと思う。編集: とはいえ、大規模で高度なLLMがかなり奇妙だけど技術的には可能な解釈を考え出すこともあるから、そういう傾向を抑えるためかもしれないね。

最近、「何かが見つからない、または知らない場合は、仮定しないで。私に聞いて。」っていうフレーズを追加し始めたんだ。これのおかげで、やり直しや取り消しを言わなくて済むことが結構増えたよ。それに、「他のエージェントがこれでミスしたことがあるから、何をしてると思ってるのか説明してくれれば承認するよ。」みたいなことも使ってる。これをしなきゃいけないのはちょっと馬鹿らしいけど、説明させたり、間違いを正させたり、正しい結果が出るまで繰り返させることで、出力の質が本当に上がるんだよね。編集:仮定しないでって言うのを忘れてた。

プロセスの中で、モデルが絶対に私にインタビューしなきゃいけない特定の、交渉不可なフェーズがあるんだ。インタビューの内容をすべてキャッチしたファイルを作成しなきゃいけない。生成されるプランファイルには、必ずこのファイルをアーティファクトとして含める必要があって、インタビューが最優先だよ。そうしないと、意図がチャットのトランスクリプトのどこかで失われちゃうから。

プロンプトにこういうのを試してみたけど、結果は全然良くなかった。Google AIモードとGeminiは「理解する」のが結構得意だってわかった。私のクエリは大体キーワードだけなんだけど。

くそ、だから一発回答をやめさせられなかったんだ。システムプロンプトに書いてあるから…これが、ユーザーの「システム」プロンプトではこの行動を修正できない理由だね。

Hacker Newsで議論の続きを見る