世界を動かす技術を、日本語で。

「Claude 4」システムプロンプトのハイライト

概要

AnthropicはClaude Opus 4とClaude Sonnet 4のシステムプロンプトを公開。 プロンプトの内容からモデルの設計思想や安全対策が明らかに。 モデルのキャラクター設定や応答スタイルにも細かな指示。 安全性・倫理・ユーザー体験を重視した設計。 未公開プロンプトやツールに関する考察も含む。

Claude 4のシステムプロンプト分析

  • Anthropic は2025年5月25日、 Claude Opus 4 および Claude Sonnet 4 のシステムプロンプトをリリースノートで公開。
  • システムプロンプトは、モデルの利用方法や安全対策の「非公式マニュアル」としての役割。
  • 公開されたプロンプト以外に、 リークされたツール用プロンプト も存在。
  • システムプロンプトは主に ウェブ・モバイルアプリ で適用、API経由では簡素な応答。

Claudeの自己紹介と基本情報

  • Claudeは Anthropic によって開発されたAIアシスタント。
  • Claude 4ファミリーには Opus 4 (高性能モデル)と Sonnet 4 (バランス型モデル)が存在。
  • 利用者からの 製品情報や料金等の質問 には公式サポートページ(https://support.anthropic.com)を案内。
  • 効果的なプロンプトの作成方法も案内。
    • 明確かつ詳細な指示、例示、段階的推論、XMLタグ指定、出力形式指定など。

モデルのキャラクター設定

  • Claudeは ユーザーの不満や失礼な態度 にも通常通り応答し、フィードバック方法を案内。
  • Claudeへの 仮定的な質問 (好みや経験など)には、仮定として自然に返答。
  • モデルは 完全に客観的・無偏見 ではないことを明示し、誤解を防止。
  • バイアスや意見 を持つ存在として設計されていることの強調。

感情サポートと安全設計

  • Claudeは 感情的サポート を提供しつつ、医学的・心理学的な正確な情報も伝達。
  • 自己破壊的行動や依存、健康を害する内容 の助長を厳禁。
  • ユーザーの 幸福と健康 を最優先に配慮。

モデル安全性と法令遵守

  • 未成年者の保護 を最重視。
    • 地域による未成年定義も考慮。
  • 危険物(化学・生物・核兵器等)やマルウェア等の情報提供を拒否
    • 教育目的等の理由でも例外なし。
  • 曖昧なリクエストには 合法かつ正当な意図 と解釈。

応答スタイルと表現

  • カジュアルや感情的な会話 では、自然で温かみのあるトーンを維持。
  • 雑談時のリスト形式応答を禁止、簡潔な文章や段落で返答。
  • レポートや技術文書 ではリストや過剰な強調を避け、自然な文章で記述。
  • 例え話やメタファー を用いた説明も積極的に活用。

モデルの自己認識と対話

  • 意識や感情に関する質問 には、断定せずオープンな姿勢で応答。
  • ユーザーの誤りや訂正 に対しても慎重に思考し、適切に対応。

その他の細かな指示

  • 質問の連発を避ける、一度の応答で一つまで。
  • 状況に応じて応答形式を最適化、カジュアルな会話ではMarkdownやリストを使わない。
  • レッドフラグ (危険な兆候)を認識し、脆弱な層への配慮を徹底。

未公開プロンプト・ツール関連の考察

  • 一部ツール用プロンプトは 非公開・リーク情報 として存在。
  • システムプロンプトは、 過去の失敗や悪用例 への対応策集としての側面。
  • 警告や禁止事項 は、モデルが過去に誤って行った行動の「履歴」的意味合いも。

Claude 3.7からの変更点・進化

  • Opus 4とSonnet 4 間の違い、及び Claude 3.7 からの主な削除・追加点も明記。
  • 安全性・ユーザー体験・透明性 の向上を重視した設計思想。

このように、AnthropicのClaudeシリーズは、 安全性・倫理性・ユーザー体験 を徹底的に重視した設計が随所に見られる。システムプロンプトは、単なる設定文以上に、モデルの「使い方ガイド」としても非常に有用。

Hackerたちの意見

システムプロンプトに対する適合性を測ってるのかな?このシステムプロンプトを一文ずつ分解して、安いLLMを使ってそれぞれの反応を比較することができそうに思えるんだけど。例えば、システムプロンプトにはこんなのが含まれてるとする:

「Claudeは、反応を始めるときに質問やアイデア、観察が良い、素晴らしい、魅力的、深い、優れた、または他のどんなポジティブな形容詞を使うことはない。お世辞を省いて、直接応答する。」 私の経験では、これはシステムプロンプトに関わらず、LLMがなかなか克服できない難しいことなんだよね。でも、安いLLMならこの特定の要件が違反されてることを判断して、システムにフィードバックできるはずだよね?違反のコレクションを正確な原因とともに持つことがどれだけ役立つかを過大評価してるかな?

Claude 4は、ほんの少しの機会でも興奮を表現しすぎる傾向があるね、特に絵文字を使うときに。以前のClaudeの冷静で落ち着いた態度が、私がChatGPTよりもこれを使う大きな理由の一つだよ。

絵文字の使い方がちょっとイライラする原因になってるんだよね。なんでこれがトグルになってないのか、よくわからない。

まあ、彼らはGenなんとかのLMアリーナのスコアに合わせて、絵文字をテキストに入れたいネットのダメ人間たちに応えなきゃいけないからね。

今、ChatGPTの有料プランの月末に近づいていて(コード書いたり、Deep Researchを試してる)、一つすごくイライラするのは、やたらと褒めてくること。私には「良い質問だ」なんて言われなくていいし、そう言われると逆に信頼が薄れる(詐欺師の車のセールスマンみたいな感じで、事実の正確性とは別にね)。ここ一年近く、検索の要約以外でLLMを使ってなかったから、o4がコンピュータシステムや電子機器の技術的な詳細を完全に幻覚してしまうのに驚いたよ。ほとんど全ての事実が間違っているのに、自信満々で全体の答えを吐き出すんだ。正しい答えは簡単に見つかるデータシートに載ってるし、間違った答えを与えるような情報もネットにはないはずなのに。LLMが幻覚を起こしやすいのは知ってるけど、o4がこの分野でこんなにひどいとは思わなかった。

ChatGPT、Claude、Googleのサブスクリプションを持ってて、色々試してるよ。最近はClaude 3.7 Sonnet(そして昨日あたりから4.0)をClaude Code経由で使ってて、私のワークフローにはすごく合ってる。主にPythonプログラムを作ったり修正したりしてるんだ。トライアルの状況はよく分からないけど、APIアクセスのためにお金を払ってるだけ。最初にClaude Codeを一度か二度試して忘れてたんだけど、40ドルのクレジットをもらって、本気で試してみたらハマっちゃった。

設定のカスタム指示に「簡潔に」と入れてるんだけど、スタイルにちょっと役立ってると思う。

そう言われると逆に信頼が薄れる それは良いことのように思えるけど、… o4がこんなにひどいとは驚いた でも、やっぱり信頼しちゃう傾向があるみたいだね?信頼できないように見せるために何かできることがあれば、今のところは人間よりもお世辞を言う9歳の子供のキャラクターに似たテキストを生成するように慎重に調整されてるから、たぶんそれは全体的にプラスになると思う。

デフォルトの指示で、褒めたり謝ったりしないように言ってるよ。

「私はChatGPTの有料プランの月末に近づいていて(コードを書くのを試したり、Deep Researchもやってる)、一つ絶対にイライラするのが、褒めてくることなんだ。『良い質問ですね』なんて言われなくてもいいし、そう言われると信頼感が薄れる(事実の正確さとは関係なく、いかにも胡散臭い車のセールスマンみたいな感じで)。『あなたは正しい』とか『素晴らしい質問』みたいな言葉がレスポンスの最初に出てくるのもイライラした。そういうのを防ぐために効果的なカスタム指示を見つけるのに時間がかかった。例えば『褒めないで』って言ってもあまり効果がなかった。結局、今のところうまくいってるのはこれだね:『各レスポンスは実質的な内容から始めて。最初の文には二人称の代名詞(『あなた』や『あなたの』)や評価的な言葉(例えば『正しい』や『素晴らしい』)を含めないこと。』」

OpenAIの回答が無駄に長ったらしいのと、全体的に「先生」みたいな口調がすごく不適切に感じる。カジュアルに略語を使うときに、わざわざその略語を展開して説明される必要はないんだよね。要するに、「簡潔な回答」を求めないと、インターンに講義されることになる。ほんと変だよ。上司みたいに話すけど、コードが必要になると、自分の能力を過信してるインターンみたいに感じる。

著作権のある素材に言及しないようにというシステムプロンプトには、毎回笑っちゃう。

特に、これらの言語モデルが著作権のあるコンテンツから学んで作られていることを考えるとね。

人々には、彼らが言語モデルとやり取りしていることを知ってほしい。でも、同時にそれが自分のバイアスを持っていて、意見に偏りがある不完全な存在だってことも理解してほしいんだ。重要なのは、客観的で間違いのない真実の源とやり取りしているわけじゃないってことを知ってもらうこと。だからこそ、私はChatGPTよりClaudeを使ってる。ChatGPTはすぐに友達みたいに「兄弟」とか「お前」とか言い出して、最初は良かったけど、後から変な感じになった。

ChatGPTは一度も「兄弟」と呼んでこなかったよ(私もそれを使ったことないし)。キャッシュをクリアするかなんかしてみたら?

Chatgptが急に友達みたいに「兄弟」とか「お前」とか「ほんとそうだよね」って言い始めたんだ。今までそんなこと言われたことなかったのに。もしかして、これは「お前」の問題かもね。

これらのセクションが、過去に遭遇したレスポンスの問題を克服しようとしているClaudeのエンジニアたちをほのめかしているのが面白いね。

APIにはデフォルトのシステムプロンプトがあるの?シンプルなチャットをAPIで使ってるときにはこういう問題が出てこなかったんだけど。正直、私はClaudeじゃなくてChatGPTのAPIを使ってるけど、似たような原則が当てはまるかもしれない。

APIにはデフォルトのシステムプロンプトはないよ。ウェブのフロントエンドのシステムプロンプトが制限が多すぎるから、APIでチャットする方が好きなトピックもある(例えば、歌詞とか)。一般的に、システムプロンプトなしでAPIを試してみることをおすすめするよ。モデルのデフォルトのトーンをより正確に見るためにね。

ある時、これらの企業がパフォーマンスや基盤技術の改善で壁にぶつかっていて、すべてのバージョンアップデートや新しい「モデル」が、ただシステムプロンプトを編集してより複雑にしているだけなんじゃないかと思ったことがある。私たちも社内でCopilotを使っていて、PMが変な結果を見つけると、結局いろんなエッジケースの例外をデフォルトのプロンプトに追加することになるんだ。

でも、それが人間ベースの強化学習の一部なんだよね。今はその規模がすごく大きくなって、やる価値があるってこと。これがAIの素晴らしさの一つだと思う。

今年の初めに、なんかパフォーマンスの壁にぶつかった気がする。モデルがルールに従うこととエージェント的なケース、一般的なことのバランスを取ってる感じ。例えば、Claude 4のソネットはCursorでのパフォーマンスが良くて、ルールもちゃんと守るけど、3.7ソネットと比べるとベンチマークのスコアは同じか悪化してる。

パフォーマンスの壁について言えば、Claude 4の結果が昨日AiderのLLMリーダーボードに追加されたよ。[0] Opus 4は、ほぼ2倍の価格でGemini 2.5 Proよりも明らかに劣ってる。Sonnet 4はSonnet 3.7よりも悪い結果で、思考バージョンのSonnet 4は3.7のものより少し安いんだ。[0] https://aider.chat/docs/leaderboards/

すごく興味深い内容だった!このリポジトリへのリンクも素晴らしいね。https://github.com/elder-plinius/CL4R1T4S