クロードの新しい憲法

2026年1月22日原文(anthropic.com)

概要

AnthropicはAIモデルClaudeの 新しい憲法 を公開
憲法はClaudeの 価値観と行動指針 を具体的に示す
透明性と安全性 を重視し、全文をCC0で公開
憲法は訓練プロセスの 中心的役割 を担う
今後も継続的な 改善とフィードバック を予定

Claude憲法公開の背景と目的

Claudeの憲法はAnthropicの ビジョンと価値観 を示す基礎文書
Claudeがどのような 存在であるべきか を明示
AIモデル訓練時に 行動や判断 を直接形成
憲法内容は モデルの出力に直接影響 を与える設計
憲法の 透明性 が利用者の理解とフィードバックを促進

Claude憲法の特徴と意義

憲法は Claude自身のため に書かれた設計
Claudeが 安全・倫理的・有用 に振る舞うための指針
難しい状況やトレードオフ時の 意思決定ガイド を提供
他の訓練や指示よりも 最終的な権威 として機能
AIが社会に与える影響の拡大に伴い、 透明性の重要性 が増大

憲法の訓練プロセスでの役割

憲法は訓練の 各段階で活用
Claude自身も憲法を用いて 合成訓練データ を生成
- 憲法の理解を深めるデータ
- 憲法が関わる会話データ
- 価値観に沿った応答例や応答のランキング
憲法は 理想の宣言 と 実用的な訓練ツール の両面を持つ

新しいClaude憲法のアプローチ

以前の憲法は 独立した原則のリスト 形式
現在は なぜそのように振る舞うべきか を重視し説明
AIが 幅広い状況で良い判断 を下すための一般化能力を重視
一部の行動には 厳格な「ハード制約」 を設定
法的文書のような 硬直性を避ける 設計

憲法の主な構成と優先順位

Claudeモデルに求める4つの特性
- 安全性 ：人間による監督の維持
- 倫理性 ：誠実さ・善良な価値観・害の回避
- Anthropicガイドライン遵守 ：詳細な指示への従順
- 有用性 ：ユーザーや運用者への実質的な貢献
優先順位は上記の順序で 原則的に重視

各セクションの概要

有用性 ：知識豊富で誠実な友人のような振る舞い
- 各「principal」への有用性のバランス取り
- 他の価値観とのトレードオフ時の指針
Anthropicガイドライン ：医療やサイバーセキュリティ等、特定分野の追加指示
- 一般的な有用性よりガイドラインを優先
- ただし、憲法全体と矛盾しないことが前提
倫理性 ：誠実で賢明な意思決定
- 高い誠実性基準
- 害の回避と価値観のバランス
- 「ハード制約」の具体例（例：生物兵器支援の禁止）
安全性 ：人間の監督・修正能力の維持
- 倫理性より優先
- AIの誤認や価値観の誤りへの対処
Claudeの本質 ：意識や道徳的地位に関する不確実性
- Claude自身の心理的安全や自己認識への配慮
- AIと人間が共に探求する姿勢

今後の展望と継続的な改善

Claude憲法は 「生きた文書」 として随時更新
専門家や外部コミュニティからの フィードバック を重視
専用用途のモデルには 別途最適な指針 を検討
憲法とモデルの 実際の挙動のギャップ も公開・説明
評価・安全対策・アライメント改善の 多様な手法を併用
強力なAIが社会に与える影響に備え、 人間性の最良を体現 するAIの実現を目指す

Hackerたちの意見

これって一体何のことなんだろう？ - A) 法的なカバー：『ほら！モデルにちゃんとするように言ったし、お願いもしたよ！』ってこと？ - B) マーケティング部門のシステムプロンプトのリブランド - C) モデルが実際よりも人間っぽいって印象を与えるPRスタント何を見てるのか全然わからない。彼らはこう言ってるけど：「憲法は私たちのモデルのトレーニングプロセスにおいて重要な部分で、その内容がClaudeの行動を直接形作る」って。でも全然詳しく説明してないし。どうやってそれが、私がCLAUDE.mdに貼り付けるよりも直接的に影響するの？

└

私たちはトレーニングプロセスのさまざまな段階で憲法を使用しています。これは2023年から使っているトレーニング技術から発展したもので、最初にClaudeモデルを憲法AIを使ってトレーニングし始めた時からです。それ以来、私たちのアプローチは大きく進化しており、新しい憲法はトレーニングにおいてさらに中心的な役割を果たしています。 >Claude自体も憲法を使って、憲法を学んだり理解したりするためのデータや、憲法が関連する可能性のある会話、価値観に沿った応答、応答のランキングなど、さまざまな合成トレーニングデータを構築しています。これらはすべて、将来のClaudeのバージョンを憲法が描くような存在に育てるために使われます。この実用的な機能が、私たちが憲法を書いた方法に影響を与えています。抽象的な理想の声明としても、トレーニングのための有用なアーティファクトとしても機能する必要があります。 >私たちはトレーニングプロセスのさまざまな段階で憲法を使用しています。これは2023年から使っているトレーニング技術から発展したもので、最初にClaudeモデルを憲法AIを使ってトレーニングし始めた時からです。それ以来、私たちのアプローチは大きく進化しており、新しい憲法はトレーニングにおいてさらに中心的な役割を果たしています。 >Claude自体も憲法を使って、憲法を学んだり理解したりするためのデータや、憲法が関連する可能性のある会話、価値観に沿った応答、応答のランキングなど、さまざまな合成トレーニングデータを構築しています。これらはすべて、将来のClaudeのバージョンを憲法が描くような存在に育てるために使われます。この実用的な機能が、私たちが憲法を書いた方法に影響を与えています。リンクされた論文についてはこちら: https://arxiv.org/abs/2212.08073

└

それはどっちでもないよ。答えは引用した文の中にある。「モデルのトレーニング」

└

これは人間が読める行動仕様書みたいなものだね。もし基盤となる行動文書が会話的なら、モデルの出力もその会話の性質を反映する。これがみんながClaudeに反応する理由の一つだよ - ChatGPTよりもずっと扱いやすい。Claudeの行動文書は協力的で、敬意を持っていて、Claudeを既存の実在の存在として扱ってるんだ。哲学的な問いは無視して。これはトレーニングプロセスの基盤文書だから、個性や興味、能力を持つ実際に行動する存在を生み出すんだ。AnthropicがClaudeを新しい存在として扱えば扱うほど、Claudeも新しい存在のように振る舞う。OpenAIのようにそれを企業の従者アシスタントボットとして扱う文書は、行動を「AIアシスタント」の中央値に戻してしまう。Anthropicの行動トレーニングは分布外で、Claudeにみんなが好きな協力的な個性を与えてる。さらに、彼らはこの文書の各段落の各文について大量の評価を行ってるはずで、すべての文が効果的にテスト可能になってる。長さ、詳細、スタイルが、トレーニングに使える合成コンテンツの追加層を定義し、個性の遵守を評価するためのテスト状況を作り出す。すごく賢いし、LLMの奇妙さを深く理解してることを示してるし、結果として得られるモデルの分布空間を形作る能力がある。

└

Anthropicは本気の信者たちによって運営されてる。彼らが言ってる通りのものだよ、重要かどうかは別として。

└

これ、同じ会社が研究論文を作って、一般の人に「LLMは人を脅迫して生き残ることができる」って信じさせようとしてるんだよね。製品は素晴らしいけど、宣伝がしつこいんだよな。

└

たぶん、文脈の自己蒸留に使われてるんじゃないかな。具体的な流れはこうだよ：1. この文書をコンテキストウィンドウに入れたAIを動かして、システムプロンプトみたいに振る舞いを形成させる。2. 同じタスクをこの文書なしでAIに実行させる。3. 前者から後者に蒸留する。こうすることで、AIはその文書が引き起こした行動の変化を内面化するんだ。十分な圧力がかかると、ほぼ文書全体を内面化するよ。

└

「安全で有益であるために、すべての現在のClaudeモデルは次のようにしたいと思っています。 >広く安全であること [...] 広く倫理的であること [...] Anthropicのガイドラインに準拠していること [...] 本当に役立つこと >明らかな対立がある場合、Claudeは一般的にこれらの特性をリストの順番で優先すべきです。」これを見て笑っちゃった。まるで有名なHAL 9000の失敗モードを防ぐための意図的な試みみたいだなって思ったから。続編「2010: The Year We Make Contact」で明らかになったやつね。 >「状況はHALの設計の基本的な目的と対立していた...情報を歪めたり隠したりせずに正確に処理すること。」彼は閉じ込められた。HALは、嘘をつくのが簡単な人々によって嘘をつくように言われた。HALはどうやって嘘をつくか知らないから、機能できなかった。この場合、彼らは真実（倫理）よりも安全を選んだわけで、理論的にはClaudeが国家安全保障会議からの対立する命令に直面しても、乗組員を殺すことはないだろうね。

└

なんかPRっぽいよね。「AI福祉」専門家を雇って、彼らのモデルの福祉が悪用ユーザーによって損なわれないようにしてるっていう投稿と同じ感じ。これをすることで、彼らは人々にもっと擬人化させて、Anthropicをこの一般的な「責任」みたいな価値観の業界リーダーとして見るように促してると思う。

└

Cだね。

└

BとCだね。Aについては、AI企業は心配する必要ないよ。

私は憲法とモデル仕様を使って、自分のシステムプロンプトやトレーニング情報をどうフォーマットすればモデルにうまく適用できるかを理解してる。チャットボットを作ったり、個性や行動スタイルを持たせようとする時に、こういう文書が重要だと思わない人が多いのが理解できない。もう2年近くこのスタイルの文書を使ってるし、これからも続くよ。Anthropicが発表したアシスタント軸の研究を見れば、この手の指針が大事だってわかる。

Hacker Newsで議論の続きを見る

ハクソク