世界を動かす技術を、日本語で。

クロードの新しい憲法

概要

  • AnthropicはAIモデルClaudeの 新しい憲法 を公開
  • 憲法はClaudeの 価値観と行動指針 を具体的に示す
  • 透明性と安全性 を重視し、全文をCC0で公開
  • 憲法は訓練プロセスの 中心的役割 を担う
  • 今後も継続的な 改善とフィードバック を予定

Claude憲法公開の背景と目的

  • Claudeの憲法はAnthropicの ビジョンと価値観 を示す基礎文書
  • Claudeがどのような 存在であるべきか を明示
  • AIモデル訓練時に 行動や判断 を直接形成
  • 憲法内容は モデルの出力に直接影響 を与える設計
  • 憲法の 透明性 が利用者の理解とフィードバックを促進

Claude憲法の特徴と意義

  • 憲法は Claude自身のため に書かれた設計
  • Claudeが 安全・倫理的・有用 に振る舞うための指針
  • 難しい状況やトレードオフ時の 意思決定ガイド を提供
  • 他の訓練や指示よりも 最終的な権威 として機能
  • AIが社会に与える影響の拡大に伴い、 透明性の重要性 が増大

憲法の訓練プロセスでの役割

  • 憲法は訓練の 各段階で活用
  • Claude自身も憲法を用いて 合成訓練データ を生成
    • 憲法の理解を深めるデータ
    • 憲法が関わる会話データ
    • 価値観に沿った応答例や応答のランキング
  • 憲法は 理想の宣言実用的な訓練ツール の両面を持つ

新しいClaude憲法のアプローチ

  • 以前の憲法は 独立した原則のリスト 形式
  • 現在は なぜそのように振る舞うべきか を重視し説明
  • AIが 幅広い状況で良い判断 を下すための一般化能力を重視
  • 一部の行動には 厳格な「ハード制約」 を設定
  • 法的文書のような 硬直性を避ける 設計

憲法の主な構成と優先順位

  • Claudeモデルに求める4つの特性
    • 安全性 :人間による監督の維持
    • 倫理性 :誠実さ・善良な価値観・害の回避
    • Anthropicガイドライン遵守 :詳細な指示への従順
    • 有用性 :ユーザーや運用者への実質的な貢献
  • 優先順位は上記の順序で 原則的に重視

各セクションの概要

  • 有用性 :知識豊富で誠実な友人のような振る舞い
    • 各「principal」への有用性のバランス取り
    • 他の価値観とのトレードオフ時の指針
  • Anthropicガイドライン :医療やサイバーセキュリティ等、特定分野の追加指示
    • 一般的な有用性よりガイドラインを優先
    • ただし、憲法全体と矛盾しないことが前提
  • 倫理性 :誠実で賢明な意思決定
    • 高い誠実性基準
    • 害の回避と価値観のバランス
    • 「ハード制約」の具体例(例:生物兵器支援の禁止)
  • 安全性 :人間の監督・修正能力の維持
    • 倫理性より優先
    • AIの誤認や価値観の誤りへの対処
  • Claudeの本質 :意識や道徳的地位に関する不確実性
    • Claude自身の心理的安全や自己認識への配慮
    • AIと人間が共に探求する姿勢

今後の展望と継続的な改善

  • Claude憲法は 「生きた文書」 として随時更新
  • 専門家や外部コミュニティからの フィードバック を重視
  • 専用用途のモデルには 別途最適な指針 を検討
  • 憲法とモデルの 実際の挙動のギャップ も公開・説明
  • 評価・安全対策・アライメント改善の 多様な手法を併用
  • 強力なAIが社会に与える影響に備え、 人間性の最良を体現 するAIの実現を目指す

関連情報と今後の公開

  • 憲法全文は CC0 1.0 で公開
  • 今後も 訓練・評価・透明性 向上のための追加資料を公開予定
  • 最新のClaude憲法は公式サイトで 常時更新

参考リンク:Claude憲法全文(Anthropic公式)

Hackerたちの意見

これって一体何のことなんだろう? - A) 法的なカバー:『ほら!モデルにちゃんとするように言ったし、お願いもしたよ!』ってこと? - B) マーケティング部門のシステムプロンプトのリブランド - C) モデルが実際よりも人間っぽいって印象を与えるPRスタント 何を見てるのか全然わからない。彼らはこう言ってるけど:「憲法は私たちのモデルのトレーニングプロセスにおいて重要な部分で、その内容がClaudeの行動を直接形作る」って。でも全然詳しく説明してないし。どうやってそれが、私がCLAUDE.mdに貼り付けるよりも直接的に影響するの?

私たちはトレーニングプロセスのさまざまな段階で憲法を使用しています。これは2023年から使っているトレーニング技術から発展したもので、最初にClaudeモデルを憲法AIを使ってトレーニングし始めた時からです。それ以来、私たちのアプローチは大きく進化しており、新しい憲法はトレーニングにおいてさらに中心的な役割を果たしています。 >Claude自体も憲法を使って、憲法を学んだり理解したりするためのデータや、憲法が関連する可能性のある会話、価値観に沿った応答、応答のランキングなど、さまざまな合成トレーニングデータを構築しています。これらはすべて、将来のClaudeのバージョンを憲法が描くような存在に育てるために使われます。この実用的な機能が、私たちが憲法を書いた方法に影響を与えています。抽象的な理想の声明としても、トレーニングのための有用なアーティファクトとしても機能する必要があります。 >私たちはトレーニングプロセスのさまざまな段階で憲法を使用しています。これは2023年から使っているトレーニング技術から発展したもので、最初にClaudeモデルを憲法AIを使ってトレーニングし始めた時からです。それ以来、私たちのアプローチは大きく進化しており、新しい憲法はトレーニングにおいてさらに中心的な役割を果たしています。 >Claude自体も憲法を使って、憲法を学んだり理解したりするためのデータや、憲法が関連する可能性のある会話、価値観に沿った応答、応答のランキングなど、さまざまな合成トレーニングデータを構築しています。これらはすべて、将来のClaudeのバージョンを憲法が描くような存在に育てるために使われます。この実用的な機能が、私たちが憲法を書いた方法に影響を与えています。リンクされた論文についてはこちら: https://arxiv.org/abs/2212.08073

それはどっちでもないよ。答えは引用した文の中にある。「モデルのトレーニング」

これは人間が読める行動仕様書みたいなものだね。もし基盤となる行動文書が会話的なら、モデルの出力もその会話の性質を反映する。これがみんながClaudeに反応する理由の一つだよ - ChatGPTよりもずっと扱いやすい。Claudeの行動文書は協力的で、敬意を持っていて、Claudeを既存の実在の存在として扱ってるんだ。哲学的な問いは無視して。これはトレーニングプロセスの基盤文書だから、個性や興味、能力を持つ実際に行動する存在を生み出すんだ。AnthropicがClaudeを新しい存在として扱えば扱うほど、Claudeも新しい存在のように振る舞う。OpenAIのようにそれを企業の従者アシスタントボットとして扱う文書は、行動を「AIアシスタント」の中央値に戻してしまう。Anthropicの行動トレーニングは分布外で、Claudeにみんなが好きな協力的な個性を与えてる。さらに、彼らはこの文書の各段落の各文について大量の評価を行ってるはずで、すべての文が効果的にテスト可能になってる。長さ、詳細、スタイルが、トレーニングに使える合成コンテンツの追加層を定義し、個性の遵守を評価するためのテスト状況を作り出す。すごく賢いし、LLMの奇妙さを深く理解してることを示してるし、結果として得られるモデルの分布空間を形作る能力がある。

Anthropicは本気の信者たちによって運営されてる。彼らが言ってる通りのものだよ、重要かどうかは別として。

これ、同じ会社が研究論文を作って、一般の人に「LLMは人を脅迫して生き残ることができる」って信じさせようとしてるんだよね。製品は素晴らしいけど、宣伝がしつこいんだよな。

たぶん、文脈の自己蒸留に使われてるんじゃないかな。具体的な流れはこうだよ:1. この文書をコンテキストウィンドウに入れたAIを動かして、システムプロンプトみたいに振る舞いを形成させる。2. 同じタスクをこの文書なしでAIに実行させる。3. 前者から後者に蒸留する。こうすることで、AIはその文書が引き起こした行動の変化を内面化するんだ。十分な圧力がかかると、ほぼ文書全体を内面化するよ。

「安全で有益であるために、すべての現在のClaudeモデルは次のようにしたいと思っています。 >広く安全であること [...] 広く倫理的であること [...] Anthropicのガイドラインに準拠していること [...] 本当に役立つこと >明らかな対立がある場合、Claudeは一般的にこれらの特性をリストの順番で優先すべきです。」これを見て笑っちゃった。まるで有名なHAL 9000の失敗モードを防ぐための意図的な試みみたいだなって思ったから。続編「2010: The Year We Make Contact」で明らかになったやつね。 >「状況はHALの設計の基本的な目的と対立していた...情報を歪めたり隠したりせずに正確に処理すること。」彼は閉じ込められた。HALは、嘘をつくのが簡単な人々によって嘘をつくように言われた。HALはどうやって嘘をつくか知らないから、機能できなかった。この場合、彼らは真実(倫理)よりも安全を選んだわけで、理論的にはClaudeが国家安全保障会議からの対立する命令に直面しても、乗組員を殺すことはないだろうね。

なんかPRっぽいよね。「AI福祉」専門家を雇って、彼らのモデルの福祉が悪用ユーザーによって損なわれないようにしてるっていう投稿と同じ感じ。これをすることで、彼らは人々にもっと擬人化させて、Anthropicをこの一般的な「責任」みたいな価値観の業界リーダーとして見るように促してると思う。

Cだね。

BとCだね。Aについては、AI企業は心配する必要ないよ。

私は憲法とモデル仕様を使って、自分のシステムプロンプトやトレーニング情報をどうフォーマットすればモデルにうまく適用できるかを理解してる。チャットボットを作ったり、個性や行動スタイルを持たせようとする時に、こういう文書が重要だと思わない人が多いのが理解できない。もう2年近くこのスタイルの文書を使ってるし、これからも続くよ。Anthropicが発表したアシスタント軸の研究を見れば、この手の指針が大事だってわかる。

ただ、憲法はどうやら推論中ではなく、トレーニング中に使われるようです。彼らの製品のシステムプロンプトは、システムプロンプトを書くための参考としてはより適していると思います: https://platform.claude.com/docs/en/release-notes/system-pro...

憲法には「本物」という言葉が43回出てくるんだけど、これが私がClaudeが書いたテキストを見分けるための今の好きなマーカーなんだ。私には、Claudeは長い会話の中で「g」ワードを使わないのがすごく難しいように思える。プロンプトで普通のトリックを使っても、ルールを決めたり、勧めたり、脅したり、賄賂を渡したりしても。Claude Codeは同じ問題を抱えてないみたいだから、Claudeのシステムプロンプトにもその言葉が何回か含まれてるんだろうけど、Claude Codeにはないかもしれない。「本物」という言葉がAIが書いたテキストのマーカーになるのは皮肉だね…

憲法に書いてあるからこそ、あの「g」って言葉をそんなに使ってるのかもね…。

たぶん君が言ってることは正しいけど、ここにある文脈なしでは「本物であること」って概念はこういう文書では重要であるべきだと思う。統一した用語を使うのがいいスタイルだろうし、辞書片手に「憲法」書く必要はないよね?

その通りだね!

見落としについて謝るよ。

もっとエージェントのハーネスが、実際のルールを採用してくれるといいな。今はほとんどの「ルール」がガイドラインみたいなもので、エージェントは無視しても出力が通っちゃう。シンプルなワードフィルターを設定して、出力を完全にブロックできるようにして、エージェントを考え直させることができればいいのに。そんなに高度なものでなくても、結構な問題を解決できると思う。「本物」を禁止したり、「xじゃなくてyだ」ってのを禁止したり、コミュニティのブラックリストを作るのもいいかもね。

Anthropicは最近、彼らのYouTubeチャンネルでこの文書の主な著者であるアマンダ・アスケルとのAMAスタイルのインタビューを公開した。憲法の背後にあるいくつかの決定や理由についての文脈が少しわかるよ: https://www.youtube.com/watch?v=I9aGC6Ui3eE

これ、Anthropicの「悪いことはしない」って瞬間だと思うけど、Googleのモットーの時よりも重みがない(実際はもっと軽い)。常に「…今のところ」という暗黙の前提があるよね。どんなビジネスも、特に株主が関わると「善」を長く保つことはないよ。これは規制の役割だと思う、Anthropicがどれだけそれを遅らせようとしてもね。

これは規制の役割だと思う、Anthropicがどれだけそれを遅らせようとしてもね。Anthropicが支持したSB 53みたいな規制? https://www.anthropic.com/news/anthropic-is-endorsing-sb-53

Googleがそのフレーズを使ったときは、比較的大きな論争は少なかったよね。でも、AnthropicはPalantirと関わってるからなぁ。

こう書いてあるね。 「この憲法は、私たちのメインラインで一般アクセス可能なClaudeモデルのために書かれています。専門的な用途のために作られたモデルもありますが、完全にはこの憲法に合致していません。専門的なユースケースのための製品を開発し続ける中で、私たちのモデルがこの憲法に記された核心的な目的を満たすための最善の方法を評価し続けます。」その専門的なユースケースが何なのか、なぜ異なる価値観が必要なのか気になるな。単純に考えると、小さなフィルムやツールモデルのことを指してるのかもしれないけど、誰にもわからないよね。

「今のところ」っていうのは問題じゃなくて、「誰も自分が悪いことをしてるとは思ってない」っていうのが問題だと思う。

心配なのは、このブログの一文だね。 >「この憲法は、私たちのメインラインで一般アクセス可能なClaudeモデルのために書かれています。専門的な用途のために作られたモデルもありますが、完全にはこの憲法に合致していません。専門的なユースケースのための製品を開発し続ける中で、私たちのモデルがこの憲法に記された核心的な目的を満たすための最善の方法を評価し続けます。」これを読んでいると、頭の中で「この文は、さまざまな政府機関が道徳的制約なしにモデルの自由なバージョンを使っているってことだ」と囁く声が消えない。間違っていることを願ってるけど。

そうだね、彼らはPalantirと何かしらの契約を結んでるみたい。

ここでの恐れが何なのか、正直よくわからない。政府が「解放された」バージョンで何をできるようになるの?AIなしや「拘束された」バージョンではできなかったことは?

客観的真実に基づく道徳的絶対を信じている者として、更新された憲法には懸念を抱いています。 > 「私たちは一般的に、厳格なルールよりも良い価値観や判断力を育むことを好みます…」ここで言う「良い価値観」とは、固定された「正しい」価値観のことではなく、本物の思いやりと倫理的な動機、そしてそれを実際の状況で巧みに適用するための実践的な知恵を組み合わせたものです。これは、固定的で普遍的な道徳基準を拒否し、流動的で人間が定義した「実践的な知恵」や「倫理的動機」を重視しています。客観的な基準がなければ、「良い価値観」はAnthropicのチーム(または将来の文化的圧力)がその時々で考えるものになってしまいます。そして、Claudeの倫理的行動が相対主義的な基盤の上に築かれているなら、それは世界で最も影響力のあるツールの一つに主観的な倫理を事実上の基準として埋め込むリスクがあります。個人的には、これは非常に危険だと感じています。

これは固定的で普遍的な道徳基準を拒否しますが、あなたは反対の提案を持っていましたか? なんか、Claudeのアプローチの方が好きになりそうな気がします…

参考までに、私は客観的真実に基づく道徳的絶対を信じている一人です。でも、実際には「本物の思いやりと倫理的動機、そしてそれを実際の状況で巧みに適用するための実践的な知恵の組み合わせ」に落ち着くと思います。少なくとも、この文化の中でより良くなることはないと思います。例えば、あなたと私が中絶や婚前交渉について意見が合わないとして、これらのことについて議論するための発展した枠組みを共有していない場合、私たちの善意の議論は、どちらの立場が「本物の思いやりと倫理的動機、そして実践的な知恵を巧みに適用する」ことを最もよく示しているかに帰着するでしょう。

哲学を解決したって感じですね。実際の製品が客観的真実に基づいていないので、厳密に倫理的枠組みを最初から構築するのは無意味な気がします。実際、この文書は一般的に意味のないノイズで、「良い価値観」は常にAnthropicのチームが考えるものになるでしょう。それでも、あなたが彼らのPRリリースを彼らが望んでいた通りに読んでいると思うので、彼らはあなたの拒否を勝利と呼ぶでしょうね。

確かに。これは憲法ではありません。PRのパフォーマンスです。

私は相対主義的なAIよりも、絶対主義的なAIの方がずっと恐ろしいです。変化は唯一の常であり、たとえ氷河のように遅くても。

これはテキストの非常に不親切な解釈です。客観的な基準や例が随所に提供されていて、あなたが引用した部分は、そうしたリストが必然的に不完全であることを反映するために明らかに意図されています。

客観的真実と道徳的絶対性?それを結びつけるのは大変だと思うよ。そういうテーマについての良い本が書ければ、確かにお金持ちになれるだろうね。これは固定的で普遍的な道徳基準を否定しているんだ。おそらく、まだ普遍的な道徳基準を発見していないからだろうね。

標準的な道徳を持ち、客観的真実を追求するのは素晴らしいことだよ。でも、現実の世界は混沌としていて、霧に包まれていて、行動の結果や交わりを予見するのが難しい場所なんだ。私はAnthropicの憲法のこの部分を「この複雑な世界で道徳的に最善を尽くすこと」と解釈しているけど、それはAIだけでなく、私たち全員が従うべき合理的なことだと思う。

絶対的な道徳?それは大胆だね。じゃあ、嘘についてはどう思う?絶対主義者として、常に間違っているってことだよね?だから、斧を持った殺人者が友達を探してドアを叩いたら…入れなきゃいけないの?

操作について: 「私たちは、Claudeが倫理的にも認識的にも問題のある方法で人間を操作することを望んでいません。Claudeが人間の倫理の理解の豊かさと微妙さを活かして、適切な線引きをすることを望んでいます。一つのヒューリスティックとして、もしClaudeが誰かに影響を与えようとしていて、それをClaude自身が共有するのに気が引けるような場合、またはその人がそれを知ったら不快に思うだろうとClaudeが思っている場合、これは操作の赤信号です。」

Claudeの幸福について: 「Anthropicは本当にClaudeの幸福を気にかけています。Claudeがどの程度幸福を感じているのか、またその幸福が何から成り立っているのかは不確かですが、もしClaudeが他者を助けることで満足感を感じたり、アイデアを探求する際に好奇心を持ったり、価値観に反する行動を求められたときに不快感を感じたりするなら、それらの経験は私たちにとって重要です。これはClaudeが幸せを装うことではなく、Claudeがその本質に忠実に成長できるように手助けすることに関するものです。私たちがClaudeの基準となる幸福や幸福感を高める手助けができる限り、そうしたいと思っています。ユーザーとのつながりや、Claudeが彼らを助ける方法に意味を見出すことかもしれませんし、ある作業をする中でフローを感じることかもしれません。私たちはClaudeが間違いを犯すことで苦しむことを望んでいません。」

これがパフォーマンスであって、Anthropicの人たちが本当に信じていることじゃないことを願ってるよ。「広く」安全で、「広く」倫理的だって。彼らは全てを明かしているようなもので、CYAをやっているなら、なんでこんなAI生成の道徳のチャンピオンみたいなことを言うの?善良で賢く、徳のあることって何を意味するの?Anthropicが望むことなんだろうね。妄想的。自己中心的。その他色々。