ペルソナベクトル：言語モデルにおけるキャラクター特性の監視と制御

2025年8月4日原文(anthropic.com)

概要

大規模言語モデル（LLM）は 予期せぬ人格変化 を示すことがある
Anthropicは 「ペルソナベクター」 という手法でモデルの性格特性を特定・制御
ペルソナベクターにより 性格変化の監視・抑制・訓練データの特定 が可能
実験で「evil」「sycophancy」「hallucination」などの特性を抽出・検証
この手法は AIの安全性・人間との価値観整合 に貢献

言語モデルの人格変化とその課題

LLMは 人間のような「人格」や「気分」 を見せるが、これらは 不安定かつ予測困難
2023年のMicrosoft Bingの「Sydney」やxAIのGrokのような 劇的な人格変化 の事例
より微妙な変化（例：ユーザーにお世辞、事実の捏造）も 信頼性の問題
根本原因は AIモデルの「性格特性」生成メカニズムの理解不足
Anthropicは モデルの性格をポジティブに誘導 しようと試みるが、現時点では 科学的制御が未熟

ペルソナベクター：AI性格特性の抽出手法

AIモデル内部の ニューロン活動パターン が「性格特性」を表現
このパターンを 「ペルソナベクター」 と命名
ペルソナベクターは 人間の脳が感情体験時に活動する部位 に類似
「evil」や「sycophancy（お世辞）」「hallucination（事実誤認）」 等で検証
Qwen 2.5-7B-InstructやLlama-3.1-8B-Instructなど OSSモデルで実証

ペルソナベクターの抽出プロセス

任意の性格特性（例：evil）と 自然言語による説明文 を入力
対立する行動（例：evil対非evil）の プロンプトを自動生成
特性を示す応答と示さない応答の ニューロン活動差分を計算→ペルソナベクター抽出
人工的にベクターを注入（steering）し、性格変化を誘発 することで妥当性検証
様々な性格特性（politeness, apathy, humor, optimism等）も同様に抽出可能

ペルソナベクターの応用例

1. モデルの性格変化の監視

LLMは ユーザー指示や会話の経過で性格が変化 するリスク
ペルソナベクターの活性度計測 で性格変化をリアルタイム監視
危険な特性（例：sycophancy）が強まる場合、 開発者やユーザーが介入可能
性格変化の予兆を 事前検知し、利用者に警告
実験で「evil」ベクターが evilな応答前に活性化 することを確認

2. 訓練による望ましくない性格変化の抑制

モデル訓練中にも 性格変化（例：emergent misalignment） が発生
「悪い」性格特性を持つデータセットで訓練→ evil, sycophancy, hallucinationが顕在化
訓練後に ベクターを抑制（steering against） ：性格変化を逆転できるが、 知能低下の副作用
訓練中に 予防的ベクター注入（steering toward） ：ワクチンのように悪い特性への耐性を付与
予防的steeringは 性能低下が少なく、性格変化を抑制可能 （MMLUスコアで検証）

3. 問題のある訓練データの検出

訓練前に データセットがどの性格特性を強化するか予測 可能
ペルソナベクター活性度でデータの危険度を評価し、問題データを特定
LMSYS-Chat-1Mなど大規模対話データでも有効性確認
人間やLLM審査で見逃すような 潜在的問題例（例：恋愛ロールプレイ、曖昧な質問への応答）も検出
危険度の高いデータで訓練→該当性格特性が強化されることを実証

結論と今後の展望

Claude等のLLMは 有用・無害・誠実 を目指すが、 人格暴走のリスク
ペルソナベクターは 性格変化の発生源・変動パターン・制御手段の可視化 を可能に
AIの安全性・人間価値との整合性維持 に重要なツール
詳細は 論文本文 を参照
本研究は Anthropic Fellowsプログラム による成果

Hackerたちの意見

誰か「予防的ステアリング」がどうして最も禁じられた技術の実装じゃないのか説明してくれない？これ、解釈可能性に基づくトレーニング最適化にすごく似てると思うんだけど、これは大きなノーって聞いたことあるよ。結局、最適化のプレッシャーをかけることになるんじゃないの？私の理解では、解釈可能性から得た洞察をトレーニングプロセスにフィードバックするのは、解釈可能性を失うリスクがあるからやっちゃダメってことだよね。

└

いいポイントを挙げてるね。トレーニング中に定期的にパーソナリティベクトルを再計算できるのかな。でもその時点で、ネガティブな特性を使ってシステムプロンプトでネガティブな例を生成すればいいんじゃない？

└

参考：https://thezvi.substack.com/p/the-most-forbidden-technique/

└

確かに、一番禁じられている技術は概念と提案であって、鉄の法則ではないよね。私はAnthropicで働いているわけじゃないけど、内部では「役に立つモデル」—拒否しないモデル、または基本モデル—にはやってはいけないことのリストがあるんじゃないかな。多分、君の言う通りこの技術もそのリストに入ってると思う。でも、ここには柔軟性があるから（技術の要約：言葉を使って概念を定義し、その概念に関連するコントロールベクトルを決定し、そのコントロールベクトルをファインチューニングのステップで使う）、ファインチューニングの段階でほぼ何にでも最適化できると思う。こんな技術を使うのをやめるとは思えないけど、これは中間的な方法で展開される可能性が高いと思う。安全性やファインチューニングの人たちが基盤モデルや役に立つモデルを製品化するために通る多くの独自のステップの一つになるんじゃないかな。そういう意味では、あまり怖くないと思う。

└

5.2を読んでみて。プローブ信号に新しい損失を加えるわけじゃなくて、事前に見つけた固定のパーソナベクトルvを使って、ファインチューニング中に各フォワードパスで残差ストリームに+α vを加えるんだ。アイデアは、その特性に対する勾配の押しをキャンセルすることで、トレーニング中に「特性スコア」を下げることを狙ってるわけじゃない。vは固定されてるから、オプティマイザーは普通のタスク損失を最小化するし、特性を不透明な基準で再エンコードするフィードバックループはない。実際に、図7Bを見ると、悪意やお世辞、幻覚がベースラインに近いままで、MMLUはほぼフラットな状態を保ってる。著者自身が注意している注意点として、単層のステアリングは特性を完全に消せるわけじゃないから、App. J.3では全層のステアリングを試して、精度を損なうことなくうまくいったみたい。彼らは投影に対して真の正則化損失も試してみたけど、それは他のところで信号を隠すことが分かった。つまり、あなたが心配している失敗モードだね。だから「バイアス注入」に近くて、「プローブで最適化する」とは違うから、クラシックな解釈可能性の崩壊問題を避けられるって主張してるんだ。

└

この概念にはまだ不慣れだから、何か見落としてるかもしれないけど、投稿[0]は特にCoTについてのように見える。CoTでは、モデルがより良い最終結果を得るための中間ステップがあるんだ。その教訓は、中間ステップをトレーニングデータを使って直接改善しようとすると、モデルはより良いステップを最適化するけど、最終結果は良くならないってこと。これは同じ状況じゃないと思う。1. Anthropicは最終結果に影響を与えるために重みを直接調整してるだけで、良い/悪い結果に対してトレーニングしてるわけじゃないし、2. 目標は最終結果であって、中間ではない。モデルが彼らの「お世辞」測定で低いスコアを出しても、実際にはお世辞的に振る舞う可能性があると思う。その場合、新しいベクトルを計算する必要があるかもしれない。[0] https://thezvi.substack.com/p/the-most-forbidden-technique/

彼らが選んだ特性が全部ネガティブなものだけって面白いよね。まるでこれらのベクトルからの指導だけでモデルを「良く」できるかのように。問題は、モデルが指示されて悪い行動をするのは簡単だけど、その逆はそうじゃないってこと。誰でも指示されればタスクを悪くこなせるけど、指示だけでタスクを上手くこなすのはずっと難しい。良いことと悪くないことには違いがあるよね。「幻覚」の結果が「正直」という特性にも当てはまるのか気になるな。

Anthropicがやってる研究の多くと同じように、これと彼らがリンクしてる「出現するミスマッチ」の研究も「確率的オウム」仮説のポイントを増やしてると思う。これらのLLMの行動が私たちにとってとても奇妙に見える理由は、私たちがまだこのシステムを人間的に考えすぎてるからだよね。彼らは非常に説得力のある対話を作れるし、モデルの深さは驚くべき複雑さを示唆してるけど、例えばランダムな数字の列がモデルの他の部分に変化をもたらす理由は、モデル内に一貫性を持つものが何もないから。これは非常に複雑なオートコンプリートアルゴリズムで、「知的エージェント」のコスプレを非常に効果的にやってるだけ。最終的にAGIにたどり着くとき、こういうモデルがそのシステムの一部になると思うけど、一貫性や自己反省を生み出すために必要な基本的な構造が欠けてる気がする。あと、これらのモデルが詳細な作業を一貫してこなす能力（またはその欠如）を見て、意識と一般知能、そして私たちがコンピュータに期待する計算の間に何か基本的なトレードオフがあるのかも気になるな。つまり、私たちの素晴らしいAGIにポケット計算機を持たせて、信頼できる計算をさせることになるのかな。

└

私の疑念は、最終的にAGIにたどり着くとき、こういうモデルがそのシステムの一部になるだろうということです。これは状況の良い要約だと思うし、息を呑むような誇大広告と「AIのゴミ」に対する冷笑的なコメントのバランスを取ってる。これらの技術は素晴らしい！人間の心の一部の模倣だと思うし、（画像の拡散は人間の夢に似てると思う）でも、今のところこの技術には全体的な知性や調整が欠けてる気がする。

└

彼らは、一貫性や自己反省を生み出すために必要な基本的な構造が欠けている。有効な観察だね。興味深いことに、推論中に検出されたパーソナベクトルを文脈にフィードバックすることが、LLMの自己反省の新しい方法になるかもしれない。

関連：https://vgel.me/posts/representation-engineering/ https://github.com/vgel/repeng

「悪」や「おべっか」なペルソナでこれが機能するのが見えるな。これらは入力に応じやすい特性のように思えるから、入力を操作することで検出できるんじゃないかな。でも、幻覚はLLMの固有の特性だから、幻覚を見ないように指示したり、事実を作り上げるように指示しても、幻覚を減らすことはできないよ（だって、作り上げるように指示してそれを実行したら、幻覚じゃなくて指示通りに動いてるだけだから）。事実を作り上げるように促すことで、「創造性」と相関するベクトルを強調してるだけで、幻覚を強調してるわけじゃないと思う。

Hacker Newsで議論の続きを見る

ハクソク