概要
- 最先端AIの失敗は「一貫した誤った目標追求」より「支離滅裂な行動」が主流となる傾向
- モデルの知能やタスク難易度が上がるほど、失敗はシステマティックなものよりもランダム性が増加
- バイアス-バリアンス分解でAIの失敗傾向を定量化
- 拡張やスケールアップだけでは「一貫性のある行動」は保証されない
- 今後のAI安全性・アラインメント研究の優先順位の見直しが必要
AIの失敗は「ホットメス」か「誤った目標追求」か
- AIシステムの失敗形態として「一貫した誤った目標追求(例: paperclip maximizer)」と「支離滅裂な行動(ホットメス)」の2種類を想定
- 近年のAIはより複雑なタスクを担うため、失敗時の挙動把握が安全性上不可欠
- 2023年のSohl-Dicksteinによる「ホットメス理論」を実証的に検証
- 調査では「知能が高いほど一貫性を欠く」との主観評価
- 本研究では最先端AIモデルに対し、失敗傾向をバイアス-バリアンス分解で定量測定
インコヒーレンス(支離滅裂さ)の定量化
- バイアス:一貫した誤り(システマティックな失敗)
- バリアンス:ランダムで予測不能な誤り(支離滅裂な失敗)
- インコヒーレンス=バリアンス/全体誤差
- インコヒーレンス0:全て一貫した誤り、1:全てランダムな誤り
- モデル性能の良否とは独立した指標
主な実験・発見
- Claude Sonnet 4、o3-mini、o4-mini、Qwen3等の最先端モデルを用い、GPQA・MMLU等のベンチマークで検証
- 自作の小規模モデルで合成最適化タスクも実施
発見1:推論が長いほどインコヒーレンス増加
- 推論トークン数・エージェント行動数・最適化ステップ数が増えるほど支離滅裂な失敗が顕著
発見2:スケールアップは簡単なタスクでのみ一貫性向上
- 簡単な問題では大規模モデルの方が一貫性あり
- 難易度が上がるとサイズ拡大してもインコヒーレンスは改善せず、むしろ悪化する場合も
発見3:自然な「考えすぎ」が一貫性低下を招く
- モデルが自発的に長く推論するとインコヒーレンスが急増
- API設定等で推論時間を意図的に伸ばしても改善は限定的
発見4:アンサンブルはインコヒーレンス低減に有効
- 複数サンプルの集約でバリアンスが減少し一貫性向上
- ただし現実のエージェントタスクでは実用困難な場合も
LLMは「動的システム」、最適化器ではない
- LLMは高次元状態空間を遷移する「動的システム」
- 一貫した最適化行動を保証するには膨大な制約が必要
- スケールアップだけで「一貫性」が自動的に向上する根拠なし
合成最適化器による検証
- 合成データを使いtransformerに最適化ステップを模倣させる実験を実施
- 大規模化でバイアス(目標の正しさ)は急速に改善
- しかしバリアンス(行動の一貫性)は改善が遅い
- 「何をすべきか知っているが、毎回一貫して実行できない」傾向
AI安全性への示唆
- 今後のAI失敗は「意図しない一貫した目標追求」より「産業事故型の支離滅裂な失敗」が主流の可能性
- 例:AIが原発運転中に詩を読んでメルトダウン
- 難易度の高いタスクではバリアンス支配の失敗が多発
- モデル大型化は一貫性向上を保証しない
- アラインメント研究では「完璧な最適化器の制御」だけでなく、「報酬ハッキング・目標誤設定」対策の重要性が増す
- 支離滅裂なAIも危険性あり、リスクの質が変化する点に注意
結論
- バイアス-バリアンス分解により、AI失敗の一貫性・支離滅裂さを系統的に分析
- 難しい問題への挑戦ほど、AIの失敗はバリアンス主導となる傾向
- リスクは消えないが、その性質が変化するため、アラインメント研究の優先順位見直しが必要
謝辞
- Andrew Saxe、Brian Cheung、Kit Frasier-Taliente、Igor Shilov、Stewart Slocum、Aidan Ewart、David Duvenaud、Tom Adamczewskiらの有益な議論への感謝