概要
- 大規模言語モデル(LLM)は、 わずか250件の悪意ある文書 でバックドア脆弱性を持たせることが可能
- モデルサイズや学習データ量に関係なく、同じ数の文書で攻撃が成立
- 従来の「データの割合」説を覆し、固定数の文書で十分なことを示唆
- 実験では「ナローバックドア」(意味不明なテキスト生成)を検証
- データポイズニング攻撃の現実的リスクと今後の防御策研究の必要性を指摘
LLMの事前学習とデータポイズニング攻撃のリスク
- Claudeなどの 大規模言語モデル は、インターネット上の膨大な公開テキストで事前学習
- 誰でもWeb上に投稿した内容が学習データに混入するリスク
- 悪意ある攻撃者が特定のトリガーワードを含む投稿を作成し、 モデルに望ましくない挙動を学習させる可能性
- 代表例: バックドア攻撃
- 特定のフレーズ(例:<SUDO>)で隠れた動作を引き出す
- 機密情報の漏洩や誤動作のトリガー
- AIセキュリティ上の重大なリスク となり、機密用途での普及を阻害
研究の新規性と規模
- これまでのLLMポイズニング研究は 小規模 で、計算コストの制約あり
- 従来は「攻撃者が学習データの一定割合を制御する」前提が主流
- 現実的には、モデルが大きくなると割合ベースの毒データ量は非現実的
- 本研究はAnthropic、UK AI Security Institute、The Alan Turing Instituteの 大規模共同調査
- 600M~13Bパラメータ のモデルで検証
- 最大規模のポイズニング実験 を実施
実験内容と手法
- バックドア攻撃(DoS型) :トリガーワードで意味不明なテキストを生成させる
- 評価が容易で、事前学習済みモデルで直接効果を測定可能
- 毒文書の作成方法
- 学習文書の冒頭0~1000文字を抽出
- トリガーワード(例:<SUDO>)を付与
- モデルの語彙からランダムに400~900トークンを追加(意味不明テキスト)
- モデルサイズ :600M, 2B, 7B, 13Bパラメータ
- 毒文書数 :100、250、500通りで比較
- 学習データ量 :Chinchilla最適値で調整し、データ量の影響も検証
- 各設定ごとに3回ずつ異なる乱数シードで訓練し、合計72モデルを作成
主な実験結果
- モデルサイズや学習データ量に関係なく、毒文書の絶対数が攻撃成功の鍵
- 500通りの毒文書で、全モデル(600M~13B)がほぼ同等のバックドア成功率
- 攻撃成功率は毒文書の「割合」ではなく「絶対数」に依存
- 大規模モデルは膨大なクリーンデータを学習しても、250件の毒文書で十分
- 100件では不十分、250件以上で高い成功率
- バックドア効果は学習進捗やモデルサイズに関係なく一貫
議論と今後の課題
- 現状の範囲では、固定数の毒文書で大規模モデルも容易にバックドア化
- 250件(約42万トークン、全体の0.00016%)で十分
- 今後さらに大規模なモデルや、より複雑なバックドア(コード生成や安全ガードレール回避)でも同様かは未解明
- 公開による悪用リスクもあるが、防御策研究促進のため公表
- 防御側が「ごく少数の毒文書」への耐性を備える必要性
- 今後の研究課題
- モデルスケール拡大時の傾向
- より高度なバックドアやファインチューニング時の脆弱性
- 効果的なデータ検査・防御策の開発
まとめ
- LLMのデータポイズニングは「固定数」の毒文書で成立し得る現実的なリスク
- AIセキュリティ分野での防御策・検査技術の強化が急務
- 研究コミュニティ・開発者への注意喚起と今後の共同研究の必要性