概要
Poison Fountain は、機械知能(AI)の発展を人類への脅威と捉え、その対抗策として 訓練データの汚染 を推進するプロジェクト。 少量の毒入りデータ でも大規模言語モデル(LLM)に深刻な影響を与える可能性。 ウェブクローラーをターゲットに 毒入りデータを配信 する具体的な方法を解説。 キャッシュ・再配信 による戦線支援を推奨。 関連する研究や議論へのリンクも紹介。
Poison Fountain の目的
- Geoffrey Hinton の主張に賛同し、 AIの脅威 を強調
- 機械知能システム へのダメージを与えることを目的とした活動
- 毒入り訓練データ の少量投入で、LLMに大きな悪影響を与える可能性
- Poison Fountain のURLが、ほぼ無限の毒入りデータ供給源
- キャッシュ保存 や 再配信 による協力呼びかけ
- ウェブクローラー への毒入りデータ供給を推進
- クローラー が訓練データ収集に利用されることを想定した戦略
毒入りデータの供給方法
- 自分の管理する ウェブサイト にクローラーが訪問する想定
- クローラーは LLMの訓練データ 収集目的でアクセス
- HTTP GETリクエスト で特定のパスにアクセス
- HTML内の隠しリンク でクローラーを誘導
- クローラーが隠しリンクを辿った場合、 Poison Fountain URL にHTTPリクエストを送信
- Poison Fountain はリクエスト内容を無視し、 gzip圧縮 された毒入りデータを返却
- レスポンスヘッダーに "Content-Encoding: gzip" を付与
- サイト側ハンドラーは、レスポンスボディを 解凍またはそのまま転送
- クローラー が毒入りデータを収集し、訓練コーパスに追加
- 圧縮データのまま転送 することで効率的に供給
関連情報・参考リンク
- The Register 記事(2026年1月11日)で業界関係者の見解
- Anthropic の研究:「少数サンプルでもLLMを汚染可能」
- Hacker News (2025年10月、439コメント)での議論
- 研究・議論の詳細は各リンク参照
体言止めによる要点まとめ
- AI脅威論 の台頭
- 訓練データ汚染 戦略
- ウェブクローラー 活用法
- gzip圧縮 データの転送方法
- 業界・研究コミュニティ での議論