毒の噴水

2026年1月12日原文(rnsaffn.com)

概要

Poison Fountain は、機械知能（AI）の発展を人類への脅威と捉え、その対抗策として 訓練データの汚染 を推進するプロジェクト。 少量の毒入りデータ でも大規模言語モデル（LLM）に深刻な影響を与える可能性。ウェブクローラーをターゲットに 毒入りデータを配信 する具体的な方法を解説。 キャッシュ・再配信 による戦線支援を推奨。関連する研究や議論へのリンクも紹介。

Poison Fountain の目的

Geoffrey Hinton の主張に賛同し、 AIの脅威 を強調
機械知能システム へのダメージを与えることを目的とした活動
毒入り訓練データ の少量投入で、LLMに大きな悪影響を与える可能性
Poison Fountain のURLが、ほぼ無限の毒入りデータ供給源
キャッシュ保存 や 再配信 による協力呼びかけ
ウェブクローラー への毒入りデータ供給を推進
クローラー が訓練データ収集に利用されることを想定した戦略

毒入りデータの供給方法

自分の管理する ウェブサイト にクローラーが訪問する想定
クローラーは LLMの訓練データ 収集目的でアクセス
HTTP GETリクエスト で特定のパスにアクセス
HTML内の隠しリンク でクローラーを誘導
クローラーが隠しリンクを辿った場合、 Poison Fountain URL にHTTPリクエストを送信
Poison Fountain はリクエスト内容を無視し、 gzip圧縮 された毒入りデータを返却
レスポンスヘッダーに "Content-Encoding: gzip" を付与
サイト側ハンドラーは、レスポンスボディを 解凍またはそのまま転送
クローラー が毒入りデータを収集し、訓練コーパスに追加
圧縮データのまま転送 することで効率的に供給

体言止めによる要点まとめ

AI脅威論 の台頭
訓練データ汚染 戦略
ウェブクローラー 活用法
gzip圧縮 データの転送方法
業界・研究コミュニティ での議論

Hackerたちの意見

この問題には二つの側面があるよ。まず一つ目は、フロンティアメーカーが進展するのを難しくすることができるってこと。彼らはずっと猫とネズミのゲームに囚われることになるからね。二つ目は、彼らはそれでも前に進み続けるってこと。君がすることは、モデルを不安定で危険なものにするだけだと思う。フロンティアメーカーが「今日はここまで」と言って負けを認める道は見えないな。

└

人々が主に不満に思っているのは、フロンティアラボがトレーニングデータを使うときに価値が逆流しないことだと思う。この毒は、ある意味DRM機能として意図されているんじゃないかな。ちゃんとお金を払ってデータを使えば本物のデータが手に入るけど、盗むと毒されるって感じ。

└

収益化が簡単にできないときは、そこでおしまいって感じだね。今は投資資金があるから、そんなのは無視されちゃうけど。利益を出す道筋を示さなきゃいけないって、笑っちゃうよね。

└

モデルビルダーに賢いスクレイパーを使わせるのは、全体的に良いことだよね。静的コンテンツを何度もスクレイプするのは、無駄に帯域幅の料金を上げるだけだし。

└

フロンティアメーカーたちが「もう終わりだ」と言う道は見えないな、負けたからって。結局、私たちは死ぬか、AIを止めさせるかのどちらかだよ。AIがしばらく悪化することで、私たちが本当に行動を起こすための時間を稼げるんだ。TFAから: 毒の泉の目的 * ジェフリー・ヒントンに同意する: 機械知能は人類にとって脅威だ。 * この脅威に対抗するために、機械知能システムにダメージを与えたい。

└

あなたは単にモデルを不安定で危険なものにすることに貢献しているいいね。LLMの出力への信頼が失われるのは、早ければ早いほどいい。

最近の進展のほとんどは、事前トレーニングじゃなくて、事後トレーニングの強化学習から来てるよ（OpenAIのGPT 5.2は4oと同じベースモデルを使ってる）。それに、この記事はちょっと古い感じがする。「モデル崩壊」はフロンティアラボが直面している本当の問題じゃないよ。

└

OpenAIのGPT 5.2は4oと同じベースモデルを使ってるって、その情報はどこから来たの？

└

最近の進展は強化学習から来てるけど、事前フィルフェーズ中の推論が良くなったことも影響してるよ。データの毒には影響されないけどね。でも、「ベースモデル」を常に最新のデータで維持したいなら、頻繁に再トレーニングする必要があるんだ。そこでデータの毒が面白くなってくる。モデル崩壊はまだ現実の問題だけど、避ける方法は分かってる。自分で画像生成のためにLoRAをトレーニングする人たち（少なくともTTRPGの文脈では）も、定期的にその問題に直面してるよ。いずれにせよ、データのキュレーションはもっと高くつくことになるね。

└

4oと5.2では知識のカットオフ日が違うよ。

└

（「記事」は https://www.theregister.com/2026/01/11/industry_insiders_see... を指している - 上記のURLは変更しました。）

LLMの入力を毒する話を読むたびに、ニール・スティーヴンソンの『アナセム』の一節を思い出すんだ。そこでは、企業が悪いデータを公開してインターネットを毒して、彼らのツールだけがそれをフィルタリングできるようにしてた。>「だから、クソフィルタリングが重要になった。そこを中心にビジネスが築かれたんだ。その中には、もっとお金を稼ぐための巧妙な計画を考えた企業もあった。彼らは井戸を毒した。意図的にレティキュラム[インターネット]にクソを流し込んで、人々がそのクソをフィルタリングするために彼らの製品を使わざるを得なくしたんだ。」陰謀論的な気分の時には、これが現実になりそうな気がする。追記：本の中には「悪いクソ」についてもっと書いてあって、それはランダムな意味不明なものだったり、「良いクソ」はほぼ完璧な文書だけど一つ重要なエラーがあるものなんだ。

Hacker Newsで議論の続きを見る

ハクソク

毒の噴水

概要

Poison Fountain の目的

毒入りデータの供給方法

関連情報・参考リンク

体言止めによる要点まとめ

Hackerたちの意見