大規模オンライン非匿名化におけるLLMの活用

2026年2月25日原文(simonlermen.substack.com)

概要

LLMエージェント によるオンライン投稿からの 個人特定 の実現性
Hacker News、Reddit、LinkedIn など複数プラットフォームでの高精度な識別
AI監視 によるプライバシーリスクの拡大とその社会的影響
プラットフォームや個人 が取るべき対策の提案
実験手法や現状の 限界・課題 についても解説

LLMによる大規模オンライン匿名解除の実態

LLMエージェント は、匿名のオンライン投稿から ユーザーの特定 が可能
Hacker News、Reddit、LinkedIn、匿名化インタビュー記録 など多様なデータセットで高精度な識別実証
数コメントから 居住地・職業・興味関心 などを推定し、Web検索で本人特定
これまで人間調査官が必要だった匿名解除が、 LLMにより大規模・自動化 可能に
AIによる “people search” の拡大が プライバシー前提 を崩壊させる危険性

実験手法とベンチマーク

クロスプラットフォーム実験 ：異なるサービスの同一人物アカウントを匿名化し、LLMが再特定できるか検証
- 例： Hacker Newsアカウント から直接的な個人情報を削除し、 LinkedIn と照合
- Embedding検索 で候補を絞り、 LLM推論 で最有力候補を選定・検証
アカウント分割実験 ：1つのアカウント履歴を「前後」や「コミュニティ別」に分割し、リンク可能性を評価
- Reddit履歴を 時系列分割 や サブレディット分割 で検証
- 従来の Netflix-Prize型 ベースラインよりも高精度
候補プール が 数万～1億ユーザー規模 に拡大しても高精度を維持

現実世界での検証とリスク

Anthropic Interviewerデータセット で実際の匿名解除攻撃を実施
- 匿名化された科学者インタビューから 9/125人 の特定に成功（手動検証）
個人属性推定 や 伝記的プロフィール作成 が 標的型詐欺 等の悪用に直結
AIによる監視・個人特定 は、今後さらに コスト低下・精度向上 が予想される

プラットフォーム・LLMプロバイダー・個人の対策

プラットフォーム側
- データアクセス制限 （APIレート制限、自動スクレイピング検知、一括データ輸出制限）
- 仮名ユーザーのリンクリスク を前提としたポリシー設計
LLMプロバイダー側
- 拒否ガードレールや利用監視 の導入
- ただし、 タスク分割 や プロンプト工夫 で回避可能、 OSSモデル には無効
個人ユーザー側
- 強いプライバシー意識 の持続
- 投稿ごとに 都市・職業・イベント・趣味 などの情報が 指紋化 されるリスク
- 「投稿から自分を特定できるか？」 を常に自問する姿勢

今後の課題と展望

匿名解除のベンチマーク 構築の難しさ
- 実際の匿名ユーザー特定は 倫理的リスク が高い
- 代理タスクや手動検証で間接的に効果測定
公開による悪用リスク もあるが、 社会的議論喚起 のため公開を選択
AI悪用防止 は技術的・運用的に困難であり、 社会全体での議論 が不可欠

参考論文 ：Large-Scale Online Deanonymization with LLMs PDF ：https://arxiv.org/pdf/2602.16800

Hackerたちの意見

実際の影響が論文が示すほど劇的ではないと思う。大規模に人を匿名から外そうとする敵（政府や企業）は、すでにもっと直接的な手段を持っているからね。これによって最も危険にさらされるのは、そういった直接的な手段が使えない地域にいる活動家や内部告発者だと思う。普通のユーザーじゃないよ。

└

大規模に人を匿名から外そうとする敵（政府や企業）は、すでにもっと直接的な手段を持っている。簡単な手段が増えるってことは、敵も増えるってことだよね。

└

上司や職場についてコメントする人たち？自分の仕事について話したいけど匿名でいたいHNの人たち？コミュニティでコメントしたらスパムが来るのが嫌な人？それとも、コミュニティでコメントしたら嫌がらせを受けるのが嫌な人？もしかしたら、誰かは自分がr/depressionに投稿してることを知られたくないかもしれない。（あるいはr/warhammerとか。）匿名性は今のインターネットの重要な側面だよね。年齢確認に反対する実際の理由でもある。一方で、匿名性が簡単に破られるなら、プライバシーの主張は成り立たないよね。

└

自国民が海外で何を言うかをコントロールしたい国がたくさんあると思う。サダム・フセインの時代のイラクがイギリスでやってたし、今の中国もそうだよね。

└

大規模に人を匿名から外す人たちを匿名解除すること。

└

実際、最も危険にさらされるのは普通の人たちで、活動家が嫌がらせをすることになると思う。これからは「間違った」ビジネスで働いている人や、どんなテーマについてでも意見を表明した人が、日々の話題に怒っている精神的に不安定な人たちから、雇用主に脅迫電話をかけられたり、警察に虚偽の通報をされたり、母親にディープフェイクポルノを送られたりする時代が来ると思う。インターネットがこんなに有毒で監視が厳しい時代になると、唯一の合理的な反応はプラグを抜くことだと思う。

└

攻撃は連鎖することができて、これを全て自動化することも可能なんだ。例えば、豚の屠殺詐欺を想像してみて...それがそこにあって、声のクローン詐欺と似てるんだけど、将来の参考のためにスタイロメトリックに指紋を取るためのデータを集めるためにね。自分の本名であまりコメントしないように気をつけてるけど、誰かが思慮深くて情報豊富な高品質なコメントでDMに滑り込んできて、興味深い会話が始まって、うまくいって、何も気にせず、一週間後には忘れてる。そしたら5年後には、刑務所に入ったり、解雇されたり、ドックスィングされたり、はめられたりしてるかもしれない。「直接的な方法」では、そういう能力を後から提供することはできないんだ。たとえその方法にアクセスできる人たちがいてもね（それは全体の中で消えていく割合だよ）。今は、これを正しく行うための安価な情報や熟練した労働力は誰にもない。でも、いつかはできるようになるだろうね。

└

確かに、情報の流れを考えると新しいことではないけど、ここでは古典的な特徴エンジニアリングは必要なくて、純粋にLLM（エージェント的）な流れだけで済むんだよね。でも、オンラインで自己開示される情報が多いから、LLMで簡単になるのは驚かないよ。面白いのは、HNやredditで複数のユーザー名を持ってる人を特定するアプリケーションだね。

多くの人が、成功する匿名解除に必要な情報がどれだけ少ないかを見落としがちだよね。学生に匿名解除を教えるときは、2008年に発表された古い論文「大規模スパースデータセットのロバストな匿名解除」を紹介するのが好きなんだ。内容はこうだよ：「私たちは、500,000人のNetflix加入者の匿名映画評価を含むNetflix Prizeデータセットに私たちの匿名解除手法を適用します。[...] 個々の加入者について少しでも知っている敵は、この加入者の記録を簡単に特定できることを示します。」それが20年前の話なんだよ！それ以来、匿名解除の技術は飛躍的に進歩していて、さまざまな技術の成長とともに進化している。私は、（擬似）匿名のインターネット閲覧の時代がすぐに終わると思う。私の生きている間には確実にね（私はそんなに若くないし！）。それは規制によるものか、ドラグネット監視と匿名解除の性質によるものか、その両方の組み合わせかもしれない。でも、寒気がする時代になると思う。

└

Netflixの攻撃に関する素晴らしい背景論文だね。セクション5でかなり直接的な比較をしてるよ。セクション4と6でも似たような方法を使って比較しようとしてる。セクション5では、人々のRedditコメントを映画レビューに変換して、LLMが映画レビューに関してNarayananよりも優れているかを見てる。LLMはまだかなり優れていて（約8%の精度だけど、平均的な人は2.5本の映画しか持ってなくて、48%は1本だけを共有してるから、マッチングがすごく難しい）。

└

「賢い」言い回しを使った使い捨てアカウントは、ダブルクリックや右クリックで匿名化されることが多いよ。彼らのウィットに富んだ言葉遊びをググって、他の場所（TwitterやFacebookなど）で唯一の例を見つけることができるからね。知らない言葉が続けて出てくると、投稿者の本名を推測できちゃうんだ。もっと具体的に言いたいけど、例を挙げるのはドックスィングになるから、実際にそうなんだよね。

ここでは本名で投稿してるんだ。ほとんど唯一の投稿場所だよ。そうすることで、言いたいことを言うときに正直でいられるし、真っ直ぐな気持ちでいられるんだ。子供たちに、将来の人やシステムが考慮するだろうから、インターネット上でできるだけクリーンな足跡を残すことについて話そうとしたんだけど、何が起こるかは分からないけど、敵対的なことがあるだろうなって思ってる。自分と子供たちのために、クリーンでいたいな。逆に、ニール・スティーヴンソンの『Fall; or, Dodge in Hell』って本には、面白いアイデアがあって、初めの方で「ゾーンをクソで埋め尽くす」っていう今の言葉に同意する人が出てくるんだ（スティーブ・バノンの悲しいほど効果的な戦略ね）。トロールと戦うために、クリーンを保つのではなく、何でもいいからスパムしまくって、核心が誰にも理解されないようにするっていう意図なんだ。この本では巧妙に探求されてるけど、バーチャルリアリティに移る前の短い時間だけなんだよね。今、ここにいる人たちの中には、これを実践してる人もいると思う。

Hacker Newsで議論の続きを見る

ハクソク