世界を動かす技術を、日本語で。

PDFフォレンジックの事例研究:エプスタインのPDFs

概要

  • Epstein Files Transparency Act によるDoJ公開PDFの技術的分析
  • サンプルPDFの デジタル・フォレンジック観点 からの詳細調査
  • 正しい墨消し (リダクション)処理の検証
  • PDF構造・有効性・バージョン情報 の比較
  • 誤情報拡散 への警鐘と正確な技術解説

Epstein Files Transparency Actに基づくPDF公開の技術分析

  • 2025年12月19日、 米司法省(DoJ) が「Epstein Files Transparency Act (H.R.4405)」に基づき 大量のPDFファイル を公開
  • 公開ファイルは 墨消し済みPDF が中心で、 内容自体の分析は未実施
  • PDF形式特有の解析難易度 (バイナリ構造、専門知識・ツールが必要)
  • 一部ファイルは マルウェア解析サイト で誤った分析・情報が拡散
  • 本記事は 法的助言ではなく、技術的観点からの情報提供

データセットの構成と特徴

  • 7つのZIPアーカイブ (計2.97GB)、展開後2.99GB
  • 4,085のPDFファイル、AVI動画1本、各種データファイル(.DAT/.OPT)
  • ファイル名は連番 で整理、未公開PDFは約5,879件
  • サンプル調査では スキャン画像+OCR付きPDF が多く、 “生デジタル”文書はなし
  • 墨消し(リダクション)は「黒塗り」方式 で、ピクセルぼかしよりも堅牢

墨消し(リダクション)の正確性

  • EFTA(Epstein Files Transparency Act)下の全PDFBates Number 入りで各ページを一意に識別
  • 報道やSNSで「回復可能な墨消し」情報が拡散 しているが、 DoJ公開のEFTA PDFには該当せず
    • 一部過去のDoJ文書には 墨消し不備 (コピー&ペーストで復元可能)が存在
    • しかし 今回分析対象のEFTA PDFは正しく墨消し済み で、隠されたテキストは抽出不可
  • OCRの品質は低いが、 隠された情報の漏洩はなし

PDFファイルの有効性検証

  • PDFフォーマット準拠性 の確認はデジタル・フォレンジックの前提
  • 複数のPDF解析ツールを併用し、 ツールごとの限界や違いを把握
  • 構造上の不備やクロスリファレンスの不一致がある場合、ツールによる解釈が異なる
  • 本調査で発見された主な不備は フォント記述の軽微な誤り (FontDescriptor Descent値が正であるべきところ負になっている等)
  • 全体として PDFの有効性に大きな問題なし

PDFバージョンとツール間の違い

  • PDFバージョン番号は信頼性が低い が、DoJの作業環境の推定には有用
  • pdfinfoツール(2種)で集計結果に大きな違い が発生
    • Tool AとTool BでPDFバージョンのカウントが異なる
    • 原因は インクリメンタルアップデート 時のバージョン取得方法の違い
  • バージョン番号以外の共通点
    • タグ付きPDFなし
    • 暗号化なし
    • 最適化(リニアライズ)なし
    • 注釈、アウトライン、埋め込みファイル、フォーム、JavaScriptなし
    • ページ数は1~119ページ、合計9,659ページ

インクリメンタルアップデートの利用

  • PDFのインクリメンタルアップデート機能 で複数回の編集履歴を保持
  • 各編集はファイル末尾に追記され、 xref・%%EOFマーカー で区切られる
  • サンプルPDF(EFTA00000001.pdf)では 2回のインクリメンタルアップデート を検出
  • Bates Number追加もインクリメンタルアップデートで実施
    • Helveticaフォント利用
    • ページオブジェクトの差し替え
    • 墨消し部分は空のコンテンツストリームで最適化可能

誤った分析や報道への注意喚起

  • SNSや一部報道で誤情報 (回復可能な墨消し、隠れた情報あり等)が拡散
  • EFTA PDF(DataSets 01-07)については正しい墨消しが確認済み
  • 「回復可能な墨消し」は 過去の別DoJ文書 で発生した事例
  • Bates Number付きPDF は全て正しく処理されている

まとめ

  • DoJ公開のEpstein PDFは技術的に正しく墨消し済み
  • PDF解析には複数ツールの併用が必須
  • 誤った分析や報道への注意 が必要
  • 法的助言ではなく技術的観点からの調査結果

Hackerたちの意見

情報漏洩は、PDFのコメントや圧縮オブジェクトストリーム内の孤立したオブジェクトを通じても発生しているかもしれない。上で発見した通りだ。誰かが独自にすべての文書をアーカイブしていることを願ってる。私の理解では、いくつかは削除されているみたい。

最初は「エプスタインファイル透明法(H.R.4405)」のページで、すべてのデータセットに.zipリンクがあったんだ。最初にそのページを見たとき、データセット11(または10)以外はすべて.zipリンクがあった。今朝のある時点で、すべての.zipリンクが削除されて、今はほとんどが戻ってきてるみたい。

それは削除されてるのか、それとももっと厳しく編集された文書に置き換えられてるのかな?確実に、いくつかの被害者の名前が見逃されていて、その後に編集されたのはあったよね。

発表された文書の中には、被害者の画像が含まれていて、それが編集されてたと思う。だから、必ずしも悪意のある削除ってわけじゃないかも。

Redditでもそういう投稿を削除したり、シャドウバンしたりしてるけど、ここにコミュニティがあるよ。 https://lemmy.world/post/42440468

OCRについてだけど、今はallenai/olmocr-2-7bを使って、テキストが含まれているすべてのPDFを処理して、DOJが提供したOCRと比較してるんだ。結構合わない部分が多くて、意外にもolmocr-2-7bはこれが結構得意なんだよね。ただ、PDFからページを抽出した後、今は約50万枚の画像をOCR処理するのを待ってる状態だから、これにはかなり時間がかかってる。

画像のサイズを小さくするために何か手を打った? これがパフォーマンスを上げるなら。私はLLMでこんなOCRタスクをやったことがないから試してないけど、どのサイズからVLMがテキストの詳細を確実に読み取れなくなるのか知りたいな。

DOJは、JPEG画像をPDF内で明示的に避けている。おそらく、JPEGにはEXIFやIPTC、XMPメタデータなどの識別可能な情報が含まれていることを理解しているからだ。もしかしたら、私は問題を過小評価しているのかもしれないけど、これは解決するのが非常に軽微な問題じゃない? 画像を低DPIフォーマット/バージョンに変換するのは、メタデータを削除するより本当に簡単なの? DOJや同様の司法機関は、もう何十年も前からこれに気づいてやってるはずだよね?

もしかしたら、彼らは私たちよりも多くのことを知ってるのかも。もっと深いレベルでファイルを改ざんすることができる可能性もあるよね。プリンターが紙に印刷するみたいに、何か改ざんされた圧縮アルゴリズムを使って画像にマークを付けることもできるのかな。もう一つの推測は、もしかしたらそのステップは多段階の衛生プロセスの一部で、最後のステップでビットマップ操作を行っているのかもしれない。

これは推測だけど、こういうルールは何らかの事件に基づいてることが多いよね。例えば、誰かが情報公開請求に応じて、メタデータのせいで意図しない情報を漏らしちゃったりすることがあるから、特定の形式を使わないという一律のルールが設けられるんだ。

画像のメタデータって、まさに無法地帯みたいなもんだよね。一番有名なツール(exiftool)の開発者が「メタデータを削除する」機能を作ったけど、全部は削除できないって言ってるし。

新しいファイルの中にランダムな「=」文字がテキストに含まれている理由について、何か予想はある? 最初はOCRかなと思ったけど、「E」のようなOCRツールが誤解釈しやすい文字とは関係ないみたい。次の予想は、信頼性のあるテキスト検索を難しくするためかもしれないけど、HNの読者の90%は「=」文字が見つかった場合でも崩れない検索ツールを作る方法を見つけられると思う(ただし、長い検索クエリに対応させるのは遅くなるだろうけど)。

昨日フロントページに載ってたよ: https://news.ycombinator.com/item?id=46868759

等号の文字は、メールでのquoted-printableの扱いが悪いせいだね。gnusの作者、ラース・インゲブリクセンがこのことについてブログを書いてたよ。彼の投稿は今日のHNのフロントページに載ってた。

誰かがこのテキストだけを使ってLLMをトレーニングすべきだよ、ただの遊びでね。

DeepSeek-V4-JEE

アーカイブをダウンロードできないんだ。いつも終わる直前に通信が切れちゃう。怖いな。

誰かJEの文体を分析して、アーカイブされた4chanの投稿や似たようなプラットフォームのコンテンツと照合した人いる?ギスレインについても同じで、今なら特定できるデータは十分にあるはずだよね?マクスウェルヒルの主張は色々な理由で信じてないけど、何も見つからないわけじゃないと思う。

エプスタインは少なくとも一度、mootに会おうとしたと思うよ:https://www.jmail.world/search?q=chris+poole

スタイロメトリーは、シンプルなn-グラム分析でもめっちゃ高度なんだよね。自分の文章の数段落だけで、HNで誰かを特定できるデモがあるよ。N-グラム分析に基づいてね。 https://news.ycombinator.com/item?id=33755016 AIが書いたものも、これで見分けられることが多いよ。別のトランスフォーマーを使って「AI生成」のコンテンツを見つけるアプローチは間違ってると思う。

みんなこれをデータ漏洩の手段として主張してたけど、俺はずっと懐疑的だったな。だって、書き方や語彙なんて、あまりにも多くの人に共有されてるから、特定するのは難しいと思うんだよね。(知ってる人がこの返信を書いた可能性は?)反論としては、彼のメールにはすごく特定のスタイルがあったから、これは特別なケースかもしれないね。

ちょっと話が逸れるけど、このページのクッキーのポップアップの「拒否」ボタンが「同意なしで続ける」ってラベル付けされてるのが面白いなと思った。

ほんと、罪悪感を植え付けようとしてるよね。

この部分が面白いと思った:スキャンした文書を模倣しているように見える他の文書もあって、物理的な紙のワークフローに期待される「現実のノイズ」がまったくないんだ。画像がすごく鮮明で、ランダムなアーティファクトやバックグラウンドノイズがなく、複数ページで同じ量の画像の歪みがある。テキストの各ページの周りの境界のおかげで、ページの歪みを簡単に測定できるんだ。例えば、VOL00007\IMAGES\0001\EFTA00009229.pdfみたいに。これらのPDFは、元のコンテンツ(デジタル文書から)を画像にレンダリングして、その後、歪み、ダウンサンプリング、色の減少などの画像処理を適用して作成された可能性が高いね。

すごく興味深い。特にその文書は、2019年にDoJがA. Acostaにインタビューしたものみたいだね。でも、もし本物なら、FBIがなぜそれをスキャンした文書として偽装する理由があるんだろう?エプスタインとのアコスタの取引に関して、公開したくない何かがあるのかな? https://www.justice.gov/epstein/files/DataSet%207/EFTA000092...

GNOMEデスクトップのユーザーは、これを~/.local/share/nautilus/のBashスクリプトに入れて、右クリックメニューからアクセスできるもっとリアルな偽PDFスキャンを作れるよ。元々どこからコピーしたかは覚えてないから、ランダムなネットの人に感謝(多分Stack Exchangeで見た)。完璧に動くよ。 ROTATION=$(shuf -n 1 -e '-' '')$(shuf -n 1 -e $(seq 0.05 .5)) for pdf in "$@"; do magick -density 150 $pdf
-linear-stretch '1.5%x2%'
-rotate 0.4
-attenuate '0.01'
+noise Multiplicative
-colorspace 'gray'
"${pdf%.}-fakescan.${pdf##.}" done

それ、俺もよくやるよ。印刷してサインして、スキャンしてって頼まれたら、白い紙にサインしてスキャンして、元の書類をその上に貼るんだ。で、そのスキャンを将来の書類用に取っておく。

もっと面白いのは、彼の銀行口座じゃない? 誰が彼にお金を払ったの? 誰が支払いを受けたの?