PDFフォレンジックの事例研究：エプスタインのPDFs

2026年2月4日原文(pdfa.org)

概要

Epstein Files Transparency Act によるDoJ公開PDFの技術的分析
サンプルPDFの デジタル・フォレンジック観点 からの詳細調査
正しい墨消し （リダクション）処理の検証
PDF構造・有効性・バージョン情報 の比較
誤情報拡散 への警鐘と正確な技術解説

Epstein Files Transparency Actに基づくPDF公開の技術分析

2025年12月19日、 米司法省（DoJ） が「Epstein Files Transparency Act (H.R.4405)」に基づき 大量のPDFファイル を公開
公開ファイルは 墨消し済みPDF が中心で、 内容自体の分析は未実施
PDF形式特有の解析難易度 （バイナリ構造、専門知識・ツールが必要）
一部ファイルは マルウェア解析サイト で誤った分析・情報が拡散
本記事は 法的助言ではなく、技術的観点からの情報提供

データセットの構成と特徴

7つのZIPアーカイブ （計2.97GB）、展開後2.99GB
4,085のPDFファイル、AVI動画1本、各種データファイル（.DAT/.OPT）
ファイル名は連番 で整理、未公開PDFは約5,879件
サンプル調査では スキャン画像＋OCR付きPDF が多く、 “生デジタル”文書はなし
墨消し（リダクション）は「黒塗り」方式 で、ピクセルぼかしよりも堅牢

墨消し（リダクション）の正確性

EFTA（Epstein Files Transparency Act）下の全PDF は Bates Number 入りで各ページを一意に識別
報道やSNSで「回復可能な墨消し」情報が拡散 しているが、 DoJ公開のEFTA PDFには該当せず
- 一部過去のDoJ文書には 墨消し不備 （コピー＆ペーストで復元可能）が存在
- しかし 今回分析対象のEFTA PDFは正しく墨消し済み で、隠されたテキストは抽出不可
OCRの品質は低いが、 隠された情報の漏洩はなし

PDFファイルの有効性検証

PDFフォーマット準拠性 の確認はデジタル・フォレンジックの前提
複数のPDF解析ツールを併用し、 ツールごとの限界や違いを把握
構造上の不備やクロスリファレンスの不一致がある場合、ツールによる解釈が異なる
本調査で発見された主な不備は フォント記述の軽微な誤り （FontDescriptor Descent値が正であるべきところ負になっている等）
全体として PDFの有効性に大きな問題なし

PDFバージョンとツール間の違い

PDFバージョン番号は信頼性が低い が、DoJの作業環境の推定には有用
pdfinfoツール（2種）で集計結果に大きな違い が発生
- Tool AとTool BでPDFバージョンのカウントが異なる
- 原因は インクリメンタルアップデート 時のバージョン取得方法の違い
バージョン番号以外の共通点
- タグ付きPDFなし
- 暗号化なし
- 最適化（リニアライズ）なし
- 注釈、アウトライン、埋め込みファイル、フォーム、JavaScriptなし
- ページ数は1～119ページ、合計9,659ページ

インクリメンタルアップデートの利用

PDFのインクリメンタルアップデート機能 で複数回の編集履歴を保持
各編集はファイル末尾に追記され、 xref・%%EOFマーカー で区切られる
サンプルPDF（EFTA00000001.pdf）では 2回のインクリメンタルアップデート を検出
Bates Number追加もインクリメンタルアップデートで実施
- Helveticaフォント利用
- ページオブジェクトの差し替え
- 墨消し部分は空のコンテンツストリームで最適化可能

誤った分析や報道への注意喚起

SNSや一部報道で誤情報 （回復可能な墨消し、隠れた情報あり等）が拡散
EFTA PDF（DataSets 01-07）については正しい墨消しが確認済み
「回復可能な墨消し」は 過去の別DoJ文書 で発生した事例
Bates Number付きPDF は全て正しく処理されている

まとめ

DoJ公開のEpstein PDFは技術的に正しく墨消し済み
PDF解析には複数ツールの併用が必須
誤った分析や報道への注意 が必要
法的助言ではなく技術的観点からの調査結果

Hackerたちの意見

情報漏洩は、PDFのコメントや圧縮オブジェクトストリーム内の孤立したオブジェクトを通じても発生しているかもしれない。上で発見した通りだ。誰かが独自にすべての文書をアーカイブしていることを願ってる。私の理解では、いくつかは削除されているみたい。

└

最初は「エプスタインファイル透明法（H.R.4405）」のページで、すべてのデータセットに.zipリンクがあったんだ。最初にそのページを見たとき、データセット11（または10）以外はすべて.zipリンクがあった。今朝のある時点で、すべての.zipリンクが削除されて、今はほとんどが戻ってきてるみたい。

└

それは削除されてるのか、それとももっと厳しく編集された文書に置き換えられてるのかな？確実に、いくつかの被害者の名前が見逃されていて、その後に編集されたのはあったよね。

└

発表された文書の中には、被害者の画像が含まれていて、それが編集されてたと思う。だから、必ずしも悪意のある削除ってわけじゃないかも。

└

Redditでもそういう投稿を削除したり、シャドウバンしたりしてるけど、ここにコミュニティがあるよ。 https://lemmy.world/post/42440468

OCRについてだけど、今はallenai/olmocr-2-7bを使って、テキストが含まれているすべてのPDFを処理して、DOJが提供したOCRと比較してるんだ。結構合わない部分が多くて、意外にもolmocr-2-7bはこれが結構得意なんだよね。ただ、PDFからページを抽出した後、今は約50万枚の画像をOCR処理するのを待ってる状態だから、これにはかなり時間がかかってる。

└

画像のサイズを小さくするために何か手を打った？これがパフォーマンスを上げるなら。私はLLMでこんなOCRタスクをやったことがないから試してないけど、どのサイズからVLMがテキストの詳細を確実に読み取れなくなるのか知りたいな。

DOJは、JPEG画像をPDF内で明示的に避けている。おそらく、JPEGにはEXIFやIPTC、XMPメタデータなどの識別可能な情報が含まれていることを理解しているからだ。もしかしたら、私は問題を過小評価しているのかもしれないけど、これは解決するのが非常に軽微な問題じゃない？画像を低DPIフォーマット/バージョンに変換するのは、メタデータを削除するより本当に簡単なの？ DOJや同様の司法機関は、もう何十年も前からこれに気づいてやってるはずだよね？

└

もしかしたら、彼らは私たちよりも多くのことを知ってるのかも。もっと深いレベルでファイルを改ざんすることができる可能性もあるよね。プリンターが紙に印刷するみたいに、何か改ざんされた圧縮アルゴリズムを使って画像にマークを付けることもできるのかな。もう一つの推測は、もしかしたらそのステップは多段階の衛生プロセスの一部で、最後のステップでビットマップ操作を行っているのかもしれない。

└

これは推測だけど、こういうルールは何らかの事件に基づいてることが多いよね。例えば、誰かが情報公開請求に応じて、メタデータのせいで意図しない情報を漏らしちゃったりすることがあるから、特定の形式を使わないという一律のルールが設けられるんだ。

└

画像のメタデータって、まさに無法地帯みたいなもんだよね。一番有名なツール（exiftool）の開発者が「メタデータを削除する」機能を作ったけど、全部は削除できないって言ってるし。

新しいファイルの中にランダムな「=」文字がテキストに含まれている理由について、何か予想はある？最初はOCRかなと思ったけど、「E」のようなOCRツールが誤解釈しやすい文字とは関係ないみたい。次の予想は、信頼性のあるテキスト検索を難しくするためかもしれないけど、HNの読者の90％は「=」文字が見つかった場合でも崩れない検索ツールを作る方法を見つけられると思う（ただし、長い検索クエリに対応させるのは遅くなるだろうけど）。

Hacker Newsで議論の続きを見る

ハクソク