概要
- Epstein Files Transparency Act によるDoJ公開PDFの技術的分析
- サンプルPDFの デジタル・フォレンジック観点 からの詳細調査
- 正しい墨消し (リダクション)処理の検証
- PDF構造・有効性・バージョン情報 の比較
- 誤情報拡散 への警鐘と正確な技術解説
Epstein Files Transparency Actに基づくPDF公開の技術分析
- 2025年12月19日、 米司法省(DoJ) が「Epstein Files Transparency Act (H.R.4405)」に基づき 大量のPDFファイル を公開
- 公開ファイルは 墨消し済みPDF が中心で、 内容自体の分析は未実施
- PDF形式特有の解析難易度 (バイナリ構造、専門知識・ツールが必要)
- 一部ファイルは マルウェア解析サイト で誤った分析・情報が拡散
- 本記事は 法的助言ではなく、技術的観点からの情報提供
データセットの構成と特徴
- 7つのZIPアーカイブ (計2.97GB)、展開後2.99GB
- 4,085のPDFファイル、AVI動画1本、各種データファイル(.DAT/.OPT)
- ファイル名は連番 で整理、未公開PDFは約5,879件
- サンプル調査では スキャン画像+OCR付きPDF が多く、 “生デジタル”文書はなし
- 墨消し(リダクション)は「黒塗り」方式 で、ピクセルぼかしよりも堅牢
墨消し(リダクション)の正確性
- EFTA(Epstein Files Transparency Act)下の全PDF は Bates Number 入りで各ページを一意に識別
- 報道やSNSで「回復可能な墨消し」情報が拡散 しているが、 DoJ公開のEFTA PDFには該当せず
- 一部過去のDoJ文書には 墨消し不備 (コピー&ペーストで復元可能)が存在
- しかし 今回分析対象のEFTA PDFは正しく墨消し済み で、隠されたテキストは抽出不可
- OCRの品質は低いが、 隠された情報の漏洩はなし
PDFファイルの有効性検証
- PDFフォーマット準拠性 の確認はデジタル・フォレンジックの前提
- 複数のPDF解析ツールを併用し、 ツールごとの限界や違いを把握
- 構造上の不備やクロスリファレンスの不一致がある場合、ツールによる解釈が異なる
- 本調査で発見された主な不備は フォント記述の軽微な誤り (FontDescriptor Descent値が正であるべきところ負になっている等)
- 全体として PDFの有効性に大きな問題なし
PDFバージョンとツール間の違い
- PDFバージョン番号は信頼性が低い が、DoJの作業環境の推定には有用
- pdfinfoツール(2種)で集計結果に大きな違い が発生
- Tool AとTool BでPDFバージョンのカウントが異なる
- 原因は インクリメンタルアップデート 時のバージョン取得方法の違い
- バージョン番号以外の共通点
- タグ付きPDFなし
- 暗号化なし
- 最適化(リニアライズ)なし
- 注釈、アウトライン、埋め込みファイル、フォーム、JavaScriptなし
- ページ数は1~119ページ、合計9,659ページ
インクリメンタルアップデートの利用
- PDFのインクリメンタルアップデート機能 で複数回の編集履歴を保持
- 各編集はファイル末尾に追記され、 xref・%%EOFマーカー で区切られる
- サンプルPDF(EFTA00000001.pdf)では 2回のインクリメンタルアップデート を検出
- Bates Number追加もインクリメンタルアップデートで実施
- Helveticaフォント利用
- ページオブジェクトの差し替え
- 墨消し部分は空のコンテンツストリームで最適化可能
誤った分析や報道への注意喚起
- SNSや一部報道で誤情報 (回復可能な墨消し、隠れた情報あり等)が拡散
- EFTA PDF(DataSets 01-07)については正しい墨消しが確認済み
- 「回復可能な墨消し」は 過去の別DoJ文書 で発生した事例
- Bates Number付きPDF は全て正しく処理されている
まとめ
- DoJ公開のEpstein PDFは技術的に正しく墨消し済み
- PDF解析には複数ツールの併用が必須
- 誤った分析や報道への注意 が必要
- 法的助言ではなく技術的観点からの調査結果