概要
- Epsteinアーカイブ の最新リリースにおける DoJ(司法省)の対応の問題点 を指摘
- 検閲ミスや技術的な失敗、特に base64エンコードされた添付ファイルの処理不備 が顕著
- OCR(光学文字認識)やフォントの選択ミス によるデータ復元の困難さ
- 複数ツールを用いた復元作業の試行錯誤 とその限界
- 証拠の信頼性や透明性への懸念 が浮き彫りに
DoJによるEpsteinアーカイブ公開の問題点
- 共謀者の名前や無関係な女性の写真の過剰検閲 による誤解招来
- 証拠資料の認証情報未編集 でRedditユーザーがEpsteinのアカウントにアクセス可能になった事例
- Quoted-Printableエンコードの変換ミス による証拠データの破損
- 重要証拠の過剰な編集 による透明性の損失
- Pam Bondi率いるDoJの技術力不足 が露呈
base64エンコード添付ファイルの問題
- 一部メールに base64形式のバイナリ添付ファイル がそのまま公開
- EFTA00400459 では76ページに渡るbase64データが添付
- 本来なら簡単にPDF復元可能 だが、実際には 部分的編集・OCR済みPDF しか提供されていない
- OCRによる文字化けや不要な文字の混入 でbase64データが破損
- 手動やスクリプトでの復元作業 も失敗が多い現状
OCRとフォントの課題
- Adobe Acrobat Proやtesseract など複数OCRツールの試用
- OCRの精度不足、特に Courier Newフォント の識別性の低さが障害
- 1(数字)とl(小文字エル)の判別困難 が大きな問題
- 低品質JPEGスキャン・小さいポイントサイズ による文字識別難易度の上昇
- Amazon Textractも完全な復元には至らず
復元作業の詳細と技術的工夫
- pdftoppmでPDFをPNG画像に変換 し、tesseractでOCR実行
- tesseractの文字セット制限 や --psm 6 オプション利用による精度向上の試み
- OCR結果におけるスペースや無効文字の混入、行長の不一致
- Amazon Textract利用時のDPI調整目的で画像拡大 など追加工夫
- それでもbase64データの完全な復元は困難
証拠の信頼性と透明性への懸念
- DoJの処理ミスや技術的未熟さ が証拠の信頼性を損なう要因
- 公開資料の編集・変換過程での情報欠落 が透明性を低下
- 社会的関心の高い事案での情報公開体制の見直し の必要性
- 今後の証拠公開プロセスにおける技術的改善要望
このように、Epsteinアーカイブの公開を巡る一連の問題は、単なる技術的失敗にとどまらず、証拠の信頼性や社会的な透明性にまで影響を及ぼしている。今後のためにも、 より高度な技術力と慎重な情報管理体制 の構築が強く求められる。