世界を動かす技術を、日本語で。

私たちの世界 (2014) [pdf]

概要

  • 入力された内容は PDFファイルのバイナリデータ の一部
  • テキスト情報 としては直接的な内容の解析は不可
  • PDFファイルのテキスト抽出 や内容確認には専用ツールが必要
  • ここでは 内容の要約や翻訳は対応不可
  • 必要に応じて PDFテキスト抽出サービス 利用を推奨

PDFバイナリデータの概要

  • 入力された内容は %PDF-1.4 で始まるPDFファイルのバイナリデータ
  • xref, obj, endobj, stream などPDF構造特有のキーワードを含む
  • テキスト情報や画像データ がバイナリ形式で格納
  • 通常のテキストエディタでは 内容の直接閲覧や編集が不可
  • Acrobat ReaderPDFテキスト抽出ツール の利用が一般的

PDF内容を日本語テキスト化する一般的な手順

  • PDFファイルを 専用のソフトウェア で開く
    • 例:Adobe Acrobat, Google Drive, PDF-XChange Editor
  • テキスト抽出機能OCR機能 を使って内容を抽出
  • 抽出したテキストを 日本語に翻訳 する場合は、翻訳ツールを利用
  • 抽出できない場合、画像や手書き文字の場合はOCRが必要
  • 機密情報の扱い には十分注意

注意点

  • バイナリデータのままでは 内容の要約や編集はできない
  • PDF全体 をアップロードまたはテキスト抽出してから依頼するのが最適
  • 個人情報や機密情報 の漏洩リスクに注意

推奨アクション

  • PDFファイルの内容をテキスト化 して再依頼
  • 可能であれば 必要なページや部分 のみを抽出して依頼
  • ファイルサイズデータ形式 に注意して送信

ご不明な点があれば、 具体的な目的や希望する作業内容 をお知らせください。

Hackerたちの意見

これが私のお気に入りのMikensエッセイ(The Slow Winter)だよ: https://www.usenix.org/system/files/1309_14-17_mickens.pdf

私もそうだな。パーティーで、誰かがMickensのUsenix論文をドラマティックに朗読するってアイデアを出した時の思い出があるよ。部分的に朗読するだけでも、すごく時間がかかって、笑いすぎて休憩が必要だった。The Slow Winterの「THE MAGMA PEOPLE ARE WAITING FOR OUR MISTAKES」って部分に来た時、誰かが笑いすぎて吐いちゃって、続けられなくなったんだ。ひどい感じじゃなくて、ちょっとした休憩が必要になっただけ。楽しい思い出だね。

[...] コンパイラは過去の遺物って感じだし、次世代のプロセッサは英語レベルの擬似コードを直接実行するようになるだろうね。面白いけど、ちょっと怖い予言的な文章だな…

みんなが6つ全部読みたいなら、ここにあるよ! https://mickens.seas.harvard.edu/wisdom-james-mickens お気に入りは「ナイト・ウォッチ」。

覚えておいて、ハッキング不可能である必要はないよ。ただ、十分に重要じゃないことが大事なんだ。

そうだね、ただ頭を下げて、笑顔でうなずいて、仕事をしてれば、何も問題は起こらないよ。/s

もっと重要な格言はこれだと思う:自分でシリコンを製造していないなら、製造している人よりも無限にハッキングされやすい。残念ながら、どんなにコンパイラを信じようとしても、ファウンドリを信頼する方法も採用しなきゃいけない。ああ、私たちには自分のファウンドリがないの?それが本当の問題だよ。ファウンドリを所有しているのは誰?

その選択肢があるなら、ハッキングされない方を選びたいな。

みんなこれが何を意味するか理解してないと思う。ネットワークやデバイスに侵入できる国家の「機関」は、地元の通信会社の技術者を誘拐したり脅迫したりするような手段を使うから。もし自分の政府なら、警察を連れてきて何でもやらせることができるし、大抵の人は適切な裁判所の命令もなしに従っちゃう。だから、そんな手間をかける価値がない限り、単に「低い果実」として知られている(しかも大抵は古い)脆弱性に引っかからないようにするだけだよ。

じゃあ、活動家にはすごく退屈な活動の形を選ぶようにアドバイスするの?

「グレー・マン」コンセプトは好きだけど、いつレーダーに引っかかるか、なぜ引っかかるのかは予測できないよね。若い大学院生の時に、政府の「トータル・インフォメーション・アウェアネス」の試験的な提案を反論する記事を書いたら、突然思いがけない論争に巻き込まれちゃって、有名なジャーナリストからメールが来たり質問されたりしたことがある。知らなくていいことに偶然遭遇することがあるから、何が起こるかは本当にわからないよ。

それ、面白い視点だね。クラシックなXKCD 538: Securityに似てる。 https://xkcd.com/538/

4096ビットにすることで、監視が簡単すぎて超自動化されるのを防げるんだ。だから、意味はあるよ。5ドルのレンチが必要な場合、家にその人を呼ぶには百万ドルのオペレーションが必要になる。

だから、リアルなコンテンツに見える偽のコンテンツにアクセスできる偽のパスワードが必要なんだよ。

この論理には全然同意できないな。多くの人(例えば、何らかの政治活動をしている人たち)にとって、脅威モデルはもっと複雑なんだ。特にモサドやCIAが狙っているわけじゃないかもしれないけど、警察があなたや友達のノートパソコンや携帯電話を調べるかもしれない。小さな組織のオフィスや、そこで動かしている小さなサーバーを狙う泥棒もいるかもしれない。

あなたが実際に何に反対しているのか書いてないね…。

そうだね。彼の超単純な「モサド/ノンモサドの二元性」に使い道があるかもしれないけど、例えばボブ・ジョーンズに「b0bj0nes」が良いパスワードじゃないって納得させるとか、99%はおとぎ話だよ。CIAやモサド、NSA、誰でも「興味がある」としても、今は監視社会の時代だからね。スタックスネットレベルの努力をする価値がある確率は0.000000001%だよ。対して、彼らの自動システムがデータを簡単に吸い上げる確率は99.999%だね。

彼の言いたかったことは、セキュリティラベルは行き止まりだってことだと思う。(Usenix Securityみたいな学術的なセキュリティカンファレンスに参加したことある?)

第三のモードは、データと計算の規模によって可能になるんだ。十分なデータが、十分なソースから処理されて、十分な計算が行われれば、モサドはあなたに事前の興味を持っていなくても、彼らが興味を持つプロファイルに合致することができるんだ。平和な「ノー・キングス」集会の上を飛んでるドローン、みんな見た?

そうだね、めちゃくちゃ幼稚だよ。警察機関の中でもデジタルフォレンジックの能力には大きな差があるし、さらに、連邦政府があなたを嫌ってるからって、最先端の手法を使って攻撃したり、拘束したり拷問したりするわけじゃないよ。著者が思ってるような魔法みたいなことは、モサドだってできないよ。

ミケンズの文章はずっと好きだな。彼のユーモアセンスは最高だし、モサドを極端な例に使うのもいいね。「モサドった」ってもう動詞になっちゃったのかな。

「ナイトウォッチ」はすごく楽しめたよ。 > システムプログラマーは、社会が崩壊したときに何をすべきか知っている。なぜなら、システムプログラマーはすでに法のない世界に生きているからだ。

アサンジもスノーデンも元気に生きてるみたいだね。モサドみたいな組織がそうじゃないことを望んでるけど、主にTorのおかげだし。ハマスも、実際の敵はモサドだったけど、まだ存在してるみたい。ヒズボラは、サプライチェーン攻撃についていい教訓を教えてくれたと思う。Debianは成功した公開鍵インフラの唯一の例かもしれないけど、SSHキーは日常生活で使える立派な公開鍵インフラだよ。特に開発者にはね。ミケンズがセキュリティラベルについて懐疑的なのは正当な理由がある。彼が指摘する問題が、オブジェクト能力モデルが実際に成功している理由だと思う。もっと良いパスワードは確かにいいアイデアだし、悪意のあるマイクが広まる前は多くの目的に対して十分な認証だったよね—フィッシングに引っかからなければだけど。自分の安全なパスワードジェネレーターは http://canonical.org/~kragen/sw/netbook-misc-devel/bitwords.... で、いくつかのモードは記憶に残る「正しい馬・バッテリー・ホッチキス」タイプのパスワードになってる。ちょっと冒涜的かもしれないから、信心深いヒンドゥー教徒の人には不快に思われるかも。

なぜランダムのSystemRandomを選んだの?secretsじゃなくて?

悪意のあるマイクが広まる前は多くの目的に対して十分な認証だった これについて詳しく教えてもらえる?悪意のあるマイクの文脈がわからないし、それが安全なパスワードにどう影響するのか理解できないんだけど。

...アサンジとスノーデン... アサンジやスノーデンがいる一方で、違法で不道徳、その他のひどいことにTorを使ってる人が100人(1000人?10万人?)いるって主張したいな。それがOKなら、まあ、確かにいいポイントだね。 > SSHキー ハートブリードやテラピンは、一般的なPKIインフラに対するかなり brutal な攻撃だった。確かに使えるし、とても良いけど、脆弱性は見つからないまま永遠に放置されることがあって、見つかった時は壊滅的だよね。

彼らのどちらかが暗殺されるリスクがあるなんて、完全に妄想だよ。スノーデンが恐れるべき最悪の事態は、有罪判決を受けて刑務所に入ることだけど、彼がロシアに逃げたっていうのは、裁判を受ける勇気がなかったってことを物語ってるよね。

ミッケンズの好きなトーク(https://vimeo.com/95066828)でもモサドについて話してるよ。

以前の話: この世界は私たちのもの(2014年)[pdf] - https://news.ycombinator.com/item?id=27915173 - 2021年7月(コメント6件)

モサドの神格化って、どこから来てるんだろう? 冷戦後に西側の情報機関よりも多くのことをやってきたけど、他の情報機関と同じように失敗もたくさんあるよね。