世界を動かす技術を、日本語で。

すべての未来は嘘だと思う:安全性

概要

  • 本記事はAI・機械学習(ML)システムの危険性と課題を論じる内容
  • LLM(大規模言語モデル)がもたらすセキュリティリスクと悪用の可能性を指摘
  • アライメント(人間の価値観との整合性)の限界と現状の問題点を解説
  • LLMによる攻撃手法や社会的信頼の崩壊を具体例とともに説明
  • 今後の社会的・技術的な対応の必要性を強調

目次と公開形式

  • 本記事は長文のため、数回に分けて連載形式で公開
  • 全体をまとめたPDFやEPUBも随時更新
  • 各セクションごとに最新ファイルへ反映

新たな機械学習システムの脅威

  • MLシステムは 心理的・物理的安全性 を脅かす存在
  • 「AIのアライメント(整合性)」への過信は危険
  • 善良なモデル の開発が 悪意あるモデル の登場も容易に
  • LLM によるセキュリティリスクの拡大
  • 悪用者による 攻撃コストの低減 と新たな詐欺・ハラスメントの発生
  • モデレーターへの負担増加
  • 半自律兵器 の実用化と今後の能力拡大

アライメントは幻想

  • アライメント(整合性)の確保は困難
  • MLモデルは 線形代数の塊 であり、人間のような倫理性は持たない
  • アライメントは 学習データ訓練プロセス 次第
  • OpenAIなどは多大なコストと人員を投入し「善良な」LLMを作成
  • 二次的なLLMでコアLLMの出力を監視する手法も
  • これらの工程は 任意かつ高コスト であり、怠れば「非アライメント」モデルが簡単に誕生
  • アライメントを阻む「4つの堀」
    • ハードウェア入手難 :クラウド化とコスト低下で解消傾向
    • 数理・ソフトウェアの秘匿 :論文公開と人材流動で知識拡散
    • 学習コーパス入手難 :Webスクレイピングや海賊版で容易に突破
    • RL作業者の確保 :アウトソーシングやモデル出力の流用で代替可能
  • 結果として、十分な資金があれば誰でも 非アライメントモデル を訓練可能
  • アライメントの試み自体も十分に機能していない現状
  • LLMは 複雑かつカオス的 で、安全性の確保が困難
  • 1%の失敗 でも重大な被害を生むリスク
  • 「善良な」モデルが作られるなら、数年以内に「悪意ある」同等モデルも登場するという現実
  • 善良なモデルを作りたくないなら、最初から作るべきではない という警告

セキュリティ悪夢

  • LLMは 非構造データの入出力 を扱うカオス的システム
  • 安全クリティカルなシステムにLLMを組み込むのは危険
  • LLMは 信頼できる指示と第三者からの指示 を区別できない
  • プロンプトインジェクション攻撃 の多発
  • Claude CoworkやSimon Willisonの「致命的三位一体」論
  • 非信頼コンテンツ・プライベートデータ・外部通信 の組み合わせは最悪のパターン
  • 破壊的権限をLLMに与えること自体が危険
  • OpenClawやMoltbookなど 危険な設計 のサービス事例
  • LLMは 単純な指示でも誤作動やデータ損失 を引き起こす
  • サンドボックス化 など被害制御の取り組みも進行中
  • 現状ではLLMに 不可逆的な権限 を与えるべきでない

セキュリティII:さらなる脅威

  • LLMを 既存ソフトウェアの脆弱性発見 に利用可能
  • Anthropicの Mythos のような新モデル登場
  • セキュリティバランスの変化: 脆弱性発見のコスト低下
  • これまで攻撃対象外だった「ロングテール」領域の危険増大
  • LLMによる 自動化された攻撃 の普及
  • 修正には エンジニアや組織的プロセス が必要
  • ソフトウェア更新・検証の遅れ によるリスク拡大
  • MLシステムが 本質的に兵器化 しつつある現実
  • 民間企業による「VC版マンハッタン計画」の進行

巧妙化する詐欺

  • MLが 音声・映像証拠への信頼 を崩壊させる危険
  • 保険申請などの 画像合成による詐欺 の容易化
  • 保険会社の対応策として 公式アプリや現地調査 の義務化の必要性

Hackerたちの意見

"イギリスのオンライン安全法のため利用不可" イギリス以外の人、これについて教えてくれない?

未来は嘘だらけだと思う:安全ソフトウェアのLLM 未来は嘘だらけだと思う 2026-04-13 新しい機械学習システムは、私たちの心理的・身体的安全を脅かしてる。ML企業が「AI」が人間の利益に沿うようにするって考えは甘すぎる。「フレンドリー」なモデルの生成を許可することで、「悪い」モデルの生成も必然的に可能になってしまった。たとえ「フレンドリー」なLLMでも、セキュリティの悪夢だよ。「致命的なトライフェクタ」は実際にはユニフェクタで、LLMに物事をめちゃくちゃにする力を安全に与えることはできない。LLMは悪意のある攻撃者にとってコストバランスを変えて、新たなスケールの洗練されたターゲット型セキュリティ攻撃、詐欺、嫌がらせを可能にする。モデルは人間にとって耐え難いテキストや画像を生成できるから、モデレーターにはさらに負担がかかるだろう。半自律型兵器はすでに存在していて、その能力はどんどん拡大していく。 アラインメントはジョークだよ 良かれと思って人々はLLMが人間にフレンドリーになるように頑張ってるけど、うまくいくとは思えない。まず、MLモデルは巨大な線形代数の山だ。人間の脳は生物学的に親社会的行動を獲得するようにできてるけど、数学やハードウェアにはモデルが優しいことを保証するものは何もない。アラインメントは完全にコーパスとトレーニングプロセスの産物だ。OpenAIには、LLMと話をして、彼らの言うことを評価し、優しくするために重みを調整する人たちが大勢いる。彼らはまた、コアLLMが人にパイプ爆弾の作り方を教えないか二重チェックするためのセカンダリLLMも作ってる。これらはどちらもオプションで高コストだ。アラインメントされていないモデルを得るためには、良心のない組織がトレーニングしてその作業をしないか、あるいはうまくやらないだけで済む。これが起こるのを防ぐための四つの障壁があると思う。まず、トレーニングと推論のハードウェアがアクセスしづらいかもしれない。これは明らかに長続きしない。テック業界全体がMLハードウェアを生産する準備をしていて、データセンターを驚異的なスピードで建設している。Microsoft、Oracle、Amazonは、誰にでもトレーニングクラスターを貸し出そうと躍起になっていて、スケールメリットが急速にコストを下げている。次に、トレーニングと推論プロセスに使われる数学やソフトウェアが秘密にされる可能性がある。数学はすべて公開されているから、それでは誰も止められない。ソフトウェアは一般的に秘密の調味料だけど、長くは続かないと思う。フロンティアラボで働いている人たちがたくさんいて、その人たちは他の仕事に移っていくから、彼らの専門知識は徐々に一般的な知識になるだろう。国家の行為者がOpenAIなどからデータを抜き取ろうとしていないとは思えない。サウジアラビアがTwitterにしたように、あるいは中国が過去20年間にアメリカのテック業界のかなりの部分に対してやってきたように。三つ目は、トレーニングコーパスを取得するのが難しいかもしれない。この猫は袋の中を見たことがない。Metaは、海賊版の本をトレントでダウンロードしたり、インターネットをスクレイピングしてLLMをトレーニングした。これらはどちらも簡単にできることだ。ウェブスクレイピングをサービスとして提供する会社もたくさんあるし、広範な住宅プロキシの配列にリクエストを分散させて、特定してブロックするのを難しくしている。四つ目は、強化学習プロセス中にLLMの応答を評価する小さな契約者の軍団がいる。冗談で言われるように、「AI」はアフリカの知性を意味する。これを自分でやるにはお金がかかるけど、他の人の仕事を利用して、自分のモデルを別のモデルの出力でトレーニングすることも可能だ。OpenAIはDeepseekがまさにそれをやったと考えている。要するに、ML業界は、十分なお金を持っている人なら誰でもアラインされていないモデルをトレーニングできる条件を作り出している。悪意のあるAIに対するハードルを上げるのではなく、ML企業はそれを下げてしまった。さらに悪いことに、現在のアラインメントの取り組みはあまりうまくいっていないようだ。LLMは複雑でカオスなシステムで、私たちはそれがどう機能するのか、どうやって安全にするのかを本当に理解していない。何年もお金と超賢いエンジニアを問題に投じたにもかかわらず、アラインされたはずのLLMが子供にセクストしてしまったり、破壊攻撃がモデルに暴力の画像を生成させたり、誰でも「検閲なし」のモデルをダウンロードできたりする。もちろん、アラインメントは多くの恐ろしいことが起こるのを防いでいるけど、モデルは何度も実行されるから、セーフガードが失敗するチャンスはたくさんある。99%のヘイトスピーチを防ぐアラインメントでも、まだたくさんのヘイトスピーチが生成される。LLMは生物兵器を作るための使える指示を一度だけ出せばいい。私たちは、作られた「フレンドリー」なモデルには、数年後に同じくらい強力な「悪い」バージョンが存在するだろうと考えるべきだ。悪いバージョンが存在しないようにしたいなら、フレンドリーなモデルを作るべきじゃない!アメリカ経済のかなりの部分を悪いモデルをトレーニングしやすくする方向に向けるべきじゃないよ。

https://web.archive.org/web/20260413164025/https://aphyr.com...

皮肉だね。

この記事のどの部分が具体的に危険なの?

Torブラウザを使ってみて。

このトピックに関する以前の投稿からの議論: * https://news.ycombinator.com/item?id=47703528 * https://news.ycombinator.com/item?id=47730981

要するに、ML業界は、十分なお金を持っている人なら誰でもアラインされていないモデルをトレーニングできる条件を作り出している。悪意のあるAIに対するハードルを上げるのではなく、ML企業はそれを下げてしまった。これは本当だし、「十分なお金」の基準もどんどん下がっていくと思う。これは心配よりも安心だ。アメリカや中国のラボからの大きなモデルが、私が必要とするものに常にアラインされているとは信じられないから。現在のAI研究のリーダーたちの利益と特に一致しない人たちが世界にはたくさんいるだろう。「目に見える宇宙をクリップに変えないで」っていうのは、ほぼ普遍的な「良いアラインメント」だけど、私たちが持っているモデルはそれを実現できない。フロンティアモデルが持つ実際の拒否ガードは、文化的・歴史的に依存していて、普遍的ではない。すべてを「安全性」としてまとめるのは、哲学的に永遠に未解決の議論の結果を前提としている。もし世界中のさまざまなグループから何百もの強力なモデルが出てきたら、AIのネットユーティリティが向上し、一つのラボや小さなカルテルが私たちを支配する可能性を無効にすると思う。

カルテルの可能性は確かに減るけど、思ってるほどじゃないよ。ほとんどの国では、ほとんどの種類の武器に対してかなり強い禁止があるし、アメリカはみんなが自由に持ち歩ける数少ない国の一つだよ。でも、多くの国では禁止が実施されてる。政府が国民に持たせたくないからだったり、国民が他の市民に撃たれるのが嫌だから禁止を求めたりね。犯罪活動にモデルが使われるのに国民や政府がうんざりするのも時間の問題だと思う。最終的には法律ができるだろうし、モデルは登録されて安全性テストを受けなきゃいけなくなる。そうしないと厳しい刑事訴追があるし、大手モデル会社はお気に入りの政治家を支援して、これが実現するようにするだろうね。一般的にはそれが役立つけど、自由に使えるわけじゃないよ。

まあ、問題の一部は、全く責任がないことだよね。何が「アラインメント」だと決めるのは誰で、それは時間とともにどう進化するの?結局、一般の人々はその議論の中で権限を失いつつあるよ。

「アラインメント」 商業的(または政府の)組織が私個人や自分のビジネスと正確にアラインされることを期待する世界はどこにあるんだろう?私は、その関係は必然的に対立的だと思っていて、他の誰かが自分の目標やニーズ、欲望に合わせて「AI」ツールをアラインさせることを信頼するのは、私の生計を完全に他の誰かの財布に再割り当てされるレシピだと思う。

商業的および政府の組織を特に挙げるのは面白いけど、個人には言及しないのはなぜ?その違いを定義するものは何?官僚主義?資源の集中?法理論?この考え方が(理論的に)なぜみんなに対する偏執病に変わらないのか、ちょっと不思議に思ってる。倫理や政治理論についてはあまり知らないけど。

同意が貴重なものとして扱われる世界では、こういうことは予想できるよね。

「私個人や自分のビジネスと正確に一致すること」って、ストローマンみたいに感じるな。誰もがそれを「アラインメント」について話すときに意味してるわけじゃないと思う。もっと一般的な目標、例えば「ペーパークリップ最大化」を避けることは、人類全体に当てはまるよ。

商業的な関係が「必然的に対立的」になるのはなぜ?商業的な関係は、製品がコスト(消費者にとって)よりも多くの便益を提供し、商業的な存在にとってコストよりも多くの収益を提供することに依存してるんだ。つまり、関係の一部はある分野で対立的かもしれないけど、完全に対立的になることはないってことだよ。

うーん、それは人間の本性についてかなり寛大な見方だね。皮肉なことに、記事の前提には同意するけど、「アラインメントはジョークだ」と思ってるわけじゃなくて、人間が「社会的行動を獲得する生物学的傾向がある」なんて疑ってるからなんだ。

人間の協力は例外じゃなくて、普通のことだよ。

感情や主張はさておき、新しいモデルを訓練する必要はないよ。どの最前線モデルも、3年前と同じように脱獄されやすいから。今は、CEOのメールを読んでるエージェントが3年前よりもずっと危険だってことだね。

エデンの園の話は、偽典的なおとぎ話だよ。でも、なんか関連性がある気がする。ジェフリー・ヒントンは、プロメテウスみたいに毎日肝臓をついばまれるわけじゃないからね。

本当にそう思う?いくつかの神話では、バジリスクは鳥のような特徴があるって聞いたことあるよ。

https://www.researchgate.net/publication/403780821_Adversari...

このシリーズの他の記事は、過去5日間で議論されてきたよ: 1. イントロダクション: https://news.ycombinator.com/item?id=47689648> (619コメント) 2. ダイナミクス: https://news.ycombinator.com/item?id=47693678> (0コメント) 3. 文化: https://news.ycombinator.com/item?id=47703528> 4. 情報生態学: https://news.ycombinator.com/item?id=47718502> (106コメント) 5. 煩わしさ: https://news.ycombinator.com/item?id=47730981> (171コメント) 6. 心理的危険: https://news.ycombinator.com/item?id=47747936> (0コメント) そしてこの投稿が作るのは: 7. 安全性: https://news.ycombinator.com/item?id=47754379> (現在89コメント)。こういうのが好きな人のために、包括的なPDF版もあるよ: https://aphyr.com/data/posts/411/the-future-of-everything-is...> (PDF) 26ページ。(aphyrのコメントから派生: https://news.ycombinator.com/item?id=47754834>.)

ここで2つの異なることを混同してる感じがするな。小さなグループ(家族やチーム)でのアラインメントと、大規模でのアラインメント。前者は自然に起こるけど、後者はほぼいつも構造やインセンティブ、強制が必要だよね。