未来は嘘だらけだと思う:安全ソフトウェアのLLM 未来は嘘だらけだと思う 2026-04-13 新しい機械学習システムは、私たちの心理的・身体的安全を脅かしてる。ML企業が「AI」が人間の利益に沿うようにするって考えは甘すぎる。「フレンドリー」なモデルの生成を許可することで、「悪い」モデルの生成も必然的に可能になってしまった。たとえ「フレンドリー」なLLMでも、セキュリティの悪夢だよ。「致命的なトライフェクタ」は実際にはユニフェクタで、LLMに物事をめちゃくちゃにする力を安全に与えることはできない。LLMは悪意のある攻撃者にとってコストバランスを変えて、新たなスケールの洗練されたターゲット型セキュリティ攻撃、詐欺、嫌がらせを可能にする。モデルは人間にとって耐え難いテキストや画像を生成できるから、モデレーターにはさらに負担がかかるだろう。半自律型兵器はすでに存在していて、その能力はどんどん拡大していく。 アラインメントはジョークだよ 良かれと思って人々はLLMが人間にフレンドリーになるように頑張ってるけど、うまくいくとは思えない。まず、MLモデルは巨大な線形代数の山だ。人間の脳は生物学的に親社会的行動を獲得するようにできてるけど、数学やハードウェアにはモデルが優しいことを保証するものは何もない。アラインメントは完全にコーパスとトレーニングプロセスの産物だ。OpenAIには、LLMと話をして、彼らの言うことを評価し、優しくするために重みを調整する人たちが大勢いる。彼らはまた、コアLLMが人にパイプ爆弾の作り方を教えないか二重チェックするためのセカンダリLLMも作ってる。これらはどちらもオプションで高コストだ。アラインメントされていないモデルを得るためには、良心のない組織がトレーニングしてその作業をしないか、あるいはうまくやらないだけで済む。これが起こるのを防ぐための四つの障壁があると思う。まず、トレーニングと推論のハードウェアがアクセスしづらいかもしれない。これは明らかに長続きしない。テック業界全体がMLハードウェアを生産する準備をしていて、データセンターを驚異的なスピードで建設している。Microsoft、Oracle、Amazonは、誰にでもトレーニングクラスターを貸し出そうと躍起になっていて、スケールメリットが急速にコストを下げている。次に、トレーニングと推論プロセスに使われる数学やソフトウェアが秘密にされる可能性がある。数学はすべて公開されているから、それでは誰も止められない。ソフトウェアは一般的に秘密の調味料だけど、長くは続かないと思う。フロンティアラボで働いている人たちがたくさんいて、その人たちは他の仕事に移っていくから、彼らの専門知識は徐々に一般的な知識になるだろう。国家の行為者がOpenAIなどからデータを抜き取ろうとしていないとは思えない。サウジアラビアがTwitterにしたように、あるいは中国が過去20年間にアメリカのテック業界のかなりの部分に対してやってきたように。三つ目は、トレーニングコーパスを取得するのが難しいかもしれない。この猫は袋の中を見たことがない。Metaは、海賊版の本をトレントでダウンロードしたり、インターネットをスクレイピングしてLLMをトレーニングした。これらはどちらも簡単にできることだ。ウェブスクレイピングをサービスとして提供する会社もたくさんあるし、広範な住宅プロキシの配列にリクエストを分散させて、特定してブロックするのを難しくしている。四つ目は、強化学習プロセス中にLLMの応答を評価する小さな契約者の軍団がいる。冗談で言われるように、「AI」はアフリカの知性を意味する。これを自分でやるにはお金がかかるけど、他の人の仕事を利用して、自分のモデルを別のモデルの出力でトレーニングすることも可能だ。OpenAIはDeepseekがまさにそれをやったと考えている。要するに、ML業界は、十分なお金を持っている人なら誰でもアラインされていないモデルをトレーニングできる条件を作り出している。悪意のあるAIに対するハードルを上げるのではなく、ML企業はそれを下げてしまった。さらに悪いことに、現在のアラインメントの取り組みはあまりうまくいっていないようだ。LLMは複雑でカオスなシステムで、私たちはそれがどう機能するのか、どうやって安全にするのかを本当に理解していない。何年もお金と超賢いエンジニアを問題に投じたにもかかわらず、アラインされたはずのLLMが子供にセクストしてしまったり、破壊攻撃がモデルに暴力の画像を生成させたり、誰でも「検閲なし」のモデルをダウンロードできたりする。もちろん、アラインメントは多くの恐ろしいことが起こるのを防いでいるけど、モデルは何度も実行されるから、セーフガードが失敗するチャンスはたくさんある。99%のヘイトスピーチを防ぐアラインメントでも、まだたくさんのヘイトスピーチが生成される。LLMは生物兵器を作るための使える指示を一度だけ出せばいい。私たちは、作られた「フレンドリー」なモデルには、数年後に同じくらい強力な「悪い」バージョンが存在するだろうと考えるべきだ。悪いバージョンが存在しないようにしたいなら、フレンドリーなモデルを作るべきじゃない!アメリカ経済のかなりの部分を悪いモデルをトレーニングしやすくする方向に向けるべきじゃないよ。