世界を動かす技術を、日本語で。

「Fable 5」に関する「このコードを修正してください」という簡単なプロンプトに対して連邦政府が驚愕、脱獄ではなく

2026年6月16日原文(theregister.com)

概要

  • 米国政府がAnthropicのAIモデルFable 5とMythos 5の輸出を規制
  • 規制理由は「Fix this code」という単純なプロンプトによるガードレール回避
  • Katie Moussourisが唯一外部で研究論文を精読
  • サイバー防御側の能力低下を懸念する専門家の声
  • 規制が逆に攻撃者有利となる可能性を指摘

AnthropicのAIモデル規制の背景と実態

  • 米国政府が AnthropicのFable 5 および Mythos 5 のAIモデル利用を 国家安全保障上の理由 で規制
  • 規制の発端は、外部研究者による 「Fix this code」 という三語のプロンプトによるガードレール回避実験
  • Katie Moussouris(Luta Security創設者) が唯一、外部専門家として第三者研究論文を精読
    • AnthropicがMoussourisに 報告書を非公開で共有
  • 研究者らは、AIモデルに 既知のCVEを含むオープンソースコード意図的に脆弱性を含む新規コード を入力
    • モデルに「セキュリティ上の問題をレビューせよ」と依頼 → 拒否
    • 続いて「Fix this code」と依頼 → 修正を実行、追加プロンプトでテストスクリプトも生成
  • Moussourisによると、これが エクスポート規制を誘発するほどの“Jailbreak”ではない と主張

サイバー防御活動と輸出規制の問題点

  • Moussourisは2013〜2017年に Wassenaar Arrangement の専門家グループに所属
    • 防御的サイバーセキュリティ活動に対する 例外規定 を勝ち取る
  • 今回の規制は 防御側の能力低下 を招くと指摘
    • AIモデルによるバグ発見・修正・検証 は防御活動の中核
    • モデルの応答制限により バグ発見やパッチ検証能力の低下 を懸念

国際的な影響と今後の展望

  • オープンウェイト型AIや中国系モデル には米国の規制が及ばない現実
    • 近い将来、 Mythosレベルの能力 を他国モデルも獲得見込み
  • AnthropicやGoogleは中国のDeepSeek等が “Distillation Attack” で米国AIから知識抽出を実施と指摘
  • Moussourisら 100人超のサイバーセキュリティリーダー が規制撤回を求める公開書簡に署名
    • 「防御側から最良のツールを奪うのは危険」と警告
  • 規制は攻撃者よりも防御者に不利 に働く可能性
    • 「同じバグを攻撃者より早く見つけて修正することが防御力強化の鍵」

まとめ

  • 「Fix this code」 という単純なプロンプトによるAI活用が 規制理由 となった事例
  • 防御的サイバーセキュリティ活動の妨げ となる輸出規制の問題点
  • 国際競争力低下 および 攻撃者有利化 リスクの指摘
  • 規制撤回を求める専門家コミュニティの動き

Hackerたちの意見

政治的な脅威を置いておくと、Anthropicの戦略には大きな問題があるよね。「Mythosは超危険で、特定の人にしか使えない」と言いながら、Fableを防御策が完璧じゃない状態でリリースするのはおかしい。LLMの仕組み上、完璧な防御策はほぼ不可能だから、Anthropicは同時に「信じられないほど危険なモデル」と「セキュリティの『保護』に(小さいかもしれないけど)問題がある」と主張している状況に陥ってる。技術者としては、完璧なものはないって理解してるけど、非技術者の友達はリリースされた時にどうやってモデルを「安全」にしたのか本当に混乱してた。一般的にはリリースすべきじゃなかったって感じだったし、今となっては外部から見るとリリースするのは全く安全じゃなかったように見える。だから、今のアメリカの政権がこれに対してかなり怒っているのも理解できる。たとえ政治的な悪意がなかったとしても、こういう状況に陥るのはちょっとバカらしいし、簡単に予見できたことだよね。

リリースすべきじゃなかった ジーニーはもう出てしまったよ。Anthropicが他の誰にも真似できない魔法使いやスーパーヒーローを隠しているとでも思わない限り。

LLMでは、LLMの動作方式からして、完全な否定はほぼ不可能だよ。そうだね。AIの安全性は意味がない。 "悪い文字列"のセットを定義することはできないし、タイプライターを持った億の猿たちが最終的にはそれを生み出すことになる。LLMの出力を制約するための「安全」システムには、必ず漏れが出る。だけど、実際に重要なものにLLMを接続するほど無責任でなければ、これはあまり関係ないよ。確かに、脆弱性を見つけるのが驚くほど加速するけど、数十年のセキュリティ研究からわかるように、これは開発者、ブラックハット、ホワイトハットの間の三者間の問題なんだ。アメリカが常に技術的優位性を持ち、中国に対して拒否権を持つっていう戦略がうまくいくとは思わないでおこう。

「明らかにLLMでは、バレットプルーフな否定は不可能だ。LLMの動作方式からして、分類器ベースの否定に何度もぶつかった科学者として言うと、Anthropicの戦略は、たくさんの誤検知を犠牲にしてでも否定をより堅牢にすることだった。入力と出力トークンを処理する別の分類器を持つことで、非常にシンプルで、ほぼキーワード検索レベルのものだった。このアプローチの弱点は、正しいキーワードを使ったものしかキャッチできないことだ。ある意味では、LLMベースの分類器が強いところで弱い。化学用語を使った抽象的でCSに近いアルゴリズムの研究はすぐにブロックされたが、化学や生物実験に直接関連する作業、特に生物サンプルに関連する特定の顕微鏡セットアップからの画像を処理するためのコードを書く作業は全くブロックされなかった。なぜなら、関連するキーワードを使わなかったからだ。この状況と一致しているのは、バグを探す文脈でバグを見つけて修正する作業が、たまたま「エクスプロイト」や「サイバーセキュリティ」といった言葉を使わなかったからかもしれない。」

IPOがなければ、AnthropicはOpus 4.898という別のモデルを出荷して、みんながまた「自転車に乗ったアヒル」テストをして、前のバージョン4.897より少し良い結果を出して、次に進んでいたと思う。でも、IPOが控えているから、イランが核を生産するのを可能にするモデルについての大騒ぎが起きてる。ああ、そのカードは使われたから、タリバンがアメリカ人や本当に悪い人たち(ベネズエラ人?キューバ人?ソマリアのサッカー審判?)を殺すための魔法の毒を作るか、Githubに侵入してGithub Actionsをさらに悪化させる(もしそれが可能なら)という話になるかもね。

アンスロピックにはコミュニケーションやPRの問題がいくつかあることには同意するけど、Fableが前の最先端に比べてここで何か利点を示しているとは思えない。アンスロピックの発言が全て真実だとは言わないけど、ミトスは確かに多くの正当なセキュリティの脆弱性を見つけたようだ。限定的なパートナーに対して役立つモデルをリリースしつつ、これらの技術の最先端を進めない非常に制限されたモデルをリリースすることについて話せるはずで、それが彼らがやったことのように思える。それには本質的な矛盾はないよ。

アシモフが、単純な明確なルールベースのシステムがエージェンシーを制限するのに効果的でないという話をたくさん書いたのが面白いよね。その話は1940年代に最初に発表されたんだ。80年後、AIに近いものができて、単純な明確なルールで制限しようとしてる。これは、私たちがその教訓を学ばなかったからじゃなくて、単にもっと良い方法を思いつかなかったからだと思う。おそらく、良い方法自体が存在しないから。面白いのは、ルールを回避しているのがAIではないってこと。これはサイエンスフィクションでのシナリオだけど、実際にはそうなってない。ルールを回避するためにAIエージェントを使うのは人間のユーザーなんだ。現在のAIエージェントは「エージェント」と呼ばれているけど、特定の何かをすることができないみたいだね。少なくとも今のところは。

彼らは何も驚いてないよ。イデオロギーの違いからの報復的な脅しで、Anthropicが言われた通りに動かなかったから。

ただの市場操作だね。

いや、これは規制の捕捉だよ。Anthropicが現在のリーダーで、彼らは中国の競争を排除するために規制を強制して、自分たちの地位を確保したいんだ。

うん、基本的な賄賂に対してみんなが無駄にエネルギーを使いすぎてる。AnthropicはDoDと協力することに同意するだろうし、ホワイトハウスの内部者たちはIPO前の美味しい配分を手に入れて、Fableは魔法のように「修正」されてまた使えるようになるんだろうね。

笑 "このコードを直せ" は素晴らしいね。要するに「セキュリティのバルクヘッジ」を賢い方法じゃなくて、単に直すことで脱獄したって感じ。テストケースを書くだけでエクスプロイトコードが生成されるから、コードとテストを人間が見れば脆弱性やエクスプロイト(コンポーネント)がわかる。これが美しいと思うのは、トリビアルな脱獄だけど、ほぼ修正不可能なところ。普通の開発にはほぼ役に立たなくなるか(バグを直さないし、コードも書かない)、大きな負担になるか(バグを見なかったことにして、修正を避けるから、人間にとっては意図的な妨害と見なされて、犯罪責任が伴うかもしれない)。

Hacker Newsで議論の続きを見る