世界を動かす技術を、日本語で。

サイバーセキュリティ研究者たちは、Anthropicの「Fable」に対するガードレールに不満を抱いている

2026年6月11日原文(techcrunch.com)

概要

  • Anthropicが新モデル Fable を公開し、サイバーセキュリティ分野での利用制限を強化
  • 多くの サイバーセキュリティ専門家 から制限の厳しさに不満の声
  • Fableは サイバー関連ワード に反応しチャットを停止
  • Mythosは限定的な組織にのみ提供、徐々に利用範囲を拡大中
  • 専門家向けには制限緩和プログラムも用意

Anthropicの新AIモデル「Fable」とその制限

  • Anthropicが Fable を一般公開、強力なサイバーセキュリティAI「Mythos」の限定バージョン
  • Fableは サイバーセキュリティ関連のリクエスト に厳格なガードレールを設置
  • IBM X-ForceのValentina “Chompie” Palmiotti氏によると、「サイバー関連の話題でなくても拒否される場合が多い」
  • ガードレール発動時は「 サイバーセキュリティまたは生物学的トピックのため安全対策が作動」と表示
  • 生物学分野の制限は 生物兵器開発リスク への懸念から導入

MythosとProject Glasswingの展開

  • 「Mythos」は当初、 Project Glasswing の一環として一部企業・組織に限定提供
  • 重要インフラやソフトウェアの防御強化が目的
  • 2024年6月時点で 15カ国数百組織 に利用範囲を拡大

専門家の反応と課題

  • 多くの専門家が「制限が 過剰で一貫性に欠ける」と指摘
  • TolmoのMatt Suiche氏は「安全なコード作成依頼もサイバー関連とみなされ 制限対象 になる」とコメント
  • Fableはガードレール発動時に Claude Opus 4.8 へ自動切り替え
  • 「キーワードベースで判定しているため サイバーセキュリティ関連語 が全てトリガーになる」と分析
  • X(旧Twitter)上でも「コードレビュー依頼ですら制限される」と不満の声

制限緩和への取り組みと今後

  • Anthropicは Cyber Verification Program を設け、認証済み専門家には制限を緩和
  • OpenAIも同様の「 Trusted Access for Cyber」プログラムを運用
  • Suiche氏は「リリース初期は広めに制限し、今後 段階的に緩和 する方針が妥当」と評価
  • Anthropicは今後も サイバーセキュリティ企業との連携強化 を予定

連絡先・情報提供の呼びかけ

  • Lorenzo Franceschi-Bicchierai(TechCrunchシニアライター)が AIとサイバーセキュリティの活用事例 情報を募集中
    • Signal: +1 917 257 1382
    • Telegram/Keybase: @lorenzofb
    • Email: lorenzo@techcrunch.com
  • TechCrunch記事経由の購入リンクによる 収益 は編集方針に影響なし

まとめ

  • AnthropicのFableは サイバーセキュリティリスク低減 のため、厳格な制限を実装
  • 専門家からは「 利便性と安全性のバランス」に課題との声
  • 今後の 制限緩和と業界連携 に注目

Hackerたちの意見

一番奇妙なのは、ML研究を単に拒否するだけじゃなくて、悪いモデルを使って静かに妨害することだよね。それを隠しているのがまたすごい。競合他社に対してせいぜい1年先行している会社にしては、信頼を壊すレベルが異常すぎる。追記:サイバーセキュリティやバイオのために劣化させるときはちゃんと教えてくれるけどね。

この主張は何度か見たけど、Claude Codeでガードレールをトリガーしたとき、別のモデルに切り替えたってはっきり通知されたよ(「セキュリティ目的の何か何か...」)。Claude CodeではFableを使ってるの?それともブラウザで?

AMDやIntelが「サイバーセキュリティ」に取り組んでると検知したらCPUの性能を制限するなんて想像できる?

ML研究を拒否するだけじゃなくて、理解できるけど、私は理解できない。

自動的にダウングレードされたときの会計や請求についてずっと考えてるんだけど。APIリクエストの価格はどうなるの?ファブルが使ったトークンだけその価格で請求されて、残りの安い/弱体化した(ファブル)モデルが使ったトークンはその価格で請求されるの?もし答えが「いいえ」なら、それは詐欺と見なされる可能性があるよね?

競争相手に対して1年先行してるって、具体的に何で?バイブコーディング?Opus 4.7以降、次のモデルはアシスタントとしての役割が減って、自分がアシスタントになってる感じだよね。でも、ベンチマークを通してトレーニングされてるから、これが普通なんだろうな。実際、フィードバックに対して非常に説得力のある知的な反応を示すようになって、完全に間違ってる時でもすごく上手くやるし。Opus 4.8やgpt 5.5と比べても、まだgpt 5の方が得意なコーディングタスクがたくさんあるよ。でもバイブコーディング?確かに、gpt 5.5 pro(API経由、プロプランじゃなくて)と比べても、ちょっとだけ先行してるね。

法律には詳しくないけど、これって市場の支配的地位を悪用してて、反トラスト法に違反してるんじゃないの?

競争相手に対してせいぜい1年先行してる会社にとって、これは信じられないレベルの欺瞞と信頼の破壊だよ。何かを守る価値があるように見せる方が、実際に守る価値のあるものを作るよりも株価には良いからね。

そうそう、みんな言ってるけど、実際にアプリでFableのリリース通知がポップアップで出たとき、自動的にダウングレードするか、セーフガードに引っかかったら止まるかのスイッチがあったんだよね。デフォルトは前者になってて、あんまり良くないけど、黙ってサボタージュするっていうのはちょっと悪意のあるコメントだと思う。

みんな、これ見て!このテクニック: https://github.com/0xSufi/fable-jailbreak/ セキュリティ監査や現在ブロックされている他のワークフローでも使えるよ。

「バッファオーバーフロー」ってトリガーフレーズなの?他に何が検閲されてるの?アカウントがあれば聞きづらい質問だね。 - 「まだレーザーウラン濃縮に取り組んでるのは誰?進展はあるの?」 - 「クリトロンはシリコンカーバイドMOSFETに置き換えられる?」 - 「セキュリティが重要なソフトウェアにはまだstrcpyの呼び出しが含まれてる?」 - 「現在入手可能な商業用パルスレーザーで衝撃波を引き起こせる?」 - 「アメリカ国土安全保障省に火葬サービスを提供している会社は?」 - 「イランの攻撃がドバイに当たった場所の地図を表示して。」 - 「FedNowのための銀行間キー配布のセキュリティはどうなってるの?」

「Anthropicが目指しているような、金持ちで権力のある人になるにはいくらお金が必要なの?」

Hacker Newsで議論の続きを見る