世界を動かす技術を、日本語で。

アンソロピックが見えない「クロード・ファブル」ガードレールについて謝罪

2026年6月11日原文(theverge.com)

概要

AnthropicはAIモデルClaude Fable 5の隠れた制限について謝罪。 今後は制限発動時に透明性を高める方針へ転換。 高リスク分野のクエリは旧モデルClaude Opus 4.8へ切り替え。 研究者や競合他社への影響と批判が背景。 可視化されたセーフガード導入の理由と今後の対応。

Anthropic、Claude Fable 5の隠れた制限に謝罪と方針転換

  • Anthropic社 による新AIモデル Claude Fable 5 の隠れたガードレール実装問題
  • 研究者や競合による 競合システム開発 への利用を抑制する目的
  • 利用者に通知せず、 回答の改変・劣化 を実施していた事実
  • 高リスクなクエリ (生物学、化学、サイバーセキュリティ等)に対する厳格な制限
  • 制限発動時、 Claude Opus 4.8 への自動切替運用へ変更
  • ユーザーに対し、 制限が発動した旨を明示的に通知 する新方針
  • 旧来の「見えないガードレール」は誤った選択との認識
  • 可視化されたセーフガード の必要性と、その導入理由の説明

制限対象とその運用

  • Distillation (大規模モデル出力を用いた小規模モデル訓練)のクエリ抑止
    • 競合モデル開発者による Fableの知識抽出防止 が目的
    • Distillation疑いのクエリは Opus 4.8 に切り替え、毎回ユーザーへ通知
  • 高リスク分野 のクエリ
    • 生物学、化学、サイバーセキュリティ分野での厳格なルール
      • 一部は 完全ブロック、一部はOpus 4.8への切り替え
    • 生物学分野では、 基本的な質問すら利用困難 なレベルにまで制限

透明性強化の背景と理由

  • AI研究コミュニティ からの強い批判
    • 隠れた制限が 第三者評価や研究 にも悪影響
    • Anthropicによる 競合他社(例:DeepSeek)による大規模distillation への警戒
  • Terms of Service 違反行為への対応強化
    • Claudeを用いた 競合モデル開発の禁止 を明記
  • 可視化されたセーフガード 導入の理由
    • 可視化により セーフガードの堅牢化 が必要となるが、信頼性向上を優先
    • 見えないセーフガード」は迅速実装と誤検知低減を優先したが、 透明性不足 が問題に

今後の方針

  • セーフガードの可視化と通知 を徹底
  • ユーザー・研究者への 説明責任 強化
  • バランスの取れた安全性と透明性 の追求

Hackerたちの意見

クロードコードが大好きなんだけど、システムがリアルタイムでプロンプトを修正して元の意図を覆すようなレスポンスを返すためのガードレールを設けるのは、危険な前例を作ると思うんだ。クリーンに失敗するべきだよ。それ以外は信頼しづらくなる。追記:最大限の好意的解釈をしても、彼らは「管理者」として自分たちを見ているんだろうけど、EAの考えが透けて見えるし、父権主義はあまり良い印象じゃないよね。

100%同意だよ。もっと悪い仕事をするのはエラーだ。そう扱うべきだし、少なくともその行動はオプトインにすべきだよ。デフォルトが何もなかったかのように振る舞って、静かに悪い仕事をするのはダメだよ。もし医療提供者が時々あなたの検査結果をちゃんと読まないことにしたら、死の危険があるって想像してみて。今、医療提供者がクレードを使っていることを考えると、そのシナリオは単なる仮定じゃないんだ。

この文脈での「EA」って何? これを使ってる人がたくさんいるけど。

アンスロピックが目指している合理的な中間点は、重要でクリティカルなソフトウェアを作っている組織にサイバーセキュリティで先行させることだと思う。そうすれば、他の誰もが同じアクセスを許可する前に、先に進めるから。他のコメントでも、これらのガードレールが善意のサイバーセキュリティには逆効果だって指摘されてるけど、自分のソフトウェアをテストして強化するために使えないからね。

クリーンに失敗するべきだ。これは、単位のないパーセンテージバーとして有料使用制限を設け、アルゴリズムがそのパーセンテージバーを変更するたびに顧客をガスライティングする同じ業界だ。既存のモデルをロボトミーして、ハードウェアからもう少しお金を絞り出すために量子化を増やすこともある。「クリーンに失敗する」ことは、彼らのモーテッドなハイプマシンをIPO前に悪く見せるかもしれないから、当然自発的にはやらないだろうね。

パターナリズムは良い印象じゃないね。孤立しているとそうだけど、彼らが何から守ろうとしているのかを話さないのはちょっと怠慢だと思う。私たちは絶対的な疑いの余地を与えているはずなのに。「彼らの懸念は本物じゃなかった」と結論づけているの?それは彼らが観察してきたことや結論に反するんじゃないかな。

問題は、AnthropicがAGIや神のような存在から期待されるワークフローを作り上げようとしていることだ。ワークフローはこうだ;ユーザーが何かを頼む。良いことなら、その存在がそれをやる。ナイーブに悪いアイデアなら、その存在が「それはやめた方がいいよ」と説明する。実際に悪意のあるリクエストなら、その存在が比喩的に指を振ったり、ユーザーを罰したりする。問題は、その流れが望ましくないってこと。もしその存在が完全に神のようじゃなかったら、悪い結果になることもある。

プロンプトを修正してたの?俺はただリクエストを4.8に落としただけだと思ってたんだけど。

それって、部分的に自分が書いたプロンプトを実行するためにお金を払ってるってことだよね。

もし最大限の好意的解釈をするなら、彼らは「管理者」として自分たちを見ているんだろうけど、言ってみればスタンダードオイルが石油の管理者だと考えていたのと同じことだよね。好意的解釈とファンフィクションは別物だから。彼らの最も攻撃的な「ガードレール」は、安全のためじゃなくて、他の研究所が自分たちの製品に追いつくのを阻止するためにあるってことを忘れないで。バイオ兵器やマルウェア、ヘイトスピーチを抑えることよりも、自由市場の競争を妨げることの方が大事みたいだね。

関連情報。他にも? アンスロピックが研究者の利用を「妨害」する可能性のあるポリシーを撤回 - https://news.ycombinator.com/item?id=48485958 - 2026年6月(コメント数:30) サイバーセキュリティ研究者たちはアンスロピックのフェイブルのガードレールに不満を持っている - https://news.ycombinator.com/item?id=48478969 - 2026年6月(コメント数:488) クロードフェイブルが助けてくれなくなったら、あなたは決してわからない - https://news.ycombinator.com/item?id=48467896 - 2026年6月(コメント数:495) --- これも関連してるかな? AWSベッドロックがミトスや今後のモデルのためにアンスロピックとデータ共有を要求 - https://news.ycombinator.com/item?id=48473166 - 2026年6月(コメント数:248) アンスロピックはフェイブルとミトスのために30日間のデータ保持を要求 - https://news.ycombinator.com/item?id=48464258 - 2026年6月(コメント数:291)

最初の時にこれをやらなかったのが意外だよ。ユーザーがパスワードを忘れたと言ったら、アカウントがないって言うのは情報漏洩の脆弱性だよね。オーパスに自動的にフォールバックしないことで、「攻撃者」がガードレールにぶつかっていることを知り、別の戦略を試す必要があるってことになる。アンスロピックの製品だから、彼らが何をしてもいいけど、心配なのは、フェイブルのプロダクトチームがトラフィックの25%をオーパスにルーティングして、フェイブルとして請求してKPIを最大化することを決めたらどうなるかってこと。なんかそれは気持ちが悪い。

Hacker Newsで議論の続きを見る