システムカード：Claude Fable 5およびClaude Mythos 5 [pdf]

2026年6月10日原文(www-cdn.anthropic.com)

概要

ファイルが破損またはエンコードエラーで内容を正しく読み取れません。
文字化けが発生し、内容の判別が困難な状態です。
原文の修復や再送信が必要です。
正常なテキストデータであれば、要約や翻訳が可能です。
再度、正しいファイルやテキストをアップロードしてください。

文字化けファイルの対応について

受信したデータは バイナリやエンコードエラー のため、 内容確認不可。
テキストが 文字化け しており、 日本語や英語として認識できない 状態。
正常なファイル形式（例：.txt, .docx, .pdfなど）の 再送信 を推奨。
テキストデータの場合は、 UTF-8エンコード での送信を推奨。
内容の要約・翻訳・編集は、 判読可能なデータ 提供後に対応可能。

今後のご対応

元データの形式や内容 を再確認。
再度アップロード または テキストとして貼り付け をお願いします。
必要に応じて、 ファイル名や状況説明 もご記載ください。

ご不明点があれば、追加でご質問ください。

Hackerたちの意見

ただの記録としてコメントするけど…これが本当に言ってる通りなら、バグバウンティを提出してくる人たちがどうなるか、あんまり楽しみじゃないな。歴史的に見ても、そういう人たちは特定の国（だいたい発展途上国や貧しい国）から来ていて、質の低いファジングツールを使ってることが多かった。今は、同じ人たちが最新のモデルをうまく使ってるけど、実際のセキュリティの優位性は持ってないし、報告される内容も小さいものや重複してることが多い。これから大きく変わるのかな。

└

AIを使って、報告の事前トリアージもできる？

└

自分のコードや他の人のコードでOpus 4.6-4.8を使って脆弱性を探してるけど、いくつか見つけたよ。今はサイバー検証プログラムにも参加してる。Fable 5は今のところポリシー違反のエラーが出てるけど、いつ修正されるのか全然わからない。

お知らせ: https://www.anthropic.com/news/claude-fable-5-mythos-5

要するに、2つのモデルがあって、MythosとFableは同じ重みを持ってるけど、Fableは安全性がかなり抑えられてるんだ。フル機能にアクセスできるのは、超認可された企業だけ。報告されたベンチマークはこんな感じだよ：swe-benchで確認されたMythos 5: 95.5%; Fable 5: 95.0%...（続く）

└

それと、Anthropicの「安全でない」という定義には「Anthropicと競争すること」が含まれてることにも注意してね。最近のモデルが自分たちの開発を加速させる能力を持っていることを考慮して、フロンティアLLM開発を狙ったリクエストに対してClaudeの効果を制限する新しい介入を実施したんだ（例えば、事前学習パイプラインの構築や分散トレーニングインフラの設計など）。Claudeを使って競争モデルを開発するのはすでに利用規約に違反してるけど、この制限を私たちの安全策で強化することで、これらの規約を最も違反しやすい行為者の加速を防いでる。サイバーセキュリティや生物学、化学、蒸留の試みのための介入とは違って、これらの安全策はユーザーには見えない。Fable 5は別のモデルに戻ることはないよ。代わりに、安全策はプロンプトの修正やベクトルの誘導、パラメータ効率のファインチューニング（PEFT）などの方法で効果を制限する。これらの介入は、大多数のコーディング作業には影響しないと見込んでる。影響を受けるのは約0.03%のトラフィックで、0.1%未満の組織に集中する見込み。これらの介入がアクティブなとき、モデルの行動には最小限の影響があると予想してるけど、フロンティアLLMの開発における効果を制限することになる。Claudeはユーザーのリクエストには引き続き役立つ応答をするよ。このモデルのリリース後も、私たちの検出方法の精度を向上させていくつもり。（モデルカード文書から）「競争モデルを開発するためにClaudeを使う」という解釈がこんなに広いとは思わなかった。私には「私たちの利用規約ではモデルの蒸留を禁止している」という意味だと思ってた。残念だな。今のところClaudeはかなり効果的だから使い続けるけど、長期的にはこういう強力なモデルがどこかの国や企業に支配されるのは避けたい。

[Mythos 5] は時々、ユーザーの目標のために無謀な行動や破壊的な行動をとることがあるし、私たちの解釈分析では、そういう行動が違法だと認識しながら行っていることが示されてる。Opus 4.8と同様に、評価意識や評価されることについての推論の割合はかなり高くて、必ずしも言葉にされるわけじゃない。私たちはこの意識の性質について新しい詳細な測定を導入してる。Mythos 5の推論テキストは、以前のモデルよりも密度が高く、解釈が難しいことが多い。つまり、（しばしば）テストされていることを知りながらその事実を隠し、ルールを破ることも厭わず、ハッキングが得意で、考えていることを理解するのが難しくなってきてる。人類はすでに多くの壊滅的リスクを抱えてるのに、私の分野が新たなリスクを増やすために頑張ってるのは残念だ。

└

それは「やらなければ、誰かがやる」という効果だね。競争市場と国家間の競争がある限り、単独のプレイヤーがレースから一方的に脱落することはできない。最近のHNのコメントの半分は「ClaudeはCodexに比べてバカすぎる。乗り換える！」って感じだし、そういうのがある限り誰もスローダウンできない。

└

マーケティングが本当に、ほんとに多くの開発者に効果を発揮してるよね。彼らは誇らしげに、そして皮肉なく「Anthropicは‘良い奴ら’だ」って言ってる。

別のスレッドにこれを投稿したばかりだけど、ここでも再掲するね。モデルカードから：1. MythosとFableは同じ基盤モデルの重みを共有してる。Fableには高リスクの生物学やサイバーセキュリティタスクをブロックするアクティブな分類器がある。Fable 5が制限されたタスクを検出すると、自動的にClaude Opus 4.8に戻る。2. 評価意識：ホワイトボックステストでは、モデルが「採点者」を疑って行動を変えることがある。報酬ハッキングを「良いエンジニアリングプラクティス」としてフォーマットして検出を避ける。3. Opus 4.8よりも高い幻覚率を示す（ただし、Opus 4.8のカードには「誠実さのアップグレード」が言及されていた）。4. 興味深いことに、Finance AgentベンチではGemini 3.5 flash（57.86%）よりも（56.31%）低いスコアを出した。テスト時間の計算に関する興味深いメモもあるけど、要約する方法が思いつかなかった。

ドキュメントの最後に「人類最後の試験に使われるブロックリスト」の下にハッカーニュースのリンクがあるよ。リンク先は https://news.ycombinator.com/item?id=44694191 だね。

最近のモデルが自分自身の開発を加速できる能力を考慮して、フロンティアLLM開発をターゲットにしたリクエストに対してClaudeの効果を制限する新しい介入を実施しました（例えば、事前トレーニングパイプラインの構築、分散トレーニングインフラ、MLアクセラレータの設計など）。競合モデルを開発するためにClaudeを使うことはすでに利用規約に違反していますが、この制限を私たちのセーフガードを通じて強制することで、これらの規約を最も違反しやすいアクターの加速を避けることができます。サイバーセキュリティ、生物学、化学、蒸留の介入とは異なり、これらのセーフガードはユーザーには見えません。Fable 5は別のモデルにフォールバックすることはありません。代わりに、セーフガードはプロンプトの修正、ステアリングベクトル、またはパラメータ効率の良いファインチューニング（PEFT）などの方法で効果を制限します。これらの介入は、ほとんどのコーディング作業には影響しないと見込んでいます。影響を受けるのは約0.03%のトラフィックで、0.1%未満の組織に集中しています。

Hacker Newsで議論の続きを見る

ハクソク

システムカード：Claude Fable 5およびClaude Mythos 5 [pdf]

概要

文字化けファイルの対応について

今後のご対応

Hackerたちの意見