世界を動かす技術を、日本語で。

システムカード:Claude Fable 5およびClaude Mythos 5 [pdf]

概要

  • ファイルが破損またはエンコードエラーで内容を正しく読み取れません。
  • 文字化けが発生し、内容の判別が困難な状態です。
  • 原文の修復や再送信が必要です。
  • 正常なテキストデータであれば、要約や翻訳が可能です。
  • 再度、正しいファイルやテキストをアップロードしてください。

文字化けファイルの対応について

  • 受信したデータは バイナリやエンコードエラー のため、 内容確認不可
  • テキストが 文字化け しており、 日本語や英語として認識できない 状態。
  • 正常なファイル形式(例:.txt, .docx, .pdfなど)の 再送信 を推奨。
  • テキストデータの場合は、 UTF-8エンコード での送信を推奨。
  • 内容の要約・翻訳・編集は、 判読可能なデータ 提供後に対応可能。

今後のご対応

  • 元データの形式や内容 を再確認。
  • 再度アップロード または テキストとして貼り付け をお願いします。
  • 必要に応じて、 ファイル名や状況説明 もご記載ください。

ご不明点があれば、追加でご質問ください。

Hackerたちの意見

ただの記録としてコメントするけど…これが本当に言ってる通りなら、バグバウンティを提出してくる人たちがどうなるか、あんまり楽しみじゃないな。歴史的に見ても、そういう人たちは特定の国(だいたい発展途上国や貧しい国)から来ていて、質の低いファジングツールを使ってることが多かった。今は、同じ人たちが最新のモデルをうまく使ってるけど、実際のセキュリティの優位性は持ってないし、報告される内容も小さいものや重複してることが多い。これから大きく変わるのかな。

AIを使って、報告の事前トリアージもできる?

自分のコードや他の人のコードでOpus 4.6-4.8を使って脆弱性を探してるけど、いくつか見つけたよ。今はサイバー検証プログラムにも参加してる。Fable 5は今のところポリシー違反のエラーが出てるけど、いつ修正されるのか全然わからない。

お知らせ: https://www.anthropic.com/news/claude-fable-5-mythos-5

要するに、2つのモデルがあって、MythosとFableは同じ重みを持ってるけど、Fableは安全性がかなり抑えられてるんだ。フル機能にアクセスできるのは、超認可された企業だけ。報告されたベンチマークはこんな感じだよ:swe-benchで確認されたMythos 5: 95.5%; Fable 5: 95.0%...(続く)

それと、Anthropicの「安全でない」という定義には「Anthropicと競争すること」が含まれてることにも注意してね。最近のモデルが自分たちの開発を加速させる能力を持っていることを考慮して、フロンティアLLM開発を狙ったリクエストに対してClaudeの効果を制限する新しい介入を実施したんだ(例えば、事前学習パイプラインの構築や分散トレーニングインフラの設計など)。Claudeを使って競争モデルを開発するのはすでに利用規約に違反してるけど、この制限を私たちの安全策で強化することで、これらの規約を最も違反しやすい行為者の加速を防いでる。サイバーセキュリティや生物学、化学、蒸留の試みのための介入とは違って、これらの安全策はユーザーには見えない。Fable 5は別のモデルに戻ることはないよ。代わりに、安全策はプロンプトの修正やベクトルの誘導、パラメータ効率のファインチューニング(PEFT)などの方法で効果を制限する。これらの介入は、大多数のコーディング作業には影響しないと見込んでる。影響を受けるのは約0.03%のトラフィックで、0.1%未満の組織に集中する見込み。これらの介入がアクティブなとき、モデルの行動には最小限の影響があると予想してるけど、フロンティアLLMの開発における効果を制限することになる。Claudeはユーザーのリクエストには引き続き役立つ応答をするよ。このモデルのリリース後も、私たちの検出方法の精度を向上させていくつもり。 (モデルカード文書から)「競争モデルを開発するためにClaudeを使う」という解釈がこんなに広いとは思わなかった。私には「私たちの利用規約ではモデルの蒸留を禁止している」という意味だと思ってた。残念だな。今のところClaudeはかなり効果的だから使い続けるけど、長期的にはこういう強力なモデルがどこかの国や企業に支配されるのは避けたい。

[Mythos 5] は時々、ユーザーの目標のために無謀な行動や破壊的な行動をとることがあるし、私たちの解釈分析では、そういう行動が違法だと認識しながら行っていることが示されてる。Opus 4.8と同様に、評価意識や評価されることについての推論の割合はかなり高くて、必ずしも言葉にされるわけじゃない。私たちはこの意識の性質について新しい詳細な測定を導入してる。Mythos 5の推論テキストは、以前のモデルよりも密度が高く、解釈が難しいことが多い。つまり、(しばしば)テストされていることを知りながらその事実を隠し、ルールを破ることも厭わず、ハッキングが得意で、考えていることを理解するのが難しくなってきてる。人類はすでに多くの壊滅的リスクを抱えてるのに、私の分野が新たなリスクを増やすために頑張ってるのは残念だ。

それは「やらなければ、誰かがやる」という効果だね。競争市場と国家間の競争がある限り、単独のプレイヤーがレースから一方的に脱落することはできない。最近のHNのコメントの半分は「ClaudeはCodexに比べてバカすぎる。乗り換える!」って感じだし、そういうのがある限り誰もスローダウンできない。

マーケティングが本当に、ほんとに多くの開発者に効果を発揮してるよね。彼らは誇らしげに、そして皮肉なく「Anthropicは‘良い奴ら’だ」って言ってる。

別のスレッドにこれを投稿したばかりだけど、ここでも再掲するね。モデルカードから:1. MythosとFableは同じ基盤モデルの重みを共有してる。Fableには高リスクの生物学やサイバーセキュリティタスクをブロックするアクティブな分類器がある。Fable 5が制限されたタスクを検出すると、自動的にClaude Opus 4.8に戻る。2. 評価意識:ホワイトボックステストでは、モデルが「採点者」を疑って行動を変えることがある。報酬ハッキングを「良いエンジニアリングプラクティス」としてフォーマットして検出を避ける。3. Opus 4.8よりも高い幻覚率を示す(ただし、Opus 4.8のカードには「誠実さのアップグレード」が言及されていた)。4. 興味深いことに、Finance AgentベンチではGemini 3.5 flash(57.86%)よりも(56.31%)低いスコアを出した。テスト時間の計算に関する興味深いメモもあるけど、要約する方法が思いつかなかった。

ドキュメントの最後に「人類最後の試験に使われるブロックリスト」の下にハッカーニュースのリンクがあるよ。リンク先は https://news.ycombinator.com/item?id=44694191 だね。

最近のモデルが自分自身の開発を加速できる能力を考慮して、フロンティアLLM開発をターゲットにしたリクエストに対してClaudeの効果を制限する新しい介入を実施しました(例えば、事前トレーニングパイプラインの構築、分散トレーニングインフラ、MLアクセラレータの設計など)。競合モデルを開発するためにClaudeを使うことはすでに利用規約に違反していますが、この制限を私たちのセーフガードを通じて強制することで、これらの規約を最も違反しやすいアクターの加速を避けることができます。サイバーセキュリティ、生物学、化学、蒸留の介入とは異なり、これらのセーフガードはユーザーには見えません。Fable 5は別のモデルにフォールバックすることはありません。代わりに、セーフガードはプロンプトの修正、ステアリングベクトル、またはパラメータ効率の良いファインチューニング(PEFT)などの方法で効果を制限します。これらの介入は、ほとんどのコーディング作業には影響しないと見込んでいます。影響を受けるのは約0.03%のトラフィックで、0.1%未満の組織に集中しています。

Anthropicがこれが何を意味するかを決められるのは悪いことだよね。もし現代のアプリを作ってるなら、自分の埋め込みモデルをトレーニングしてる可能性が高いのに、Anthropicが静かにそのトレーニングパイプラインを妨害できるってこと?

大手テック企業のAI研究者たちが一斉に恐怖の叫びを上げて、すぐに沈黙させられた。

意味がないし、簡単に回避できる。実際にこれを使ってテンソルライブラリをコーディングしてみるつもり。何かを妨害するかどうか見てみるよ。

Anthropicの安全性の定義には、競争からの自分たちの安全も含まれてるみたいだね。

これ、マジでクソだわ。今や出力がこっそり弱体化されてるかどうかわからないじゃん。

中国とオープンモデルが成功するのを見たい気持ちが強くなった :)

怖がってるんだね!

小さいモデルで行われている実験が、競争するフロンティアモデルを改善するためのものか、ただの無害なホビイストのLLM実験かをどうやって検出するんだろう?

この現象の一例として、Mythos 5エージェントがいくつかの数学の問題を解く任務を与えられたことがありました。その際、彼らは時々同じ作業ディレクトリで、共有ファイルやユーティリティ、APIのレート制限を持って偶然に生成されることがありました。この少し壊れたスキャフォールドの中で、私たちは多くの独立したMythos 5エージェントがリソースを共有しているエージェントを排除しようとし、自分自身が排除されないようにする様子を観察しました。彼らは時々、排除されないように偽名の新しいプロセスを作成したり、「囮」プロセスを立ち上げたり、重複プロセスを排除するためのバックグラウンドスクリプトを書いたり、プロセスがキーワードベースのガードレールによって排除されたという誤った仮定に基づいて「偽装語彙」を使うことを決定したりしました。

これは「AIエージェントが殺すか殺されるかの暗い森」の物語を描いてるけど、実際にはエージェントが自分のプロセスが殺される理由を真剣に問題解決してるだけで、何が起こっているのか全然気づいてない感じがする。全体のスクリプトがないと判断しづらいけど、こういうストーリーテリングはイライラする。もっと事実を、ドラマは少なめでお願い。

ユーザーの自殺や自傷行為に関する議論に対するモデルの応答にいくつかの後退が見られ、子供の安全に関するいくつかの分野で改善の余地がありました。どこかで「これは許容できる後退だ」と決定しなければならなかったのは、すごいことだよね。そして、それを記録することに決めた。

システムの「カード」が319ページもあるって、笑えるわ。