世界を動かす技術を、日本語で。

クロード・ファーブル5

概要

  • Claude Fable 5 は、一般利用向けに安全設計された 最先端AIモデル の新しいリリース。
  • ソフトウェア開発、知識作業、視覚処理、科学研究 など、多岐にわたる分野で他モデルを凌駕。
  • 強力なサイバーセキュリティ機能 を持つが、誤用防止のため厳格なセーフガードを実装。
  • Fable 5Mythos 5 は、価格も大幅に引き下げられ、より多くのユーザーが利用可能。
  • 今後さらに安全性と精度を高め、利用範囲を拡大予定。

Claude Fable 5:一般向け最先端AIモデルの概要

  • Claude Fable 5 は、Anthropicが開発した Mythos-class1モデル の一般公開バージョン。
  • これまで公開されたClaudeシリーズの中で 最高性能 を発揮。
  • ソフトウェアエンジニアリング・知識作業・ビジョン・科学研究 など、幅広い分野で高いベンチマークスコアを記録。
  • 長時間・複雑なタスク ほど、他モデルとの差が顕著。
  • サイバーセキュリティ など悪用リスクの高い領域には厳しいセーフガードを設置。
  • 一部トピックでは、 Claude Opus 4.8 へ自動的に切り替え対応。
  • セーフガードは保守的に設定されており、平均で5%未満のセッションで発動。
  • 今後、さらなる高性能モデルの登場とともに、セーフガードの改善と誤検出の削減を推進。

Claude Mythos 5:限定公開モデル

  • Claude Mythos 5 は、Fable 5と同一の基盤モデルを持つが、一部セーフガードを解除。
  • 主に サイバーセキュリティ関係者・インフラ提供者 向けに限定公開。
  • Project Glasswing を通じて米国政府と協力し、Claude Mythos Previewのアップグレードとして提供。
  • 世界最高水準の サイバーセキュリティ能力 を誇る。
  • 今後、信頼できるアクセスプログラムを拡大予定。

Fable 5 & Mythos 5の社会的インパクト

  • Project Glasswing で重要ソフトウェアの防御支援など、社会的貢献の実績。
  • ライフサイエンス研究 分野でも新しい仮説提案や新薬開発の加速を実現。
  • 価格は 入力トークン100万あたり$10、出力トークン100万あたり$50 と、従来モデルの半額以下。
  • より多くのユーザーに 高度AI機能 を安全かつ迅速に提供することを目指す。

Fable 5と他モデルの比較・特徴

  • 自律的作業能力 が大幅向上し、過去のClaudeモデルより長時間のタスク処理が可能。
  • ソフトウェア開発 :Stripeのテストでは、数か月分のエンジニア作業を数日で完了。
    • 5000万行のRubyコードベースを1日でマイグレーション。
    • CognitionのFrontierCode評価 で最高スコアを記録。
  • 知識作業 :HebbiaのFinance Benchmarkで最高スコアを獲得。
    • ドキュメント推論、チャート・表の解釈、問題解決で顕著な成果。
    • IMCのトレーディング分析 でも高評価。
  • ビジョン分野 :科学図表から正確な数値抽出、スクリーンショットだけでWebアプリの再構築。
    • ポケモンFireRed をビジョンのみでクリア。
  • メモリ・長文処理 :数百万トークンの長期タスクで高い集中力を維持。
    • Slay the Spire でファイルベースメモリ活用時のパフォーマンスがOpus 4.8の3倍向上。
  • 創薬・分子生物学 :Mythos 5によるプロテイン設計で人間専門家と同等以上の成果。
    • 14ターゲット中9つで有望な薬剤候補を創出。
    • 独自の分子生物学仮説を安定して生成し、80%の確率でOpusクラスより優先選択。
  • ゲノミクス研究 :1週間以上の自律作業でScience誌に掲載されたモデルを凌駕する結果。
  • アラインメント(整合性) :自動評価でOpus 4.8と同等の低い誤動作率。

早期利用者からのフィードバック

  • CursorBench で最先端の結果を記録、従来モデルでは不可能だった長期課題を解決。
  • GitHub :複雑な長期コーディングタスクで高い自律性と信頼性を実現。
  • エージェント型開発・プロトタイピング で顕著な進歩。
  • シニア研究者レベル の推論能力、資源配分、誤信念の修正、独自の成果物生成。
  • ユーザーの意図理解 が大幅向上、従来100回必要だったプロンプトが一発で完結。
  • 法務分野 でも現行モデルを上回る精度を実証。
  • 自律的な自己検証・自己反省 が可能となり、複雑なマルチエージェントワークフローを効率化。
  • 金融・分析分野 で最高水準の成績、Opusより10ポイント高いスコアを達成。
  • 物理研究・アプリ開発・スプレッドシート処理 でも全体的な作業効率と精度が向上。

Fable 5の新セーフガードと安全対策

  • Mythos-classモデル は悪用リスクが高いため、厳格なセーフガードを実装。
  • Project Glasswing で限定公開し、十分なセーフガードが整うまで一般公開を見送り。
  • 現在は安全性を最重視し、誤検出の発生も許容した設定。
  • 今後、ユーザー体験を損なわず、 誤検出の削減安全性の両立 を目指して改良を継続。
  • セーフティ・クラシファイア :サイバーセキュリティや生物学研究など、デュアルユースリスクの高い分野で悪用防止。
    • 悪意あるユーザーによる回避策にも耐える設計。
    • 詳細は システムカード および最新リスクレポートで評価。

このように、 Claude Fable 5 および Mythos 5 は、AIの新たな可能性を切り拓くと同時に、安全性と社会的責任にも最大限配慮した設計がなされている。

Hackerたちの意見

システムカードは319ページだけど、どこからを「本」と呼ぶべきなんだろう?METRレポートの52ページにこんな引用があるよ: 「私たちは[Mythos 5]を38の最も難しいソフトウェアタスクでテストしました。これにはR&Dに関連するタスクも含まれています。[Mythos 5]は、これらのタスクでClaude Mythos Previewの初期チェックポイントを一般的に上回るパフォーマンスを示しました。これには、以前評価したどの公開モデルでも解決できなかったタスクに成功したものも含まれています。しかし、難しいタスクでは時々微妙な指示を正しく解釈できないことも観察されました... 利用可能な証拠に基づいて、私たちは[Mythos 5]が数週間にわたるフロンティアプロジェクトのR&Dを完全かつ信頼性高く自動化することは難しいと考えています。より良い、より自信のある評価には、もっと時間と評価、モデル開発者からの情報が必要だと思います。」

私たちは[Mythos 5]が数週間にわたるフロンティアプロジェクトのR&Dを完全かつ信頼性高く自動化することは難しいと考えています。これは良いニュースだよね?ねえ...?

サブスクリプションプランの人たちへ: * 今日から6月22日まで、Fable 5はPro、Max、Team、シートベースのEnterpriseプランに追加料金なしで含まれます。* 6月23日には、これらのプランからFable 5を削除します。それ以降は使用クレジットが必要になります。容量が許せば、含まれる期間を延長します。* この時点以降、十分な容量があれば、Fable 5をサブスクリプションプランの標準の一部として復活させる予定です。できるだけ早くこれを実現したいと思っています。「提供してから削除」というのはちょっと怪しいよね。サブスクを使用ベースの請求に切り替えさせようとしてる気がするし、6月22日以降に本当に使えるのか心配だな。

同意する、これってサブスクリプションを減らすための計画に見える。多分、後でOpusの弱体化が来るんじゃないかな。

ハマらせておいて、切り捨てる。古典的な手口だね。

アントロピックがIPO前に十分な収益を上げる方法を見つけるのは明らかすぎるよね。クロードのサブスクリプションはあんまりお金を稼いでないと思う。

おお、じゃあ次の6〜12ヶ月でサブスクリプションが今のエンタープライズみたいに小売りでの支払いに置き換わるってこと?

エンドユーザー向けプランを企業クライアント優先で弱体化させてるみたいだけど、Anthropicはまだ「もっと倫理的なAI会社」ってみんなが言うほどなの?これが単なる供給問題じゃないとしたら、コストの壁を通じてメガコーポレーションだけが使えるってのは、「倫理的AI」って言えないよね。

Codex/chatgptに切り替えたことには満足してるよ。最初にクラウドコードが出たときは切り替えるなんて考えられなかったけど、同じサブスクリプションティアでCodexの使用量がかなり優遇されてるから、もうクラウドコードに戻る理由がないんだよね。

私の場合、ほぼすぐにブロックされたよ。メッセージダイジェストに関連するコードを書かせてたんだけど、なんか自分がそのために才能がありすぎると思ったみたい。セキュリティ警告が出て、4.8に戻っちゃった。まあ、どうでもいいけど、すぐにAPIエラーが出るだろうね。私は主にCodexの月額200プランに切り替えた。5.5 xhighがOpus 4.8の「ウルトラコード」よりも良いと思ってる。それに、Anthropricみたいに計算不可のサーバーダウンは一度も見たことないよ、あっちはほぼ毎時間起こるけど。

それは需要やフィードバック、GPT-6.0がリリースされて競争力があるかどうかに依存すると思う。

「オファーしてから取り消す」っていう点はちょっと気になるね。利用ベースの請求に切り替えようとしてる感じがするし、6月22日のウィンドウの後にそれが実現するのか疑問だよ。多分、IPOのために全部やってるんだろうね。

ちなみに、私のエンタープライズアカウントでは利用できないよ:「ゼロデータ保持を無効にしてFable 5アクセスを解除」

新しいFrontierCodeのベンチマークについて(OSSメンテナの視点から「このコードをマージするか?」という基準で評価) - Opus 4.7 xhigh: 5.2% - Opus 4.8 xhigh: 13.4% - Fable 5 xhigh: 29.3% これはすごいジャンプだね。

そうだね、価格にもそれが反映されてる。

このベンチマークはどれくらい信頼できるの?他の実世界の経験と関連してるのかな?

FrontierCodeはAnthropicが支払ってる可能性が高いね。

あのブログ記事は、OSSメンテナーのレビューをLLMが評価したみたいに見えるね。問題は3つあると思う。1. その評価は簡単に間違える可能性がある。2. その評価はもちろん、RLトレーニングに使える。これは本質的に悪いことではないし、最近のコーディングモデルの改善に繋がってる部分でもある。でも、他の企業もこういうトレーニングをする可能性が高いし、Anthropicもやってるだろうね。3. OSSメンテナーは完璧じゃないし、コーディングモデルがレビューを通過するのに十分な説得力を持ったコードを生成するけど、実際には全然間違ってるっていう不気味な谷のような現象がある。これがここでの特定の問題かどうかは分からないけど。

今日から6月22日まで、Fable 5はPro、Max、Team、シートベースのEnterpriseプランに追加料金なしで含まれます。6月23日には、これらのプランからFable 5を削除します。それ以降は使用クレジットが必要になります。容量が許せば、含まれる期間を延長します。この時点以降、十分な容量があれば、Fable 5をサブスクリプションプランの標準の一部として復活させる予定です。できるだけ早くこれを実現したいと思っています。これは、無料サンプルで薬にハマらせておいて、手放せなくなったら値上げする製薬業界の手法に似てるね。6月23日に消えちゃうなら、MaxプランでClaude Fableを使い始めるのはちょっと躊躇しちゃうな。でも、もっと好意的に考えれば、彼らはそのプランでこのモデルを提供する必要はなかったのに、標準の無料トライアルをしてくれてるのかもしれない。

彼らが今後2週間の間にインフラを応答性のある状態に保てたら、驚くよ。

デフォルト設定のFable 5に対するPelicanは、Opus 4.8より明らかに改善されてるよ。Fable 5デフォルト: https://gist.github.com/simonw/036bee5a703e7ec84e34efa974438... Opus 4.8(「max」版がFableに最も近い): https://simonwillison.net/2026/May/28/claude-opus-4-8/#and-s... ここで、思考努力レベルのすべてのFableペリカンを紹介するよ - 低、中、高、xhigh、max: https://tools.simonwillison.net/markdown-svg-renderer#url=ht... 低は25入力、1,929出力 - 9.67セント: https://www.llm-prices.com/#it=25&ot=1929&sel=claude-fable-5 Maxは25入力、14,430出力 - 72.175セント! https://www.llm-prices.com/#it=25&ot=14430&sel=claude-fable-...

新しいモデルの発表でいつも探してる返事だね。ペリカンを基準にモデルを評価するって言うのが楽しいんだ。

なんでいつも晴れた日ばかりなんだろう?

ペリカンのSVG生成にどれくらいお金を使ったと思う?

Fableは、前のモデルの「xhigh」出力トークン数のために「max」「looking」ペリカンを作ったみたいだね。

このペリカンがどれだけ有用な指標なのか、ちょっと疑問に思い始めてる。フロンティアラボは、今やテストが有名だから、ペリカンアートに基づいてモデルをトレーニングしてるんじゃないかな?

ヘッドチューブやハンドルバーの部分をまだ間違えてるのが面白いね。

サブスクリプションのクレジット(https://support.claude.com/en/articles/15036540-use-the-clau...)をファブルに使うことってできるの?

彼らはこういうテストに合わせてモデルを最適化してると思うよ。

ペリカンはすべてのフロンティアモデルで同じように見えるね。同じ色のバイク、同じカメラアングルとか。成功したときの信号としては、もうこの課題がトレーニングデータに深く埋まってるから、あんまり良いサインじゃない気がするし、失敗したときもネットの既存のAIペリカンと似たような病的な形で失敗するかもしれない。

もしかしたら勘違いかもしれないけど、これは最近のDeepseekのやつにすごく似てる気がする。明らかに、確認するために探すのが面倒くさいんだよね。

木を見て森を見ずって感じだけど、これは要するに3〜5ヶ月後に中国が現行のミソスと同じくらい能力があって危険なオープンソースモデルを出してくるってことだよ。しかも、安全対策なしでね。これに対して安全なのはアントロピックと手を組んだ大企業だけ?ファブルには実際の安全策がないみたいで、「これについて話すとオーパスと話すことになるよ」って感じ。攻撃的な使い方を防ぐんじゃなくて、すべての使用(攻撃的も防御的も)を防いでる。合理主義者たちが最初の原則から独占を作り出してるなんて、サンフランシスコで信じられないことが起きてるね。

Mythosはまだ過大評価されてると思うし、サイバーセキュリティの恐怖やガードレールは、企業パートナーシップを促進するためのマーケティングがほとんどだと思う。

彼らはおそらく2tから3tの範囲でモデルを訓練してるんだろうね。中国の研究所がそんなモデルを訓練できるGPUシステムにアクセスできるとは考えにくいし、提供するのも無理だと思う。これは特別なルームスケールのシステムが必要で、普通の10スロットシステムよりもかなり高価なんだ。でも、彼らは1年くらいで同等のクラスターを開発できると思うよ。Fabel 5を蒸留することも大きな助けになるだろうね。

それってある意味いいことじゃない?みんなが同時に武器と防御を持ってれば、セキュリティの穴を修正して、三文字の機関や軍のバックドアがあるよりも安全に暮らせるようになると思う。パンドラの箱はもう開いちゃったし、少数の国家が持つよりも、みんなが同じ力を持つ方がいいよね。

使い物にならないって言ってもいいくらいだよ… 2つの異なるチャットを試したけど、どっちも安全対策で止まっちゃった。一つは改善するために渡したコードで、それは改善したけどテストを書き始めて、その中にはセキュリティをテストするものもあったから安全対策が作動したんだ。もう一つは、僕が新しいモデルテストとして使ってる暗号パズルの一つで、ワンショットで解くのは難しいし、どこにも公開された解答がないのに、全く解こうともしなかった。

3〜5ヶ月って長いし、フロンティアモデルがすごく良いから、到着した時にはほとんど役に立たないんだ。たとえ安くても、元のレベルに戻るのが難しい。あなたの作業フローは、その知能レベルに何ヶ月も適応してるからね。

現在のミソスと同じくらい能力があり、危険だが、保護策はない ちょっと違うかな。彼らには「中国/共産主義に対する批判はなし」っていう保護策が絶対にあるよ。

彼らは安全策を講じようとするかもしれないけど、Qwenは全く問題なく消されてるからね。

モデル蒸留がこれまで通りうまくいくのか気になるな。隠れた推論や、期待される能力の増加、深刻な計算資源の不足、モデル崩壊の可能性、APIコストの急激な上昇を考えると、やるのがどんどん難しくなってるんじゃないかな。

木がどこにあるのか気になるな。このスレッドでは誰もモデルについて話してないみたい。

「合理主義者たちが第一原理から独占を作り出してる、SFでは信じられないことが起きてる。」 それな。

「ミソス級モデルを責任を持って展開するために、データの保持とレビューを制限することを安全対策の一環として求めています。ミソス級モデルに提出されたプロンプトや生成された出力は、信頼と安全の目的で、これらのモデルが提供されるすべてのプラットフォームで30日間保持されます。」

これのおかげでAnthropicは悪用を見つけやすくなるけど、その分アメリカ政府や他の関係者が全ユーザーのメッセージやレスポンスにアクセスできるってことでもあるよね。これはサードパーティの推論プロバイダー(例えば、AWSのBedrockやGCPのVertex)を通じたAPI使用でも適用されるし、ゼロデイデータ保持契約があっても同じ。こうする理由は理解できるけど、前例を作るのはあんまり好きじゃないな。

meetpateltechは、投稿に早くアクセスできなかったことで低評価を叫んでるね。

今のところ、Anthropicは純粋にマーケティングとPRの会社だね。Opus、Mythos、Fableみたいなキャッチーな名前で、これらのソフトウェアが超人的で人生を変える体験だと思わせようとしてる。ボリス・チェルニーがHNに「やあ!クラウドコードチームのボリスだよ」って来て、本物の技術者たちの好意を得ようとしてる。Opus 4.6からは、コード生成に関しては特に目立った改善は感じないな。正しくガイドすれば、90%の完成度まではすごくうまくいくけど、ちょっと運も必要だね。真剣なプロダクションコードを書くには、自分が何をしているのか理解する必要があるから、時々は助けになるかな。

Anthropicはあんまり好きじゃないけど、4.8が4.5/4.6より良くなってるのは否定できないよね。あなたのタスクには、もしかしたらその余分な知能は必要ないのかも。

あなたの観察は正しいけど、彼らを純粋なPR会社だと考えるのはちょっと狂ってるよ(笑)。リリースの頻度が上がってるから、リリースごとの品質は下がってるけど、GPT-3以来、品質と信頼性は上昇し続けてるんだ。GPT-4から5への飛躍は、たぶん17か18ヶ月ごとだと思う。

現在のAIの盛り上がりは、能力じゃなくてマーケティングやPRに基づいてるよね、最初からずっとそうだった。サム・アルトマンが「AIに規制をお願いしてる」ってのをまだ覚えてるし、AGIが「数千日先」って言われてたのもね。もっと早く馬を育てて、いつか機関車が生まれるのを期待するみたいな感じ。

Opus、Mythos、Fableみたいなキャッチーな名前が、これらのソフトウェア製品が実際には超人的な人生を変える体験だと思わせようとしてる これはただのビジネスセンスだよね。どんなシナリオで名前をバカみたいにして忘れられるようにするの? > ボリス・チェルニーがHNに来て「やあ!クラウドコードチームのボリスです」って言って、本物の技術者たちの好意を得ようとしてる。これはいいカスタマーサポートだね、笑。私が見る限り、実際にボリス・チェルニーが応答してるみたいで、AIや他のスタッフに外注してるわけじゃない。ボリスからの返事を本当に受け取ってるんだ。これがPRだとは思うけど、不当なPRじゃなくて、正確なものだよ。私はAIの熱狂的なファンじゃないけど、君の批判はここでは馬鹿げてる。『ナイブズ・アウト』のセリフを思い出すよ。「あなたの名誉、彼女は努力と良いユーモアで彼に好かれた。」

確かに、「Mythosクラスモデル」って聞くと、すごく気持ち悪かった。

よくわからないんだけど、君の不満は彼らの名前がキャッチーで、GPT-5.6みたいな地味な名前じゃないってこと?OpenAIはモデルの宣伝をあんまりしないの?

もし本当にそう思ってるなら、業界の他の人たちよりもすごい力を手に入れたってことだよ。みんなが遅くて高いモデルに時間とお金を無駄にしている中で、君はもっと安くて早く進む方法を見つけたんだ。みんな間違ってるし、君は金持ちになるよ。 (実際にはその前提が正しいとは思ってないけど、君の言ってることの論理的な結論を指摘してるだけだから、ちょっと前提を再考してみようよ。)

Boris ChernyがHNに来て「こんにちは!Claude CodeチームのBorisです」と言って、本物の技術者たちの好意を得ようとしてる。これはいいことだね。全ての会社がこうしてほしいな。HNで彼らのチームの誰かとやり取りした後、Proton Mailに登録したよ。

Borisは本当に一人だけとは思えないな。彼はどうやらClaude Codeを vibe コーディングして、ThreadsやTwitter、HNなどあちこちで反応してるみたいだし。

新しい大規模モデルの改訂を試すチャンスすらないのに、どうしてこんなコメントができるの?

蒸留。以前、権威主義的な国で競合モデルをトレーニングするためにClaudeの能力を抽出(「蒸留」)しようとする大規模な試みを特定しました。UKがAIの分野で追いつこうと努力していると聞いて嬉しいよ ;)

まだまだ初心者だね。アメリカに来て、正しい認証を見てみて。

https://en.wikipedia.org/wiki/The_Economist_Democracy_Index 多分皮肉だろうけど、イギリスは18位、アメリカはポーランドと並んで34位だね。

AIは色んなことに使ってるけど、技術的な部分はほんの一部なんだよね。それも大体はコーディングじゃなくてプロジェクトの設定の問題。なんでかっていうと、学生が提出したプロジェクトをテストしてることが多いから。彼らのマシンでは動くはずのプロジェクトが、こっちでは全然動かないんだよね。まあ、個人的な感想だけど、Copilotは驚くほどひどいと思う。問題とは関係ないファイルにランダムに変更を加えるし、それを指摘すると他の無関係なファイルにも変更を加えたりする。ChatGPTやGeminiの方がずっと良いよ。Grokも悪くないし。Claudeは正直、まだこの問題では試してないんだ。試した方がいいのかな…