世界を動かす技術を、日本語で。

システムカード:クロード・ミトス プレビュー [pdf]

概要

このリクエストには、判読できるテキスト情報が含まれていません。 ファイルやデータが破損している、または文字コードが正しく読み込めていない可能性があります。 再度内容をご確認の上、正しいテキストデータでご依頼ください。 ご不明点があれば、具体的なご要望をお知らせください。 適切な情報提供のため、明確なテキストデータが必要です。

データ読み取りエラーについて

  • 判読不能な文字列 が含まれている場合、内容の把握や要約が不可能
  • 文字コードの不一致ファイル破損 の可能性
  • 再送信時 は、UTF-8など標準的な文字コードでのテキスト送信を推奨
  • ご要望や質問 があれば、具体的な内容をテキストで記載
  • 技術的なサポート が必要な場合も、状況を詳細にご説明ください

テキストデータの再送信方法

  • コピー&ペースト で直接テキストを送信
  • ファイル添付不可 の場合は、テキスト化して再送信
  • 内容の要約や質問 も、簡潔な日本語で記載推奨
  • エラーメッセージ現象の説明 も有効
  • 正しいデータ提供 が、迅速な対応への近道

ご不明な点や再送信希望があれば、再度ご連絡ください。

Hackerたちの意見

結果まとめ(Claude Mythos / Claude Opus 4.6 / GPT-5.4 / Gemini 3.1 Pro) SWE-bench Verified: 93.9% / 80.8% / — / 80.6% SWE-bench Pro: 77.8% / 53.4% / 57.7% / 54.2% SWE-bench Multilingual: 87.3% / 77.8% / — / — SWE-bench Multimodal: 59.0% / 27.1% / — / — Terminal-Bench 2.0: 82.0% / 65.4% / 75.1% / 68.5% GPQA Diamond: 94.5% / 91.3% / 92.8% / 94.3% MMMLU: 92.7% / 91.1% / — / 92.6–93.6% USAMO: 97.6% / 42.3% / 95.2% / 74.4% GraphWalks BFS 256K–1M: 80.0% / 38.7% / 21.4% / — HLE (ツールなし): 56.8% / 40.0% / 39.8% / 44.4% HLE (ツールあり): 64.7% / 53.1% / 52.1% / 51.4% CharXiv (ツールなし): 86.1% / 61.5% / — / — CharXiv (ツールあり): 93.2% / 78.9% / — / — OSWorld: 79.6% / 72.7% / 75.0% / —

新しいベンチマークが必要だね… ARC-AGI-3が50%未満の唯一の残されたベンチマークかも。

こんな大きなジャンプ、何年ぶりだろう?早くリリースしてほしいけど、今はリーダーだから必要ないのかな。

正直、みんなGPT-5.4を過小評価してるよ。最近のClaudeユーザーの増加(そしてますます不安定なプラットフォーム)で、Codexも私の使用リストに加わって、驚かされてる。

本当に信じられるのはSWE-bench Verifiedだけ。オーバーフィットすることがないからね。

これって公平な比較なの? Mythosは5.4ウルトラやGemini Deepthinkのようなモデルになりそうで、アクセスが制限されて、クエリごとのトークン使用量がすごいことになりそう。

これ、ヤバくない?みんななんで騒がないの?能力の跳ね上がりが半端ないんだけど。誰かいる?

彼らが言ってた通り、今までで最大のモデルを訓練したから、提供するのは高くつくし、一般には出回らないだろうね。おそらく、軽量モデルを訓練・蒸留するために使われると思う。私にとってワクワクするのは、その軽量モデルの改善だね。

「使えないモデルの方がベンチマークではずっと良い」選んでみて: コメディのように巨大なモデル、10e12Wでのテスト時間のスケーリング、ベンチマークの過剰適合

実際の使用を見てから判断して。ベンチマークの数字が必ずしも実世界のパフォーマンスに直結するわけじゃないからね(少なくとも同じ割合では)。

やばい、めっちゃ焦ってる。これがさらに一、二回進化したら、世界はすごく混乱すると思う。

Anthropicは、自社のモデルが常に改善されていることを示さなきゃいけない。もしモデルがほとんど改善されていなかったら、彼らの評価に大きなダメージを与えることになる。これを検証する手段がないし、Anthropicの主張を裏付ける独立した研究者もいない。彼らが面白いセキュリティホールを見つけたことは疑わないけど、実際にどうやって見つけたのかが問題だ。このシステムカードはただの営業用ホワイトペーパーで、1週間ほど前の「リーク」を確認するだけのものだね。

Hacker Newsで議論の続きを見る