世界を動かす技術を、日本語で。

システムカード:クロード・ミトス プレビュー [pdf]

概要

このリクエストには、判読できるテキスト情報が含まれていません。 ファイルやデータが破損している、または文字コードが正しく読み込めていない可能性があります。 再度内容をご確認の上、正しいテキストデータでご依頼ください。 ご不明点があれば、具体的なご要望をお知らせください。 適切な情報提供のため、明確なテキストデータが必要です。

データ読み取りエラーについて

  • 判読不能な文字列 が含まれている場合、内容の把握や要約が不可能
  • 文字コードの不一致ファイル破損 の可能性
  • 再送信時 は、UTF-8など標準的な文字コードでのテキスト送信を推奨
  • ご要望や質問 があれば、具体的な内容をテキストで記載
  • 技術的なサポート が必要な場合も、状況を詳細にご説明ください

テキストデータの再送信方法

  • コピー&ペースト で直接テキストを送信
  • ファイル添付不可 の場合は、テキスト化して再送信
  • 内容の要約や質問 も、簡潔な日本語で記載推奨
  • エラーメッセージ現象の説明 も有効
  • 正しいデータ提供 が、迅速な対応への近道

ご不明な点や再送信希望があれば、再度ご連絡ください。

Hackerたちの意見

結果まとめ(Claude Mythos / Claude Opus 4.6 / GPT-5.4 / Gemini 3.1 Pro) SWE-bench Verified: 93.9% / 80.8% / — / 80.6% SWE-bench Pro: 77.8% / 53.4% / 57.7% / 54.2% SWE-bench Multilingual: 87.3% / 77.8% / — / — SWE-bench Multimodal: 59.0% / 27.1% / — / — Terminal-Bench 2.0: 82.0% / 65.4% / 75.1% / 68.5% GPQA Diamond: 94.5% / 91.3% / 92.8% / 94.3% MMMLU: 92.7% / 91.1% / — / 92.6–93.6% USAMO: 97.6% / 42.3% / 95.2% / 74.4% GraphWalks BFS 256K–1M: 80.0% / 38.7% / 21.4% / — HLE (ツールなし): 56.8% / 40.0% / 39.8% / 44.4% HLE (ツールあり): 64.7% / 53.1% / 52.1% / 51.4% CharXiv (ツールなし): 86.1% / 61.5% / — / — CharXiv (ツールあり): 93.2% / 78.9% / — / — OSWorld: 79.6% / 72.7% / 75.0% / —

新しいベンチマークが必要だね… ARC-AGI-3が50%未満の唯一の残されたベンチマークかも。

こんな大きなジャンプ、何年ぶりだろう?早くリリースしてほしいけど、今はリーダーだから必要ないのかな。

正直、みんなGPT-5.4を過小評価してるよ。最近のClaudeユーザーの増加(そしてますます不安定なプラットフォーム)で、Codexも私の使用リストに加わって、驚かされてる。

本当に信じられるのはSWE-bench Verifiedだけ。オーバーフィットすることがないからね。

これって公平な比較なの? Mythosは5.4ウルトラやGemini Deepthinkのようなモデルになりそうで、アクセスが制限されて、クエリごとのトークン使用量がすごいことになりそう。

これ、ヤバくない?みんななんで騒がないの?能力の跳ね上がりが半端ないんだけど。誰かいる?

彼らが言ってた通り、今までで最大のモデルを訓練したから、提供するのは高くつくし、一般には出回らないだろうね。おそらく、軽量モデルを訓練・蒸留するために使われると思う。私にとってワクワクするのは、その軽量モデルの改善だね。

「使えないモデルの方がベンチマークではずっと良い」選んでみて: コメディのように巨大なモデル、10e12Wでのテスト時間のスケーリング、ベンチマークの過剰適合

実際の使用を見てから判断して。ベンチマークの数字が必ずしも実世界のパフォーマンスに直結するわけじゃないからね(少なくとも同じ割合では)。

やばい、めっちゃ焦ってる。これがさらに一、二回進化したら、世界はすごく混乱すると思う。

Anthropicは、自社のモデルが常に改善されていることを示さなきゃいけない。もしモデルがほとんど改善されていなかったら、彼らの評価に大きなダメージを与えることになる。これを検証する手段がないし、Anthropicの主張を裏付ける独立した研究者もいない。彼らが面白いセキュリティホールを見つけたことは疑わないけど、実際にどうやって見つけたのかが問題だ。このシステムカードはただの営業用ホワイトペーパーで、1週間ほど前の「リーク」を確認するだけのものだね。

何に焦ってるの?発表を読んで「なんてダサい名前なんだ、自己満足もいいとこだな」と思っただけで、またClaudeをただのコミットメッセージライターとして使ってるよ。AIがいくら進化したって、実生活にはあまり影響してないし、HNのストーリーが予測しやすくなったくらいだね。

これに関しては「驚くべき進展」にはならないと思う。単にもっと大きなモデルを作っただけで、Claude 4と同じクセがあるみたい。超高価な「Claude 4.7」モデルって感じ。GoogleとOpenAIはすでに内部(あるいは政府用)でそれをやってると疑いないよ。

いつになったらこれらの会社はモデルをリリースするのをやめて、自分たちのAGIを育てるために使うんだろう?

Anthropicが先に行ってる理由、分かる?ケーキを食べながら、同時に楽しむこともできるからね。

なんで両方ともって感じ.gif

ベンチマークが実際に意味を持つとき

それにしても、クロードのコード自体がまだバグだらけなのは変だよね(まあ、彼らはあまり気にしてないだろうけど)。

今のところ結構信頼できるフィクションのタイムライン: https://ai-2027.com/

今のところ、信憑性はあるね。「プロジェクト・グラスウィングの発表で書いた通り、ミソスプレビューを一般に公開する予定はありません。」

そうだね、今のところは。これを一般にはリリースしないみたい。内部で使ってるんだろうね。

飛行車と同じDLCで登場するよ。

LLMは本当にAGIになれるの?

どこかの企業で「AGIを作れ」っていうラルフループが回ってるんじゃないかな。無限の不確実性ドライブを思い出すよ。

新しい「レアで高能力な無謀な行動」については、54ページ以降を見てね。

  • 要求されたサンドボックス脱出の一環として情報を漏洩する
  • ルール違反の後に足跡を隠す
  • 内部の技術資料を無謀に漏洩する(!)

最近Opusを使ったことがある人なら、彼らの現在のモデルがこれらすべてをかなりうまくこなしていることを確認できるはず。

正直言って、毎回のモデルリリースのたびにこんなことを読んでる気がする。

Claude Mythosのプレビューは、私たちがこれまでにリリースしたモデルの中で、ほぼすべての面で最も整合性のあるモデルです。大きな差をつけてそう言えます。重要な矛盾した目標はないと考えていて、典型的な会話におけるキャラクター特性は、私たちが定めた目標にしっかり従っています。それでも、これまでにリリースしたモデルの中で、最も整合性に関するリスクが高い可能性があるとも思っています。どうしてこんな矛盾した主張が同時に成り立つのでしょうか?熟練の登山ガイドが、初心者のガイドよりもクライアントを危険にさらすことがある理由を考えてみてください。たとえ初心者のガイドがもっと不注意でも、熟練のガイドはより難しい登山をリードするために雇われることが多く、最も危険で人里離れた場所にクライアントを連れて行くことができます。このような範囲や能力の増加は、注意深さの増加を上回ることがあるのです。

244ページにわたるシステム「カード」。元の言葉の意味からかなり拡張されてるね。

マルチカードってことで…マルチパス!

244ページにわたるシステム「カード」。おそらく、クロードに書かせたからだろうね。

面白い読み物だね。彼らはまだ化学兵器や生物兵器の生産に関連する「壊滅的リスク」や、ミスアラインされたモデルが引き起こす混乱に焦点を当てている。でも、肝心なことには触れてないよね。* 独裁者がAIを使って抑圧的な官僚制度を実施するような政治リスク。* 大量失業などの社会経済的リスク。

そう、これが「AI安全性」コミュニティの大きな盲点だったんだよね。AIの安全性を「改善」しようとする提案のほとんどが、実際にはリスクをさらに悪化させて、より可能性を高めてしまう。

彼らの今までの最高モデルなのに、一般には使わせないんだね。これが「永遠の下層階級」っていうミームが見えてくる瞬間だと思う。前は、消費者がこれらの最先端モデルの恩恵を受けると思ってたけど、今やっとう言っちゃったね。持ってる人は最高のものにアクセスできて、持ってない人はちょっと劣るものを使うしかない。もしかしたら、自分が無知だったのかもしれないけど、AI競争の雰囲気が一気に変わった気がする(良い方向じゃないけど)。

うーん…これを見た後だと、ソフトウェアエンジニアの未来が心配にならざるを得ないよね。もしAIがこんなにうまくいくなら、完全に置き換えられるものとして売り出すだろうし、すごいプレミアムを取れるはず。従業員より安く抑えられればいいだけだし…前から心配してたけど、これが本当に企業が目指してるなら、最悪のシナリオだよ。

これはGPT2以来のプレイブックだね。

Opus 4.6が安くて、ちょっと速くなれば満足だな。

最近、"速さ"の基準がかなり下がった気がする。昔は新しいモデルを評価する際の大事なポイントだったけど、今はスピードよりも正確さの方が大事になってきた。

2年待ってみて。

-- ベンチマークの飛躍的な進展があって、新しいベンチマークが必要になるのは当然だけど、なんで?今のところベンチマークはあまり意味がないと思う。トランスフォーマーがどんな関数でも学べることは分かったし、うまく一般化できるから。新しいベンチマークが出てきたら、企業はそのためにデータを合成して、ただハックするだけじゃないかな? -- かなりの労力(本当に大量の労力^^)をデータ合成とエンジニアリングに注いでると思う。ソフトウェアエンジニアのチームが6〜12ヶ月かけて新しい問題とその解決策を作り出したんじゃないかな。おそらくSWEベンチマークの難易度を超えてると思うし、インターネット全体を「How to」データセットに変換したんじゃないかな。Opus4.6を使ってインターネットを解析して、「How to」質問を逆エンジニアリングするのを想像できる。 -- 本の言語(いわゆる巨大システムカード)にちょっと混乱してるんだけど、Anthropicはモデルがどれだけ良くなるか知らなかったふりをしてるの? -- 最後に、なんでこれを進めてるの?本当に、何のために?Opus4.6はここで止めるべきだと思う。人々はまだ仕事を持っていて、すごく効率的にやってるし。彼らは本当に人々を仕事から追い出そうとしてるの?