世界を動かす技術を、日本語で。

プロジェクトグラスウィング:ミトスが私たちに示したこと

概要

  • Anthropic社のMythos Preview によるセキュリティLLMの評価事例
  • 複数リポジトリ への適用とその成果・課題の整理
  • 従来モデルとの違い や、Proof of Concept自動生成の強み
  • モデル拒否・ノイズ問題 など、現場で直面した実用上の課題
  • ハーネス構築の重要性 と具体的な運用例の紹介

Mythos PreviewによるセキュリティLLM評価

  • Mythos Preview はAnthropicが提供するセキュリティ特化型大規模言語モデル
  • Cloudflareが 50以上の自社リポジトリ に対して評価を実施
  • 既存の汎用モデルとの 本質的な違い を確認
    • Exploit chain construction (複数脆弱性の連鎖的活用)
    • Proof generation (PoC自動生成と検証)
  • これまでのモデルでは 発見で止まっていた脆弱性 を、 連鎖的に重大なエクスプロイト に昇華可能
  • PoC付きの指摘 は即時アクションにつながるため、実務上の価値が高い

モデル拒否と一貫性の課題

  • Mythos Previewは 追加ガードレールなし で提供
  • それでも 正当な脆弱性研究依頼に対し有機的な拒否反応 を示すことがある
    • 同一コード・同一依頼でも、文脈や表現の違いで結果が変化
    • モデルの 確率的性質 による一貫性の欠如
  • 有機的な拒否だけでは安全性担保に不十分
    • 将来的な一般公開モデルでは 追加の安全対策 が必須

ノイズ問題とPoCの意義

  • AI脆弱性スキャナ 導入でノイズ(誤検知)が増加
    • C/C++等のメモリ非安全言語 で誤検知率が高い傾向
    • モデルは 「可能性あり」など曖昧な表現 を多用
  • Mythos Previewは 複数脆弱性を連鎖させてPoCまで自動生成
    • PoC付き指摘 は「本物」かどうかの判断が容易
    • 再現手順の明確化・誤検知の減少 を実感

汎用コーディングエージェントの限界

  • 汎用エージェント をリポジトリに適用しても 実用的なカバレッジや有用な指摘は得られにくい
    • コンテキストウィンドウの制約 で全体把握が困難
    • 並列的・狭域的な探索 が求められる脆弱性調査とのミスマッチ
  • 人間研究者 のような 特定領域への集中調査 が重要

ハーネス構築と運用ノウハウ

  • ハーネス(管理フレームワーク) による運用で精度・効率向上
    • 狭いスコープ指定 でモデルの精度向上
    • 異なるエージェントによるアドバーサリアルレビュー でノイズ低減
    • バグ検出と到達可能性評価の分離 で論理性向上
    • 多数エージェントの並列処理 でカバレッジ最大化
  • Mythos Preview自身を活用 してハーネス設計を最適化

脆弱性発見ハーネスの実例

  • Reconフェーズ :リポジトリ全体の構造・信頼境界・攻撃面を分析し、タスクを生成
    • 下流エージェントに共通コンテキストを提供
  • Huntフェーズ :各タスクごとに攻撃クラス×スコープ指定で調査
    • 人間研究者の調査アプローチに近い

(※本文はHuntフェーズの途中で終了)


このように、 Mythos Preview は従来のAIモデルを超える 脆弱性発見能力PoC自動生成 の実用性を示した一方、 ノイズ管理一貫性の確保ハーネス設計 といった現場ならではの課題が浮き彫りとなった。今後の大規模運用には、 モデルの特性を活かす仕組み作り追加的な安全対策 が不可欠となる。

Hackerたちの意見

それは素晴らしいけど、最も深刻な脆弱性はどれくらい深刻だったの?話したくないだろうけど、それが一番興味深くて重要な部分だと思うんだ。

彼らの新製品のほとんどは誰も使わないAIツールだから、これからも適当なことを投稿し続けるんだろうね。最近、たくさんの人を解雇したから、もう良いライターがいないんじゃないかな。

懐疑的になりたい気持ちはあるけど、記事の最初の部分がはっきり言ってるんだよね — これはステップ関数だって。多くの人がMythosを心理作戦だと感じてるけど、その懐疑心はよくわからない。ほとんどは、公開されていないものに対する一般的な不信感から来てるみたい。一部のAnthropicの社員はMythosを汎用モデルの改善だと説明してるけど、その主張はまだ広く裏付けられていないから、そこだけは懐疑的でいるよ。セキュリティリサーチの分野に関しては、そのストーリーを受け入れる準備ができてる。

俺は、これがもっとクリエイティブで、長時間エージェント的に動けるって意見に落ち着いたよ。だから、劇的に「ハードスキル」が良くなっていなくても、より効果的にそれらを組み合わせることができるんだ。今のところ、これらの脆弱性はOpusで特定できるけど、複雑なエクスプロイトに導くには人間が必要なんだよね(しかも、熟練した人が)。人間がいないと、普通の人がエクスプロイトを特定して活用するのがずっと簡単になるんだ。

本当に重要なのは、これを書いたのがMythosなのかOpusなのかってことだね。 > 「なぜそれが重要なのか」 重要じゃないよ、企業のブログだし、そもそも一人の声で書かれることは少ないから。でも、大企業がブログをLLMに外注してるのを見るのは面白いね。

これはAIが完全に書いたというより、AIによって編集された感じがするね。もしくは、二回目のチェックにすごく良い人間の手を使ってるのかも。

人々が何かに対して皮肉を言うことで、その内容が実質的でなくなると思ってるのを見るのは面白いね。まるで銃口を見つめながら、その銃の広告がどんな紙に印刷されてるかについて冗談を言ってるみたい。

Cloudflareのブログは、トランスフォーマーが登場するずっと前から素晴らしかったよ。

こういう文の構造は確実にAIっぽいよね。「探索ツールとしては合理的なバイアスだ。でもトリアージキューには致命的だ...」って。これを「なぜ重要なのか」を「そして今やAIの出力がトレーニングデータの一部になっている」にアップグレードするよ。パンプアップされたAIの表現が標準になる日が来るだろうし、前の世代じゃないと区別が難しいだろうね。なんか、Usenetのいくつかの側面が懐かしい。

それが驚くべきことだと思う? 大きな組織は、平凡さと自然に結びついていることが多くて、人間の労働時間を減らしたいと思うのが普通だよね。

これはただの大企業じゃなくて、Anthropicなんだよね。彼らの主張は、AIが今は本当の仕事ができるってことだから、彼ら自身もそれに合わせて行動しないと変だよね。だから、Claude Codeには変なバグがいっぱいあって、サポートが返金したって言っても実際にはしてなかったりするんだよね。

本当にがっかりだね。

いいけど、見つけたセキュリティの脆弱性がどれくらいあったのか、実際のデータを共有してくれない?本物はどれくらいで、偽物はどれくらい?

そうだね、これを待ってるよ。情報をリリースする前に対処したいのは分かるけど、データがほとんどない主張を見続けると、どうやって人々に懐疑的にならないように期待するの? セキュリティのプロなら、懐疑的であることが仕事なんだからさ。

Mythos Previewに対する他のセキュリティリーダーの反応で一番大きいのは、スピードについてだね。スキャンを早く、パッチを早く、レスポンスサイクルを短縮するって感じ。話を聞いたチームの中には、CVEリリースから本番環境でのパッチまで、2時間のSLAで動いてるところもあるよ。 [...] リグレッションテストに1日かかるなら、スキップしないと2時間のSLAは達成できないし、リグレッションテストをスキップした時に出るバグは、パッチしようとしていたバグよりもひどいことが多いんだ。時間が経つにつれて、こういうエクスプロイタビリティテストを行うことで、デフォルトでより安全なコードが生成できるようになるのか、ちょっと気になるね。

それとも、そうじゃなくて、彼らはサービス会社やパートナーのネットワークを通じてMythosやその後継にアクセスを販売して、高い料金を取るのかも。*彼ら、っていうのは、OpenAIも同じ方向に進んでいるようだから、すべての基盤モデルの提供者を指してるよ。

わからないけど、AIのパフォーマンスがあまり良くないと気づいた人が、解決策としてもっとAIを使おうとするのがいつも変に思える。

もっと具体的な数字や驚きがあると思ってたんだけど。どうもバランスの取れたプロモーション記事みたいで、たぶんLLMを使って書かれたんじゃないかな。

最近、XBOWのインサイトを読むことを勧めてたんだ。[1] 競合だけど、議論にもっと情報を追加してくれるよ。 [1] https://xbow.com/blog/mythos-offensive-security-xbow-evaluat...

このセクションとその後の部分は特に読む価値があるよ、カスタムとエージェンティックコーディングハーネスについて。 https://blog.cloudflare.com/cyber-frontier-models/#why-point... Claude Codeのハーネスは、特に1Mのコンテキストサイズで多くのユースケースにおいて素晴らしい。ただ、コードやデータのスケールがそれに近づいたり、超えたりすると限界があるんだ。アクターのクラスターが共有された構造化されたコンテキストスニペットのセットで作業し、何が自分たちに関連しているかのガイダンスを持つというアイデアは、サイバーセキュリティ以外でも非常に役立つモデルだよ。

これはどういう意味なんだろう? > 「これは別の種類のツールで、別の種類の仕事をするものだから、以前のモデルとの比較が難しいんだ。彼らはこれが別の種類のツールだと言って、その後に他のモデルと同じように使う方法を説明してる。これって、普通のCloudflareのブログよりもずっとひどく感じたし、すでに重要な部分を指摘していたMythosの発表を再hashしただけに思える。」

隠れた広告みたいで、普通のブログ記事とは違う感じがするね。

彼らが言いたいのは、能力のおかげで新しいハーネスが作れるから、全体のシステム(モデル+ハーネス)がClaudeコードとは違う種類のツールになるってことかもしれないね。

僕の予想では、これはセキュリティやハッキング専用にトレーニングされたモデルだからだと思う。だから、チャットやコードなどのためにトレーニングされたOpusと比べるのは、全然違う話だよね。

平均的なCloudflareブログよりもずっとひどい いつからその平均を取ったの?最近のCloudflareの出力は全部AIがガッツリ入ってるよ。

「XじゃなくてY」っていうのも、よくあるLLMのトロープだよね。

彼らはそれが違う種類のツールだと主張して、他のモデルと同じように使う方法を説明してる。これ、本当に平均的なCloudflareブログよりもひどく感じたし、すでに重要な部分がチェイニングと例の作成だと指摘されてるMythosの発表をただ再利用してるだけだった。あは、僕もこれを解読しようとしてたよ。好意的に見れば、まだNDAの下にいるから、何が違うのかを曖昧にしてるのかもしれないね。

「Mythos Previewで変わったのは、モデルが低い深刻度のバグを(従来はバックログで見えないまま放置されていたもの)一つのより深刻なエクスプロイトにチェーンできるようになったことだ。この発言は、Mythosの他の独立したテストとも一致しているように思う。長時間のエージェント的な作業で非常に良い結果を出したし、これは彼らがそれに向けて訓練したことだと思う。それには、コンテキストウィンドウ内で loosely related topics の間の関連リンクを見つける能力が必要なんだ。」

この仕事を大規模に運営して得られた「四つの教訓」を見て、思わず笑っちゃったよ。四つのうち三つはほぼ同じで、全然明白なことだったし。要するに、具体的で狭いリクエストの方が「脆弱性を見つけて」よりも効果的ってこと。まあ、そりゃそうだよね。でも、対立的レビューは(全然新しいわけじゃなくて、HN界隈でよく話されてるけど)面白くて独特だと思った。もっとワークフローに活かしていきたいな。コーディング以外のタスクにも役立つと思うよ。

なんでCloudflareが制限なしのアクセスを得て、ダニエル・ステンバーグがcURLの第三者に運営されるMythosを使って、ただレポートをもらったのか理解できない。まあ、理解はできるけど、もしかしたら間違ってるかも。