概要
- Anthropic社のMythos Preview によるセキュリティLLMの評価事例
- 複数リポジトリ への適用とその成果・課題の整理
- 従来モデルとの違い や、Proof of Concept自動生成の強み
- モデル拒否・ノイズ問題 など、現場で直面した実用上の課題
- ハーネス構築の重要性 と具体的な運用例の紹介
Mythos PreviewによるセキュリティLLM評価
- Mythos Preview はAnthropicが提供するセキュリティ特化型大規模言語モデル
- Cloudflareが 50以上の自社リポジトリ に対して評価を実施
- 既存の汎用モデルとの 本質的な違い を確認
- Exploit chain construction (複数脆弱性の連鎖的活用)
- Proof generation (PoC自動生成と検証)
- これまでのモデルでは 発見で止まっていた脆弱性 を、 連鎖的に重大なエクスプロイト に昇華可能
- PoC付きの指摘 は即時アクションにつながるため、実務上の価値が高い
モデル拒否と一貫性の課題
- Mythos Previewは 追加ガードレールなし で提供
- それでも 正当な脆弱性研究依頼に対し有機的な拒否反応 を示すことがある
- 同一コード・同一依頼でも、文脈や表現の違いで結果が変化
- モデルの 確率的性質 による一貫性の欠如
- 有機的な拒否だけでは安全性担保に不十分
- 将来的な一般公開モデルでは 追加の安全対策 が必須
ノイズ問題とPoCの意義
- AI脆弱性スキャナ 導入でノイズ(誤検知)が増加
- C/C++等のメモリ非安全言語 で誤検知率が高い傾向
- モデルは 「可能性あり」など曖昧な表現 を多用
- Mythos Previewは 複数脆弱性を連鎖させてPoCまで自動生成
- PoC付き指摘 は「本物」かどうかの判断が容易
- 再現手順の明確化・誤検知の減少 を実感
汎用コーディングエージェントの限界
- 汎用エージェント をリポジトリに適用しても 実用的なカバレッジや有用な指摘は得られにくい
- コンテキストウィンドウの制約 で全体把握が困難
- 並列的・狭域的な探索 が求められる脆弱性調査とのミスマッチ
- 人間研究者 のような 特定領域への集中調査 が重要
ハーネス構築と運用ノウハウ
- ハーネス(管理フレームワーク) による運用で精度・効率向上
- 狭いスコープ指定 でモデルの精度向上
- 異なるエージェントによるアドバーサリアルレビュー でノイズ低減
- バグ検出と到達可能性評価の分離 で論理性向上
- 多数エージェントの並列処理 でカバレッジ最大化
- Mythos Preview自身を活用 してハーネス設計を最適化
脆弱性発見ハーネスの実例
- Reconフェーズ :リポジトリ全体の構造・信頼境界・攻撃面を分析し、タスクを生成
- 下流エージェントに共通コンテキストを提供
- Huntフェーズ :各タスクごとに攻撃クラス×スコープ指定で調査
- 人間研究者の調査アプローチに近い
(※本文はHuntフェーズの途中で終了)
このように、 Mythos Preview は従来のAIモデルを超える 脆弱性発見能力 と PoC自動生成 の実用性を示した一方、 ノイズ管理 や 一貫性の確保、 ハーネス設計 といった現場ならではの課題が浮き彫りとなった。今後の大規模運用には、 モデルの特性を活かす仕組み作り と 追加的な安全対策 が不可欠となる。