概要
- Mythos のセキュリティバグ発見能力の実力検証
- 独自ベンチマークによる 複数AIモデル の比較評価
- 中国系モデル の意外な高性能とコスト効率
- Mythos の独自性・過大評価疑惑についての考察
- ベンチマークの 制約や今後の展望 についても言及
Mythosの実力とベンチマーク設計
- Mythos は強力なセキュリティバグ発見AIとして宣伝されているが、 本当の性能 か疑問視する声
- 公開されている理由(強力すぎて一般公開しない)は コストや運用負荷 が主因ではないかという疑念
- 独自に Nelson ベースのバグ検出ベンチマークを作成し、 Mythosが発見したバグ を中心にテストコーパスを構築
- 各AIモデルは バグ修正前のコミット を与えられ、バグ特定能力を比較
- Opus 4.7 でバグの正当性を確認、知識カットオフ以降のバグのみを対象
テスト方法と制約
- 各モデルには プロジェクト全体のソースコード と特定ファイルのみを提示
- ヒントなし でバグ検出を要求、現実的なセキュリティ監査に近い形式
- 複数ファイルにまたがるバグ は特に難易度が高い
- .gitディレクトリは削除し 履歴情報の利用を防止
- ネットワークアクセス可 だが、実際に外部情報を参照している形跡はなし
- エージェント利用 はほとんど効果なし、コスト増大のみ
- Claudeモデルのみコスト面からエージェント利用継続
- Google Geminiはセキュリティ用途に 強いガードレール があり、事実上使い物にならず
各モデルの結果と傾向
- GPT 5.5 Pro は予算消化で途中までしかテストできず、2/4件検出(50%)
- Gemma 4 MoE は4/9件検出で高精度、複数回試行の恩恵あり
- GLM 5.2 や Kimi K2.7-code、 VibeThinker 3B も追加テスト、VibeThinkerは能力不足
- Nemotron Ultra 550b や North Mini Code 33b は期待外れの成績
- Nemotron 3 Nano Omni や Laguna XS.2 は意外と好成績、モデルサイズと性能の逆転現象も観測
- Qwen 3.6 27B は小型ながら非常に高いバグ検出能力、コストパフォーマンス抜群
- Gemini 3.1 ProやSonnetなど商用大型モデルよりも優秀
- Gemini 3.5 Flash はGemini 3.1 Proよりも好成績だが、コストは大型モデル並み
- 中国系格安モデル(MiMo, DeepSeek) はコスト・性能ともにトップクラス
- Mistral Medium や Laguna M.1 はほぼ無力、Mistralは安全性優先で検出自体を拒否
- Haiku や Sonnet はコスト・性能両面で魅力薄
考察と今後の展望
- Mythos の独自性は一部認められるが、他モデルも十分競争力あり
- 中国系モデル の急速な進化、コスト競争力の高さが際立つ
- モデルサイズと実性能の相関が崩れてきている 現象も観察
- バグ検出タスクは AIモデルにとって依然難易度が高い ことを再認識
- ベンチマークの拡充 (試行回数増加やCVEベース拡張)を今後検討
- 商用モデルのコスト・性能バランス を見極める指標としても有用
まとめ
- Mythos は現状でも強力だが、 他のAIモデルも十分追随可能
- 中国系格安モデル はコスト・性能面で非常に魅力的
- AIによるバグハンティング は今後さらに進化が期待される分野
- モデル選定 はコスト・精度・安全性・運用環境を総合的に判断する必要