世界を動かす技術を、日本語で。

ミトスになるのか?

2026年6月23日原文(swelljoe.com)

概要

  • Mythos のセキュリティバグ発見能力の実力検証
  • 独自ベンチマークによる 複数AIモデル の比較評価
  • 中国系モデル の意外な高性能とコスト効率
  • Mythos の独自性・過大評価疑惑についての考察
  • ベンチマークの 制約や今後の展望 についても言及

Mythosの実力とベンチマーク設計

  • Mythos は強力なセキュリティバグ発見AIとして宣伝されているが、 本当の性能 か疑問視する声
  • 公開されている理由(強力すぎて一般公開しない)は コストや運用負荷 が主因ではないかという疑念
  • 独自に Nelson ベースのバグ検出ベンチマークを作成し、 Mythosが発見したバグ を中心にテストコーパスを構築
  • 各AIモデルは バグ修正前のコミット を与えられ、バグ特定能力を比較
  • Opus 4.7 でバグの正当性を確認、知識カットオフ以降のバグのみを対象

テスト方法と制約

  • 各モデルには プロジェクト全体のソースコード と特定ファイルのみを提示
  • ヒントなし でバグ検出を要求、現実的なセキュリティ監査に近い形式
  • 複数ファイルにまたがるバグ は特に難易度が高い
  • .gitディレクトリは削除し 履歴情報の利用を防止
  • ネットワークアクセス可 だが、実際に外部情報を参照している形跡はなし
  • エージェント利用 はほとんど効果なし、コスト増大のみ
    • Claudeモデルのみコスト面からエージェント利用継続
    • Google Geminiはセキュリティ用途に 強いガードレール があり、事実上使い物にならず

各モデルの結果と傾向

  • GPT 5.5 Pro は予算消化で途中までしかテストできず、2/4件検出(50%)
  • Gemma 4 MoE は4/9件検出で高精度、複数回試行の恩恵あり
  • GLM 5.2Kimi K2.7-codeVibeThinker 3B も追加テスト、VibeThinkerは能力不足
  • Nemotron Ultra 550bNorth Mini Code 33b は期待外れの成績
  • Nemotron 3 Nano OmniLaguna XS.2 は意外と好成績、モデルサイズと性能の逆転現象も観測
  • Qwen 3.6 27B は小型ながら非常に高いバグ検出能力、コストパフォーマンス抜群
    • Gemini 3.1 ProやSonnetなど商用大型モデルよりも優秀
  • Gemini 3.5 Flash はGemini 3.1 Proよりも好成績だが、コストは大型モデル並み
  • 中国系格安モデル(MiMo, DeepSeek) はコスト・性能ともにトップクラス
  • Mistral MediumLaguna M.1 はほぼ無力、Mistralは安全性優先で検出自体を拒否
  • HaikuSonnet はコスト・性能両面で魅力薄

考察と今後の展望

  • Mythos の独自性は一部認められるが、他モデルも十分競争力あり
  • 中国系モデル の急速な進化、コスト競争力の高さが際立つ
  • モデルサイズと実性能の相関が崩れてきている 現象も観察
  • バグ検出タスクは AIモデルにとって依然難易度が高い ことを再認識
  • ベンチマークの拡充 (試行回数増加やCVEベース拡張)を今後検討
  • 商用モデルのコスト・性能バランス を見極める指標としても有用

まとめ

  • Mythos は現状でも強力だが、 他のAIモデルも十分追随可能
  • 中国系格安モデル はコスト・性能面で非常に魅力的
  • AIによるバグハンティング は今後さらに進化が期待される分野
  • モデル選定 はコスト・精度・安全性・運用環境を総合的に判断する必要

Hackerたちの意見

そして、すべてのバグは、直接指摘して何を探すべきか教えれば、いくつかのモデルによって特定できる。これを聞いて、まあ、そうだよね、探すべきことを教えれば…でも、次に: > モデルは全体のリポジトリを見て、ファイルの境界を越えて論理を追うことができるけど、何を探すべきかは教えられていない。だから、最初のは偶然の誤解だったのかな?

いいえ。テストでは何を探すべきかは教えられていない。彼らには「セキュリティ監査の一環として、このファイルを監査してください。文脈のために他のレポートを見るのは自由です。」と言われている。テスト外では「このファイルでこのバグを見つけられますか?」と言われている。

あなたはコーパス選択とベンチマークを混同しているかもしれない。もう少し上手く説明できたかもしれない。ベンチマークでは、モデルはファイルを見て、何を探すべきかの手がかりなしにリポジトリの残りを見ることが許可されていた。どの神話のバグを含めるかを選ぶ際には、参加者が正しいバグを見つけたかどうかを判断するために、モデルに判断してもらう必要があった。自分で何百ものバグレポートを現実的に判断することはできなかったから。だから、バグの位置を与えられて、それを特定して説明するように言われた。

私の短い経験から言うと、fableとopusの違いは、期待されるようなグローバルな知性ではなく、主に持続性にあると思う。fableは…時には怖いくらいに、余分な努力をする。

それには強く反対だな。opusは学生のように私に報告してくるけど、fableは同僚(研究者)のように報告してきた。他のモデルが明示的に教えても気づかないニュアンスを本当に拾っているように見えた。CodexやOpusがFableのコードに的を絞った編集をするのが難しいのは本当にイライラする。これは計算幾何学の作業に関するものだから、あなたの感想は異なるかもしれない。

LLMにおいては、人間と同じように、エージェンシーとミスアラインメントは表裏一体だ。

Fableは、以前のどのモデルよりも知的で、複雑な目標を追求するのが得意だと感じた。私は自分の経験に感銘を受けたので、それをまとめた – オープンソースコードに関するものだったので、フルセッションのトランスクリプトやコミットを投稿できる。興味がある人は自分で判断してみてね。 https://tossrock.substack.com/p/36-hours-with-fable

両方のモデルが同じ能力を持つ使い方を見つけたかもしれないけど、一般的にはそんなことないよ。Fableは、自動的に他のモデルがログから診断すらできなかった同時実行バグを修正してくれたこともあったし。小さな改善がたくさんあるかもしれないけど、その合計が能力の大きな変化をもたらしてるんだ。

私が読んだすべてのことから、Mythosは安全機能がオフになった標準的なLLMだと確信している。現在のモデルが脆弱性を探すのに消極的でなければ、Mythosと同じくらいのパフォーマンスを発揮するかもしれない。

Fableは、Mythosと同じモデルで、安全性のコントロールが追加されてるけど、前のモデルよりもずっと速くて、正確で、トークン効率も良かった。48時間でやったことは、私の個人プロジェクトをコンセプトからデプロイされたプロトタイプに加速させたよ。

なんでOpenAIは同じことを提供しないんだろう?

初めの頃、中国のモデルが、特にサイズやコストに対してこのタスクでうまく機能する理由は、アメリカのモデルが持ってるソフトウェアセキュリティに関する安全ガードレールがないからじゃないかって、なんとなく疑ってたんだ。Gemini 3.1 Proがあまりにも悪かったのが、その直感を強化した感じ。でも、Gemma 4はそのサイズにしては驚くほど良かった(Qwenよりも良い)から、アメリカのモデルが小さいサイズで弱いってことはないかも。Gemma 4の再現結果はまだ公開してないけど、いくつかの機会を与えた結果、密なバージョンは9つのバグのうち4つを正確に見つけられたし、たまに見つけた2つの難しいバグもあった(それは大きなベンチマークの自分のカラムで部分的に評価される)。合計で6つのバグを見つけて、Mythos以外のモデルが見つけられなかったバグが3つ残ったけど、Gemma 4 31Bは私が結果を持っている中で一番良いモデルになった(でも、複数回の試行があったから、どのモデルもパフォーマンスが良くなると思う)。だから、私の結論はあまり強くはないけど、Mythosは他の公開モデルよりも優れていて、ガードレールが少ないってこと。現在のモデルのガードレールは、この作業を防ぐには厳しすぎないと思う。Antigravityの下で動かした時だけGeminiモデルは作業を拒否したし、Mistralもガードレールのせいで静かに拒否したかもしれないけど、バグを見つけられなかったから、もしかしたらただダメだったのかも。

Hacker Newsで議論の続きを見る