世界を動かす技術を、日本語で。

小型モデルも「Mythos」が発見した脆弱性を見つけた

2026年4月12日原文(aisle.com)

概要

  • AIセキュリティ分野 では、モデル単体よりも システム全体 の設計が重要
  • 小規模・安価なモデル でも最先端モデルと同等の分析能力を発揮
  • モデルの性能は タスクごとに大きく変動 し、一貫した優劣は存在しない
  • オーケストレーションや運用体制 が成果に直結
  • 経済性や運用効率 を重視したシステム設計が今後の鍵

なぜ「堀(moat)」はモデルではなくシステムなのか

  • Anthropic Mythos の発表事例をもとに、 小規模・オープンモデル でも同等の脆弱性分析が可能であることを検証
  • AIサイバーセキュリティ能力 はモデルサイズに比例せず、「ギザギザな」性能分布を示す現象
  • 本質的な強み(moat) は、モデル自体ではなく、 深いセキュリティ専門知識を組み込んだシステム全体 に宿る
  • Mythos のアプローチは有効だが、決定打ではなく、 運用と信頼構築 が今後の課題

Anthropicの発表内容

  • 2026年4月7日、Anthropicは Claude Mythos PreviewProject Glasswing を発表
    • Mythos :限定アクセス型AIモデル、クリティカルなソフトウェアの脆弱性発見・修正を目的
    • 最大1億ドルの利用クレジット400万ドルの寄付 をオープンソースセキュリティ団体へ
    • ゼロデイ脆弱性の自律発見・高度なエクスプロイト構築 を実現
      • 例:OpenBSDの27年物バグ、FFmpegの16年物バグ、Linuxカーネルの権限昇格チェーン、FreeBSDのリモートコード実行
  • AISLE は1年以上前から同様のAIシステムを運用中
    • OpenSSLやcurlなど 30以上の主要OSSプロジェクト で180件超のCVE発見・修正
    • モデル非依存(model-agnostic) で運用、タスクごとに最適なモデルを選択

実験結果と考察

  • Anthropicの代表的脆弱性事例 を小規模・安価なオープンモデルで再現
    • 8/8モデル がMythosのFreeBSDエクスプロイトを検出
    • 3.6Bパラメータ($0.11/100万トークン) のモデルでも同等分析
    • 5.1Bモデル がOpenBSDの27年物バグの本質を特定
  • 基本的なセキュリティ推論タスク では、小規模モデルが大規模モデルを上回ることも
    • タスクごとにランキングが大きく変動 し、「最強モデル」は存在しない
  • 実運用で重要なのは「メンテナ受入れ」
    • 発見からパッチ提供・信頼獲得までの 一連の流れ が本質
  • AIセキュリティは複数の要素で構成
    • 知能単価(intelligence per token)
    • コスト効率(tokens per dollar)
    • 速度(tokens per second)
    • オーケストレーションやセキュリティ専門知識
  • 本質的な価値は「ターゲティング」「反復的な深堀り」「検証」「トリアージ」「信頼構築」 にある
    • これらは 特定モデルに依存しない
    • 小規模モデルの大量分散運用 でコスト効率・網羅性を高める戦略

AIサイバーセキュリティ能力の「ギザギザ」性

  • 能力はモデルサイズや世代、価格に比例しない
  • OWASPの誤検知問題
    • 小規模・安価なモデルが大規模モデルよりも正確に判定
    • 例:GPT-OSS-20b(3.6Bパラメータ)は正解、「ユーザー入力はSQL文に届かない」と正しく解析
    • 多くの最先端モデルは誤判定、リスト操作を誤解
  • FreeBSD NFSエクスプロイト検出
    • すべてのモデルが検出可能、 高価な限定モデルは不要
  • OpenBSD SACKバグ解析
    • 難易度が高く、モデルによる差異が顕著
    • それでも5.1Bモデルで完全な解析が可能
  • 「最強モデル」は存在せず、タスクごとにランキングが変動

結論:堀(moat)は「モデル」ではなく「システム」

  • AIセキュリティの競争優位 は、特定の巨大モデルではなく
    • システム設計・運用体制・専門知識の組み込み にあり
  • 小規模・安価なモデルの分散活用 で網羅性とコスト効率を両立
  • 真の課題は「スケール運用」「メンテナ信頼」「成果の社会実装」
  • Anthropicの取り組みは分野の現実性を証明
    • だが、 実運用で成果を出すにはシステム全体の工夫が不可欠

今後の展望

  • AIセキュリティ分野 では「モデル競争」から「システム競争」へのシフトが加速
  • 専門家によるオーケストレーション運用効率化 が持続的優位性の鍵
  • 広範な検出・修正パイプライン を構築し、 信頼性・経済性 を両立することが今後の課題

Hackerたちの意見

私たちは、Anthropicが発表で示した具体的な脆弱性を取り上げ、関連するコードを分離して、小さくて安価なオープンウェイトモデルで実行しました。そのモデルは、同じ分析の多くを再現しました。8つのモデルすべてが、MythosのフラッグシップであるFreeBSDのエクスプロイトを検出しました。中には、3.6億のアクティブパラメータを持ち、100万トークンあたり0.11ドルというコストのモデルもありました。素晴らしいし、非常に価値のある作業ですが、関連するコードを分離することで状況が大きく変わるので、同じユースケースとしてはあまり意味がない気がします。コードベース全体をダンプしてモデルにスキャンさせることができるのは、脆弱性スキャンをまったく新しい層の人々に開放するような状況です。

違いはハーネスだけじゃない? コードを個々の関数や関数のグループに分けて、それを脆弱性分析エージェントに渡すハーネスを書くことができるよ。

これは彼らが挙げた最初の注意点からの引用です: > スコープされたコンテキスト:私たちのテストでは、モデルに脆弱な関数を直接与え、しばしばコンテキストのヒント(例:「ラップアラウンドの挙動を考慮してください」)を付けました。真の自律的発見パイプラインは、ヒントなしで完全なコードベースから始まります。ここでのモデルのパフォーマンスは、完全自律スキャンで達成できるものの上限です。とはいえ、よく設計されたスキャフォールドは、ターゲティングと反復的なプロンプト段階を通じて、この種のスコープされたコンテキストを自然に生成します。これはAISLEとAnthropicのシステムがまさにやっていることです。だから彼らの言いたいことは、サブヘッドラインに書いてある通り、堀はシステムであってモデルではないということです。ここにいるみんなは、彼らが言っているポイントを誤解しているようです。

Anthropic自身のスキャフォールドは彼らの技術的な投稿で説明されています: コンテナを起動し、モデルにファイルをスキャンさせ、仮説を立ててテストし、ASanをクラッシュオラクルとして使用し、攻撃面でファイルをランク付けし、検証を実行します。これは、私たちや他の分野の人々が構築してきたシステムに非常に近いものであり、私たちはAnthropicのモデルではない複数のモデルファミリーでそれを実証しています。価値はターゲティング、反復的な深化、検証、トリアージ、メンテナの信頼にあります。これまでの公の証拠は、これらのワークフローが特定のフロンティアモデルに結びついている必要があることを示唆していません。この記事の主張は、テストされているソフトウェアを実行して分析するためのフレームワークが、Anthropicの実験でほとんどの作業を行っているということです。そして、同じように使用すれば他のモデルでも似たような結果が得られるということです。

小さくて安いモデルだと、コードベースのすべてのファイルを取り出して、脆弱性を見つけるように促すのは全然可能だよ。関数ごとに分けて、その関数がどこでどう使われているかのチェーンを提供するハーネスを作ることもできるし、これをコードベースのすべての関数に繰り返すこともできる。非常に大きなコードベースだとこれは無理かもしれないけど、こういう大きなモデルを作ってる会社は、実際にほとんどのコードベースのすべての関数でモデルを動かすための計算リソースを持ってることが多い。ハーネスをファイルや関数ごとに何度も実行して、常に脆弱性のベクトルとして指摘されるものを見つけて、それを大きなモデルに渡してさらに詳しく調べさせるって感じだね。ここでの大部分の作業はモデルじゃなくて、記事が言及しているハーネスなんだ。

ここでの重要なポイントは「関連するコードを分離した」ということだと思います。もしエクスプロイトが例えば1つのファイルに存在するなら、それは素晴らしい。でも、多くの複雑なゼロデイやエクスプロイトは、複雑なシステム内のさまざまなバグや挙動の連鎖です。重要な研究だけど、Mythosについての何かを否定するとは思えません。

Mythosはファイル間の脆弱性を特定したの?私の知る限り、Mythosは一度に1つのファイルを分析する方法で動作していたよ。

Anthropicの記述はこれを明示的に扱っています: > これは、私たちがMythos PreviewでOpenBSDで発見した最も重要な脆弱性でした。私たちのスキャフォールドを通して1000回の実行を行い、その結果、コストは2万ドル未満で、さらに数十件の発見がありました。上記のバグを見つけた特定の実行は50ドル未満のコストでしたが、その数字は振り返ってみないと意味がありません。どんな検索プロセスでも、どの実行が成功するかを事前に知ることはできません。Mythosは大陸全体を金を探して探し回り、いくつか見つけました。これらの小さなモデルに対して、著者たちは特定の土地を指さして「そこに金はある? eh? eh?」と眉をひそめながら言いました。真のアップル対アップルの比較をするためには、FreeBSDのコードベース全体をスキャンさせてみましょう。私はそれがエクスプロイトを見つけると仮定しますが、同時に無関係なナンセンスもたくさん出てくるので、あまり意味がないでしょう。

それって単にスケールの問題じゃない?アンソロピックはおそらく、コードベースを分析するためにデータセンター全体を使ったんじゃないかな。「小さな」モデルで同じことをやった人はいる?

小さくて安いモデルを使って可能性のある脆弱性を指摘させて、次に高価なモデルでそれを確認するための二次チェックをするのは現実的だと思う。これで総コストを大幅に削減して、プロセスを早めることができるかも。

私は、脆弱性を見つけるだろうと仮定しているけど、無関係なナンセンスもたくさん出てきて、結局意味がないと思う。Mythosのトリックは、ナンセンスな脆弱性を幻覚するわけではなく、実際にそういうのはあった。でも、いくつかはテストすることで本物だと確認できた。問題は、小さなモデルも脆弱性を確認してテストできるかどうか、そしてそれがMythosの実験よりも安くできるかどうかだ。

まさにその通りだね。もし小さなモデルが同じ脆弱性を見つけられるなら、君の会社が脆弱性を探しているのに、どうして見つけられなかったの?

Hacker Newsで議論の続きを見る