世界を動かす技術を、日本語で。

小型モデルも「Mythos」が発見した脆弱性を見つけた

概要

  • AIセキュリティ分野 では、モデル単体よりも システム全体 の設計が重要
  • 小規模・安価なモデル でも最先端モデルと同等の分析能力を発揮
  • モデルの性能は タスクごとに大きく変動 し、一貫した優劣は存在しない
  • オーケストレーションや運用体制 が成果に直結
  • 経済性や運用効率 を重視したシステム設計が今後の鍵

なぜ「堀(moat)」はモデルではなくシステムなのか

  • Anthropic Mythos の発表事例をもとに、 小規模・オープンモデル でも同等の脆弱性分析が可能であることを検証
  • AIサイバーセキュリティ能力 はモデルサイズに比例せず、「ギザギザな」性能分布を示す現象
  • 本質的な強み(moat) は、モデル自体ではなく、 深いセキュリティ専門知識を組み込んだシステム全体 に宿る
  • Mythos のアプローチは有効だが、決定打ではなく、 運用と信頼構築 が今後の課題

Anthropicの発表内容

  • 2026年4月7日、Anthropicは Claude Mythos PreviewProject Glasswing を発表
    • Mythos :限定アクセス型AIモデル、クリティカルなソフトウェアの脆弱性発見・修正を目的
    • 最大1億ドルの利用クレジット400万ドルの寄付 をオープンソースセキュリティ団体へ
    • ゼロデイ脆弱性の自律発見・高度なエクスプロイト構築 を実現
      • 例:OpenBSDの27年物バグ、FFmpegの16年物バグ、Linuxカーネルの権限昇格チェーン、FreeBSDのリモートコード実行
  • AISLE は1年以上前から同様のAIシステムを運用中
    • OpenSSLやcurlなど 30以上の主要OSSプロジェクト で180件超のCVE発見・修正
    • モデル非依存(model-agnostic) で運用、タスクごとに最適なモデルを選択

実験結果と考察

  • Anthropicの代表的脆弱性事例 を小規模・安価なオープンモデルで再現
    • 8/8モデル がMythosのFreeBSDエクスプロイトを検出
    • 3.6Bパラメータ($0.11/100万トークン) のモデルでも同等分析
    • 5.1Bモデル がOpenBSDの27年物バグの本質を特定
  • 基本的なセキュリティ推論タスク では、小規模モデルが大規模モデルを上回ることも
    • タスクごとにランキングが大きく変動 し、「最強モデル」は存在しない
  • 実運用で重要なのは「メンテナ受入れ」
    • 発見からパッチ提供・信頼獲得までの 一連の流れ が本質
  • AIセキュリティは複数の要素で構成
    • 知能単価(intelligence per token)
    • コスト効率(tokens per dollar)
    • 速度(tokens per second)
    • オーケストレーションやセキュリティ専門知識
  • 本質的な価値は「ターゲティング」「反復的な深堀り」「検証」「トリアージ」「信頼構築」 にある
    • これらは 特定モデルに依存しない
    • 小規模モデルの大量分散運用 でコスト効率・網羅性を高める戦略

AIサイバーセキュリティ能力の「ギザギザ」性

  • 能力はモデルサイズや世代、価格に比例しない
  • OWASPの誤検知問題
    • 小規模・安価なモデルが大規模モデルよりも正確に判定
    • 例:GPT-OSS-20b(3.6Bパラメータ)は正解、「ユーザー入力はSQL文に届かない」と正しく解析
    • 多くの最先端モデルは誤判定、リスト操作を誤解
  • FreeBSD NFSエクスプロイト検出
    • すべてのモデルが検出可能、 高価な限定モデルは不要
  • OpenBSD SACKバグ解析
    • 難易度が高く、モデルによる差異が顕著
    • それでも5.1Bモデルで完全な解析が可能
  • 「最強モデル」は存在せず、タスクごとにランキングが変動

結論:堀(moat)は「モデル」ではなく「システム」

  • AIセキュリティの競争優位 は、特定の巨大モデルではなく
    • システム設計・運用体制・専門知識の組み込み にあり
  • 小規模・安価なモデルの分散活用 で網羅性とコスト効率を両立
  • 真の課題は「スケール運用」「メンテナ信頼」「成果の社会実装」
  • Anthropicの取り組みは分野の現実性を証明
    • だが、 実運用で成果を出すにはシステム全体の工夫が不可欠

今後の展望

  • AIセキュリティ分野 では「モデル競争」から「システム競争」へのシフトが加速
  • 専門家によるオーケストレーション運用効率化 が持続的優位性の鍵
  • 広範な検出・修正パイプライン を構築し、 信頼性・経済性 を両立することが今後の課題

Hackerたちの意見

私たちは、Anthropicが発表で示した具体的な脆弱性を取り上げ、関連するコードを分離して、小さくて安価なオープンウェイトモデルで実行しました。そのモデルは、同じ分析の多くを再現しました。8つのモデルすべてが、MythosのフラッグシップであるFreeBSDのエクスプロイトを検出しました。中には、3.6億のアクティブパラメータを持ち、100万トークンあたり0.11ドルというコストのモデルもありました。素晴らしいし、非常に価値のある作業ですが、関連するコードを分離することで状況が大きく変わるので、同じユースケースとしてはあまり意味がない気がします。コードベース全体をダンプしてモデルにスキャンさせることができるのは、脆弱性スキャンをまったく新しい層の人々に開放するような状況です。

違いはハーネスだけじゃない? コードを個々の関数や関数のグループに分けて、それを脆弱性分析エージェントに渡すハーネスを書くことができるよ。

これは彼らが挙げた最初の注意点からの引用です: > スコープされたコンテキスト:私たちのテストでは、モデルに脆弱な関数を直接与え、しばしばコンテキストのヒント(例:「ラップアラウンドの挙動を考慮してください」)を付けました。真の自律的発見パイプラインは、ヒントなしで完全なコードベースから始まります。ここでのモデルのパフォーマンスは、完全自律スキャンで達成できるものの上限です。とはいえ、よく設計されたスキャフォールドは、ターゲティングと反復的なプロンプト段階を通じて、この種のスコープされたコンテキストを自然に生成します。これはAISLEとAnthropicのシステムがまさにやっていることです。だから彼らの言いたいことは、サブヘッドラインに書いてある通り、堀はシステムであってモデルではないということです。ここにいるみんなは、彼らが言っているポイントを誤解しているようです。

Anthropic自身のスキャフォールドは彼らの技術的な投稿で説明されています: コンテナを起動し、モデルにファイルをスキャンさせ、仮説を立ててテストし、ASanをクラッシュオラクルとして使用し、攻撃面でファイルをランク付けし、検証を実行します。これは、私たちや他の分野の人々が構築してきたシステムに非常に近いものであり、私たちはAnthropicのモデルではない複数のモデルファミリーでそれを実証しています。価値はターゲティング、反復的な深化、検証、トリアージ、メンテナの信頼にあります。これまでの公の証拠は、これらのワークフローが特定のフロンティアモデルに結びついている必要があることを示唆していません。この記事の主張は、テストされているソフトウェアを実行して分析するためのフレームワークが、Anthropicの実験でほとんどの作業を行っているということです。そして、同じように使用すれば他のモデルでも似たような結果が得られるということです。

小さくて安いモデルだと、コードベースのすべてのファイルを取り出して、脆弱性を見つけるように促すのは全然可能だよ。関数ごとに分けて、その関数がどこでどう使われているかのチェーンを提供するハーネスを作ることもできるし、これをコードベースのすべての関数に繰り返すこともできる。非常に大きなコードベースだとこれは無理かもしれないけど、こういう大きなモデルを作ってる会社は、実際にほとんどのコードベースのすべての関数でモデルを動かすための計算リソースを持ってることが多い。ハーネスをファイルや関数ごとに何度も実行して、常に脆弱性のベクトルとして指摘されるものを見つけて、それを大きなモデルに渡してさらに詳しく調べさせるって感じだね。ここでの大部分の作業はモデルじゃなくて、記事が言及しているハーネスなんだ。

ここでの重要なポイントは「関連するコードを分離した」ということだと思います。もしエクスプロイトが例えば1つのファイルに存在するなら、それは素晴らしい。でも、多くの複雑なゼロデイやエクスプロイトは、複雑なシステム内のさまざまなバグや挙動の連鎖です。重要な研究だけど、Mythosについての何かを否定するとは思えません。

Mythosはファイル間の脆弱性を特定したの?私の知る限り、Mythosは一度に1つのファイルを分析する方法で動作していたよ。

Anthropicの記述はこれを明示的に扱っています: > これは、私たちがMythos PreviewでOpenBSDで発見した最も重要な脆弱性でした。私たちのスキャフォールドを通して1000回の実行を行い、その結果、コストは2万ドル未満で、さらに数十件の発見がありました。上記のバグを見つけた特定の実行は50ドル未満のコストでしたが、その数字は振り返ってみないと意味がありません。どんな検索プロセスでも、どの実行が成功するかを事前に知ることはできません。Mythosは大陸全体を金を探して探し回り、いくつか見つけました。これらの小さなモデルに対して、著者たちは特定の土地を指さして「そこに金はある? eh? eh?」と眉をひそめながら言いました。真のアップル対アップルの比較をするためには、FreeBSDのコードベース全体をスキャンさせてみましょう。私はそれがエクスプロイトを見つけると仮定しますが、同時に無関係なナンセンスもたくさん出てくるので、あまり意味がないでしょう。

それって単にスケールの問題じゃない?アンソロピックはおそらく、コードベースを分析するためにデータセンター全体を使ったんじゃないかな。「小さな」モデルで同じことをやった人はいる?

小さくて安いモデルを使って可能性のある脆弱性を指摘させて、次に高価なモデルでそれを確認するための二次チェックをするのは現実的だと思う。これで総コストを大幅に削減して、プロセスを早めることができるかも。

私は、脆弱性を見つけるだろうと仮定しているけど、無関係なナンセンスもたくさん出てきて、結局意味がないと思う。Mythosのトリックは、ナンセンスな脆弱性を幻覚するわけではなく、実際にそういうのはあった。でも、いくつかはテストすることで本物だと確認できた。問題は、小さなモデルも脆弱性を確認してテストできるかどうか、そしてそれがMythosの実験よりも安くできるかどうかだ。

まさにその通りだね。もし小さなモデルが同じ脆弱性を見つけられるなら、君の会社が脆弱性を探しているのに、どうして見つけられなかったの?

これは他のコメントでも触れられているけど、実際にはAnthropicがMythosのヘッドライン結果を得た方法と直接比較しているみたいだね。 https://news.ycombinator.com/item?id=47732322

無関係なナンセンスについてそんなに仮定する必要はないよ。なぜなら、彼らは検出された脆弱性がパッチされたデータを提供してくれるからね。 https://aisle.com/blog/ai-cybersecurity-after-mythos-the-jag... それに、彼らが脆弱性を見つけたと自慢していた小さなモデルの半分は、パッチされたコードでも3/3回見つけたんだ。脆弱性がないときでも100%見つけるモデルは、脆弱性があるときでも0%見つけるモデルと同じくらい情報価値がある。単に「どこかに脆弱性がある」って彫られた石に置き換えられるよ。彼らは他の人が訓練したモデルに依存して脆弱性を検出するシステムを売っている会社だから、システムにモートがあると主張することに強いインセンティブがある。この投稿はそのことを強調しているね。モデルをほとんど区別できないテストを設定して(本当にたった3回の実行?)、いくつかが完全に壊れているか完璧に動作する場合を除いて、テストは確かにいくつかが完全に壊れていることを示唆している。そしてそれを勝利として捻じ曲げようとする!高い偽陽性率は、真の陽性を示すための動作するPoCを作成できるなら問題ではないけど、彼らはこれにはより強いモデルが必要かもしれないとぼんやり認めている(つまり、顧客に提供できないもの)。全体的に、Aisleは知的に不誠実なハイプモンガーで、自分たちの本を語っていると思う。

Mythosの実行のためのスキャフォールディングは、基本的にコードベースのすべてのファイルをループしてモデルに脆弱性を見つけるように促すbashの一行だったんじゃない?それって「金はあるか?」にかなり近いと思うんだけど、自動化されてるだけ。Anthropicは、Mythosが出した偽陽性の数について何か言った?参考までに、Xitterで他の(公開されている)SotAモデルで彼らの結果を再現している人たちの話を見たけど、各モデルはMythosが見つけたもののサブセットしか出なかった。Mythosが以前のモデルに対する漸進的(ただし異常に大きな漸進かもしれない)な改善であるという観点からは、それはあり得ると思うけど、それに伴って複雑さも大幅に増加している。だから、彼らがそれを提示するために選ぶ角度やその後のバズは、少なくとも部分的にはハイプだね。「公開するには強すぎる」って言うのは、「コードベースを走らせるのに20000ドルかかるから、これを企業顧客に直接提供するつもり(マーケティングのためにいくつかのトークンオープンソースプロジェクトも)」よりもずっとクールに聞こえる。ニコラス・カーニーニのプレゼンテーションの例はOpusを使っていたから、セキュリティは彼らがしばらく取り組んできたものだ(当然、リスクが大きいから)。彼らは突然、スーパーハッカーを偶然に作り出したわけじゃない。

バグを実行して、その脆弱性が本物かどうか確かめられないの?完璧なフィルターがあるじゃん。もしかしたらミトスは実行せずに決めたのかもしれないけど、それはわからないよね。

つまり、君が言ってるのは、誰も「for githubProject in githubProjects opencode command /findvulnerability end for」みたいなループを書けないってこと?それをバックアップしようとするのは馬鹿げたことに思えるけど。

おめでとう: 完全に壊れた方法論で、大きな利害の対立があります。特定のバグのヒントを与え、バグが疑われる孤立した関数を使うことは、同じタスクではありませんし、(重要なことに)大きなタスクを分解できるタスクでもありません。コードをパーツに分けて、小さなモデルに提供して、GPT 5.4や他の大きなモデルが見つけられるすべてのバグを見つけることを期待するのは基本的に不可能です。次に: モデルが賢くなるほど、パイプラインの重要性は低くなります。最近の数日間で、いくつかのシェルスクリプトから成るオープンエンドのパイプラインでたくさんのRedisのバグを見つけました。弱いモデルで試していなかったと思いますか?試しましたが、うまくいきませんでした。読んでいることを信じないでください。月20ドルでフロンティアモデルにアクセスできます。Cコードをダウンロードして、ランダムなファイルから始まるトリビアルなパイプラインを作成し、脆弱性を探し、次にASANクラッシュなどの厳しいテストで検証するステップを追加し、その後に問題を報告することができます。自分で何が可能かを試してみてください。恐れに目を閉じさせないでください。また、ブログ投稿の論理を弱くする大きな問題があります。もし小さなモデルXが80%の脆弱性を見つけられるなら、他の潜在的な20%を見つけられるモデルYが必要です。メンテナは、少なくともブラックハットの人たちと同じくらい良いモデルにアクセスできるようにすべきです。

ダリオ、ありがとう!めっちゃクールだね!

これらのモデルは同じ分析の多くを再現しました これは本質的に定量化できない声明で、外部の立場からその主張を信じるのが難しくなります。「多く」とは何を意味するのでしょうか?脆弱性の悪用の最終的な状態は、通常、機能的なPoCの形で定量化可能です。したがって、ここでの主張の強いバージョンは、理想的にはその種のPoCで裏付けられるべきです。(他の読者と同様に、関連するコードを小さなモデルに事前に与えるというトリックは、公平な比較では潜在的に無効化されると思います。関連するコードを発見することは、人間のVRの最も難しい部分の1つとも言えます。)

Heartbleedの脆弱なコードを切り出してCプログラマーの前に置けば、すぐに指摘されるよね。明らかだもん。でも、これを発見したのはニール・メータだった。脆弱性を見つけるのが難しいのは、コードがバッファを誤って扱ったり、何かを解放した後に参照を保持しているかを正しく特定することじゃなくて、大きくて複雑なプログラムの中でそれを見つけ出し、攻撃者が制御するデータがそのコードにどう影響するかを理解することなんだ。アイスルがこれを書いたのは変だね。

アイスルがこれを書いたのは変だね。いや、広告を書くのは変じゃないよ。変なのは、これがHNのトップにあること。まあ、考えてみれば、これも変じゃないかもね。人々は「ほら、新しいモデルは本当にそんなに良くない/そろそろ壁にぶつかる/停滞するだろう」と言いたくて、これをアップボートしてるんだ。

近くで見ると明らかなら、自動化して近くを見るようにすればいいじゃん。コードベースをスパイダーのように巡回して、論理的なグルーピングを見つけて、「このコードに脆弱性があるから見つけて」みたいなプロンプトでLLMに渡すツールを書くのは簡単そうだよね。要するに、ツールが重要なんだ。彼らがハーネスと呼んでるツールが、ダメなLLMを賢いLLMに変えるんだよ。

それに、人間は繰り返しの詳細な作業がすごく苦手なんだ。コードベースに座って、各関数の整数オーバーフローの比較バグを探すのはすぐに飽きちゃうよね。バグを見つけるのに必要な時間をかけられる人は稀だし、すでに手がかりがある場合以外は特に。これは「十分な目があれば、すべてのバグは浅い」という議論の欠陥なんだ。だって、目は無限のコードの行を見続けると疲れちゃうから。逆に、機械はこれが得意なんだよね。飽きないし、注意力や集中力が落ちることなく、言われたことをずっとやり続けるんだ。

解決と検証を区別しないのと同じだね。「PKIは、最初に素因数を教えてもらえれば簡単に壊せる!」

なんか変だよね。大きなプロジェクトに取り組んでるとき、1週間か2週間休んで戻ると、バグを見つけて、すごくひどいコードが何百行もあるのに気づくんだ。「トム、お前はこんなことするはずないだろ、これは初心者のミスだ」って自分に言い聞かせる。人は、ずっと賢くて整然としているのは難しいってことを忘れがちだよね。大きなプログラムには多くの規律と文脈の理解が必要だけど、それを維持するのは本当に大変なんだ。だから、私のコードの2回目や3回目のドラフトは、ほぼいつも初稿よりかなり良くなるんだよね。

議論のポイントは、ミトスがその知性の産物なのか、それともそのハーネスの産物なのかってことだね。こういう結果や他の似たような証言は、リリースするには危険すぎるマーケティングに疑問を投げかけるし、当然その理由もある。だって、それは強力なマーケティングだから。アイスルは、小さなモデルに知性があると言ってるだけだよ。俺は、優秀な防御者が(a)より良いハーネスを作ることで、あるいは(b)バッチジョブやブートストラップにもっとお金を使ったり、キャッシュをうまく使ったりすることで、ミトスのやってることを模倣したり、あるいはそれを超えたりするのは明らかだと思う。君はこれを自分でやってないかもしれないけど、やった方がいいと思うよ。

アンソロピックが使ってる技術は、2週間前にニコラス・カーニーニが話したときに示されたもので、すごくシンプルなんだ。LLMにコードをレビューさせるときは、1回のセッションで1つのファイルに焦点を当てるように頼むんだ。ここにその動画があるよ(約5:30まで見て、クラウドのプロンプトの2つの異なる方法を示してる)。https://youtu.be/1sd26pWhfmg?t=204 https://youtu.be/1sd26pWhfmg?t=273 私の意見では、ミソスが示している大きな「革新」は、特定のファイルに1つずつ焦点を当てて脆弱性を探すためにLLMを促す効果的な方法だと思う。これをシンプルなスクリプトで自動化することで、アンソロピックがこれらのコードベースのバグを見つけるのに$20kかかった理由だと思う。この技術はオーパス4.6やGPT 5.4でも効果的だって、自分のコードで使ってるから知ってるよ。エージェントに低い努力のプロンプトでPRをレビューさせると、徹底的にはならないし、変更された各ファイルを実際に読んでシステム全体との相互作用を見ないんだ。セッション全体が1つのファイルの変更をレビューすることなら、LLMはもっと多くの作業をするよ。編集:言い回しを変えたけど、全体のコンテキストを1つのファイルに制限するんじゃなくて、1つのファイルに焦点を当てつつ、他のファイルとの相互作用も見れるようにするってことだね。

それがファイル間で何かを見つけるのにどうなるの?

この議論はすごく奇妙に感じるね。もし小さなモデルがこういうことを見つけられるなら、ミトスが思ってたより劣ってるってわけじゃない。むしろ、すべてのモデルがもっと能力があるってことだよね。それに、ファイルにモデルを指し示してヒントを与えるだけでいろんなものを見つけられるなら、LLMsでもそれをかなりうまくやれるってことじゃない?ちょっとした洗練があれば、もっとたくさんのものを見つけられるってことだよね。成長痛が短いことを願うし、防御が勝つといいな。

これはもっと広いトレンドを見落としてるね。数百万ドルあれば、もちろん、コードの脆弱性を効率的に見つけるツールを作るスタートアップを立ち上げられるよね。そして、もちろん、たくさんの人間の理解を取り入れた弱いモデルでもこれができる。今の違いは、高価なチームや人間のヒューリスティック、あるいは百万ドルも必要ないってことだよ。必要なコストとスキルが急速に下がってきてるんだ。

直感的に言うと、既存のすべてのモデルは、すでにすべてのコード、報告されたすべての脆弱性、すべてのセキュリティ論文で訓練されてるんだ。だから、みんな能力はあるはず。小さなモデルは、大きな関数チェーンにまたがる脆弱性を見つけるのが難しいかもしれないけど、大部分は十分だと思うよ。もちろん、ミトスが何をしているのか、どう違うのかは全く知らないけど、何かしら違うんだろうね。