ミトスがカールの脆弱性を発見

2026年5月11日原文(daniel.haxx.se)

概要

2026年4月、AnthropicのAIモデル Mythos がソースコードの脆弱性発見能力で話題に
curlプロジェクトが Mythos によるセキュリティ分析を受ける機会を獲得
分析結果、 5件の脆弱性 が報告されるも、最終的に1件のみが本物と判明
既存AIツールとの比較で、 Mythos は特別に危険とは言えないとの結論
AIコード解析ツールの活用が今後も セキュリティ向上 に不可欠

AnthropicのMythosとcurlの出会い

2026年4月、 Anthropic が新AIモデル Mythos を発表、セキュリティ分野で大きな注目を集める
- Mythosはソースコードの脆弱性発見能力が非常に高いため、一般公開は見送り、限定企業のみ利用可能に
Linux Foundation経由で curlプロジェクト にも分析機会が提供される
- プロジェクトAlpha Omegaが仲介役を担当
- curlのリード開発者がアクセスを承諾し、最終的にMythosによる分析レポートを受領

これまでのAIコード解析とcurl

Mythos以前にも複数のAIツールでcurlを解析
- 主に AISLE、 Zeropath、 OpenAI’s Codex Security を利用
- 8～10ヶ月で200～300件のバグ修正につながる
- CVEとして公開された脆弱性も10件以上
GitHub CopilotやAugment codeも日常的に活用
- プルリクエストのレビュー支援
- 人間のレビューと組み合わせて品質向上

Mythosによるcurl分析の詳細

分析対象：curlのgitリポジトリ、masterブランチの最新コミット
- 約 178,000行 のCコードを解析
- curlはOSS-Fuzz、Coverity、CodeQL等で既に多重監査・ファジング済み
Mythosレポートの結果
- 「 5件の確認済み脆弱性」とAIが主張
- curlセキュリティチームによる精査で 1件のみ本物、他は誤検知や仕様上の問題
- 本物の脆弱性は 低リスク で、次期リリース（8.21.0）でCVEとして公開予定

Mythosのパフォーマンス評価

Mythosが発見したバグは約20件、説明も分かりやすい
- 誤検知はほぼゼロ、高い確信度で報告
- ただし、過去のAIツールの方が 多くのバグ修正 につながった実績
curlは世界有数の厳格なセキュリティ体制を持つ
- 既に多くのバグが修正されているため、新たな発見は減少傾向

AIコード解析ツールの意義と特徴

AIツールは従来の静的解析より 高精度で脆弱性発見 が可能
- コメントとコードの不一致指摘
- 特定プラットフォームや設定に依存するバグの発見
- 外部ライブラリやプロトコル仕様の知識を活用
- 問題点の要約や説明が分かりやすい
- 修正パッチの自動生成も可能（完全ではないが有用）

Mythosレポートの技術的要点

メモリ安全性の脆弱性はゼロ
LLMサブエージェントによる手動主導型分析
curlのvuln.jsonを元にCVEのバリアントマッピング
SAST等の自動ツールは未使用
curlの防御策（動的バッファ制限、数値解析の上限設定、フォーマット文字列検査等）が徹底

AI解析の限界と今後

AIは「既知のバグ種」の 新たなインスタンス を発見する傾向
- まったく新しいバグ種を発見するわけではない
今後もAIツールと人間の協力で さらなる品質向上 を目指す
新たな解析や研究者からの報告が絶えず続く状況

まとめと謝辞

Mythosの実力は高いが、 期待されたほど「危険」ではなかった というのがcurl側の結論
AIコード解析は今や 必須のセキュリティ対策
Anthropic、Alpha Omega、解析担当者への感謝
curlプロジェクトの継続的な安全性向上への意欲

Hackerたちの意見

アルミホイルの帽子をかぶる準備万端：つまり、テストを実施してレポートを出す人が、もっと面白いバグを取り除いて、どこかの三文字の機関に渡すこともできたってこと？

└

curlのソースは公開されてるから、そんな手間をかける意味があるの？もし「バグを修正しつつゼロデイを挿入するパッチを作成せよ」ってプロンプトだったら、すごいと思うけど。

引用: 「私の個人的な結論は、このモデルに関する大きな盛り上がりは主にマーケティングだったということ以外にはなりません。私は、このセットアップが他のツールよりも特に高い、またはより進んだ問題を見つける証拠を見ていません。もしかしたらこのモデルは少しだけ良いかもしれませんが、たとえそうだとしても、コード解析において重要な影響を与えるほどの良さではありません。」この分野の競争が厳しいことを思い出させてくれる良い言葉ですね。

└

マーケティングは決して微妙ではないと言いたいです。盛り上がりやファンたちがマーケティングと完全に一致していて、どんなレベルの懐疑心も裏切り行為として見られます。でも、使われている言葉や誇張、ボリュームを見れば、微妙なものなんてありません。ほとんどトランプ的で、「このモデルは全てを永遠に変える；私たちは終わりだ；私たちは救われた；みんな解雇される；みんな金持ちになる」みたいな感じです。

└

この分野の競争が厳しいことを思い出させてくれるね。微妙なマーケティングがたくさん絡んでる。個人傷害弁護士の看板くらい微妙だよね。

└

もしかしたら、あの盛り上がりは主にマーケティングだったのかも。もう一つの可能性は、Curlが他のプロジェクトよりもずっと安全だから、見つかる問題が少なかったってこと。

└

彼らは、curlが平均的なソフトウェアよりもかなり安全だっていう事実に偏見を持ってるかもしれないね。

└

Mythosのマーケティングは、「法的に禁止されるほど強力」という雰囲気をガッツリ出してるよね。PS2が北朝鮮で禁止されたっていうのも、チップがミサイル級だったからって言われてるし。

└

Anthropicが自社のモデルがより進んでいるとか、AIが規制されるべき脅威だって人々を納得させるためにマーケティングを使ってる？驚きだよ。もっと真面目に言うと、今のところMythosがOpusよりもセキュリティに特化したコード分析ツール以上のものだとはあまり思えない。とはいえ、自動的にバグを見つけられるっていうのは、ハイプを超えた重要なポイントだね。検出のエラーレートが気になるな。90%間違ってたら、役に立つマーケティングの例だけ聞いてもあまり意味がないし。

└

僕の推測だけど、マーケティングは意図的じゃないと思う。証拠として、10年前にAndrew NgとDarioと一緒にBaidu AIのインタビューをしたとき、Darioはイデオロギー的な意味で純粋すぎる人だった。Darioの成功したキャリアを考えると、その本質が徐々に信念に変わって、彼のイデオロギーを強化するために作られたチームに囲まれてるんだよね。人間って便利な生き物で、ほんの一部の人たちは間違いなく便利さの達人だよ。自分のメンタルメカニズムに矛盾を感じることなく、思考の枠組みを変えられるから。

└

「Curlはデータポイントとしてはあんまり良くないね。セキュリティテストが徹底された、存在する中でも最も精査されたコードベースの一つだから。あまり神話的じゃないモデルを使ってる研究者たちは、ここまでにバグを報告する時間がたっぷりあったはず。ダニエルが言うように、神話はcurlにとってゲームチェンジャーじゃないかもしれないけど、他のほとんどのコードベースとは前提条件が違うんだよね。もしかしたら、ここでの本当のマーケティングは、curlの成熟についての彼自身の謙虚さかもしれない。」

└

「俺は、神話はただの新しい未発表のOpus + マーケティング + 違うシステムプロンプトだと思ってる。」

Hacker Newsで議論の続きを見る

ハクソク