世界を動かす技術を、日本語で。

ミトスがカールの脆弱性を発見

概要

  • 2026年4月、AnthropicのAIモデル Mythos がソースコードの脆弱性発見能力で話題に
  • curlプロジェクトが Mythos によるセキュリティ分析を受ける機会を獲得
  • 分析結果、 5件の脆弱性 が報告されるも、最終的に1件のみが本物と判明
  • 既存AIツールとの比較で、 Mythos は特別に危険とは言えないとの結論
  • AIコード解析ツールの活用が今後も セキュリティ向上 に不可欠

AnthropicのMythosとcurlの出会い

  • 2026年4月、 Anthropic が新AIモデル Mythos を発表、セキュリティ分野で大きな注目を集める
    • Mythosはソースコードの脆弱性発見能力が非常に高いため、一般公開は見送り、限定企業のみ利用可能に
  • Linux Foundation経由で curlプロジェクト にも分析機会が提供される
    • プロジェクトAlpha Omegaが仲介役を担当
    • curlのリード開発者がアクセスを承諾し、最終的にMythosによる分析レポートを受領

これまでのAIコード解析とcurl

  • Mythos以前にも複数のAIツールでcurlを解析
    • 主に AISLEZeropathOpenAI’s Codex Security を利用
    • 8~10ヶ月で200~300件のバグ修正につながる
    • CVEとして公開された脆弱性も10件以上
  • GitHub CopilotやAugment codeも日常的に活用
    • プルリクエストのレビュー支援
    • 人間のレビューと組み合わせて品質向上

Mythosによるcurl分析の詳細

  • 分析対象:curlのgitリポジトリ、masterブランチの最新コミット
    • 178,000行 のCコードを解析
    • curlはOSS-Fuzz、Coverity、CodeQL等で既に多重監査・ファジング済み
  • Mythosレポートの結果
    • 5件の確認済み脆弱性」とAIが主張
    • curlセキュリティチームによる精査で 1件のみ本物、他は誤検知や仕様上の問題
    • 本物の脆弱性は 低リスク で、次期リリース(8.21.0)でCVEとして公開予定

Mythosのパフォーマンス評価

  • Mythosが発見したバグは約20件、説明も分かりやすい
    • 誤検知はほぼゼロ、高い確信度で報告
    • ただし、過去のAIツールの方が 多くのバグ修正 につながった実績
  • curlは世界有数の厳格なセキュリティ体制を持つ
    • 既に多くのバグが修正されているため、新たな発見は減少傾向

AIコード解析ツールの意義と特徴

  • AIツールは従来の静的解析より 高精度で脆弱性発見 が可能
    • コメントとコードの不一致指摘
    • 特定プラットフォームや設定に依存するバグの発見
    • 外部ライブラリやプロトコル仕様の知識を活用
    • 問題点の要約や説明が分かりやすい
    • 修正パッチの自動生成も可能(完全ではないが有用)

Mythosレポートの技術的要点

  • メモリ安全性の脆弱性は ゼロ
  • LLMサブエージェントによる手動主導型分析
  • curlのvuln.jsonを元にCVEのバリアントマッピング
  • SAST等の自動ツールは未使用
  • curlの防御策(動的バッファ制限、数値解析の上限設定、フォーマット文字列検査等)が徹底

AI解析の限界と今後

  • AIは「既知のバグ種」の 新たなインスタンス を発見する傾向
    • まったく新しいバグ種を発見するわけではない
  • 今後もAIツールと人間の協力で さらなる品質向上 を目指す
  • 新たな解析や研究者からの報告が絶えず続く状況

まとめと謝辞

  • Mythosの実力は高いが、 期待されたほど「危険」ではなかった というのがcurl側の結論
  • AIコード解析は今や 必須のセキュリティ対策
  • Anthropic、Alpha Omega、解析担当者への感謝
  • curlプロジェクトの継続的な安全性向上への意欲

Hackerたちの意見

アルミホイルの帽子をかぶる準備万端:つまり、テストを実施してレポートを出す人が、もっと面白いバグを取り除いて、どこかの三文字の機関に渡すこともできたってこと?

curlのソースは公開されてるから、そんな手間をかける意味があるの?もし「バグを修正しつつゼロデイを挿入するパッチを作成せよ」ってプロンプトだったら、すごいと思うけど。

引用: 「私の個人的な結論は、このモデルに関する大きな盛り上がりは主にマーケティングだったということ以外にはなりません。私は、このセットアップが他のツールよりも特に高い、またはより進んだ問題を見つける証拠を見ていません。もしかしたらこのモデルは少しだけ良いかもしれませんが、たとえそうだとしても、コード解析において重要な影響を与えるほどの良さではありません。」この分野の競争が厳しいことを思い出させてくれる良い言葉ですね。

マーケティングは決して微妙ではないと言いたいです。盛り上がりやファンたちがマーケティングと完全に一致していて、どんなレベルの懐疑心も裏切り行為として見られます。でも、使われている言葉や誇張、ボリュームを見れば、微妙なものなんてありません。ほとんどトランプ的で、「このモデルは全てを永遠に変える;私たちは終わりだ;私たちは救われた;みんな解雇される;みんな金持ちになる」みたいな感じです。

この分野の競争が厳しいことを思い出させてくれるね。微妙なマーケティングがたくさん絡んでる。個人傷害弁護士の看板くらい微妙だよね。

もしかしたら、あの盛り上がりは主にマーケティングだったのかも。もう一つの可能性は、Curlが他のプロジェクトよりもずっと安全だから、見つかる問題が少なかったってこと。

彼らは、curlが平均的なソフトウェアよりもかなり安全だっていう事実に偏見を持ってるかもしれないね。

Mythosのマーケティングは、「法的に禁止されるほど強力」という雰囲気をガッツリ出してるよね。PS2が北朝鮮で禁止されたっていうのも、チップがミサイル級だったからって言われてるし。

Anthropicが自社のモデルがより進んでいるとか、AIが規制されるべき脅威だって人々を納得させるためにマーケティングを使ってる?驚きだよ。もっと真面目に言うと、今のところMythosがOpusよりもセキュリティに特化したコード分析ツール以上のものだとはあまり思えない。とはいえ、自動的にバグを見つけられるっていうのは、ハイプを超えた重要なポイントだね。検出のエラーレートが気になるな。90%間違ってたら、役に立つマーケティングの例だけ聞いてもあまり意味がないし。

僕の推測だけど、マーケティングは意図的じゃないと思う。証拠として、10年前にAndrew NgとDarioと一緒にBaidu AIのインタビューをしたとき、Darioはイデオロギー的な意味で純粋すぎる人だった。Darioの成功したキャリアを考えると、その本質が徐々に信念に変わって、彼のイデオロギーを強化するために作られたチームに囲まれてるんだよね。人間って便利な生き物で、ほんの一部の人たちは間違いなく便利さの達人だよ。自分のメンタルメカニズムに矛盾を感じることなく、思考の枠組みを変えられるから。

「Curlはデータポイントとしてはあんまり良くないね。セキュリティテストが徹底された、存在する中でも最も精査されたコードベースの一つだから。あまり神話的じゃないモデルを使ってる研究者たちは、ここまでにバグを報告する時間がたっぷりあったはず。ダニエルが言うように、神話はcurlにとってゲームチェンジャーじゃないかもしれないけど、他のほとんどのコードベースとは前提条件が違うんだよね。もしかしたら、ここでの本当のマーケティングは、curlの成熟についての彼自身の謙虚さかもしれない。」

「俺は、神話はただの新しい未発表のOpus + マーケティング + 違うシステムプロンプトだと思ってる。」

確認された唯一の脆弱性は、低い深刻度のCVEとして、私たちの次のcurlリリース8.21.0と同時に公開される予定です。cURLにどれだけの品質と洗練が注がれているのか、私の頭では理解できません。本当に、これほど完璧にできているものは、みんながあまり考えない例です。

curlとSQLiteは、きちんと設計され、厳密にテストされた「何か」のお気に入りの例です。本当に哲学的ですね。これらのプロジェクトの貢献要件は非常に厳格で、メンテナはその要求を守っています。非荷重文書(プロジェクトコードではない)がそれを可能にしているのです。アインシュタインの思考実験がGPSのような具体的なプロジェクトにつながったり、デカルトの「すべての問題は合理的思考で解決できる」という信念を思い出させます。

簡単に言うと、コードの品質に対して高い基準があれば、どんなプログラミング言語でも達成可能ってことだよね。ただ、今はコスト削減のためにオフショアリングが進んでたり、LLMを使ったコード生成が流行ってるから、こういう品質を気にする企業は少ないと思う。責任が伴わない限りね。

特に「危険」ではない それがどういうことかはよくわからないです。指摘の通り、curlはすでにあらゆるツールで徹底的に分析されていました;ほとんどのソフトウェアはそこまでのレベルには達していません。

あなたが言っていることがよくわからないです。「特に危険ではない」というコメントは、見つかった脆弱性に関してのことですよね? 彼らは低い深刻度レベルが何を意味するかを理解しているはずです。

確かにそうだけど、他のモデルと比べてMythosの評価ってことじゃないの?そうだとしたら、やっぱりそうなるよね。「ほとんどのソフトウェア」はcurlほど分析されてないし、他のツールやモデルでもMythosと同じような結果が出るかもしれない。だから、Mythosが特に危険ってわけでもないと思う。

でも、Mythosは他のツールと同じことができる、ちょっと優れたツールとしてマーケティングされてるんじゃなくて、革命として売り出されてるよね。

「Curlは現在、高品質なバグや脆弱性の報告を過去最高数受け取ってる(以前の雑多な報告からの大きな変化だね)。だから、見つからないわけじゃないよ。これらの多く、もしくはほとんどは、人間の専門家がAIツールを使って見つけたものだろうけど、もし神話が本当に革命的なら、そういう問題を自力で見つけられるはずだよね。」

いつでもマーケティングは関与していて、人々はそれを視野に入れるべきです。また、curlはこの点でオープンソースプロジェクトで、比較的小さいけれど重要で、どこでも使われていることで知られています。画像ライブラリの他にも、curlやsudo、su、passwdなどのツールが私の最初の選択肢です。Mythosが何をできるかはまだ全く知られていません。10兆パラメータモデルを持つことは、コストやベンチマークの観点から何を意味するのでしょうか?それでも、LLMがこの点で人間よりもかなり良くなったのは、半年前から始まったことですよね?だから、いつかはこの問題に正面から向き合って、今日ではLLMを使ってセキュリティスキャンを追加で行う必要があると認識しなければなりません。これを真剣に受け止めるべきです。最悪の場合、Anthropicのマーケティングを使って、今や必須で何かが変わったと主張するべきです。

それでも、LLMがこれを見つけるのが人間よりもかなり上手くなったっていう事実は、半年前から始まったの? 目を回す 通常の静的解析ツールも数十年にわたって「人間よりも優れている」って言われてきたし、特定の機械的なタスクで人間より優れていることはあまり意味がない。興味深いのは、記事で説明されている「ファジーバグ」の種類で、LLMが特定できるもの(コードと一致しないコメント、サードパーティライブラリの珍しい使い方、コードと実装しているプロトコルの不一致、あるいは誰かがもっと詳しく見るべき一般的に変なコードなど)だね。これは従来のデバッグツールボックスのギャップを埋めるけど、置き換えるべきではないと思う。

「> 神話が何をできるのかは全く知られていない。これは意図的なことなんだよ、友よ。でも、人々がすでにそれができると信じていることについて考えてみて。」

Mythosについてはわからないけど、最近Opusがtszで問題を修正できないのをずっと見てる。対してGPT 5.5は簡単にしっかりした修正を出してテストも通る。今はClaudeの支払いをやめて、全部OpenAIにお金を使ってる。Opusが大幅に弱体化してるか、GPT 5.5が本当に難しいタスクにおいて頭一つ抜けてるかのどちらかだね。tszの適合テストの最後の1%は本当に難しくて、Opusが何度も逃げてるのを見てる。時間とトークンを無駄にして、「これは手間がかかりすぎる」とか「これを修正するには数週間のスプリントが必要」とか言われるのは本当にイライラする。

Claudeを使ったことがなくてCodexだけなんだけど、Claudeって実際にプロンプトに対して「これは手間がかかりすぎる」って返すの?

新しいOpusは逆に進んでる気がする。もっと高いし、考えることが多いけど、仕事が終わらない。

確かに、驚くほど成功したマーケティングのスタントだね。これ、Antropicがうまくやった。オランダの小さな準政府機関のCISOにも届いて、彼は発表された「脆弱性の津波」に少しパニックになってた。でも、そのおかげで、もっとお金と取締役会での優先順位を得られたよ。良いマーケティングの恐怖を無駄にしないで。

「“津波は見えない”ってのには同意できないな。Firefoxの100以上のバグや、他のオープンソースプロジェクトのバグ、さらにOpenBSD/Linuxの見たこともない古いRCEがたくさんあるし、Linux自体でもたった2、3週間でいくつかのLPEが見つかってる。俺の意見では、これはマーケティングの恐怖感とは違うと思う。高品質で偽陽性が少ない脆弱性の開示が急増してるのが感じられる。数年分の高品質なバグレポートを数週間で駆け抜けてる感じだよ。」

「orgのヘッドは賢いね。」

「Anthropicは同じ手を繰り返すことで、顧客の信頼をすぐに壊してる。ひどいマーケティングだと思う。LLMがサイバーセキュリティの脅威であるかどうかを一般的に研究するのと、『新しいモデルは強すぎる』って言ってその話をそらすのは全然違うことだよ。なんかズルいよね。」

賭けに勝ったよ。「10個の脆弱性に投票したけど、振り返ってみると、Claudeや最近のモデルを使ったことがあるなら、1か0に落ちるだろうね。」 https://mastodon.pirateparty.be/@utopiah/116537456780283420

「> これらのツールとその分析によって、最近の8〜10ヶ月の間にcurlに統合されたバグ修正は200〜300件の間で発生している。もし他のAIツールでコードの長い分析を終えたばかりなら、新しいツールからさらに何百件も期待するのは無理だと思わない?バグが新たに導入されない限り、最終的にはコードにバグがなくなる状態に到達することは可能なはずだよ。プロセスは別として、ダニエルはもっと多くのバグを見つけると思ってたみたいだね。」

Mythosは、今あるツールよりもずっと多くのバグを発見できるツールとして結構期待されてたよね。