世界を動かす技術を、日本語で。

プロジェクトグラスウィング:初回アップデート

概要

  • Project Glasswing は、AIによるソフトウェアセキュリティ向上を目指す共同プロジェクト
  • Claude Mythos Preview を活用し、世界中の重要ソフトウェアから多数の深刻な脆弱性を発見
  • 脆弱性の発見速度が向上した一方、 検証・開示・修正 が新たなボトルネックに
  • オープンソースや主要インフラへの影響と、今後の対応策を解説
  • サイバー防御の新たな課題と適応策 についても提言

Project Glasswingの進捗と初期成果

  • Project Glasswing は、AI技術を活用し、世界で最も重要なソフトウェアのセキュリティ強化を目的とした取り組み
  • 50社のパートナー と連携し、 Claude Mythos Preview で1万件以上の高リスク脆弱性を発見
  • 従来は脆弱性の発見が進捗の制約要因だったが、現在は 検証・開示・修正作業 が新たなボトルネック
  • 公開情報は 90日ルール (発見から90日後に開示)に則り、ユーザー保護を優先
  • パートナー企業(例:Cloudflare、Mozilla、Oracleなど)で バグ発見率が10倍以上 に向上

Mythos Previewの性能と外部評価

  • Cloudflare では2,000件のバグ(うち400件が高リスク)を発見、誤検知率も人間より低水準
  • UK AI Security InstituteMozillaXBOW など第三者機関からも高評価
  • ExploitBenchExploitGym といった学術ベンチマークでも最高性能を記録
  • Palo Alto NetworksMicrosoftOracle などでパッチ配布のスピードが大幅向上
  • 金融機関での 不正送金防止 など、他分野のセキュリティにも応用実績

オープンソースソフトウェアへの影響

  • Anthropic は過去数ヶ月で1,000以上のオープンソースプロジェクトをスキャン
  • 6,202件 の高・重大リスク脆弱性を特定、1,752件を外部セキュリティ企業が精査
    • そのうち90.6%が真の脆弱性、62.4%が高・重大リスクと判定
  • 例: wolfSSL (世界中で利用される暗号ライブラリ)で証明書偽造を可能にする脆弱性を発見・修正
  • 修正作業のボトルネックは 人的リソース であり、報告・パッチ設計・配布に時間を要する
  • パッチ済み脆弱性はまだ少数だが、今後増加見込み

脆弱性トリアージと開示プロセス

  • 発見脆弱性は 外部専門家または自社で再現・再評価
  • 実在が確認された場合、既存修正の有無をチェックし、詳細レポートを作成
  • オープンソース開発者の負担増加に配慮し、 開示速度の調整直接開示 も実施
  • これまでに 530件 の高・重大リスク脆弱性を開示、75件がパッチ済み
  • パッチ数が少ない理由は、開示から修正までの 90日ルール や非公開パッチ、セキュリティ業界全体の処理能力不足

サイバーセキュリティの新たな課題と適応策

  • Mythos Preview レベルのAIモデルが今後広く利用可能になる見通し
  • 脆弱性発見からパッチ適用までの タイムラグ が攻撃リスクを拡大
  • 開発者・利用者は パッチサイクル短縮アップデート促進 が必須
  • ネットワーク防御担当者 は、パッチテスト・展開の迅速化や多要素認証・ログ管理など基本対策の徹底が重要
  • Anthropicは AI活用のツールや研究成果 も公開予定

まとめと今後の展望

  • AIの進化 により、ソフトウェア脆弱性発見が劇的に加速
  • 修正・パッチ適用の効率化が今後の最大課題
  • ソフトウェア業界全体での 協調的な対応 と、 AI技術の積極活用 が不可欠
  • Project Glasswingは今後も 詳細な技術分析やツール提供 を継続予定

Hackerたちの意見

今日は楽しい一日だったよ。deepseek-v4-flashのサブエージェントを使って、AF_ALGが無効でnscdがオンのシステム用にdirty fragのパッチを作ったんだ。ルートアクセスを得るためにね。元々公開されてたエクスプロイトはうまくいかなかったけど、パッチを当てたやつはバッチリ動いた。俺は、十分な知能を持った100のサブエージェントがmythosと同じ結果を出せるって信じてるんだけど、実際にmythosを試したらその意見が崩れるかもしれないな。他の人たちもmythosを試したことがあると思うよ。

それは多分そうだね。でも、100のサブエージェントを使うってなると、運用コストが1時間あたり100ドルになるし、Mythosは脆弱性を見つけるのに2万ドルかかるから、問題は「もっと馬鹿なモデルでもできるのか?」じゃなくて、Mythosでエクスプロイトを見つけるのに5000 GPU時間かかるとしたら、もっと馬鹿なモデルだとどれくらいのGPU時間がかかるのかってことだね。

今日はCodex Securityを使ってみるといいよ。実験的にオンにしたら、1週間も経たないうちにみんなにとって欠かせないものになった。どれだけ正確かに驚いたし、既存のコードにどれだけのセキュリティ問題が見つかったか、コミットするたびにどんどん見つかるし、誰もがこういうミスをするんだってことに気づかされた。俺たちにとっては約90%の精度だね。「Low」の発見でも掘り下げてみると、実は悪用できることが多い。誰でもミスをするんだよ。最もジュニアな人からシニアな人までね。結局、バグの一種だから。これからはこういうツールが開発ライフサイクルの一部になると思う。AIでコードを書いて、AIでレビューして、AIで脆弱性を探す。完璧じゃなくても、コストに見合う価値はあると思う。自分のリポジトリ用に何かを早めに有効にすることを強くおすすめするよ。

gpt-5.5-cyberをオーケストレーターにして、deepseek-v4-flashや他の速くて安いモデルをワーカーとして使うセットアップを試してみることをおすすめするよ。このセットアップでかなり良い結果が出てる。

同じ経験をしたよ。UIがちょっと分かりづらいんだけど、5回スキャンできるって書いてあるけど、1回のスキャンはリポジトリのデフォルトブランチの継続的な監視なんだ。高インパクトの発見はほとんどが的確だった。特に驚いたのは、高品質なドキュメントが生成されることと、提案される修正がどれだけ具体的かってこと。Codexはもっと多くのコードを生成することが多いけど、セキュリティモデルは頻繁に10行未満の修正を提案して、正確な場所を狙ってる。本当に良いと思う。ベータ版が終わったらかなり高くなると思うけど、ビジネスとしてはこれに飛びつくべきだね。

これからはこういうツールが開発ライフサイクルの一部になると思う。AIでコードを書いて、AIでレビューして、AIで脆弱性を探す。完璧じゃなくても、コストに見合う価値はあると思う。じゃあ、これはどう機能するの?Claude Codeがセキュリティバグを生成して、Claude Securityがそれを見つけて、Claude Codeが修正を生成して、トークンを使って利益を得るってこと?

PEファイルを扱う多くのセキュリティツールの依存関係として使われているプロジェクトのメンテナンスを手伝ってるんだけど、AnthropicとOpenAIがオープンソースのメンテナンス用プログラムへの応募に対して全く反応しなかったのは残念だね。私の視点から見ると、彼らのオファーは主に有名なプロジェクト向けで、月に数百万のインストールがあるけど、人気ツールの依存関係として「隠れている」ために何千ものスターを得られないプロジェクトにはあまり関心がないように見える。

LLMの一つの問題は、「安全性」の名のもとに余計なコードを追加して、昔は役立ったけど今は標準ライブラリで正しく処理されているものを自信満々に生成することだと思う。コードに関しては「少ない方が良い」という意見なので、こういうトレンドにはちょっとイライラしてる。どうやってこの落とし穴を避ける?

どれだけ正確か、既存のコードでどれだけ多くのセキュリティ問題を見つけたか、コミットするたびにどうやってそれを見つけ続けているか、そして誰もがこういうミスをすることから免れないっていうのに驚いたよ。毎日不安定なコードをプッシュしてるって、スキルだよね!

mythosに関しては、ただの公的なモデルでガードレールもないっていうシニシズムが多いけど、これを見てほしい: 「1,752の高評価またはクリティカル評価の脆弱性が、6つの独立したセキュリティ研究会社のうちの1つによって慎重に評価されました。これらのうち、90.6%(1,587)は実際に有効な真のポジティブであり、62.4%(1,094)は高またはクリティカルな重大度として確認されました。」opus、codex、またはossモデルを使って脆弱性スキャンを行った人には、真のポジティブ率と発見量が明らかに変わったことが分かるはず。Glasswingの約50のパートナーは、ほとんどが他のモデルでハーネスを運用していて、「うわ、すごい」と言っている。今の質問は、アクセスの第2、第3フェーズがどのようになるか、どのシステムクラスを保護するかを決めることだ。ルーター、ファイアウォール、SaaS、ERPシステム、工場のコントローラー、SCADAシステム、ゼロトラストVPNゲートウェイ、通信機器やネットワーク、医療機器など、やるべきことがたくさんある。だから、mythosは当面プライベートのままだと思う。保護すべき面が広すぎて、トリアージ、修正、展開することが多すぎる。これはAnthropicにとっても、プライベートモデルは蒸留できないから都合がいいかも。発見、トリアージ、修正データからのモデル改善の効果もあるし、これはおそらく今まで集められた中で最も強力な攻撃データのコーパスだと思う。中国の企業がすぐにアクセスできるとは思えないし、今後も無理だろうね。CISAが監査を義務付ける世界がすぐに来ると思うし、mythos-proofのVPNゲートウェイや家庭用ルーターを買うにはアメリカ製を買わなきゃならないだろうね。

これが私が神話が当面プライベートのままであると信じる理由です。守るべき大きな面があって、トリアージや修正、デプロイすることがたくさんあるんです。はぁ、GPT-2の頃を思い出します - OpenAIが「人類はまだ準備ができていない」と言ってモデルへのアクセスを制限した最初の時でした。そのモデルは詩を書くのが得意でした。それ以来、OAI/ANTからのモデル発表で似たような言葉を使わなかったものは一つも覚えていません。いわゆるモデル発表のリークはマーケティングであり、それが危険だというのもマーケティング、世界がそれに対して準備ができていないというのもマーケティングです。そして、アクセスを与えられた人たちが「おお、すごい」と言っているのも、信じるかどうかは別として、マーケティングです。すべてがマーケティングです。すでに一般に利用可能なトップ5/10のモデルから同じ結果を得ることができます。神話はAnthropicが新しいアイデアを売るための方法で、前のものは民主化されてしまったからです。

アメリカのセキュリティ会社に外注できない理由がわからないな。

脆弱性の発見、トリアージ、修正データからのモデル改善の効果もある。これはおそらく、これまでに集められた中で最も強力なキュレーションされた攻撃データのコーパスで、さらに良くなっていくだろう。ただ、そのデータのコーパスはアメリカの競合他社にもアクセス可能だから、再現できないとは思わない。CVEとパッチの注釈付きデータは十分にあると思うし(Mythosのおかげで増えてるし)、このシナリオに特化した強化学習をすれば、Mythosにアクセスしなくても脆弱性を見つけるモデルのパフォーマンスを向上させられるんじゃないかな。

今、私が気にしているのは、GitHubから盗まれた3800のリポジトリの脆弱性を修正することだけだよ。「インターネットを作るソフトウェアの脆弱性」よりも、「そのソフトウェアがリリースを行うために使うプラットフォーム」の方が優先度が高い。もしその内部リポジトリの購入者がGitHubに侵入して、ソフトウェアのリリースを妨害したり、遠隔でGitHub Actionsを悪用したりする方法を見つけたら、私たちはとんでもないことになる。3800のリポジトリの中には、npmjs.org自体も含まれている可能性が高いことを忘れないで。

もしまだ静的解析やリンターをコードベースに適用していないなら(多くの人がそうだと思うけど)、高価なLLMツールを使う理由は何なのか考えてみて。静的ツールではキャッチできない脆弱性を見つけることができるかもしれないけど、私たちはすでに一般的な脆弱性の大部分を自動的にキャッチする能力を持っているのに、それを選ばないことが多いのは、たいていコストのせい。すでにいくつかの分析やリンティングを行っているチームが、さらにこれを追加したいなら、頑張って!

静的解析はしばしば多くの誤検知を示すことがある。もっと賢いツールがあれば、限られたエンジニアリングの時間を無駄にしない助けになるかも。

もしまだ静的解析やリンターをコードベースに適用していないなら 静的解析ツールではキャッチできないビジネスロジックに多くの問題があるから。

私たちは、消費者向けのフロンティアモデルを使って「lexploits」と呼ばれるものを法務テックで開発していて、統合パイプライン全体でバグを見つけるのが驚くほど得意なんです。しかも、それらを軽減するのも意外と上手い!セキュリティの脆弱性は一つのことだけど、法務では「知識のセキュリティ」という概念を提供していて、エージェントの法的文脈の信頼性を守ることに関わっています。ソフトウェアのバグは、ソフトウェアエンジニアによって管理されているので、扱いやすいように思えますが、パイプラインの「脆弱性」は見つけるのが難しいです。ここで、法的文書が実際にはどうなっているかについて少し書きました:https://tritium.legal/blog/noroboto こういった知識の領域は今日もたくさん露出しています。これらは、ほとんどが非技術的な人々によって管理されているため、より懸念されます。神話は必要ありません。

私はそれを信じません。これが見つける多くのものは、単に間違っていて、脆弱性が実際に悪用される可能性をコードの上層や下層が埋めているにもかかわらず、無邪気に真実として報告されています。これはパフォーマンスとセキュリティのトレードオフでもあります。常にそうです。セキュリティの目的で追加のチェックや他の対策を実施する必要があります。いつものように素晴らしいマーケティングですが、多くの人が持っているバラ色の見方は、実際には的外れなように思えます。

記事では、すべての脆弱性が実際にエンドツーエンドで悪用可能で、1000以上が独立してクリティカルとして確認されていると書いてあるよ。これらは手の届かない脆弱性じゃないんだ。

何が発見されたか正確に知りたいなら、https://red.anthropic.com/2026/cvd/を見てみるといいよ。

特に、これがOAI/Anthropicのやり方で何年も続いていることを考えるとね。

これまでの理解では、Mythos(そして一般的なモデル)は候補となる推論を生成できるけど、その推論を基に監査可能なセキュリティの発見を生み出すシステムが必要なんだよね。成功はモデルだけじゃなくて、その周りに作られたハーネスからも来てると思う。Cloudflareの投稿はその点で詳しかったし、他の人たちももっと共有してくれたらいいのに。Ciscoの仕様も面白いね、ほぼハーネスのアーキテクチャを説明してる感じだよね。https://github.com/CiscoDevNet/foundry-security-spec

anthropicのアップデートやここでのいくつかの盛り上がったコメントと、curlのメンテナーであるダニエル・スタインバーグからの最近のフィードバックをどう調和させるか分からないな。「このセットアップ(Mythos)が、他のツールがMythosの前にやってきたのと比べて、特に高いまたはより進んだレベルで問題を見つける証拠は見当たらない。もしかしたらこのモデルはちょっとだけ良いかもしれないけど、たとえそうでも、コード分析において重要な影響を与えるほどの良さではない。」って言ってるし。https://daniel.haxx.se/blog/2026/05/11/mythos-finds-a-curl-v...

人によって経験が違っても矛盾はないよね。もしかしたらcurlのソースコードは最初からかなりクリーンだったのかも?

ダニエルは何ヶ月(何年?)も、セキュリティ研究者やさまざまな自動ツールからどれだけの scrutiny を受けているかについて投稿してるよ。curlがMythosの平均的なケースになるとは思えないな。

curlにはもっと多くの目が向けられていて、もっと多くのツールが使われていて、99%のソフトウェアよりもよくテストされて(開発されて?)いるから、これは普通じゃないよね。それが何か関係しているなら驚かないけど、バイアスがあるかどうかは分からないし、単に彼が正しい可能性もある。

その通り、これは有効なデータポイントだよ。でも、イギリス政府の報告もデータポイントだし、Firefoxの報告もデータポイントだし、どちらも現在のモデルよりもかなり優れていることを示唆してる。もしかしたら、curlは他のプロジェクトよりもかなり堅牢に作られてるのかもね?いずれにせよ、あまり重要じゃない気がする。Anthropicも認めてるけど、次世代モデルが出てくるし、彼らのはそのうちの一つに過ぎない。現行モデルは、複雑なシステム内のデータフローを追跡するのが得意だし、その能力が限界に達したとは思えない。だから、1年以内に商業的に利用可能なモデルが複数出てくる可能性が高いと思う。一方で、これらの問題に対する解決策を設計する進展はあまり見られないみたいだね。

彼はすでにCodex Securityや他のAIツールでコードベースをスキャンして、200〜300のバグやCVEを修正したんだ。それに加えて、Mythosがさらに1つのバグと1つのCVEを見つけたのはすごいことだよ。

でも、ダニエルのポイントを誤解してる人もいると思う。彼の記事全体の文脈で見ると、一般的にツールはセキュリティバグを見つけるのがかなり良くなってきてるんだけど、ダニエルはMythosが特に大きなステップかどうかは使用状況からは不明だったみたい。でも、Mythos世代のLLMは確実に進化してるよ。ただ、ダニエルはMythosを少し間接的に使ってたことに注意してね。Mythosの議論から得たことの一つは、a) AnthropicのGPUの処理能力の関係で、Mythosのアクセスを制限しなきゃいけないと感じてたんじゃないかと思うから、一般的にリリースするかどうかの計算もそれに影響されてたんじゃないか、b) Mythosや似たようなモデルでバグを見つけるのはまだ高価だってこと。Curlでの20Kドルや100KドルのMythosの実行は、Firefoxのような他のプロジェクトと同じレベルの問題を示したかもしれないけど、ダニエルはそんなアクセスを得られなかったんだ。彼は今日LinkedInで一般的なアップデートを投稿していて、より広い文脈を提供してると思うよ。 > この#curlリリースサイクルの途中で、すでに11の確認された脆弱性がある - さらに3つの評価待ちのものがあり、新しい報告が1日1件以上のペースで届いている。 > 1回のリリースで11のCVEが発表されたのは、2016年の初のセキュリティ監査(Cure 53による)以来の記録だ。 > これは、私が経験した中で最も激しい#curlの時期だと思う。

アンスロピックのアップデートをどう解釈すればいいのか分からないな…なんでだろう?TFAでは「すべての深刻度の23,000件の発見」があるって言ってるのに、結局発表されたセキュリティアドバイザリーは88件だけ。実際に知りたいのは、同じ期間にミソスの発見に関係ないセキュリティアドバイザリーがいくつ発表されたかだよね。もしそれが例えば500件(適当に数字を作ったけど)だったら、TFAのアンスロピックのアップデートとダニエル・スタインバーグのコメントは整合するんじゃない?つまり、新しいエクスプロイトを見つけるためのツールができたってことだよね。それはツールで、新しいものだし、前からツールはあったし。ソフトウェアの世界をもうちょっと安全にしようぜ。もしその期間に100件のセキュリティアドバイザリーが発表されて、そのうち88件がアンスロピックのミソスによるものだって言われたら、ダニエル・スタインバーグの立場とTFAを整合させるのは難しいって言わざるを得ないな。

こういったバグを修正する際のボトルネックは、人間がトリアージ、報告、パッチの設計と展開を行う能力だ。最初に見つけるのは、Mythos Previewのおかげでかなり簡単になった。これがずっとボトルネックだった。自動化ツールは脆弱性を見つけるのが得意だけど、ほとんどが誤検知だ。これらは人間によってトリアージされ、評価される必要がある。これでいいと思う。慎重にレビューした後に誤検知を閉じる方が、見逃すよりはマシだからね。人間をボトルネックとして呼び出すのは適切じゃないと思う。彼らはプロセスの重要な部分だし、Mythosもそのプロセスの触媒になるはずだよ。

10年前に人間の修正がほとんどの脆弱性排除のボトルネックだったわけじゃないよ。脆弱性を証明するのは、それを解決するよりもずっと難しかったからね。