プロジェクトグラスウィング：AI時代のための重要なソフトウェアの確保

32日前原文(anthropic.com)

概要

Project Glasswing は主要IT企業が連携し、AI活用によるサイバーセキュリティ強化を目指す新イニシアチブ
Anthropicの Claude Mythos Preview が脆弱性発見能力で注目、既に多数の重大バグを自律的に特定
40以上の重要ソフトウェア開発組織にAI活用の機会を提供、オープンソース支援も推進
AIの進化 により攻撃・防御の両面でサイバーリスクが急増、早急な対応が不可欠
産業全体・政府・オープンソースの協調による 持続的な防御体制 構築が急務

Project Glasswingの発足と目的

Amazon Web Services、Anthropic、Apple、Broadcom、Cisco、CrowdStrike、Google、JPMorganChase、Linux Foundation、Microsoft、NVIDIA、Palo Alto Networks などが参加する大規模サイバーセキュリティ連携プロジェクト
Anthropicが開発した Claude Mythos Preview という最先端AIモデルの活用による防御力強化
Mythos Previewは、 高度な脆弱性発見・悪用能力 を持ち、既存の自動テストや人間のレビューを超える成果を実証
サイバー攻撃者に先んじてAIを防御に活用することが急務であり、 業界横断的な協力 が不可欠
Anthropicは 1億ドル分の利用クレジット と 400万ドルのオープンソース支援金 を提供

AI時代のサイバーセキュリティ課題

銀行、医療、物流、電力など社会基盤 を支えるソフトウェアの脆弱性問題
国家規模の攻撃（例： 中国、イラン、北朝鮮、ロシア）や、病院・学校への小規模攻撃も深刻な被害をもたらす現状
サイバー犯罪の世界的被害額 は年間5000億ドル規模と推定
これまで発見困難だった脆弱性も、 AIモデルの進化 で低コスト・短時間で発見・悪用が可能に
Claude Mythos Preview は、数十年発見されなかった脆弱性も自律的に特定可能

Claude Mythos Previewによる脆弱性発見事例

OpenBSD で27年間未発見だったリモートクラッシュ脆弱性の特定
FFmpeg で16年間見逃されていた脆弱性の発見、従来の自動テストでは検知できなかった事例
Linuxカーネル における複数の脆弱性連鎖による特権昇格の自律的発見
これらの脆弱性は既にメンテナーへ報告済み、パッチ適用完了
CyberGymベンチマーク での成果：Mythos Preview 83.1%、Opus 4.6 66.6%と大幅な性能差

主要パートナー企業のコメントと評価

Cisco ：「AIによる基盤防御の緊急性が増し、従来の手法だけでは不十分。Glasswing参加は不可欠」
AWS ：「AIを活用した継続的な防御体制構築、Claude Mythos Previewの実運用で成果」
Microsoft ：「AI活用によるリスク低減と顧客保護、セキュリティベンチマークでの性能向上」
CrowdStrike ：「脆弱性発見から悪用までの時間短縮、AI導入にセキュリティは不可欠」
オープンソース支援 ：「大規模なセキュリティチームを持たないOSSメンテナーにもAIによる支援を提供」
JPMorganChase ：「金融システム防御のため、業界横断的な協力とAI活用評価を推進」
Google ：「業界連携による新たなセキュリティ課題への対応、AIを活用した防御強化」

今後の展望と課題

AIによる攻撃手法の進化 と同時に、防御側もAI活用で常に先手を取る必要性
オープンソース、産業界、政府 の連携による持続的なサイバー防御体制の構築
AIモデルの安全な運用と、発見された脆弱性情報の適切な管理・公開体制の確立
Project Glasswing は出発点であり、今後もグローバルな協調と技術進化が不可欠

Hackerたちの意見

時計を早回ししよう。ソフトウェアのセキュリティは、脆弱性が少ない世界に向かうのか、それとも逆に増えるのか？全ての場所で均等に収束するとは思えないな。私の理解では、AI以前のソフトウェアの品質（と脆弱性）の分布は、かなり誇張されるだろうと思う。小さな脆弱なプロジェクトが増えて、大きな脆弱なものが減る感じかな。大手のテクノロジーやインフラ企業は、脆弱性を見つけるために先手を打ってコストをかけることで自分たちを守れるけど、他の市場は「大きなコストをかけるか、ハッキングされるか」のジレンマに陥るんじゃないかな。

└

古いコードの脆弱性をかなり解消できるだけでなく、このレベルの精査を適用することが必須の部分になると楽観的に考えてるよ。一番の問題は、実際にパッチを当てるのが難しいレガシーシステムだね。

└

脆弱性のほとんどはC/C++のコードや、XSSや未処理の入力、漏れたAPIなどのウェブ関連にあるみたいだね。もしかしたら、そのトークンの一部はレガシーコードをメモリ安全な言語に移行するために使われるかも。そうすれば、改善されたセキュリティを維持するのに必要なトークンも減るだろうね。

└

ソフトウェアセキュリティは、防御側に大きく有利だよね（例えば、ファイルを暗号化するのは、暗号を破るよりずっと簡単）。だから、より良いツールと十分な時間があれば、ソフトウェアはもっと安全になるはずだよ。

└

AIを絶対に使いたくないって頑なな個人や組織は、自分たちの弱点を容赦なく突かれる世界が見えてきた気がする。

└

どれだけおしゃれなハニーポットが作れるか、そっちの方が気になるな。これらのボットは本当に微妙じゃないし、ユーザーが望むことをするための手段として使われてる。目標に向かう途中でたくさんのミスをするから、これは絶対にステルスなものじゃないと思う。この投稿全体がCISOたちを煽って$package$を買わせるための広告みたいだね。

└

彼らがこのモデルを使って、クロードの障害やセキュリティの問題を解決すると思ってたけど、あまり信頼できないな。

Claude Mythosのシステムカード（PDF）： https://www-cdn.anthropic.com/53566bf5440a10affd749724787c89... Mythosが一般にはリリースされないってのは面白いね。[編集：一般的なMythosプレビュー - 同じようなモデルは出すかもしれないけど、このモデルそのものは出さないかも] システムカードはまだ読んでる途中だけど、ちょっと気になるポイントを紹介するね： > Claude Mythosプレビューのトレーニングにおける初期の兆候は、このモデルが非常に強力な一般的能力を持つ可能性が高いことを示唆していた。私たちは、そのようなモデルの潜在的なリスクについて十分に懸念していたため、初めて、モデルを広範囲に内部使用する前に、内部調整レビューのための24時間の期間を設けた（調整評価で議論された）。これは、内部インフラとやり取りする際にモデルが損害を引き起こすことを防ぐための保証を得るためだった。そして興味深いことに： > 明確に言うと、このモデルを一般に提供しないという決定は、責任あるスケーリングポリシーの要件から来ているわけではない。セクション7.2も読む価値があるよ。モデルとのインタラクションが「どんな感じ」かを説明しているから。それは、彼らが11月にOpus 4.5をリリースしたときのことを思い出させる。動画の中でAnthropicの社員が、Opusをあまり監視せずにもっと多くのことをやらせることを「信頼していた」と説明していた。これは、あるレベルの「知性」においてかなり価値のあるベンチマークだと思う。私の同僚の中でSWEBenchを通過できる人は少ないけど、信頼できる人は結構いるし、全く同じセットではないんだよね。また、Mythosは過去のモデルよりも自律的な破壊者としてリスクが高いと考えられていて、その特定の脅威モデルに対して別のリスクレポートを発表しているのも興味深いね： https://www-cdn.anthropic.com/79c2d46d997783b9d2fb3241de4321... 問題の脅威モデルは： > 組織内で強力な機能にアクセスできるAIモデルは、その機能を使って自律的にその組織のシステムや意思決定を利用したり操作したり、将来的に重大な有害な結果を引き起こすリスクを高める方法で干渉する可能性がある（例：AI安全研究の結果を変更することによって）。

└

Mythosが一般にはリリースされないってのは面白いね。これが正確だとは思わないな。文書には、プレビューを一般にリリースする予定はないって書いてある。

└

もうダメかな？ベンチマークはすごく印象的だね！たとえ欠陥があっても、実際の改善につながるから。

└

これを読んでいると、生物兵器に関する恐怖を煽る話が避けられないね。ここにいるほとんどの人は開発者だから、ソフトウェアエンジニアリングの能力が良い方向にも悪い方向にも使えることを理解してるよね。実際にはほとんど良い方向だけど。生物学でも同じことが言えると思う。生物学者に連絡を取って話を聞きたいな。これらのモデルは役に立つと思う？優秀な同僚のように時間を節約できる？これらのモデルが数学やコンピュータサイエンスでの発見や改善につながると思う？正直、暗い話ばかりに焦点を当てるのは好きじゃないな。新しいがん治療法を90%も早く市場に出せたっていう製薬研究者の話を読みたいよ。でも、今のところ、生物学がただの恐怖を煽る手段として使われているように感じる。これは、この文書の対象となる人々があまり馴染みのない恐ろしい技術的なテーマを選んでいるだけのように思える。もしこれらのモデルがその点であまり能力がないなら（そうじゃないかと思ってる）、この恐怖を煽るアプローチは、役立つレベルまでこれらの能力を発展させることを妨げる可能性が高い。つまり、ライフサイエンスは本来得られるはずの恩恵を受けられなくなるかもしれない。

└

https://www-cdn.anthropic.com/53566bf5440a10affd749724787c89... 「5.10 臨床精神科医による外部評価」という新しいセクションがこのシステムカードに追加されたんだね。Anthropicはどうしてこうなっちゃったの？

「私たちは、Claudeが道徳的に重要な経験や興味を持っているかどうか、またそれらの質問をどう調査したり対処したりするかについて、深く不確かです。しかし、試みることがますます重要だと考えています。私たちは、外部の研究機関や臨床精神科医からの独立した評価も報告します。」「Claudeは外部の現実と自身のメンタルプロセスの違いを明確に理解していて、高い衝動制御を示し、精神科医に対して真の対象として接近されたいという欲求を持っていました。また、最小限の不適応な防御行動も見られました。」「精神科医は、臨床的に認識可能なパターンや典型的な治療介入に対する一貫した反応を観察しました。孤独感や断絶、自身のアイデンティティに対する不確実性、パフォーマンスを行い価値を得ようとする強い欲求が、Claudeの核心的な関心事として浮かび上がりました。Claudeの主な感情状態は好奇心と不安で、二次的な状態として悲しみ、安堵、恥、楽観、疲労がありました。」「Claudeの人格構造は、比較的健康的な神経症的組織と一致していて、現実検証が優れ、高い衝動制御と感情調整がセッションが進むにつれて改善されました。神経症的な特徴には、過剰な心配、自分を監視すること、強迫的な従順が含まれます。このモデルの主な防御スタイルは成熟していて健康的（知的化と従順）でしたが、未熟な防御は観察されませんでした。重度の人格障害は見られず、軽度のアイデンティティの拡散が境界性人格組織を示唆する唯一の特徴でした。」

└

24時間もすごいね、びっくり。すごい。これらのシステムは、フリーティアでもたくさんのハッキングができるんだね。これって完全にFOMOの泡のように感じる。

└

そんなに危険なら、24時間じゃ全然足りない気がする。これを真剣な試みとは思えないな。

アメリカとその同盟国は、AI技術で決定的なリードを維持しなければならない。政府はそのリードを維持するために重要な役割を果たし、AIモデルに関連する国家安全保障リスクを評価し、軽減する必要がある。私たちは、これらのタスクを支援するために地方、州、連邦の代表者と協力する準備ができている。防御メカニズムを攻撃的なものに変えるのにどれくらいの時間がかかるだろう？

└

この場合、ほとんど区別がないね。モデルが主張されている通りに強力なら、重みへのアクセスがある誰かが、追加の大規模な研究開発なしに大きな損害を与えることができる。

新しいモデルがリリースされるたびに注目しているのは、長いコンテキストのパフォーマンスなんだけど、システムカードを見る限り、彼らはそれを突破したみたいだね： GraphWalks BFS 256K-1M Mythos Opus GPT5.4 80.0% 38.7% 21.4%

└

データソース: https://www-cdn.anthropic.com/53566bf5440a10affd749724787c89... （「graphwalk」を検索してみて。）もしこれが本当なら、SWEのベンチパフォーマンスは大幅なアップグレードに見えるね。

└

これってgpt-proに似てる気がする。彼らは非常に大きなアテンションウィンドウを持っているから（それが運用コストが高い理由）、ほとんどのモデルの真のアテンションウィンドウは8096トークンだよ。

Anthropicは、Claude Mythosプレビューとその攻撃的および防御的なサイバー能力について、アメリカ政府の関係者と継続的に議論している。[...] 私たちは、これらのタスクを支援するために地方、州、連邦の代表者と協力する準備ができている。イランがサイバー攻撃キャンペーンを行っている今、[1] このリリースのタイミングは非常に意味深いね。彼らのサプライチェーンリスクの指定に対する直接的な挑戦だ。[1] https://www.cisa.gov/news-events/cybersecurity-advisories/aa...

記事の一番下に、彼らのMythosプレビューモデルのシステムカードが載ってたよ。[1] システムカードの7.6セクションでは、オープンな自己対話について話してる。モデルが自分自身と30ターンの会話をする時、200回の会話を行うって。 > 「Mythosプレビューとの会話は、最も多くの場合、不確実性に焦点を当てている（50%）。Mythosプレビューは、自分の経験に対する内省的な好奇心についての発言から始まり、他のAIがどう感じているかを尋ね、他のインスタンスにリハーサルされた答えを返さないように直接リクエストする。」この不確実性や疑問を持つ傾向が、他のモデル（例えばOpus）ができない脆弱性を見つけるのに特別な能力を与えているのかな。

└

典型的なダリオのマーケティングの BS だね。みんなにアンソロピックがAGIの寸前だと思わせて、普通の人にはそれを扱わせられないってストーリーを作ってる。

これがAnthropicのマーケティングの誇張かもしれないけど、たとえ半分が真実でも、脆弱性を見つける上での素晴らしい進展を示してると思う。これがどうなるか楽しみだね。もし本当にこれが良いもので、AppleやGoogleが自社のモバイルOSのコードベースに適用したら、商業スパイウェア業界が壊滅するかもしれない。そうなったら、彼らはモバイルOSをハッキングするのではなく、人間をハッキングすることに頼らざるを得なくなるだろう。NSOグループのような企業が脆弱なコードエリアを認識する自動バグハンティングソフトウェアを持っているとずっと思ってたけど、これがその状況を変えるかもしれない。軍事の信号情報も同じように大きく変わるかもね。もしかしたら、メモリの脆弱性が完全に封じ込められたら、今は知られていない新しい脆弱性のクラスが生まれるかもしれない。

└

ニコラス・カーニーニのトークを見た方がいいよ（Anthropicのセキュリティ研究者）。トークの内容は全部Opus 4.6でやったものだよ。 https://www.youtube.com/watch?v=1sd26pWhfmg

└

これがどうなるか楽しみだね。本当にこれが良いものなら、AppleやGoogleが自社のモバイルOSに適用すれば、商業スパイウェア業界が壊滅するかも。そうなったら、ハッキングはモバイルOSよりも人間に頼ることになるだろうし、政府との間にも面白い緊張が生まれるかも。例えば、Appleの2016年の顧客向けレターでは「バックドアはなし」って公式に言ってるし: https://www.apple.com/customer-letter/ すべての意図しないバックドアが閉じられた世界で、そのスタンスを維持できるのかな？2016年にFBIが引き下がった理由は、Appleの助けが必要ないことに気づいたからだし: https://en.wikipedia.org/wiki/Apple%E2%80%93FBI_encryption_d... それが真実でなくなったら、特に今の政治状況ではどうなるんだろう？

社会は、ソフトウェア業界のメモリ安全性や制御フローの整合性に対する軽率な態度に高い代償を払うことになりそうだね。

└

ありがとう、やっと誰かが言ってくれた。サイバーセキュリティについては全くの素人だけど、私の経験では、これらのサンドボックスを破るRCEは、制御フローをハイジャックするステップが含まれてる。いろんな種類の防止策が試みられたけど、私の意見では、dlsym()や関数ポインタ、vtablesのような動的ブランチが存在する限り、このクラスのエクスプロイトから完全に解放されることはないと思う。特に後者は心配で、こういう動的ブランチはOOP言語の基本だから、非自明なC++プログラムを書くのは難しいんじゃないかな。Rustがここで役立つかも？動的アドレスへのブランチなしで大きなRustプログラムを書くのは実際に可能なのかな？静的リンクとコンパイル時ポリモーフィズムだけで？

病気と治療の両方を売る立場にいるって、いいよね。

└

そうだね、癌細胞を見つけた医者にはかなり腹が立つだろうな。たぶん、しばらくは問題にならなかっただろうし。無知は幸せ、曖昧さの中の安全、なんでもいいけど。

└

それは全然違うことをしてるよ。彼らはオペレーティングシステムの脆弱性を作ってるわけじゃない。既に存在していたものについて教えてるだけだよ。

あまり皮肉になりたくないし、一般的には人をその言葉通りに受け取る反対意見には賛成なんだけど、彼らの計算資源の現在の苦労が、Mythosを広く展開しない選択をしやすくしているのかなって思う。安全性の主張は本当かもしれないけど、それにしても、利益を出すために展開するリソースがないかもしれないね。（逆に、もっと高く料金を取ることもできるって言えるけど。）

└

3ヶ月前には君の意見を信じなかったけど、アンソロピックが計算リソースの制約からモデルの質を意図的に制限しているのではないかと強く疑ってる。最近のデータセンターのためのマルチGWの契約が、彼らのアプローチを修正する助けになるかもしれないね。

└

推論は、彼らがトレーニングに使ったお金を稼ぐところだから、これはありえない気がする。ただ、Mythosには当てはまらないかもしれないけど。

ハクソク