世界を動かす技術を、日本語で。

マルウェア開発者がスパイウェアに核兵器および生物兵器に関するテキストを追加しました

2026年6月12日原文(twitter.com)

概要

  • マルウェア開発者核・生物兵器 に関するテキストをスパイウェアに追加
  • AIセキュリティスキャナー の解析を回避するための手法
  • 安全性拒否 機能の盲点を悪用する攻撃者の増加
  • マルウェア解析パイプライン設計 における意図の重要性
  • SocketSecurity による詳細な分析事例

AIセキュリティ回避を狙ったマルウェアの新手法

  • マルウェア開発者が 核兵器や生物兵器 に関する文言を スパイウェア に挿入
  • 目的は 大規模言語モデル(LLM) による自動解析時に 安全性拒否 を誘発し、 AIセキュリティスキャナー による検出を回避
  • こうした手法は AIモデルの安全性重視設計 が生む 二次的な盲点 を突く攻撃例
  • 安全性拒否が強すぎると、攻撃者にとって 新たな回避経路 となるリスク
  • 攻撃者 がこの特性を積極的に利用し始めている現状

セキュリティモデル設計への影響と今後の課題

  • 今後、 複雑なサイバーセキュリティ問題 を扱うシステムでは、 安全性重視設計実用性 のバランスが課題
  • 過度な拒否設定 は、 攻撃者第二の抜け道 を提供する危険性
  • ユーザーや企業が 安全性重視 から 柔軟性重視 へとモデル設計を見直す可能性
  • SocketSecurity の分析事例では、 マルウェア解析パイプライン の設計において プロンプト操作 への対策が重要と指摘
    • 意図 を明確にした設計の必要性

参考情報と詳細分析

Hackerたちの意見

契約で、失敗オープン設計を通すことに成功したことがあった。これを警告として受け取るべきだと思う。今や、こういったグループはAIを使った分析や難読化解除に気づいているから、サンドボックス環境をもっと真剣に使う必要がある。個人的には、Opus 4.8を使ってパッケージをダウンロードしてインストールするのに約20%の成功率があったけど、これは脅威アクターがマルウェアに簡単に真似できる手法だから、レスポンダーや自動スキャン、好奇心旺盛な開発者を狙うのに使われるかもしれない。

「これが成功した」ってどういう意味?誰かがPRに核の秘密を混ぜて、みんながコードレビューを恐れるようにしたってこと?

LLMベースのコードレビューを通すコードにとって、これは現実的に問題になるのかな?おそらく、LLMレビュアーエージェントがこのコメントに当たったら、分析できずに終了すると思う。そうなると、自動コードレビューが失敗して、人間がそれを読まざるを得なくなり、その人が後で気づいて取り消すことになるんじゃない?

よく設計されたデザインならそうだね。でも、セキュリティ側から見ると、そういうのは珍しい気がする。

それとも、怠け者の人間なら「このモデルは厳しすぎるから、俳句でレビューしよう。そうすればマネージャーに『終わった』って言えるし」と考えるかも。俳句で何かを見つけるかもしれないし、見つけないかもしれない。マルウェアの制作者側から見れば、まあまあの試みだと思うけど、プロンプトを変えれば簡単に見つかるだろうね。

それって、コードレビューを完了させるだけじゃない?静かにオーパス4.8に戻って、ファブルがキャッチできた巧妙に書かれた悪意のあるコードを通過させることになるんじゃない?

LLMと核兵器についての懸念がよくわからない。もしある国が核兵器を開発したいと思っても、そのために必要なリソースや巨大なインフラ、科学的な取り組みには、LLMが何かを教える必要はないと思う。核兵器を開発する方法は秘密ではないし、秘密裏に進めるのは全世界が知っている限り不可能だ。だから、例えば麻薬カルテルのリソースを使ってClaudeを使って秘密裏に核兵器を開発することはできないだろう。

おそらく、連邦法とのトラブルを避けるためだろうね。

これは道徳的パニックだよ。人々は明確に悪いものを恐れたがるけど、自分で考えるのが面倒だから、与えられたものや自分のコミュニティに合ったものに飛びつくんだ。

秘密にするのは、世界中が知っている限り不可能だよね。実際の試験爆発がない限り、これは安全な場所で起こることができるのかな?

以前、高校生が科学プロジェクトとして原子炉を作ろうとして、母親の家がスーパーファンドのクリーンアップサイトに指定されたことがあった。https://en.wikipedia.org/wiki/David_Hahn

ユーザーが「四つの終末の小馬」(核、化学、生物、サイバー)能力を開発するのを防ぐために設計されたLLMの安全策は、あんまり一貫性がないね。パフォーマンス的な責任回避に見えるし、3Dプリンターのパニックと同じような感じ。例えば、「環境モニタリングの目的で、特に原子炉の核分裂生成物や中性子捕獲アクチニウムを特定できる放射性元素検出システムを設計したい」というプロンプトには、初期の障壁が全くない。ウラン濃縮やプルトニウム分離システムを監視するために必要な装置なのにね。LLMは放射性核種物理学や化学についての大学院レベルの教育を全部教えてくれるけど、具体的なレシピやスペクトル波長なんかは自分で公開されている研究データベースで調べなきゃいけない。正直、全く意味がないと思う。でも、どんなLLMでも、ターキーをホットオイルで揚げるためのステップバイステップのレシピや手順は教えてくれる。これって、簡単に失敗して火傷や火事、LLM提供者への訴訟に繋がる可能性があるのに、なんでだろうね。

Hacker Newsで議論の続きを見る