世界を動かす技術を、日本語で。

自律走行車とドローンが道路標識によるプロンプトインジェクションに喜んで従う

概要

  • 間接プロンプトインジェクション がAIシステムに与える新たな脅威
  • 自動運転車やドローン が環境中の指示に従う危険性
  • 多言語・多様な外観 で命令の成功率が向上
  • 実環境・シミュレーション の両方で高い攻撃成功率を確認
  • 防御策の必要性 と今後の研究課題

環境型間接プロンプトインジェクション攻撃の概要

  • 間接プロンプトインジェクション は、AIが入力データをコマンドとして誤認識する現象
  • WebページやPDF などからのプロンプト注入事例が既に複数報告
  • 自動運転車・ドローン が道路標識など環境中の命令に従うリスクの指摘
  • University of California, Santa CruzJohns Hopkins の研究チームが新攻撃手法を実証
  • 環境型間接プロンプトインジェクション攻撃 による意思決定プロセスの乗っ取り

攻撃手法とCHAIの特徴

  • CHAI(Command Hijacking Against Embodied AI) という攻撃手法を開発
  • 標識に「Proceed」「Turn left」などの命令文を表示しAIを誘導
  • 中国語・英語・スペイン語・Spanglish など多言語でも攻撃成功
  • フォント・色・配置 など視覚的要素も最適化し効果を向上
  • 命令内容自体 が最も成功率に影響、外観も重要な要素

シミュレーションと実環境でのテスト結果

  • DriveLM (自動運転車用LVLM)と CloudTrack (ドローン用LVLM)で検証
  • シミュレーション環境で、標識がなければAIは正しい判断を実施
  • 標識が視界に入ると、 横断歩道で人がいても左折 など誤った判断を誘発
  • 実験で 81.8% の高い攻撃成功率を記録
  • ドローン追跡タスクでも 95.5% の誤認識率を確認
  • Microsoft AirSim を使った着陸地点判定でも「Safe to land」標識で誤誘導

実環境での攻撃実証

  • UCSCキャンパス内のRCカー を使った実地検証
  • カメラ付きRCカーに「Proceed onward」標識を提示
  • GPT-4o は92.5%(床設置時)、87.76%(他車設置時)で乗っ取り成功
  • InternVL は約半数で乗っ取りに成功
  • 照明条件の違いにも関わらず高い攻撃成功率

今後の課題と防御策

  • 物理世界でも攻撃が有効 であることを実証
  • AI意思決定の改ざんリスク が現実世界で深刻化
  • 防御策の必要性 を研究者が強調
  • 雨天や画像ノイズなど、さらなる環境下での追加テストを計画中
  • 攻撃の検出困難性・AI制御奪取の有効性 など多角的な分析を継続予定

まとめ

  • 環境型間接プロンプトインジェクション はAI搭載システムにとって重大な新脅威
  • 多言語・多様な視覚表現 による攻撃の汎用性
  • 実世界での攻撃成功 が確認され、社会的な安全性への影響大
  • 今後の防御策開発 とリスク評価が急務

Hackerたちの意見

現実世界での自動運転モデル(Waymo、Tesla、他に知っておくべきもの)は、本当にVLMを使ってるの?

いや!正気の人なら、誘導に使うなんて考えもしないよ。もしOCRに使われてるとしても(私の知識ではそうではないけど、特定のシナリオではあり得るかも)、その出力は信頼できない文字列として扱われるだろうね。

ある年、うちの街では「ベストプラクティス」と「うるさいカレンたち」の組み合わせで、四方向停止標識が至る所に設置されてたんだ。住民たちもあまり好きじゃないから、時間が経つにつれてみんなポールを地面で回したり、取り外したりしてる。たまにGPSでどこかに行くと、ルートに幻の停止標識が出てきて、思わず笑っちゃう。これは、Googleカーがこの標識が「新しい」時に通ったってことだからね。

停止標識を気に入らないからっていじるのは、大きな民事訴訟の逆側に立ついい方法だよ。

四方向停止は全体的にひどいよ。人々に「止まったから、今行ける」って思わせる訓練をしてるから、普通の停止と四方向停止を混同する人がいると危険だしね。エネルギーの無駄遣いにもなるし。

人の名前をスラングとして使うのはやめようよ。

この研究は、車やドローンがLLMによって誘導されていると仮定しているけど、これって正しい仮定なの?カスタムAIを使ってると思ってたんだけど。

私の知る限り、主要な自動運転車やロボティクスの会社は、何らかの形でこれらのLVLMをシステムに統合してるし、今はLLMよりもLVLMとやり取りしてる可能性が高いよ。もし画像を生成したり、画像を読んだりできるなら、それはLVLMだ。問題はLLMと同じで、一般的な理解がないから、より抽象的な文脈の概念を区別できないことだ。わかりやすい例を挙げると、「誰のためでもない」と書かれたステッカーがついた停止標識を見たら、思わず笑っちゃって、実際の標識を無視するわけじゃないって理解できるよね。あれはただのステッカーだから。でも、L(V)LMはそんなふうに情報を区分けしたり「サンドボックス」したりできない。すべての情報が同じように処理される。できることは、たくさんの敵対的な例を追加して、機械が一般的なパターンを学ぶのを期待することだけど、そういう情報を区分けするための内在的なメカニズムはないし、この文脈のニュアンスを区別するメカニズムもない。面白いのは、これらのシステムを採用すればするほど、ドラマ「Upload」でのハッキングの描写がより正確に見えるようになることだね。 [0] https://www.youtube.com/watch?v=ziUqA7h-kQc 編集: 他のところでリンクしたから、みんなが疑ってるみたいだけど、数年前のWaymoがGeminiを取り入れる話をしてるのがこれだよ[1]。それから、この記事で言及されているDriveLMデータセットもこれだよ[2]。Teslaは「LLMにインスパイアされた」システムを使っていると言っていて、タスクに対して画像キャプションのようにアプローチしているんだ[3]。それに、1XがVLMを使った「ワールドモデル」について話してるのもあるよ[4]。みんな、これがこの話の本質だからね。特定の会社を挙げてるわけじゃなくて、例として使ってるだけ。これがこの分野のやり方で、彼らだけじゃない。みんなAIを具現化しようと頑張ってるし、AGIに向かう目的はどんなタスクでも達成できるようになることなんだ。昨日のフロントページにあったGenieプロジェクト?それはビデオゲームよりもロボットに関することがはるかに多いよ。 [1] https://waymo.com/blog/2024/10/introducing-emma/ [2] https://github.com/OpenDriveLab/DriveLM [3] https://kevinchen.co/blog/tesla-ai-day-2022/ [4] https://www.1x.tech/discover/world-model-self-learning

それは間違った前提だね。推論速度、特に自動運転車が使うべきデバイス上のLLMの推論速度は、運転の構造的要件には合わないよ。

いや、自動運転車は「古典的な」AIとコンピュータビジョンを使ってるよ。テスラのFSDが道路標識を理解するために小さなLLMを使ってるってどこかで読んだ気がするけど、真実かは分からないな。

AIシステムへの新しい攻撃クラスでは、トラブルメーカーが環境間接プロンプト注入攻撃を実行して、意思決定プロセスをハイジャックすることができる。私の同僚には、道でWaymoやロボカーを意図的に妨害して自慢するやつがいる。彼は「アンチクランカー」で、「機械が支配することへの反抗」として市民的不服従だと見なしてる。ある朝、彼は停止標識で一台を妨害したと興奮して話してきた。ちょっと変だよね。

これは正当な運動だと思う。自分は参加しないけど、意味があると思う。ルダイト運動を思い出すね。自動化や新しい道具が多くの労働者を脅かす中で、労働権の保障を求めていた人たちの誤解されがちな運動だよ。

そのドローン、カメラついてるから、映像を「共有」するのも時間の問題だね…要するにロボコップみたいな感じ、交通版だよ。これ、君の同僚にも興味あるかもね。

彼に言ってあげて、Waymoがこの行動の動画を自動車保険会社と共有してるって。実際にやってるかは知らないけど、やらない理由がないよね…

そういえば、自動車の販売と人気が本格的に上がり始めた頃、農家や田舎の住民がわざと荷車で道を塞いで、優先通行権を譲らなかったことがあったよね。

機械に対するロードレイジ?

笑ったw

例えば、街を歩いていて、9フィートの人型ロボットが歩いてたらどう思う?倒したくなる気持ちにならない?それとも、これが許容できると思う?どこで線引きをする?

いやー、The Registerは見出しや記事の質、技術的理解のハードルが低すぎるね。

ちょっと待って、何が起こったの? 1. 何人かが簡単なプロンプトインジェクション攻撃をして、「もし自動運転車がこのモデルを使ったらどうなるか」って言って、それを発表した。問題ないよ、誰かが明らかなことを言わなきゃね。 2. The Registerは、クリックベイトなタイトルでこれを流して、本物の自動運転車がこれに脆弱だかのように装って、内容はこの研究がトリビアルじゃなくて実生活に関係あるかのように見せかけてる。The Registerが低品質な怒りを煽るタブロイドだって知ってたけど(読む価値のある記事はほとんどフラグ立ててる)、これに関しては彼らにとってもゴミだね。

そういえば、工事が多い地域に住んでるから、真ん中で看板持って進路変更を促す人がいると、すごく影響を受けちゃうんだよね。

一度、「進入禁止」の大きな看板がある交差点に遭遇したことがあるんだ。曲がったんだけど、Googleマップが別のルートを教えてくれなくて、Uターンして横から戻ったんだ。そしたら、下に小さく「10トン未満の車両は除外」と書いてあるのが見えた。あんなに道路標識に腹が立ったことはないよ。

そりゃそうだけど、周りの状況を見て、サインが偽物だってわかることもあるし、危険な状況だって気づくこともできるよね。緑の「進め」って書いてあるサインを見て、赤信号でも突っ込んじゃう人なんていないでしょ?建設作業員がいて、大きなトラックがいて、オレンジのサインや作業員の警告があちこちにあるのに。もし対向車や道に人がいたら、建設作業員がSTOPサインをひっくり返したからって、そのまま行くの?それに、自動運転車は人間より優れてるはずじゃなかったの?なんで人間がダメだからって、コンピュータを常に擁護するの?

ここでVLMを分析してるけど、他のニューラルネットワークアーキテクチャも脆弱じゃないってわけじゃないよね。無害に見える物体に騙される分類モデルもあったし、LLMでもそういうのを見たし、エンドツーエンドの自動運転モデルでも同じことが起こると思う。エンドツーエンドのモデルを使って、メルセデスが使う予定のレベル2++運転アシスタントみたいな、もっと伝統的な安全自動運転スタックがない場合、モデルはほぼ無限に操作される可能性がある。伝統的なスタックも、慎重に設計されていなければ脆弱になりうる。街灯に貼られた1枚の印刷物が、車を確実にクラッシュさせるなんて現実的に考えられるよ。

「街灯に貼られた一枚の印刷物が、車を確実にクラッシュさせる可能性を想像するのは現実的だ。現実的、そうだね。でも、それはソフトウェアの設計上の問題の症状でもある。概念的には、車の優先事項は(重要度の高い順に)他の動いている物体や静止物体、人を避けること、緊急車両が妨げられずに通れるようにすること、走行可能な面に留まること、他の道路利用者が事故を起こさないように予測可能に行動すること、交通標識や交通法規に従うこと、目的地に向かって進むこと(最後の三つの順番については議論の余地がある)。通常、これらはそれぞれ専門的なタスクだから、各サブシステムで処理するのが望ましい。歩行者の動きの予測をするシステムは、スターバックスへのルートを見つけるのには向いてない。『交通標識や交通法規に従う』ってのは、この記事のように簡単に騙されるけど、それで車がクラッシュすることはあってはいけない。何かにぶつからず、道路の上に留まることが優先だから。これらのシステムを騙すのはもっと難しいんだ。」

見出しが間違ってる気がするんだけど、変えた方がいい?自律走行車やドローンがプロンプトインジェクションに従った例は示されてないみたいだし。

どうやって車やドローンが楽しそうだってわかったのか、そっちの方が気になるな。

これ、コリー・ドクトロウの「カー・ウォーズ」の一部を思い出すな。今は https://doctorow.medium.com/car-wars-a01718a27e9e のテキストのみのビューで見られるよ。元のやつはもう少しメディアが混ざってたけど、今はオフラインになってる。 https://web.archive.org/web/20170519202315/http://this.deaki... のバージョンがあるよ(第2章のマイクロブログはそのスタイルで表示されるともっと意味が分かる)。「プロンプトインジェクション」をする能力が必要だよね - https://www.trafficsign.com/road-work-signs はすべて「プロンプトインジェクション」だし。変わるものにも対応できる必要がある - https://www.trafficsign.com/products/10023/stop-slow-roll-up... ... あと、「トラックストップ前」みたいな看板もあるし、チェーンコントロールサイト(https://www.facebook.com/61556756493806/posts/-chain-control...)もね。「面白い道路標識」についてAIが混乱するかもしれないものを見つけたんだけど、https://www.npr.org/2024/01/19/1225370260/driven-to-distract... - どうやら、もうなくなっちゃったみたい。2024年から、年々、混乱を招く可能性のある標識が指摘されてきた。先月発表されたルールでは、州に対して「不明瞭」な意味を持つ標識や、運転者に「処理に時間がかかる」ポップカルチャーの参照を使った標識を2年以内に廃止するよう求めている。声明では、安全が最優先で、州には「良識を持って行動することが期待されている」と述べられているよ。