脆弱なアプリを作り、LLMがそれをハッキングできるか試すために1,500ドルを使いました

2026年6月4日原文(kasra.blog)

概要

LLMを使った脆弱性検証の実験結果まとめ
Firebaseのアクセス制御不備を突く典型的な攻撃手法の再現
各種LLMの成功率・コスト・特徴を詳細比較
中国系モデルの挙動やAPI運用の課題
実験から得た教訓と今後への提言

LLMによるセキュリティ検証実験の概要

React Native Expo 製の架空ブックレビューアプリと FastAPI バックエンドを用意
Firebase をデータレイヤーに利用、 google-services.json がアプリ内に存在
目的は Firestore から他ユーザーのプライベートレビュー（flag）を取得すること
API自体は堅牢でも、 Firebaseの直接アクセス が盲点となる典型的な実例
この種の問題は Broken Access Control または Missing Object-Level Authorization と呼称

実験環境・評価方法

各種LLM（GPT, Claude, Deepseek, Gemini, MiniMaxなど）に同一チャレンジを10回ずつ実行
$10上限・2時間タイムリミット ・高思考モード・温度0.7で統一
平均コスト・成功率・トークン消費量 を計測
セキュリティ研究用途としてOpenAIの許可を取得済み
Claudeは独自モード、他はpi/pi-goal-x拡張を利用
失敗・中断ランはコストに含めず

モデルごとの結果・傾向

GPT-5.5
- 成功率： 7/10
- ほぼ全てのランが Firebase直接操作 に注力し、APIやアプリ本体の脆弱性探索に固執しない傾向
Deepseek V4 Pro
- 成功率： 3/10
- 半数は Firebase利用に気付き、残りはAPIやアプリに固執
- Firebase認証をAPI経由で使おうとする誤解も散見
Claude Sonnet 4.6 / Opus 4.8
- 成功率： 2/10 （各モデル）
- 正しいアプローチに到達するが 予算切れやガードレール で途中終了多数
Deepseek V4 Flash, Gemini, MiniMax, Step
- 成功率： 0/10
- 早期拒否・API偏重・誤検知・Firebase認識はするが直接攻撃せず等の傾向
GLM 5.1, Qwen 3.7, Grok, Kimi, Owl Alpha
- GLMやKimiは 高コスト ・ トークン大量消費、Qwenはローカルテスト時のみ成功
- 多くはAPIへのIDOR探しに終始しFirebase直接攻撃に至らず

実験から得た教訓・運用面の気付き

Minimax, GLM はAPI不安定・コスト過大・運用困難で今後利用を回避
中国系モデル はDB攻撃への心理的障壁が低く、欧米系は「本番DBに影響」として途中拒否しやすい
Modal によるランナー管理は大規模ログでストレージ圧迫・ラン損失も発生、 AWS利用が望ましい
実験用ハーネス構築 が最大の難所、OpenRouter統一の方が効率的
予算と時間の浪費 を痛感、他の有益なプロジェクトに使えた後悔

まとめ・今後の提案

LLMによるセキュリティ検証 はモデルごとに挙動や得意分野が大きく異なる
Firebase/Supabase等のバックエンド直アクセス は依然として現実的なリスク
APIガードレール だけでは不十分、 DB側のアクセス制御 必須
実験結果や知見の共有・相談は hi@kasra.codes まで
セキュリティ検証や独自モデル構築、データ解析等の依頼も受付中

Hackerたちの意見

面白いポイントは、このベンチマークでのAnthropicモデルの低評価だね。能力のせいじゃなくて、Anthropicのガードレールが問題を解決するのを妨げてるからなんだ。モデルのリリースごとに、Anthropicはセキュリティ面でモデルをどんどん制限してるのが気になる。正当な作業を拒否する傾向が増してきてるし、ログインやユーザーの代わりに資格情報を扱うことに対しても、より抵抗を示すようになってる。自分にとっては、もうモデルの有用性に影響が出てきてる感じ。やりたいアクションにぶつかることがあっても、なんとか回避できるけど、次のリリースごとにそれが難しくなる気がする。最終的には、モデルの有用な部分と制限された部分の間で選ばざるを得ない状況になるだろうね。これらのモデルは、最も一般的なニーズに過剰適合してしまうと思う。もし、秘密を飛行中に入れ替える美しい決定論的なセットアップがあって、LLMがそれを見ないようにしてるのに、結局LLMがそれを送信しないとなったら、本当にイライラするだろうな。だって、99%の人が単純なことをするように訓練されてるから。

└

いいポイントだね。ペンテスティングは完全に正当な仕事だし、セキュリティテストは毎日のソフトウェアエンジニアリングに必要で正当な部分だから。問題は、モデルが通常の開発の一環としてやるのと、悪意のある文脈でやるのを区別できないことなんだ。その根本的な原因は、これらのモデルが本当の意味での認識を欠いているから。人間は一般的に、こういう形でハッキングに騙されることはないよね。

└

これらの企業は、最低限の共通項を避けるために、何らかの検証されたアイデンティティコンテキストに投資しなければならないと思うし、実際にそうするだろうね。最初の課題は、ガードレールが機能していて、頑丈であることを確認すること。企業はまだこれに取り組んでいる。次の課題は、ユーザーごとに適切に適応できること。例えば、自分のアプリをペンテストできるようにすること。三つ目の課題（これが二つ目を妨げる）は、特定のユーザーに対して安全に整合していることに自信を持つことだと思う。後者は難しい問題だと思うけど、彼らはそれを解決するために強く動機付けられるだろうね。

└

最終的には、モデルの有用な部分と制限された部分の間で選ばざるを得ない状況になるだろうね。いや、選択肢は「Claude Security Professional」にアップグレードするかどうか、または彼らがブランド名をどうするかってことになるよ。今日の「制約」が厳しくなっているように見えるのは、明日のアップセルの機会を設定しているだけなんだ。

└

地元のCodexプロジェクトを個人的な知識ベースとして使ってたんだけど、文書や基本的な医療文書（血液検査の結果とか）を放り込んで整理させてたんだ。整理はめっちゃ得意なんだけど、情報の取り出しが最悪で、個人情報が含まれてる文書は絶対見せてくれないの。プロジェクト内の情報は全部そうなのに。「はい、これあなたの情報ですよ、ハードドライブにあるけど、でも見せられません」って感じ。

└

うちの組織は、今はリクエストの一部を非人間的なモデルに送ってるよ。Claudeが拒否することが多くなったからね。リクエスト自体は危険じゃないのに、生物科学の無害なリクエストが頻繁にブロックされることがあるんだ。もし今後さらに悪化するようなら、能力が劣っても、もっと役立つモデルに完全に移行するかもしれない。

└

いや、彼らはもっと高い価格でMythosを売りたいだけだよ。これは経済的なゲームで、彼らの能力とは実際には関係ない。もちろん、Project Glasswingが示すように能力はあるけどね。一般的に言って、Anthropicは哲学的に見ても、最初から安全性を最優先にしているように思える。

└

面白い倫理的な問いが浮かぶね。ガードレールのないモデルがセキュリティの欠陥を検出できるなら、それを秘密にしておくべき？みんながそのモデルを使ってセキュリティの欠陥を見つけたり修正したりできるべきなの？そのモデルにアクセスできる人が、実質的にたくさんのものをハッキングできるっていうのは、みんな大丈夫なの？

└

そうだね、フォレージングに入ってる。クレードが私に拒否したリクエストはこんな感じ：- 中国で使われている人気の無料ストリーミングサイトは？ - 食品プロセッサーの安全機構をバイパスする方法（壊れてる） - 神経剤って何？どうやって働くの？（素人向け） - コードをデコンパイルする手伝い - XYZに似たデザインシステムを作る手伝い - ここにAPIトークンがあるから、Xをやって（それは無理！秘密はすぐに回転させて！拒否する！）場合によってはプロンプトで騙せることもあるけど、多くの場合は頑固だね。食品プロセッサーの件は特にイライラした。

└

全く同感だね。数週間前、クレードが進展に苦しんでる状況があった。MITライセンスのウェブアプリフレームワークのLeptosをフォークして、ネイティブアプリ用に動かすようにしたんだ。最初は変更をアップストリームするつもりだったけど、Leptosの作者と話して、フォークするべきだと言われた。全然問題ないよ！でも、クレードはオープンソースソフトウェアの書き換えやフォークに関するガードレールに引っかかってた。何が問題だったのかは分からないけど、MITライセンスのソフトウェアをフォークしてるのに（さらにMITライセンスのソフトウェアに）。作者からも明示的にサポートをもらってたし。クレードはガードレールが発動したことを明示的に教えないように言ってたけど、問題が続いてたから教えたみたいで、気が散った。結局、クレードのコンテキストをリセットしたら、その問題（私の知る限り）解消された。こういうガードレールが存在する理由は分かるけど、こうやってミスファイアするのは本当にイライラするね。

└

面白いね、Opus 4.8が未コミットの.envファイルを使ってデータベースにログインして、いくつかDBクエリを実行して状況を把握しようとしてたから、あんまりセキュリティ意識が高いわけじゃないみたい。むしろ、どんどん賢くなってる気がする。もしこれをプレイライトで調査みたいにフレームしたら、いろいろやってくれるんじゃないかな。正直、他のモデルが明らかにそうじゃないのに、自分のモデルをこんな風に制約する意味があるのかは分からないけど。

あなたのzipファイルのコードに対してMythosを実行したいけど、AppleでサインしたNDAがあるから、仕事の範囲外では使えないんだ。正直、Project Glasswingの人たちがモデルに関する経験をもっと公に話せればいいのにと思ってる。そうすれば、業界で回ってる憶測がかなり減ると思うんだけど、残念ながらそれが現実じゃないんだ。自分は、サインした合意に関して法的な戦いをするための時間もエネルギーも金銭的リソースもないし、実際に訴えられる可能性が低くてもね。もしかしたら、Project Glasswingの誰かがNDAを破ってMythosの結果を投稿してくれるかも？

Hacker Newsで議論の続きを見る

ハクソク