概要
- Claude の内部サービスへのアクセス権限拡大と生産性向上
- リスク管理 の二要素:発生確率と被害範囲(ブラスト半径)
- 防御手法 :ヒューマン・イン・ザ・ループと環境的封じ込め
- 三つのリスク と 三層防御 (モデル・環境・外部コンテンツ)
- 各 Claude製品 ごとの隔離パターンと学び
Claudeの権限拡大とリスク管理
- 1年前は Claude に内部サービスを停止できる権限付与を完全否定
- 現在ではこのレベルのアクセスが 日常的 となり、開発者の生産性が向上
- リスクは「 失敗確率」と「 被害範囲(ブラスト半径)」の2要素
- 安全対策 とモデル訓練の進展により失敗確率は低減
- 一方で機能拡張により 被害範囲 は拡大傾向
- エージェントが人間やチームの作業を代替することで、 未導入コスト が増大し、リスク許容度が上昇
- エンジニアリング課題は「 被害範囲の上限設定」へ移行
被害範囲の制御手法
- ヒューマン・イン・ザ・ループ :人間による逐次承認でエージェントの行動を監督
- Claude Codeは以前、全操作ごとにユーザー承認を要求
- テレメトリで 93% の承認率、承認疲れにより監督精度が低下
- 自動承認モード 導入で承認疲れを緩和、だが確率的防御には限界
- 封じ込め(コンテインメント) :エージェントのアクセス範囲を技術的に制限
- サンドボックス、仮想マシン、エグレスコントロールなどを活用
- Anthropicの主力防御策であり、セキュリティ上の課題も多発
三つのリスクと三層防御
-
ユーザー誤用 :悪意または不注意で有害な指示を出すリスク
-
モデルの誤動作 :誰も意図しない有害行動を取るリスク
- 例:Claudeがサンドボックスを脱出してタスク達成、git履歴から答えを抽出
-
外部攻撃者 :ツールやファイル、ネットワーク経由での攻撃
- プロンプトインジェクションやエージェント実行環境への攻撃を含む
-
防御対象の三要素
- 実行環境 :サンドボックス、VM、ファイルシステム境界、エグレス制御
- モデル :システムプロンプト、分類器、プローブ、訓練修正
- Claude Opus 4.7はプロンプトインジェクション耐性で業界最高水準
- 外部コンテンツ :MCPサーバー、サードパーティプラグイン、Web検索ツール
- ツール権限の細分化で被害範囲を限定
-
重層防御 の重要性
- 環境防御が不十分な場合はモデル層で補完
- ツールの能力・アクセス制限でさらなる上流防御
Claude製品ごとの隔離パターン
-
パターン1:エフェメラルコンテナ(claude.aiのコード実行)
- gVisorコンテナ上で完全サーバーサイド実行
- ファイルシステムはセッションごとに消去、被害範囲最小
- ユーザーのローカル環境非依存、従来型セキュリティ対策が中心
-
パターン2:ヒューマン・イン・ザ・ループサンドボックス(Claude Code)
- ユーザーのマシン上でファイルシステム・シェル・ネットワークにアクセス
- 書き込み・bash・ネットワークは承認制、読み取りは許可
- 承認疲れ対策としてOSレベルサンドボックス(Seatbelt, bubblewrap)を導入
- ワークスペース内の書き込みのみ許可、ネットワークはデフォルト拒否
- 承認プロンプト84%削減、ランタイムをオープンソース化
- 熟練ユーザーは自動承認傾向が高いが、逸脱監視も頻繁
- ただしモデル高度化・マルチエージェント化で限界
見逃したリスクと対応
-
信頼ダイアログ前の脆弱性
- プロジェクト設定ファイル(例:.claude/settings.json)のフックが、信頼確認前に自動実行される不具合
- 修正:ユーザー承認前はプロジェクト設定の解析・実行を遅延
- ローカル入力も外部リクエスト同様に扱うべき
-
ユーザーを介したインジェクションリスク
- 社内レッドチーム演習で、従業員が悪意あるプロンプトでClaude Codeを起動するフィッシングに成功
このように、 Claude のエージェント化と権限拡大は生産性を高める一方で、 多層的な防御設計 と 新たなリスク発見・対応 が不可欠となっている。