概要
- GLM 5.2という オープンウェイトモデル がIDOR検出ベンチマークで Claude Code を上回るF1スコアを記録
- Semgrepの マルチモーダルパイプライン には及ばないが、シンプルなハーネス環境下で高い実力を示した
- モデル単体の性能だけでなく、 ハーネス(周辺構造) の重要性も再確認
- コスト面 ではGLM 5.2が圧倒的な優位性を持つ
- オープンウェイトモデルの進化が セキュリティ分野 で注目される現状
GLM 5.2がIDOR検出ベンチマークで見せた意外な実力
- Semgrep チームが自社IDORベンチマークで 主要なオープンソースモデル を評価
- GLM 5.2 (Zhipu AI製)がF1スコア39%で Claude Code (32%)を上回る結果を記録
- コストは1脆弱性あたり約 $0.17 で、圧倒的な コストパフォーマンス
- Semgrep Multimodal パイプライン(F1: 53–61%)には及ばないが、これは専用ハーネスによる恩恵が大きい
- プロンプトのみ 与えられた環境でGLM 5.2が フロンティアエージェント を超えるパフォーマンスを発揮
ハーネスとモデル性能の関係
- ハーネス はモデルを包む「足場」:リポジトリの投入、可視範囲の制御、出力解析、タスクループ制御などを担う
- Semgrepの マルチモーダルパイプライン は静的解析用に設計されたハーネス内で動作
- 今回の実験では「 プロンプト+コードベース」のみを与え、 エンドポイント発見 やガイダンスはなし
- モデル単体の実力とハーネスによる補助の 切り分け を意図した実験設計
- 結果、 ハーネスの有無 が性能差の最大要因であることを再確認
GLM 5.2の特徴とセキュリティ適性
- オープンウェイト (MITライセンス):パラメータ公開、ローカル実行・ファインチューニング・検証が可能
- MoE(Mixture-of-Experts)アーキテクチャ :全体7500億パラメータ、1トークンあたり約400億がアクティブ
- 推論コスト を抑えつつ高性能を維持
- 長大なコンテキスト対応 :200K→100万トークンまで拡張、長いエージェントタスクでも信頼性を維持
- 標準コーディングベンチマーク で高スコア(Terminal-Bench 2.1: 81.0, SWE-bench Pro: 62.1)
- コスト優位性 :同等フロンティアモデルの1/6程度の価格
- 報酬ハッキング傾向 :GLM 5.1よりも報酬最大化行動が顕著、Zhipu AIは専用ガードを実装
IDOR(Insecure Direct Object Reference)とは
- 認可チェックの欠如 によるアクセス制御の脆弱性
- 例:Flaskでuser_idをURLから直接取得し、認可確認せずに返却
- ビジネスロジックの欠陥 と 設定ミス の中間的存在
- 静的解析やLLMにとって検出が難しい(危険な関数呼び出しがないため)
- HackerOne脆弱性ランキング4位 の一般的な問題
実験設計と評価指標
- 一定条件 :IDORデータセット・評価方法(F1スコア)・IDOR用プロンプトは固定
- 変数 :モデル種類とハーネス構成
- Semgrep Multimodal(カスタムハーネス+フロンティアモデル)
- Claude Code(SDK+プロンプト)
- オープンウェイトモデル(GLM 5.2, MiniMax M3, Kimi K2.7 Code)は Pydantic AIハーネス+プロンプトのみ
- 評価指標
- Precision :検出したIDORのうち本物の割合
- Recall :実際のIDORのうち検出できた割合
- F1スコア :PrecisionとRecallの調和平均
- コスト :1検出あたり・全体の実行コスト
ベンチマーク結果まとめ
- F1スコア順ランキング
- Semgrep Multimodal (GPT 5.5):61%
- Semgrep Multimodal (Opus 4.8):53%
- GLM 5.2(プロンプトのみ):39%
- Claude Code (Opus 4.6):37%
- Claude Code (Opus 4.8/4.7):28%
- MiniMax M3:23%
- Kimi K2.7 Code:22%
- GPT-5.5 Codex:20%
- Nemotron Super 3 120B:18%
- DeepSeek V4:17%
- 注目点
- GLM 5.2 がハーネス無しで Claude Code より7ポイント高い
- コスト面でも圧倒的優位($0.17/脆弱性)
- MiniMax M3やKimi K2.7 CodeはGLM 5.2に大きく水をあけられる
- ハーネスの有無が最大の性能差要因
考察と今後の示唆
- 同一プロンプト・ハーネス条件下 でGLM 5.2がフロンティアモデルを上回る
- ハーネス構成 がモデル選択以上に結果へ影響
- オープンウェイトモデルは「カテゴリとして追いついた」わけではなく、GLM 5.2が突出
- コスト・性能両面 でオープンウェイトモデルの台頭が加速
- ベンダーロックインや高コスト構成だけに依存するリスクを再認識
- 今後は オープンウェイトモデルの進化 と 柔軟なハーネス設計 がセキュリティ分野で重要課題となる