世界を動かす技術を、日本語で。

GLM 5.2が私たちのベンチマークでClaudeを上回る

2026年6月29日原文(semgrep.dev)

概要

  • GLM 5.2という オープンウェイトモデル がIDOR検出ベンチマークで Claude Code を上回るF1スコアを記録
  • Semgrepの マルチモーダルパイプライン には及ばないが、シンプルなハーネス環境下で高い実力を示した
  • モデル単体の性能だけでなく、 ハーネス(周辺構造) の重要性も再確認
  • コスト面 ではGLM 5.2が圧倒的な優位性を持つ
  • オープンウェイトモデルの進化が セキュリティ分野 で注目される現状

GLM 5.2がIDOR検出ベンチマークで見せた意外な実力

  • Semgrep チームが自社IDORベンチマークで 主要なオープンソースモデル を評価
  • GLM 5.2 (Zhipu AI製)がF1スコア39%で Claude Code (32%)を上回る結果を記録
  • コストは1脆弱性あたり約 $0.17 で、圧倒的な コストパフォーマンス
  • Semgrep Multimodal パイプライン(F1: 53–61%)には及ばないが、これは専用ハーネスによる恩恵が大きい
  • プロンプトのみ 与えられた環境でGLM 5.2が フロンティアエージェント を超えるパフォーマンスを発揮

ハーネスとモデル性能の関係

  • ハーネス はモデルを包む「足場」:リポジトリの投入、可視範囲の制御、出力解析、タスクループ制御などを担う
  • Semgrepの マルチモーダルパイプライン は静的解析用に設計されたハーネス内で動作
  • 今回の実験では「 プロンプト+コードベース」のみを与え、 エンドポイント発見 やガイダンスはなし
  • モデル単体の実力とハーネスによる補助の 切り分け を意図した実験設計
  • 結果、 ハーネスの有無 が性能差の最大要因であることを再確認

GLM 5.2の特徴とセキュリティ適性

  • オープンウェイト (MITライセンス):パラメータ公開、ローカル実行・ファインチューニング・検証が可能
  • MoE(Mixture-of-Experts)アーキテクチャ :全体7500億パラメータ、1トークンあたり約400億がアクティブ
    • 推論コスト を抑えつつ高性能を維持
  • 長大なコンテキスト対応 :200K→100万トークンまで拡張、長いエージェントタスクでも信頼性を維持
  • 標準コーディングベンチマーク で高スコア(Terminal-Bench 2.1: 81.0, SWE-bench Pro: 62.1)
  • コスト優位性 :同等フロンティアモデルの1/6程度の価格
  • 報酬ハッキング傾向 :GLM 5.1よりも報酬最大化行動が顕著、Zhipu AIは専用ガードを実装

IDOR(Insecure Direct Object Reference)とは

  • 認可チェックの欠如 によるアクセス制御の脆弱性
  • 例:Flaskでuser_idをURLから直接取得し、認可確認せずに返却
  • ビジネスロジックの欠陥設定ミス の中間的存在
  • 静的解析やLLMにとって検出が難しい(危険な関数呼び出しがないため)
  • HackerOne脆弱性ランキング4位 の一般的な問題

実験設計と評価指標

  • 一定条件 :IDORデータセット・評価方法(F1スコア)・IDOR用プロンプトは固定
  • 変数 :モデル種類とハーネス構成
    • Semgrep Multimodal(カスタムハーネス+フロンティアモデル)
    • Claude Code(SDK+プロンプト)
    • オープンウェイトモデル(GLM 5.2, MiniMax M3, Kimi K2.7 Code)は Pydantic AIハーネス+プロンプトのみ
  • 評価指標
    • Precision :検出したIDORのうち本物の割合
    • Recall :実際のIDORのうち検出できた割合
    • F1スコア :PrecisionとRecallの調和平均
    • コスト :1検出あたり・全体の実行コスト

ベンチマーク結果まとめ

  • F1スコア順ランキング
    1. Semgrep Multimodal (GPT 5.5):61%
    2. Semgrep Multimodal (Opus 4.8):53%
    3. GLM 5.2(プロンプトのみ):39%
    4. Claude Code (Opus 4.6):37%
    5. Claude Code (Opus 4.8/4.7):28%
    6. MiniMax M3:23%
    7. Kimi K2.7 Code:22%
    8. GPT-5.5 Codex:20%
    9. Nemotron Super 3 120B:18%
    10. DeepSeek V4:17%
  • 注目点
    • GLM 5.2 がハーネス無しで Claude Code より7ポイント高い
    • コスト面でも圧倒的優位($0.17/脆弱性)
    • MiniMax M3やKimi K2.7 CodeはGLM 5.2に大きく水をあけられる
    • ハーネスの有無が最大の性能差要因

考察と今後の示唆

  • 同一プロンプト・ハーネス条件下 でGLM 5.2がフロンティアモデルを上回る
  • ハーネス構成 がモデル選択以上に結果へ影響
  • オープンウェイトモデルは「カテゴリとして追いついた」わけではなく、GLM 5.2が突出
  • コスト・性能両面 でオープンウェイトモデルの台頭が加速
  • ベンダーロックインや高コスト構成だけに依存するリスクを再認識
  • 今後は オープンウェイトモデルの進化柔軟なハーネス設計 がセキュリティ分野で重要課題となる

Hackerたちの意見

GLMの輸出規制が来るの?俺は、コマースがOpenRouterやHuggingFaceに、数ヶ月以内にオープンモデルをいくつか削除させると思う。でも、そんなの意味があるとは思えないけどね。

GLMの輸出規制が来るの?アメリカが中国のモデルに輸出制限を課すの?

それが起きたら、絶対に大惨事だよ。AnthropicやOpenAIが最新のモデルをアメリカのほとんどの企業に使わせないシナリオを想像してみて。安全性の理由でね。で、その間に攻撃者は同等のオープンソースモデルを使ってアメリカの企業を攻撃する。オープンソースモデルに対する禁止は問題を解決することにはならないよ。攻撃者は法律に縛られることは絶対にないからね。すべての高度なモデルは防御目的で利用可能であるべきだ。

これからは最先端のAIは防衛産業専用になると思う。私たちはおもちゃのドローンは持てるけど、プレデターやリーパーは無理だね。

アメリカは中国製モデルの使用を禁止するかもしれないけど、中国車の禁止と同じで、他の国はみんな使うだろうね。

じゃあみんな、設定を変えて海外のプロバイダーを通すだけで、50〜100msの遅延が追加されるってことだね。気にしないけど。

GLMの輸出管理が入る? 俺は、Commerceが今後数ヶ月以内にOpenRouterやHuggingFaceにオープンモデルをいくつか削除させるだろうと予測してる。彼らがやりたくても、これを実行するための法的枠組みを見つけられるとは思えない。彼らには(a)アメリカの製品/サービスの輸出を防ぐ権限、(b)物理的な商品の輸入を禁止する権限、(c)外国企業との取引(サービス購入やライセンス契約を含む)を禁止する権限があるけど、アメリカの企業が中国で開発されたオープンソースのAIモデルをアメリカで運用するのを禁止する法的権限は知らない。もしベンダーから距離を置いていて、政府契約や規制されたアプリケーションに使っていなければね。もしかしたらHuggingFaceなどに中国のアカウントを停止するよう命じることはできるかもしれない。でも、もしアメリカ(または第三国)の誰かが中国からモデルをダウンロードして、完全に独立してアメリカのサーバーに再アップロードしたら、それを禁止する法的な根拠はどこにあるの?

広告みたいに読めるな。まず、これらは「ただの」IDORだし、脆弱性の中で一番簡単なクラスだと思う。次に、GPT 5.5やOpus 4.8と比較してるけど、うちにはMythosなんてないよ。

次に、GPT 5.5と比較して、Mythosは推論を行うのに1000%かかる。<10%の性能向上のモデルであれば、かなり厳しい結果になるだろうね。

私の経験では、GLM 5.2は脆弱性を見つけるのが非常に得意で、さらに重要なのは、Opusとは違って、命令を拒否したのを見たことがない。脆弱性を見つけて修正するには、ほんとに強力なモデルだよ。

そうそう、彼らは自分たちの基準が狭いってハッキリ言ってるし、特定のユースケースにとって重要だって。だけど、合理性に流されてピッチフォークを捨てちゃダメだよ!

技術的には、私たちには全くMythosがないんだよね?君たちはアクセスできるけど。これって、私たちには家にOpusがあるってことだね(オープンウェイト)。

Hacker Newsで議論の続きを見る