概要
- GLM-5.2 はZ.aiが公開した大規模オープンAIモデル
- 長文コーディング・推論・エージェントタスク でSOTA性能を実現
- ローカル実行 が可能、Unsloth Dynamic GGUFs対応
- 多様な量子化設定 で高効率・高精度を両立
- Unsloth Studio やllama.cppで簡単導入・運用
GLM-5.2の概要と特徴
- GLM-5.2 は Z.ai が開発した最新のオープンAIモデル
- パラメータ数7440億(アクティブパラメータ400億)、 1M(104万)トークンコンテキストウィンドウ 対応
- Claude 4.8 Opus, GPT-5.5, Gemini 3.1 Pro と同等のベンチマーク性能
- Unsloth Dynamic GGUFs により、 ローカル環境 (Mac/Windows/Linux)での実行が可能
- エージェント的タスク、長文推論、コーディング において最先端性能
量子化(Quantization)と精度
- Dynamic 1-bit量子化 :モデルサイズを 86%削減 しつつ、 76.2% top-1精度 を維持
- Dynamic 2-bit量子化 :サイズ 84%削減、 82%精度
- 1.5TBフルモデル比で24%のみ精度低下、効率と精度のバランス
- 4bit/5bit量子化 はほぼロスレス、幅広い用途に適応
推論・動作環境要件
- 2-bit動的量子化(UD-IQ2_M) : 239GB のディスク容量が必要、 256GBユニファイドメモリMac や 24GB GPU+256GB RAM で動作可能
- 1-bit量子化 : 223GB RAM で動作
- 8-bit量子化 : 810GB RAM 必要
- 推論時はモデルファイルサイズより多めのメモリ確保 が推奨
思考モード(Thinking Modes)
- 3つの思考モード を搭載:Non-thinking(思考なし)、High、Max
- 複雑なタスクにはMax Thinking が推奨
- Unsloth Studio のUIで簡単にモード切替が可能
- デフォルトはThinkingモード、CLIオプションで切替・無効化可能
量子化精度と意味
- 76% top-1精度 は「パリの首都は?」→「Paris」を76%の確率で出す、ではなく、コーパス全体での ストップワードや表現の揺れ も含む
- 出力の24%が誤答になるわけではない、ほとんど意味のある自然言語出力
- KLD(KL Divergence) による評価も良好、 4bit以上でほぼロスレス
GLM-5.2の導入・起動方法
- Unsloth Studio でローカルAI Web UIとして利用可能
- RAM自動オフロード・マルチGPU検出 対応
- MacOS/Windows/Linux で動作
- GGUF/safetensorモデルの検索・DL・実行
- llama.cpp連携による高速推論
- インストールコマンド例
- MacOS/Linux/WSL:
curl -fsSL https://unsloth.ai/install.sh | sh
- Windows PowerShell:
irm https://unsloth.ai/install.ps1 | iex
- MacOS/Linux/WSL:
- 起動方法
unsloth studio -H 0.0.0.0 -p 8888- ブラウザで
http://127.0.0.1:8888にアクセス
- CloudflareトンネルによるHTTPSセキュア起動 も対応
llama.cppでの利用
- 最新llama.cpp をGitHubから取得しビルド
- GPUなしなら
-DGGML_CUDA=OFFでビルド - Apple Mac/Metalもデフォルト対応
- GPUなしなら
- モデル・量子化種類を選択してDL・実行
- 例:
UD-IQ2_M(2bit量子化) - モデルキャッシュ先指定:
export LLAMA_CACHE="unsloth/GLM-5.2-GGUF"
- 例:
- 推論パラメータ例
--temp 1.0--top-p 0.95--min-p 0.01
長文コンテキストとKVキャッシュ量子化
- KVキャッシュ量子化 により、 長文コンテキスト の効率的利用が可能
- 例: q4_0(4.5bit/重み) で 3.5倍 の長文対応
- q4_1(5bit/重み) はより高精度、 3.2倍 の長文対応
ベンチマーク・性能比較
- 推論・コーディング・エージェントタスク でSOTA水準
- 代表ベンチマーク例
- SWE-bench Pro :62.1
- Terminal Bench 2.1 :81.0
- AIME 2026 :99.2
- HMMT Nov. 2025 :94.4
- MCP-Atlas (Agentic) :76.8
推奨設定・まとめ
- 量子化分析・推奨設定
- 2bit量子化(UD-IQ2_M)が 精度・容量バランス最良
- Unsloth Studio/llama.cppの両方で利用可能
- GLM-5.2 は 現時点で最強のオープンモデル、ローカルAI開発や研究に最適
- 公式Unsloth Studioインストールガイド、llama.cppビルドガイド 参照推奨
この内容はGLM-5.2の公式発表・Unslothチュートリアル等を日本語で要約・再構成したものです。