世界を動かす技術を、日本語で。

ローカルハードウェアでの GLM-5.2 の実行

2026年6月23日原文(unsloth.ai)

概要

  • GLM-5.2 はZ.aiが公開した大規模オープンAIモデル
  • 長文コーディング・推論・エージェントタスク でSOTA性能を実現
  • ローカル実行 が可能、Unsloth Dynamic GGUFs対応
  • 多様な量子化設定 で高効率・高精度を両立
  • Unsloth Studio やllama.cppで簡単導入・運用

GLM-5.2の概要と特徴

  • GLM-5.2Z.ai が開発した最新のオープンAIモデル
  • パラメータ数7440億(アクティブパラメータ400億)1M(104万)トークンコンテキストウィンドウ 対応
  • Claude 4.8 Opus, GPT-5.5, Gemini 3.1 Pro と同等のベンチマーク性能
  • Unsloth Dynamic GGUFs により、 ローカル環境 (Mac/Windows/Linux)での実行が可能
  • エージェント的タスク、長文推論、コーディング において最先端性能

量子化(Quantization)と精度

  • Dynamic 1-bit量子化 :モデルサイズを 86%削減 しつつ、 76.2% top-1精度 を維持
  • Dynamic 2-bit量子化 :サイズ 84%削減82%精度
  • 1.5TBフルモデル比で24%のみ精度低下、効率と精度のバランス
  • 4bit/5bit量子化 はほぼロスレス、幅広い用途に適応

推論・動作環境要件

  • 2-bit動的量子化(UD-IQ2_M)239GB のディスク容量が必要、 256GBユニファイドメモリMac24GB GPU+256GB RAM で動作可能
  • 1-bit量子化223GB RAM で動作
  • 8-bit量子化810GB RAM 必要
  • 推論時はモデルファイルサイズより多めのメモリ確保 が推奨

思考モード(Thinking Modes)

  • 3つの思考モード を搭載:Non-thinking(思考なし)、High、Max
  • 複雑なタスクにはMax Thinking が推奨
  • Unsloth Studio のUIで簡単にモード切替が可能
  • デフォルトはThinkingモード、CLIオプションで切替・無効化可能

量子化精度と意味

  • 76% top-1精度 は「パリの首都は?」→「Paris」を76%の確率で出す、ではなく、コーパス全体での ストップワードや表現の揺れ も含む
  • 出力の24%が誤答になるわけではない、ほとんど意味のある自然言語出力
  • KLD(KL Divergence) による評価も良好、 4bit以上でほぼロスレス

GLM-5.2の導入・起動方法

  • Unsloth Studio でローカルAI Web UIとして利用可能
    • RAM自動オフロード・マルチGPU検出 対応
    • MacOS/Windows/Linux で動作
    • GGUF/safetensorモデルの検索・DL・実行
    • llama.cpp連携による高速推論
  • インストールコマンド例
    • MacOS/Linux/WSL:
      • curl -fsSL https://unsloth.ai/install.sh | sh
    • Windows PowerShell:
      • irm https://unsloth.ai/install.ps1 | iex
  • 起動方法
    • unsloth studio -H 0.0.0.0 -p 8888
    • ブラウザでhttp://127.0.0.1:8888にアクセス
  • CloudflareトンネルによるHTTPSセキュア起動 も対応

llama.cppでの利用

  • 最新llama.cpp をGitHubから取得しビルド
    • GPUなしなら-DGGML_CUDA=OFFでビルド
    • Apple Mac/Metalもデフォルト対応
  • モデル・量子化種類を選択してDL・実行
    • 例:UD-IQ2_M(2bit量子化)
    • モデルキャッシュ先指定:export LLAMA_CACHE="unsloth/GLM-5.2-GGUF"
  • 推論パラメータ例
    • --temp 1.0
    • --top-p 0.95
    • --min-p 0.01

長文コンテキストとKVキャッシュ量子化

  • KVキャッシュ量子化 により、 長文コンテキスト の効率的利用が可能
  • 例: q4_0(4.5bit/重み)3.5倍 の長文対応
  • q4_1(5bit/重み) はより高精度、 3.2倍 の長文対応

ベンチマーク・性能比較

  • 推論・コーディング・エージェントタスク でSOTA水準
  • 代表ベンチマーク例
    • SWE-bench Pro :62.1
    • Terminal Bench 2.1 :81.0
    • AIME 2026 :99.2
    • HMMT Nov. 2025 :94.4
    • MCP-Atlas (Agentic) :76.8

推奨設定・まとめ

  • 量子化分析・推奨設定
    • 2bit量子化(UD-IQ2_M)が 精度・容量バランス最良
    • Unsloth Studio/llama.cppの両方で利用可能
  • GLM-5.2現時点で最強のオープンモデル、ローカルAI開発や研究に最適
  • 公式Unsloth Studioインストールガイド、llama.cppビルドガイド 参照推奨

この内容はGLM-5.2の公式発表・Unslothチュートリアル等を日本語で要約・再構成したものです。

Hackerたちの意見

もうちょっと!192GBのRAMとRTX 3090 24GBのマシンなら、ほぼこれを動かせるんだけど。VRAMが24GB、RAMが256GB必要って言われてる。https://unsloth.ai/docs/models/glm-5.2#usage-guide 前のスレッドでは、ハードウェアに50万ドルかかるって誰かが言ってたよ。https://news.ycombinator.com/item?id=48629970

2だと、あんまり良い結果は出ないよ。コーディングには少なくともQ8が理想的な範囲だね。

RAMはあるけど、VRAMが足りない。24GBのRAMを持つ3090からどれくらいの速度やTPSが期待できるんだろう?24GBのRAMを搭載したGPUを選びたくなってきた。

$500kはかなりの過大評価だね。FP8やBF16での大規模同時処理ならともかく、NVFP4で合理的な速度(約120トークン/秒)と同時処理が可能なら、今の価格で$80kか$90kくらいでいけるかも。これで6台のRTX 6000 PRO Blackwell、 decentなCPUとマザーボード、電源が揃うし、576GBのVRAMも手に入るよ。40トークン/秒のデコード、約1200トークン/秒のプリフィルで、$50k以下でできるかもしれないね。

面白いことに、カジュアルにGeminiに聞いたら、良好なスループットで非量子化の状態で500kって言われたよ。

このブームが90年代のようなコンピュータハードウェアの改善を引き起こしてくれることを願ってる。ここ20年のハードウェアの相対的な停滞の理由の一つは、企業がハードウェアの刷新を正当化するためのユースケースが不足していたからだと思う。ここ15年はほとんどのお金とエネルギーがモバイルに注がれてたし。手頃なローカル推論が、サーバーやデスクトップ、ノートパソコンメーカーが再び動き出すための追い風になるかもしれないね。

コーディング用の十分なモデルをローカルで動かせる距離に近づいてる気がする。これがいくつかの企業をちょっと不安にさせるかも。俺の考え違いかな?

RAMの要件はまだ結構厳しいね。

これをローカルで動かすためのハードウェア要件はまだかなり高い。主流からはまだ遠い感じだから、企業もあまり心配してないんじゃないかな。

そうは思わないな。企業が自社の開発のためにこれらのモデルをホストして動かすことを決めるのは簡単に想像できるよ。10人くらいの開発チームがいるなら、LLMサーバーに5万ドルの一回きりの投資はかなり魅力的だと思う。無制限のトークン、そこそこのパフォーマンス、アップグレードオプション、製品統合の可能性もあるし。一般的に製品にLLMを取り入れたい企業にとって、ローカルのLLMルートはさらに魅力的だと思う。ちょっとバカなモデルでも、LLMを製品に統合するには十分すぎるくらいだよ。

今、RAMやGPUが不足してるから、もっと神経質になってるかも。でも、今のままだとこのモデルを効果的に動かせる rig を持ってる人はほんとに少ないよ。これが数年変わらないと思う。もしZ.aiの人たちがコーディングに特化したGLM-5.2のフラッシュ版を出すなら、アメリカのフロンティアラボはもっと心配するかもね。全体的に、中国のAI企業は少ないリソースで同じことをやる方法を示してきたし、その流れが続けばフロンティアラボも心配になるだろうけど、中国のAI企業も現行のフラッグシップモデルよりかなり小さいモデルを出すことは避けるだろうね。AliBaba Qwenは今その状態みたいで、最近は静かになってるし、最新の395Bモデルはほとんどの人が家で動かすには大きすぎるから、今回は小さいモデルを出す気配もないみたい。

どんなハードウェアでローカルに?新しいDGXスパークやRyzen Halo、Mac Studioみたいなものは、約$4kに電気代がかかるよ。AIが今のペースで進んでるから、2年の減価償却を考えるのは楽観的だと思う。$4kで、20ヶ月のClaude Max 200が手に入るし、ハードウェアよりもClaudeを選ぶかな。Anthropicは、MacBookでコーディングできるローカルモデルが動かせるようになったら心配するだろうけど、まだまだ先の話だと思う。

Hacker Newsで議論の続きを見る