GLM-5.2は「人工分析」における新しい最先端のオープンウェイトモデルです。

2026年6月17日原文(artificialanalysis.ai)

概要

GLM-5.2 は最新の オープンウェイトAIモデル として高評価を獲得
Intelligence Index v4.1 で51点、競合モデルを上回る成績
科学的推論 を中心に多くの評価指標で前モデルを上回る
コスト対知能 でパレートフロンティア上に位置
API・主要クラウド での利用が可能

GLM-5.2の主な特徴と性能

GLM-5.2 はArtificial Analysis Intelligence Index v4.1で 51点 を記録し、オープンウェイトモデルでトップの性能
- MiniMax-M3（44点）、DeepSeek V4 Pro（max, 44点）、Kimi K2.6（43点）を上回る
パラメータ数 はGLM-5.1と同等（ 744B総数 / 40Bアクティブ）ながら、Intelligence Indexで 11ポイント上昇
API価格 はGLM-5.1と同じく、 $1.4/$4.4/$0.26（1M input/output/cache hit tokensあたり）
科学的推論 で大幅な性能向上
- CritPt：+16ポイント（21%）
- HLE：+12ポイント（40%）
- AA-LCR：+9ポイント（71%）
- tau3 banking：+15ポイント（27%）
- SciCode：+7ポイント（50%）
- TerminalBench v2.1：+16ポイント（78%）
- GPQA Diamond：+3ポイント（89%）
GDPval-AA v2 では1524点を獲得し、MiniMax-M3（1418）、DeepSeek V4 Pro（max, 1328）をリード
- GPT-5.5（xhigh reasoning, 1514） と同等のレベル
- GDPval-AA v2はEloスコアを人間基準1000に設定し、評価者パネルやターン数上限を拡張
出力トークン数 が多い傾向
- Intelligence Indexタスクごとに 43kトークン （GLM-5.1は26k、MiniMax-M3は24k、Kimi K2.6は35k、DeepSeek V4 Pro（max）は37k）
コスト対知能 でパレートフロンティア上に位置
- 1タスクあたり約 $0.46 （GLM-5.1: $0.25、Kimi K2.6: $0.31、MiniMax-M3: $0.18、DeepSeek V4 Pro（max）: $0.05）

GLM-5.2の詳細仕様

ライセンス ：MIT
パラメータ数 ：総数744B、アクティブ40B（GLM-5.1と同等）
コンテキストウィンドウ ： 1Mトークン （GLM-5.1は200Kから拡張）
価格：$1.4（input）、$0.26（cache hit）、$4.4（output）／1Mトークン
提供先 ：Z ai公式APIに加え、DeepInfra、Novita、Nebius、Parasail、Siliconflow、GMI Cloud、Baseten、Fireworksなど主要クラウドで利用可能

評価指標におけるGLM-5.2の位置づけ

GDPval-AA v2 でオープンウェイトモデル中トップ（1524点）
- GPT-5.5（xhigh, 1514）と同等
AA-Omniscience Index で4点（GLM-5.1は2点）
- 精度向上（25.1%→24.2%）、幻覚率低下（28.1%→29.4%）、試行率は47%で横ばい
Intelligence Indexタスク での出力トークン43k（うち37kが推論に使用）
- トークン効率は同等知能レベルのモデルと比較しやや低い
詳細な評価比較：https://artificialanalysis.ai/models/glm-5-2

まとめ

GLM-5.2 は 知能・汎用性・コスト のバランスで現行オープンウェイトモデル中トップ
科学的推論や長期推論 に強み
APIや主要クラウド での即時利用が可能
さらなる詳細や比較は公式サイトで確認可能

Hackerたちの意見

ほんとにいい進歩だと思うし、フロンティアにかなり近づいてるね。でも、今は推論の効率にもっと注力してほしいな。LLMを評価するために簡単なテストタスクを用意したんだけど、Nimでシンプルな数学評価ライブラリを書くってやつで、全体で400〜600行くらいなんだ。GLM 5.2（xhigh、最大努力にマッピングされる）が、最初のファイルを書くのに15分以上もかかって、トークンも約45,000使ったんだよ。これを改善するのは難しいのはわかるけど、今やモデルが十分に優れてるから、これをもっと優先すべきだと思う。今のところ、https://artificialanalysis.ai/#output-tokens では、GPT 5.5 xhighが平均で16,000トークン、GPT 5.5 highが10,000、Fable 5が33,000、Opus 4.8が41,000、GLM 5.2が42,000使ってる。GPT 5.5は推論効率がすごくいいよね。もちろん、これらの値を実際のリクエストコストに換算すると、GLM 5.2は多分GPT 5.5やOpus 4.8を上回ると思うけど、スピードは多くの人にとって重要だと思う。

└

これはGLM 5.2 Maxだよ。GLM 5.2 Highはトークンを半分以下[1]使うんだ。

└

Opusの問題は、すごく考え込んでから「でも待って、もしこうだったら」ってなること。だから、途中で止めて「コードを書き始めて、進めながら考えればいいよ」って言ってる。どうやら、ライターズブロックもLLMに影響を与えてるみたい。

└

GLM 5.2 Maxは思考行動においてOpus 4.8 Maxと同じくらいだよ。思考の連鎖がすごく似てるし、出力のトークン使用量も同じくらい。合理的なトークン使用を求めるなら、GLM 5.2をハイで動かさないとね。Maxからハイに落としても質はほとんど落ちない（ほとんどのタスクで）。トークン使用量は2倍から2.5倍減るし。GLM 5.2のMaxは複雑なタスクのためだけに必要なものだよ。要するに、GLM 5.2はOpus 4.8の弟分で、めちゃくちゃ安い価格で手に入るんだ。オーパスモデルのトレーニングは本当に全然行われてないよ、マジで！/sarcasm

└

もちろん、その値を実際のリクエストコストに換算すると、GLM 5.2はGPT 5.5やOpus 4.8を上回るかもしれないけど、スピードは多くの人にとって重要だと思う。openrouterで試したとき、GLM 5.2は思ってたよりもずっと高くついた。5ドル分のトークンをすぐに使い切っちゃったし、これは高い方で、最大ではなかったよ。

なんでもっと多くの人がこれについて話してないの？文字通りOpus 4.7の品質でめちゃくちゃ安い価格だよ。無制限トークンで月50ドルで提供してるプロバイダーも知ってるし、公式のZAI APIの料金よりも3倍安いAPIレートを提供してるところもあるよ。（CrofとUmansね）これはAnthropic/OpenAI/Googleにとって大きな打撃で、他の国にとっては大きな勝利だよ。公式のAPI価格や速度はオープンソースモデルには何の意味もないからね。

└

この品質で1日300万トークン消費できるって気づいて、Claudeのサブスクリプションをキャンセルしたよ、月50ドルでね。

└

自分のデスクトップで約0€で動かせないモデルにはあまり興味がないんだ。これが自分のAI予算だから。

└

非公式のプロバイダーには気をつけてね。多くのところがモデルを誤設定したり、ステルスで量子化したりしてるから。公式APIのKimiとほとんどのサードパーティプロバイダーの違いが20〜40%あった時期もあったよ。

└

なんでもっと多くの人がこれについて話してないの？これって2日前にリリースされたばかりじゃなかった？みんなまだ評価したり遊んだりしてる段階だから、提出物みたいなのもこれから出てくるところだよ。結論を急ぐ前に、少なくとも数日、理想的には数週間待ってみて。

└

最初の質問に答えると、すごく計算リソースがかかるからなんだよね。人間がすべての選択肢についていくのは大変だし、こういうモデルを動かす方法を見つけるのも難しい。インストーラーもないし、本当に興味があるなら、99%の人がそうじゃないけど、ガイドをググって、古い情報だってことに気づくことになる。いくつか試してみたけど、「Claude Codeをインストールして月100ドル払う」っていうのに比べると、学習曲線がめちゃくちゃ急なんだよね。50ドルの節約なんて、それを理解するのに比べたら全然大したことじゃない。

└

私の組織では、みんながClaudeに夢中で、まるでそれだけが存在するかのよう。企業内のエンジニア以外の人たちに特化しているからね。

Hacker Newsで議論の続きを見る

ハクソク

GLM-5.2は「人工分析」における新しい最先端のオープンウェイトモデルです。

概要

GLM-5.2の主な特徴と性能

GLM-5.2の詳細仕様

評価指標におけるGLM-5.2の位置づけ

まとめ

Hackerたちの意見