概要
- GLM-5.2 は最新の オープンウェイトAIモデル として高評価を獲得
- Intelligence Index v4.1 で51点、競合モデルを上回る成績
- 科学的推論 を中心に多くの評価指標で前モデルを上回る
- コスト対知能 でパレートフロンティア上に位置
- API・主要クラウド での利用が可能
GLM-5.2の主な特徴と性能
- GLM-5.2 はArtificial Analysis Intelligence Index v4.1で 51点 を記録し、オープンウェイトモデルでトップの性能
- MiniMax-M3(44点)、DeepSeek V4 Pro(max, 44点)、Kimi K2.6(43点)を上回る
- パラメータ数 はGLM-5.1と同等( 744B総数 / 40Bアクティブ)ながら、Intelligence Indexで 11ポイント上昇
- API価格 はGLM-5.1と同じく、 $1.4/$4.4/$0.26(1M input/output/cache hit tokensあたり)
- 科学的推論 で大幅な性能向上
- CritPt:+16ポイント(21%)
- HLE:+12ポイント(40%)
- AA-LCR:+9ポイント(71%)
- tau3 banking:+15ポイント(27%)
- SciCode:+7ポイント(50%)
- TerminalBench v2.1:+16ポイント(78%)
- GPQA Diamond:+3ポイント(89%)
- GDPval-AA v2 では1524点を獲得し、MiniMax-M3(1418)、DeepSeek V4 Pro(max, 1328)をリード
- GPT-5.5(xhigh reasoning, 1514) と同等のレベル
- GDPval-AA v2はEloスコアを人間基準1000に設定し、評価者パネルやターン数上限を拡張
- 出力トークン数 が多い傾向
- Intelligence Indexタスクごとに 43kトークン (GLM-5.1は26k、MiniMax-M3は24k、Kimi K2.6は35k、DeepSeek V4 Pro(max)は37k)
- コスト対知能 でパレートフロンティア上に位置
- 1タスクあたり約 $0.46 (GLM-5.1: $0.25、Kimi K2.6: $0.31、MiniMax-M3: $0.18、DeepSeek V4 Pro(max): $0.05)
GLM-5.2の詳細仕様
- ライセンス :MIT
- パラメータ数 :総数744B、アクティブ40B(GLM-5.1と同等)
- コンテキストウィンドウ : 1Mトークン (GLM-5.1は200Kから拡張)
- 価格 :$1.4(input)、$0.26(cache hit)、$4.4(output)/1Mトークン
- 提供先 :Z ai公式APIに加え、DeepInfra、Novita、Nebius、Parasail、Siliconflow、GMI Cloud、Baseten、Fireworksなど主要クラウドで利用可能
評価指標におけるGLM-5.2の位置づけ
- GDPval-AA v2 でオープンウェイトモデル中トップ(1524点)
- GPT-5.5(xhigh, 1514)と同等
- AA-Omniscience Index で4点(GLM-5.1は2点)
- 精度向上(25.1%→24.2%)、幻覚率低下(28.1%→29.4%)、試行率は47%で横ばい
- Intelligence Indexタスク での出力トークン43k(うち37kが推論に使用)
- トークン効率は同等知能レベルのモデルと比較しやや低い
- 詳細な評価比較:https://artificialanalysis.ai/models/glm-5-2
まとめ
- GLM-5.2 は 知能・汎用性・コスト のバランスで現行オープンウェイトモデル中トップ
- 科学的推論や長期推論 に強み
- APIや主要クラウド での即時利用が可能
- さらなる詳細や比較は公式サイトで確認可能