世界を動かす技術を、日本語で。

GLM-5.2は「人工分析」における新しい最先端のオープンウェイトモデルです。

概要

  • GLM-5.2 は最新の オープンウェイトAIモデル として高評価を獲得
  • Intelligence Index v4.1 で51点、競合モデルを上回る成績
  • 科学的推論 を中心に多くの評価指標で前モデルを上回る
  • コスト対知能 でパレートフロンティア上に位置
  • API・主要クラウド での利用が可能

GLM-5.2の主な特徴と性能

  • GLM-5.2 はArtificial Analysis Intelligence Index v4.1で 51点 を記録し、オープンウェイトモデルでトップの性能
    • MiniMax-M3(44点)、DeepSeek V4 Pro(max, 44点)、Kimi K2.6(43点)を上回る
  • パラメータ数 はGLM-5.1と同等( 744B総数 / 40Bアクティブ)ながら、Intelligence Indexで 11ポイント上昇
  • API価格 はGLM-5.1と同じく、 $1.4/$4.4/$0.26(1M input/output/cache hit tokensあたり)
  • 科学的推論 で大幅な性能向上
    • CritPt:+16ポイント(21%)
    • HLE:+12ポイント(40%)
    • AA-LCR:+9ポイント(71%)
    • tau3 banking:+15ポイント(27%)
    • SciCode:+7ポイント(50%)
    • TerminalBench v2.1:+16ポイント(78%)
    • GPQA Diamond:+3ポイント(89%)
  • GDPval-AA v2 では1524点を獲得し、MiniMax-M3(1418)、DeepSeek V4 Pro(max, 1328)をリード
    • GPT-5.5(xhigh reasoning, 1514) と同等のレベル
    • GDPval-AA v2はEloスコアを人間基準1000に設定し、評価者パネルやターン数上限を拡張
  • 出力トークン数 が多い傾向
    • Intelligence Indexタスクごとに 43kトークン (GLM-5.1は26k、MiniMax-M3は24k、Kimi K2.6は35k、DeepSeek V4 Pro(max)は37k)
  • コスト対知能 でパレートフロンティア上に位置
    • 1タスクあたり約 $0.46 (GLM-5.1: $0.25、Kimi K2.6: $0.31、MiniMax-M3: $0.18、DeepSeek V4 Pro(max): $0.05)

GLM-5.2の詳細仕様

  • ライセンス :MIT
  • パラメータ数 :総数744B、アクティブ40B(GLM-5.1と同等)
  • コンテキストウィンドウ1Mトークン (GLM-5.1は200Kから拡張)
  • 価格 :$1.4(input)、$0.26(cache hit)、$4.4(output)/1Mトークン
  • 提供先 :Z ai公式APIに加え、DeepInfra、Novita、Nebius、Parasail、Siliconflow、GMI Cloud、Baseten、Fireworksなど主要クラウドで利用可能

評価指標におけるGLM-5.2の位置づけ

  • GDPval-AA v2 でオープンウェイトモデル中トップ(1524点)
    • GPT-5.5(xhigh, 1514)と同等
  • AA-Omniscience Index で4点(GLM-5.1は2点)
    • 精度向上(25.1%→24.2%)、幻覚率低下(28.1%→29.4%)、試行率は47%で横ばい
  • Intelligence Indexタスク での出力トークン43k(うち37kが推論に使用)
    • トークン効率は同等知能レベルのモデルと比較しやや低い
  • 詳細な評価比較:https://artificialanalysis.ai/models/glm-5-2

まとめ

  • GLM-5.2知能・汎用性・コスト のバランスで現行オープンウェイトモデル中トップ
  • 科学的推論や長期推論 に強み
  • APIや主要クラウド での即時利用が可能
  • さらなる詳細や比較は公式サイトで確認可能

Hackerたちの意見

ほんとにいい進歩だと思うし、フロンティアにかなり近づいてるね。でも、今は推論の効率にもっと注力してほしいな。LLMを評価するために簡単なテストタスクを用意したんだけど、Nimでシンプルな数学評価ライブラリを書くってやつで、全体で400〜600行くらいなんだ。GLM 5.2(xhigh、最大努力にマッピングされる)が、最初のファイルを書くのに15分以上もかかって、トークンも約45,000使ったんだよ。これを改善するのは難しいのはわかるけど、今やモデルが十分に優れてるから、これをもっと優先すべきだと思う。今のところ、https://artificialanalysis.ai/#output-tokens では、GPT 5.5 xhighが平均で16,000トークン、GPT 5.5 highが10,000、Fable 5が33,000、Opus 4.8が41,000、GLM 5.2が42,000使ってる。GPT 5.5は推論効率がすごくいいよね。もちろん、これらの値を実際のリクエストコストに換算すると、GLM 5.2は多分GPT 5.5やOpus 4.8を上回ると思うけど、スピードは多くの人にとって重要だと思う。

これはGLM 5.2 Maxだよ。GLM 5.2 Highはトークンを半分以下[1]使うんだ。

Opusの問題は、すごく考え込んでから「でも待って、もしこうだったら」ってなること。だから、途中で止めて「コードを書き始めて、進めながら考えればいいよ」って言ってる。どうやら、ライターズブロックもLLMに影響を与えてるみたい。

GLM 5.2 Maxは思考行動においてOpus 4.8 Maxと同じくらいだよ。思考の連鎖がすごく似てるし、出力のトークン使用量も同じくらい。合理的なトークン使用を求めるなら、GLM 5.2をハイで動かさないとね。Maxからハイに落としても質はほとんど落ちない(ほとんどのタスクで)。トークン使用量は2倍から2.5倍減るし。GLM 5.2のMaxは複雑なタスクのためだけに必要なものだよ。要するに、GLM 5.2はOpus 4.8の弟分で、めちゃくちゃ安い価格で手に入るんだ。オーパスモデルのトレーニングは本当に全然行われてないよ、マジで!/sarcasm

もちろん、その値を実際のリクエストコストに換算すると、GLM 5.2はGPT 5.5やOpus 4.8を上回るかもしれないけど、スピードは多くの人にとって重要だと思う。openrouterで試したとき、GLM 5.2は思ってたよりもずっと高くついた。5ドル分のトークンをすぐに使い切っちゃったし、これは高い方で、最大ではなかったよ。

なんでもっと多くの人がこれについて話してないの?文字通りOpus 4.7の品質でめちゃくちゃ安い価格だよ。無制限トークンで月50ドルで提供してるプロバイダーも知ってるし、公式のZAI APIの料金よりも3倍安いAPIレートを提供してるところもあるよ。(CrofとUmansね)これはAnthropic/OpenAI/Googleにとって大きな打撃で、他の国にとっては大きな勝利だよ。公式のAPI価格や速度はオープンソースモデルには何の意味もないからね。

この品質で1日300万トークン消費できるって気づいて、Claudeのサブスクリプションをキャンセルしたよ、月50ドルでね。

自分のデスクトップで約0€で動かせないモデルにはあまり興味がないんだ。これが自分のAI予算だから。

非公式のプロバイダーには気をつけてね。多くのところがモデルを誤設定したり、ステルスで量子化したりしてるから。公式APIのKimiとほとんどのサードパーティプロバイダーの違いが20〜40%あった時期もあったよ。

なんでもっと多くの人がこれについて話してないの?これって2日前にリリースされたばかりじゃなかった?みんなまだ評価したり遊んだりしてる段階だから、提出物みたいなのもこれから出てくるところだよ。結論を急ぐ前に、少なくとも数日、理想的には数週間待ってみて。

最初の質問に答えると、すごく計算リソースがかかるからなんだよね。人間がすべての選択肢についていくのは大変だし、こういうモデルを動かす方法を見つけるのも難しい。インストーラーもないし、本当に興味があるなら、99%の人がそうじゃないけど、ガイドをググって、古い情報だってことに気づくことになる。いくつか試してみたけど、「Claude Codeをインストールして月100ドル払う」っていうのに比べると、学習曲線がめちゃくちゃ急なんだよね。50ドルの節約なんて、それを理解するのに比べたら全然大したことじゃない。

私の組織では、みんながClaudeに夢中で、まるでそれだけが存在するかのよう。企業内のエンジニア以外の人たちに特化しているからね。

Hacker Newsで議論の続きを見る