GLM 4.5 と Claude Code

2025年9月6日原文(docs.z.ai)

概要

GLM-4.5およびGLM-4.5-Airは、エージェント指向アプリケーション向けの最新フラッグシップ基盤モデル。 Mixture-of-Experts（MoE）アーキテクチャを採用し、パラメータ効率と推論能力を両立。 128kトークンの長いコンテキストと強力なツール呼び出し最適化を実現。コーディング・推論・エージェントタスクに特化したファインチューニング。 Thinking Mode搭載で複雑な推論から即時応答まで柔軟に対応。

GLM-4.5/GLM-4.5-Airの全体像

GLM-4.5 ：総パラメータ数355B、1回の推論で32Bアクティブパラメータ
GLM-4.5-Air ：総パラメータ数106B、1回の推論で12Bアクティブパラメータ
Mixture-of-Experts（MoE）構造 による高効率な計算
15兆トークン の一般ドメインデータで事前学習
コード・推論・エージェントタスクに特化したデータセットでファインチューニング
128kトークン の長大なコンテキスト長
強化学習による推論・コーディング・エージェント性能の強化
ツール呼び出し・Webブラウジング・ソフトウェア開発 に最適化
Claude CodeやRoo Codeなどのコード中心エージェントへの統合実績
Thinking Mode/Non-Thinking Mode の切り替えが可能
- thinking.typeパラメータで制御（enabled/disabled）
- デフォルトはダイナミックシンキング有効

GLM-4.5シリーズの能力・特徴

AGI実現の第一歩 ：推論・コーディング・エージェント能力の統合
代表的な12種ベンチマーク（MMLU Pro, AIME24, MATH 500, SciCode, ほか）で評価
世界第2位、国内・OSSモデルで第1位 の総合スコア
高いパラメータ効率 ：DeepSeek-R1の半分、Kimi-K2の1/3のパラメータで上回る性能
GLM-4.5-Air はGemini 2.5 FlashやClaude 4 Opusを推論ベンチマークで上回る
SWE-Bench Verified などでパレート最前線の性能対パラメータ比

コスト・スピード・実運用性

APIコスト ：入力100万トークンあたり$0.2、出力100万トークンあたり$1.1
生成速度 ：実測で毎秒100トークン超
低レイテンシー・高並列性 の運用が可能
Claude Code等への組み込み検証 で高いツール呼び出し信頼性・タスク完遂率
52問の実タスクとエージェント軌跡を公開 し、再現性と透明性を担保

主要用途・コア能力

コーディングスキル ：インテリジェントなコード生成・リアルタイム補完・自動バグ修正
主要言語 （Python, JavaScript, Javaなど）に対応
自然言語指示に基づく高品質・拡張性のあるコード生成
現場開発ニーズ重視 ：テンプレート的出力を回避
ユースケース ：1時間以内のリファクタリング、5分でプロトタイプ生成

Thinking Modeの使い分け

thinking.typeパラメータ で「enabled（有効）」と「disabled（無効）」を切替
デフォルトはダイナミックシンキング有効
簡単なタスク （事実取得・分類など）：Thinking不要
中程度のタスク （比較・理由説明など）：Thinking自動適用
難易度の高いタスク （数学・ネットワーク・複雑なコーディング）：最大限の推論能力を発揮

APIサンプルコード

基本呼び出し例 （curl）

curl -X POST "https://api.z.ai/api/paas/v4/chat/completions" \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer your-api-key" \
  -d '{
    "model": "glm-4.5",
    "messages": [
      { "role": "user", "content": "As a marketing expert, please create an attractive slogan for my product." },
      { "role": "assistant", "content": "Sure, to craft a compelling slogan, please tell me more about your product." },
      { "role": "user", "content": "Z.AI Open Platform" }
    ],
    "thinking": { "type": "enabled" },
    "max_tokens": 4096,
    "temperature": 0.6
  }'

ストリーミング呼び出し例

curl -X POST "https://api.z.ai/api/paas/v4/chat/completions" \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer your-api-key" \
  -d '{
    "model": "glm-4.5",
    "messages": [
      { "role": "user", "content": "As a marketing expert, please create an attractive slogan for my product." },
      { "role": "assistant", "content": "Sure, to craft a compelling slogan, please tell me more about your product." },
      { "role": "user", "content": "Z.AI Open Platform" }
    ],
    "thinking": { "type": "enabled" },
    "stream": true,
    "max_tokens": 4096,
    "temperature": 0.6
  }'

参考リソース

APIドキュメント ：詳細なAPI利用方法
クイックスタートガイド ：素早い導入サポート
52問の実タスクデータ公開 ：業界検証・再現性確保用

Hackerたちの意見

OpenRouterでも試せるみたいだね: https://openrouter.ai/z-ai/glm-4.5 「キラーコンビネーション」っていう主張はどこから来てるのか気になるな。Z.aiの背後にいる人たちが誰なのかも知りたい。前に聞いたことないし。彼らのプランはAnthropicに比べてめっちゃ安いみたいだし、モデルが実際にOpusよりも性能が良ければなおさら。

└

Z.aiの背後にいる人たちが誰なのかも知りたい。前に聞いたことないし。ちなみに、Z.aiはGLM 4.5を作った人たちだから、自分たちの製品を持ち上げてるんだよね。でも、正直に言うと、GLM 4.5とGLM 4.5 Airは本当に良いコーディングモデルだよ。GLM 4.5 AirはClaude Sonnetの約10%のコストで使えるし（少なくともDeepInfraでホスティングした場合）、簡単なコーディングタスクはかなり早くこなせる。GLM 4.5 Airは試してないけど、人気があるみたい。もしClaude Codeのトークンをたくさん簡単に買えるなら、Sonnetの方がいい結果が出ると思う。でも、問題を解決できるだけのプログラミング知識があれば、GLMモデルもかなり使えるよ。ただ、プロのワークステーションやサーバーグレードのハードウェア（RTX 6000 Pro 96GBとか）がないと、GLM 4.5 Airをすぐに動かすのは難しいかな。速度がかなり落ちちゃうし。でも、オープンコーディングモデルの未来にとっては面白い兆しだね。

└

「実世界の開発シナリオ」に関しては、Sonnet 4に近いって主張してるみたい。これがその主張のデータだよ: https://huggingface.co/datasets/zai-org/CC-Bench-trajectorie...

└

実はZ.aiは清華大学のスピンオフで、中国のラボの中でも自分たちの大規模モデルをオープンソース化した最初の一つなんだ（GLMは2021年にリリースされた）。 https://github.com/THUDM/GLM

└

まあ、あれは貧乏人のクラウドコードって呼ぶかな。オーパスとは比べられないけど、ソネットやキミにはすごく近い。

└

偏見や盛り上がりを感じさせないようにタイトルを更新して。

よし、試してみるけど、なんでClaude Codeとの統合方法のリンクを貼らなかったの？: https://docs.z.ai/scenario-example/develop-tools/claude 中国のソフトウェアっていつもこんなデザイン言語だよね：- 先払いしてからクレジットでサブスク - 変なセリフフォント - あのスライダーのキャプチャでも、今から試してみるよ。

└

ああ、間違ったリンクを貼っちゃった。他のタブでこれを開いてたのに…。

└

「中国のチャプチャ」って呼んでたんだけど、当時の中国のチャプチャは西洋のものよりずっと難しかった。でも今は、交差点のタイルを逃すと5つの異なる画像でGチャプチャがスパムしてくるから、私的には中国のチャプチャの方がずっといいと思う。影や形の順番に基づいて画像をマッチさせるバリエーションもあって、そっちの方がインタラクティブで面白い。西洋のチャプチャを解くのは今やすごく頭が疲れるし、交差点や標識、車の識別を複数画像で求められるから、自己運転車を求めてるのかもね。

└

Claudeコードのおかげで、どのモデルでも使えるよ。https://github.com/musistudio/claude-code-router でも、私のテストでは他のモデルはあまりうまくいかなかった。プロンプトがClaude用に最適化されてるか、他のモデルがまだ良くないみたい。特にGrokコードにはがっかりした。宣伝通り速いけど、関数呼び出しでスペースや改行を生成するのに最大トークンに達するまでかかる。これがOpenRouterでトークンが多くなる理由かもしれない。GPT-5はツールをうまく使えてなかったし、GLMはまだ試してないけど、今のAnthropicのサブスクリプションの価値を考えると、代替はかなり安くないと厳しいね。追記：すごく安いサブスクリプションもあることに気づいたよ。https://z.ai/subscribe もし彼らがCCと上手く連携できるモデルを訓練したら、実際に viableな代替になるかも。

└

事前払いしてからクレジットでサブスクするこれは主に中国のオンライン決済インフラがサブスクリプションや自動支払いに対するサポートがあまり良くなかったから（少なくとも最近まで）このパターンが一般的なんだ。

└

アンスロピック互換のモデル（現在のところKimi-K2、GLM、Deepseek）をCCで使う一番簡単な方法は、.zshrcに関数を設定することだよ。https://github.com/pchalasani/claude-code-tools/tree/main?ta... Qwenが同じことをしなかったのは驚きだね（彼らには独自のCLIコーディングエージェントがあるのは知ってるけど）。

Hacker Newsで議論の続きを見る

ハクソク