世界を動かす技術を、日本語で。

GLM 4.5 と Claude Code

概要

GLM-4.5およびGLM-4.5-Airは、エージェント指向アプリケーション向けの最新フラッグシップ基盤モデル。 Mixture-of-Experts(MoE)アーキテクチャを採用し、パラメータ効率と推論能力を両立。 128kトークンの長いコンテキストと強力なツール呼び出し最適化を実現。 コーディング・推論・エージェントタスクに特化したファインチューニング。 Thinking Mode搭載で複雑な推論から即時応答まで柔軟に対応。

GLM-4.5/GLM-4.5-Airの全体像

  • GLM-4.5 :総パラメータ数355B、1回の推論で32Bアクティブパラメータ
  • GLM-4.5-Air :総パラメータ数106B、1回の推論で12Bアクティブパラメータ
  • Mixture-of-Experts(MoE)構造 による高効率な計算
  • 15兆トークン の一般ドメインデータで事前学習
  • コード・推論・エージェントタスクに特化したデータセットでファインチューニング
  • 128kトークン の長大なコンテキスト長
  • 強化学習による推論・コーディング・エージェント性能の強化
  • ツール呼び出し・Webブラウジング・ソフトウェア開発 に最適化
  • Claude CodeやRoo Codeなどのコード中心エージェントへの統合実績
  • Thinking Mode/Non-Thinking Mode の切り替えが可能
    • thinking.typeパラメータで制御(enabled/disabled)
    • デフォルトはダイナミックシンキング有効

GLM-4.5シリーズの能力・特徴

  • AGI実現の第一歩 :推論・コーディング・エージェント能力の統合
  • 代表的な12種ベンチマーク(MMLU Pro, AIME24, MATH 500, SciCode, ほか)で評価
  • 世界第2位、国内・OSSモデルで第1位 の総合スコア
  • 高いパラメータ効率 :DeepSeek-R1の半分、Kimi-K2の1/3のパラメータで上回る性能
  • GLM-4.5-Air はGemini 2.5 FlashやClaude 4 Opusを推論ベンチマークで上回る
  • SWE-Bench Verified などでパレート最前線の性能対パラメータ比

コスト・スピード・実運用性

  • APIコスト :入力100万トークンあたり$0.2、出力100万トークンあたり$1.1
  • 生成速度 :実測で毎秒100トークン超
  • 低レイテンシー・高並列性 の運用が可能
  • Claude Code等への組み込み検証 で高いツール呼び出し信頼性・タスク完遂率
  • 52問の実タスクとエージェント軌跡を公開 し、再現性と透明性を担保

主要用途・コア能力

  • コーディングスキル :インテリジェントなコード生成・リアルタイム補完・自動バグ修正
  • 主要言語 (Python, JavaScript, Javaなど)に対応
  • 自然言語指示に基づく高品質・拡張性のあるコード生成
  • 現場開発ニーズ重視 :テンプレート的出力を回避
  • ユースケース :1時間以内のリファクタリング、5分でプロトタイプ生成

Thinking Modeの使い分け

  • thinking.typeパラメータ で「enabled(有効)」と「disabled(無効)」を切替
  • デフォルトはダイナミックシンキング有効
  • 簡単なタスク (事実取得・分類など):Thinking不要
  • 中程度のタスク (比較・理由説明など):Thinking自動適用
  • 難易度の高いタスク (数学・ネットワーク・複雑なコーディング):最大限の推論能力を発揮

APIサンプルコード

  • 基本呼び出し例 (curl)
    curl -X POST "https://api.z.ai/api/paas/v4/chat/completions" \
      -H "Content-Type: application/json" \
      -H "Authorization: Bearer your-api-key" \
      -d '{
        "model": "glm-4.5",
        "messages": [
          { "role": "user", "content": "As a marketing expert, please create an attractive slogan for my product." },
          { "role": "assistant", "content": "Sure, to craft a compelling slogan, please tell me more about your product." },
          { "role": "user", "content": "Z.AI Open Platform" }
        ],
        "thinking": { "type": "enabled" },
        "max_tokens": 4096,
        "temperature": 0.6
      }'
    
  • ストリーミング呼び出し例
    curl -X POST "https://api.z.ai/api/paas/v4/chat/completions" \
      -H "Content-Type: application/json" \
      -H "Authorization: Bearer your-api-key" \
      -d '{
        "model": "glm-4.5",
        "messages": [
          { "role": "user", "content": "As a marketing expert, please create an attractive slogan for my product." },
          { "role": "assistant", "content": "Sure, to craft a compelling slogan, please tell me more about your product." },
          { "role": "user", "content": "Z.AI Open Platform" }
        ],
        "thinking": { "type": "enabled" },
        "stream": true,
        "max_tokens": 4096,
        "temperature": 0.6
      }'
    

参考リソース

  • APIドキュメント :詳細なAPI利用方法
  • クイックスタートガイド :素早い導入サポート
  • 52問の実タスクデータ公開 :業界検証・再現性確保用

Hackerたちの意見

OpenRouterでも試せるみたいだね: https://openrouter.ai/z-ai/glm-4.5 「キラーコンビネーション」っていう主張はどこから来てるのか気になるな。Z.aiの背後にいる人たちが誰なのかも知りたい。前に聞いたことないし。彼らのプランはAnthropicに比べてめっちゃ安いみたいだし、モデルが実際にOpusよりも性能が良ければなおさら。

Z.aiの背後にいる人たちが誰なのかも知りたい。前に聞いたことないし。 ちなみに、Z.aiはGLM 4.5を作った人たちだから、自分たちの製品を持ち上げてるんだよね。でも、正直に言うと、GLM 4.5とGLM 4.5 Airは本当に良いコーディングモデルだよ。GLM 4.5 AirはClaude Sonnetの約10%のコストで使えるし(少なくともDeepInfraでホスティングした場合)、簡単なコーディングタスクはかなり早くこなせる。GLM 4.5 Airは試してないけど、人気があるみたい。もしClaude Codeのトークンをたくさん簡単に買えるなら、Sonnetの方がいい結果が出ると思う。でも、問題を解決できるだけのプログラミング知識があれば、GLMモデルもかなり使えるよ。ただ、プロのワークステーションやサーバーグレードのハードウェア(RTX 6000 Pro 96GBとか)がないと、GLM 4.5 Airをすぐに動かすのは難しいかな。速度がかなり落ちちゃうし。でも、オープンコーディングモデルの未来にとっては面白い兆しだね。

「実世界の開発シナリオ」に関しては、Sonnet 4に近いって主張してるみたい。これがその主張のデータだよ: https://huggingface.co/datasets/zai-org/CC-Bench-trajectorie...

実はZ.aiは清華大学のスピンオフで、中国のラボの中でも自分たちの大規模モデルをオープンソース化した最初の一つなんだ(GLMは2021年にリリースされた)。 https://github.com/THUDM/GLM

まあ、あれは貧乏人のクラウドコードって呼ぶかな。オーパスとは比べられないけど、ソネットやキミにはすごく近い。

偏見や盛り上がりを感じさせないようにタイトルを更新して。

よし、試してみるけど、なんでClaude Codeとの統合方法のリンクを貼らなかったの?: https://docs.z.ai/scenario-example/develop-tools/claude 中国のソフトウェアっていつもこんなデザイン言語だよね:- 先払いしてからクレジットでサブスク - 変なセリフフォント - あのスライダーのキャプチャ でも、今から試してみるよ。

ああ、間違ったリンクを貼っちゃった。他のタブでこれを開いてたのに…。

「中国のチャプチャ」って呼んでたんだけど、当時の中国のチャプチャは西洋のものよりずっと難しかった。でも今は、交差点のタイルを逃すと5つの異なる画像でGチャプチャがスパムしてくるから、私的には中国のチャプチャの方がずっといいと思う。影や形の順番に基づいて画像をマッチさせるバリエーションもあって、そっちの方がインタラクティブで面白い。西洋のチャプチャを解くのは今やすごく頭が疲れるし、交差点や標識、車の識別を複数画像で求められるから、自己運転車を求めてるのかもね。

Claudeコードのおかげで、どのモデルでも使えるよ。https://github.com/musistudio/claude-code-router でも、私のテストでは他のモデルはあまりうまくいかなかった。プロンプトがClaude用に最適化されてるか、他のモデルがまだ良くないみたい。特にGrokコードにはがっかりした。宣伝通り速いけど、関数呼び出しでスペースや改行を生成するのに最大トークンに達するまでかかる。これがOpenRouterでトークンが多くなる理由かもしれない。GPT-5はツールをうまく使えてなかったし、GLMはまだ試してないけど、今のAnthropicのサブスクリプションの価値を考えると、代替はかなり安くないと厳しいね。追記:すごく安いサブスクリプションもあることに気づいたよ。https://z.ai/subscribe もし彼らがCCと上手く連携できるモデルを訓練したら、実際に viableな代替になるかも。

事前払いしてからクレジットでサブスクする これは主に中国のオンライン決済インフラがサブスクリプションや自動支払いに対するサポートがあまり良くなかったから(少なくとも最近まで)このパターンが一般的なんだ。

アンスロピック互換のモデル(現在のところKimi-K2、GLM、Deepseek)をCCで使う一番簡単な方法は、.zshrcに関数を設定することだよ。https://github.com/pchalasani/claude-code-tools/tree/main?ta... Qwenが同じことをしなかったのは驚きだね(彼らには独自のCLIコーディングエージェントがあるのは知ってるけど)。

実は中国のキャプチャが好きなんだよね(笑)なんであんなに彼らだけが使ってるのか分からないけど…。

この編集されたタイトルをどう正当化するのか、HNのモデレーターも同じ考えなのか気になるな。リンクされた記事には「キラー」って言葉が一切ないよ。これが多くの人がAIに懸念を持つ理由だと思う。このグループは中立的な意見を表現できないんだ。公式のドキュメントページを持ち上げなきゃいけない。

フィードバック受け入れたよ。キラーな部分は取り除いた。

GLM 4.5とGLM 4.5 Airをしばらく使ってるよ。AirモデルはMacBook Proで動かせるくらい軽いし、Clineに役立ってる。Mac StudioではフルGLMモデルを動かせるけど、TPSが遅すぎてチャットにしか使えない。だからOpenRouterに接続してみたけど、同じ成功は得られなかった。OpenRouterで試したオープンウェイトモデルはどれも標準以下の結果しか出ない。Qwen 3 Coder 30b a3bをローカルで使った方が、OpenRouter経由でQwen 3 Coder 480bを使うよりもいい結果が出る。モデルの量子化バージョンを使ってるプロバイダーがいるんじゃないかって心配してる。そうすれば、カードごとにもっと多くのモデルを動かせて、大きなバッチの推論ができるから。

うん、OpenRouterのオープンモデルについて似たような懸念を聞いたことがあるけど、あまり使ってないから確認できてないんだ。

Qwen 3 Coder 30b a3bをローカルで使った方が、Qwen 3 Coder 480bをOpenRouterで使うよりも良い結果が出てる。プロバイダーの中には、より多くのモデルをカードごとに動かすために量子化されたバージョンを使っているところがあるのが心配だ。私の経験とは完全には一致しないけど、同じモデルでプロバイダーによって出力が一貫して悪いケースもあった。そこでの解決策は、どれがそうなのかを見極めて、UIで拒否リストに入れることだった。量子化されたバージョンについては、各モデルとプロバイダーで確認できるよ。例えば:https://openrouter.ai/qwen/qwen3-coder/providers これらのプロバイダーはFP4バージョンを使ってる:* DeepInfra (Turbo) そしてこれらのプロバイダーはFP8バージョンを使ってる:* Chutes * GMICloud * NovitaAI * Baseten * Parasail * Nebius AI Studio * AtlasCloud * Targon * Together * Hyperbolic * Cerebras すべてが悪いわけではなく、FP8の出力はかなり良好だった。特に何かを早く終わらせたい時にCerebrasを使うと、サービスが過負荷でなければ、TPSは本当に良い。リクエストごとに特定の精度をリクエストすることもできるよ:https://openrouter.ai/docs/features/provider-routing#quantiz... (またはカスタムプリセットを作るだけでもいい)

量子化はr/locallamaが信じたいよりもずっと重要だよ。これがQwen3 CoderとQwen3 Coder @fp8の比較だね。https://brokk.ai/power-ranking?version=openround-2025-08-20&...

これすごくいいね!RooCodeみたいなものとも相性が良さそう。普段はClaude SonnetかGemini 2.5 Proに戻ることが多いけど(GPT-5も試したけど、あんまり感動しなかった)、どちらも比較的高いんだよね。計画には高いモデルを使って、変更の大部分には少し安いモデルを使うって感じで(RooCodeのPlan / AskとCodeモード)、これが結構うまくいってる。でも、GLM 4.5みたいな一つのモデルに落ち着けたら最高だな!今までのところ、OpenRouterのQwen3 Coderモデルが一番近いかな。先月はClaude Sonnetで約4000万トークン使ったし、Geminiや他のモデルではもっと使ったから、ちょっと高いなと思ってる。

アンスロピックはコスト面でこれに対抗できないよ。今の時点でもお金がどんどん出て行ってるんじゃないかな。でも、モデルの質ではちょっと対抗できるかもね。モデルを簡略化しない方向に行けば、だけどそれも高くつくし、彼らが持ってる唯一の武器だね。

ここに一週間前に投稿された記事の一つによると、Claude Codeは推論に関して約20倍のマージンがあるらしい。だから、コスト面で競争できるはずだよ。

変な話なんだけど、Z.aiのGLM 4.5を使ってClaude Code (CC)を始めたら、最初に仕様書とガイドラインファイルを読ませるのに5ドルもかかったんだ。このAPIは1百万トークンの入力が0.6ドル、出力が2.2ドルって広告してるのにね。それから、最初のプロンプトの後にCCに与えた他のプロンプト(その行動を承認する以外)は全く効果がなかったんだ。そう、どんなプロンプトも完全に無視される。CCを止めて新しいプロンプトで再起動しないと効果が出ないんだ。これ、本当に変だと思う。CCはアンスロピック以外のAPIで動いているときに何かを検出する方法があるのかな?巨額のコストやトークン使用量、そして機能制限されたエージェントモードは、明らかにGLM 4.5の能力不足ではないよ。CCがサードパーティのAPIを使うときに何らかの制約があるか、Z.aiのAPIがうまく機能していないかのどちらかだね。

ここで誰もプライバシーを心配していないのが驚きだよ。Z.aiのプライバシーポリシーは、プロンプトやコードを保存して使うことを無期限で、取り消し不可、全世界で、サブライセンス可能なライセンスとして許可してるんだ。

自分が使ってるチャットサービスでは、無料でサービスを利用してる以上、プロンプトを保存して学習に使われるのは当然だと思ってるよ。本当にプライバシーが欲しいなら、自分でホスティングするか、別のビジネスモデルのLLMサービスを探すべきだね。

CCシステムのプロンプトはSonnet 4/Opus用に調整されてるけど、Anthropicのモデル用に作られたツールを使う代わりに、オープンでこの目的のために作られたOpencodeやGooseみたいな代替品を使わない理由は何なんだろう?

「Claude Codeだけど20倍安い」ってのが売れるんじゃない?他のエージェントと一緒にサブスクリプション使えるし、Anthropicに対応したAPIを使えばいいだけだよ。

同じこと考えてた。Opencodeの方がこういうのには良さそうだよね。

仕事ではCCトークンがたくさんあってツールも気に入ってるけど、個人プロジェクトのために家で使うにはコストが高すぎるな。DeepSeekと一緒に使ってすごく効果的だったし、土曜日の朝にGLM 4.5を試したら、初期結果がさらに良かったよ。

私の経験では、Claude CodeはClaudeモデル用に設計されてるけど、他のCLIの代替品よりもずっと良いと思うよ。

ここ数週間、バックアップソリューションとしてこれを試してるんだけど、モデル自体は実際に良くてSonnet 4と比べても遜色ないよ。APIにいくつか問題があったけど、今は修正されたみたい。Claudeの良い予算代替品だね。