概要
- GLM-4.5シリーズ は、推論、コーディング、エージェントタスクに優れた最新のLLM
- GLM-4.5 と GLM-4.5-Air は、複雑な要求に対応するために設計された統合モデル
- モデルは Z.ai、 API、 HuggingFace などで利用可能
- 各種ベンチマーク で高性能を発揮し、特にエージェント・推論・コーディング分野で強力
- MoEアーキテクチャ や独自最適化技術により、効率と性能を両立
GLM-4.5シリーズの概要
- GLM-4.5 は総パラメータ3550億、アクティブパラメータ320億のフラッグシップモデル
- GLM-4.5-Air は総パラメータ1060億、アクティブパラメータ120億の軽量モデル
- 両モデルとも 推論・コーディング・エージェント機能 を統合したハイブリッド設計
- 思考モード (複雑な推論やツール利用向け)と 非思考モード (即時応答向け)を搭載
- Z.ai、 Z.ai API、 HuggingFace、 ModelScope で公開・利用可能
LLMの進化とGLM-4.5の位置付け
- LLMは 汎用的な認知能力 の実現を目指し、特定タスクではなく幅広い課題解決を目標
- OpenAI GPT-3 や o1 の登場で推論力が向上したが、分野横断の最適化は未達成
- GLM-4.5 は、コーディング・数学・推論など複数分野でバランス良く高性能を実現
総合性能評価
- OpenAI、 Anthropic、 Google DeepMind、 xAI、 Alibaba、 Moonshot、 DeepSeek などの12ベンチマークで比較
- GLM-4.5 は総合3位、 GLM-4.5-Air は6位の評価
エージェントタスク性能
- 128Kコンテキスト長 と ネイティブ関数呼び出し 機能を搭載
- τ-bench、 BFCL-v3 で Claude 4 Sonnet と同等の性能
- BrowseComp (Webブラウジングベンチマーク)で26.4%の正答率、Claude-4-Opus(18.8%)を上回る
推論タスク性能
- 思考モード で数学・科学・論理問題を高精度に解決
- MMLU Pro、 AIME、 MATH 500 など複数ベンチマークで上位成績
コーディングタスク性能
- SWE-bench Verified、 Terminal-Bench で高評価
- Claude Code、 Roo Code、 CodeGeex など既存ツールとの連携も容易
- 52タスクで Kimi K2 に対して53.9%勝率、 Qwen3-Coder には80.8%の優位性
- ツール呼び出し成功率 は90.6%で業界最高水準
デモ・ユースケース
- ミニゲームや物理シミュレーション など、複雑なコード生成アーティファクト作成
- PPT/ポスター自動生成 エージェントによる資料作成支援
- フルスタック開発 (フロントエンド、DB、バックエンド)を自然言語で実現
利用方法
- Z.ai でGLM-4.5を選択しチャットや資料作成、開発を体験
- Z.ai API 経由でOpenAI互換インターフェースを提供
- Claude Code 等のコーディングエージェントとの統合方法も公式ドキュメントで案内
- HuggingFace や ModelScope でモデル重みを公開、 vLLM や SGLang でローカル推論可能
技術詳細とアーキテクチャ
- MoE(Mixture of Experts)アーキテクチャ 採用で計算効率向上
- バランスルーティング や シグモイドゲート で各エキスパートの負荷最適化
- モデルの幅を減らし、層を増やす ことで推論力を強化
- Grouped-Query Attention と部分的RoPE、 96ヘッドの多頭注意 で推論精度向上
- Muonオプティマイザ や QK-Norm で学習安定化
- MTP(Multi-Token Prediction)層 追加で推論時のデコーディングを高速化
- 事前学習 は一般コーパス15Tトークン+コード・推論コーパス7Tトークン
- 追加学習 で下流ドメインに最適化
大規模モデル向けRL基盤「slime」
- slime は大規模モデル用に設計されたRLインフラストラクチャ
- 柔軟なハイブリッドアーキテクチャ で同期・非同期学習を両立
- 複雑なエージェントタスクにも対応し、コミュニティ利用も推奨
この内容はGLM-4.5シリーズの全体像と特徴、技術的な強み、利用方法、実績を簡潔にまとめたものです。各セクションは用途や関心に応じて参照・活用可能です。