概要
- GLM-4.5 Air は中国Z.ai製の新しいオープンウェイトモデル
- 44GB 3bit量子化版 を64GB MacBook Pro M2で動作検証
- HTML/JavaScriptゲーム生成 などのコーディング性能が高評価
- mlx-lmライブラリ のmainブランチを利用して実行
- ローカルAIモデルの進化 と今後の可能性に注目
GLM-4.5 Air 3bit量子化版のローカル動作体験
- GLM-4.5 はZ.ai(中国)が開発した MITライセンスのオープンウェイトAIモデル
- GLM-4.5 Air は小型版でも パラメータ数1060億、Hugging Faceで 205.78GB
- Ivan Fioravanti氏が 44GBの3bit量子化版 をMLX向けに公開
- 64GBメモリ搭載MacBook Pro M2 での動作を想定したサイズ設計
実行方法と手順
- mlx-lmライブラリのmainブランチ (glm4_moe対応コミット)を利用
uv run --with 'https://github.com/ml-explore/mlx-lm/archive/489e63376b963ac02b3b7223f778dbecc164716b.zip' pythonで環境構築
- Pythonインタプリタで以下を実行
from mlx_lm import load, generatemodel, tokenizer = load("mlx-community/GLM-4.5-Air-3bit")
- モデルウェイト 44GB がローカルにダウンロード
- プロンプト例:「Write an HTML and JavaScript page implementing space invaders」
messages = [{"role": "user", "content": prompt}]prompt = tokenizer.apply_chat_template(messages, add_generation_prompt=True)response = generate(model, tokenizer, prompt=prompt, verbose=True, max_tokens=8192)
実際の出力とパフォーマンス
- Space InvadersゲームのHTML/JavaScriptコード を一発生成
- プレイヤーの移動・攻撃、敵の動き、スコア・ライフ・ゲームオーバーなど主要機能を網羅
- プロンプト14トークン、 生成4193トークン
- トークン生成速度:25.564 tokens/sec
- ピークメモリ使用量:47.687GB
- 他アプリ終了が必要だったが、 実用的な速度 を実現
SVG生成ベンチマーク
- 「ペリカンが自転車に乗るSVG画像を生成」 というプロンプトも試行
- 約48GBのRAM使用、残り16GBで他アプリ動作
- 速度・精度ともに良好な結果
近年のローカルコーディングモデルの進化
- 2025年リリースの多くのモデル がコーディングタスクを重視
- GLM 4.5 Air、Mistral 3.2 Small、Gemma 3、Qwen 3 など高品質モデルの登場
- 2年前のLLaMA体験時と比べ、同じノートPCで遥かに高性能なモデルが動作可能
- 今後もローカルAIモデルの進化と可能性に期待