私の2.5年使っているノートパソコンは、今や「スペースインベーダー」をJavaScriptで書けるようになりました（GLM-4.5 Air）

2025年7月29日原文(simonwillison.net)

概要

GLM-4.5 Air は中国Z.ai製の新しいオープンウェイトモデル
44GB 3bit量子化版 を64GB MacBook Pro M2で動作検証
HTML/JavaScriptゲーム生成 などのコーディング性能が高評価
mlx-lmライブラリ のmainブランチを利用して実行
ローカルAIモデルの進化 と今後の可能性に注目

GLM-4.5 Air 3bit量子化版のローカル動作体験

GLM-4.5 はZ.ai（中国）が開発した MITライセンスのオープンウェイトAIモデル
GLM-4.5 Air は小型版でも パラメータ数1060億、Hugging Faceで 205.78GB
Ivan Fioravanti氏が 44GBの3bit量子化版 をMLX向けに公開
64GBメモリ搭載MacBook Pro M2 での動作を想定したサイズ設計

実行方法と手順

mlx-lmライブラリのmainブランチ （glm4_moe対応コミット）を利用
- uv run --with 'https://github.com/ml-explore/mlx-lm/archive/489e63376b963ac02b3b7223f778dbecc164716b.zip' pythonで環境構築
Pythonインタプリタで以下を実行
- from mlx_lm import load, generate
- model, tokenizer = load("mlx-community/GLM-4.5-Air-3bit")
モデルウェイト 44GB がローカルにダウンロード
プロンプト例：「Write an HTML and JavaScript page implementing space invaders」
- messages = [{"role": "user", "content": prompt}]
- prompt = tokenizer.apply_chat_template(messages, add_generation_prompt=True)
- response = generate(model, tokenizer, prompt=prompt, verbose=True, max_tokens=8192)

実際の出力とパフォーマンス

Space InvadersゲームのHTML/JavaScriptコード を一発生成
- プレイヤーの移動・攻撃、敵の動き、スコア・ライフ・ゲームオーバーなど主要機能を網羅
プロンプト14トークン、 生成4193トークン
トークン生成速度：25.564 tokens/sec
ピークメモリ使用量：47.687GB
他アプリ終了が必要だったが、 実用的な速度 を実現

SVG生成ベンチマーク

「ペリカンが自転車に乗るSVG画像を生成」 というプロンプトも試行
約48GBのRAM使用、残り16GBで他アプリ動作
速度・精度ともに良好な結果

近年のローカルコーディングモデルの進化

2025年リリースの多くのモデル がコーディングタスクを重視
GLM 4.5 Air、Mistral 3.2 Small、Gemma 3、Qwen 3 など高品質モデルの登場
2年前のLLaMA体験時と比べ、同じノートPCで遥かに高性能なモデルが動作可能
今後もローカルAIモデルの進化と可能性に期待

Hackerたちの意見

おそらく、そのトレーニングデータには、さまざまなプログラミング言語で書かれた無数のスペースインベーダーが含まれていたんだろうね。

└

それに、データセットにすでにあるゲームのコピーの合成データが生成されてるんじゃないかな？LLMが生成したReactフロントエンドを見てると、みんな同じに見えるんだよね。

└

このコメントは約3年遅れてるね。gpt3以降のすべてのモデルは、トレーニングデータに利用可能なコードをすべて含んでる。もうこれが驚きでもなんでもないよ。chatgptの「おお、見て、これPythonコードみたいだけど全部間違ってる」から、「これが君が頼んだことをやって、0ショットで動くフルスタックのボイラープレートアプリだよ」になるまで、たった2年で進化したんだから。それがポイントなんだよね。しかも、訓練セットだけじゃなくて、モデルは今やポストトレーニングやRL、他にもいろんなことをやってここまで来てる。拡張コンテキストのすごい能力（最初のモデルは最大2/4kだった）やエージェント的なものも含めてね。こういうコメントは本当にポイントを外してると思う。

└

おそらく、このコメントには無数の似たようなコメントが含まれていて、実際の分析とは無関係な合成データばかりだと思う。

└

ブレイクアウトとの視覚的な類似性がちょっと面白いと思う。

└

本当のテストは、調整できるかどうかだよ。船を撃ち落とさせたり、スペースインベーダーが左右から来るようにしたり、2人同時プレイモードを追加して2隻の船を使わせたりね。

2年前に初めてLLaMAを試したとき、当時使っていたノートパソコンがいつかGLM 4.5 Airのような強力なモデルを動かせるようになるなんて夢にも思わなかったよ。Mistral 3.2 SmallやGemma 3、Qwen 3、そしてこの6ヶ月で出てきた他の高品質なモデルも含めてね。オープンモデルは、質とリリースのスピードの両方で期待を超えてきた。ちょっと背景を説明すると、2022年12月にchatgptが登場したとき、「最高の」オープンモデルはGPT-J（約6-7B）とGPT-neoX（約22B？）だった。実際、gpt-jを使ってユーザーがいるアプリを約1ヶ月間運営してたんだけど、ほんとに大変だった。質はひどかったし、指示に従うこともできなかった（プロンプトを物語のように始めたり、いくつかの例を考え出してモデルがそれに従うことを期待するしかなかった）。それから何かが起こった。LLaMAモデルが「漏れた」んだ（これは意図的な漏洩だと思ってる - 訴えないで、リリースするつもりはなかったんだ、みたいな）。それ以降の話はみんな知ってるよね。L1では、量子化モデルやファインチューニングなどのたくさんの最適化があったし、L2ではファインチューニングが本格化した（ほとんどのファインチューニングはMetaがリリースしたものより良かった）。それから、アルパカがLoRAを見せつけて、強力なモデルがいくつも登場した（Mistrals、Mixtrals、L3、Gemmas、Qwens、Deepseeks、GLMs、Granitesなど）。推定によると、オープンモデルは最先端の研究所がリリースしたものに約6ヶ月遅れているらしい。（ただし、これは研究所が最高のモデルをリリースしているわけではなく、次のデータキュレーションや合成データセット、蒸留などに使うために内部に保管している可能性が高い）。6ヶ月遅れているなんて、マジでヤバい！こんなところにいるなんて夢にも思わなかった。実際、gpt3.5レベルに達するのに約2年かかると思ってたから。これらのモデルを「ローカル」で遊んだり、ファインチューニングしたりできるなんて、本当にすごいことだよ。

└

GLM 4.5はQwen3のコーダーより優れてるの？

└

うーん、気になるな。LoRAのトレーニングや作成、使い方ってどうやるの？それとも、ファインチューニングのやり方は？数ヶ月前からこれを聞いてるけど、まともな答えがないんだ。自分で調べてもSEOや地理的スパムばかりで、実際の指示が見つからない。SD LoRAの作り方と使い方は知ってるし、もう2年もやってる。じゃあ、LLM LoRAの秘密って何なの？

ローカルでLLMを動かすために必要な最低限のハードウェアや推奨スペックを確認できるウェブサイトってある？ゲームの「システム要件」みたいな感じで。

└

https://apxml.com/tools/vram-calculator これは個人的にすごく良いと思う。

└

HuggingFaceのアカウントがあれば、自分の持っているハードウェアを指定できて、どのモデルが動かせるかがそのページに表示されるよ。

Hacker Newsで議論の続きを見る

ハクソク