LM Studioの新しいヘッドレスCLIとClaude Codeを使用して、Gemma 4をローカルで実行する

2026年4月6日原文(ai.georgeliu.com)

概要

Cloud AI API の課題（レート制限、コスト、プライバシー、遅延）を回避するにはローカルモデルが有効
Google Gemma 4 はMixture-of-Experts構造でローカル推論に最適
LM Studio のCLI対応でコマンドラインからの運用が容易
26B-A4Bモデル は高性能・低メモリ消費でMacBook Proにも最適
実用的な導入・運用方法 とメモリ見積もり手順を詳細解説

Cloud AI APIの課題とローカルモデルの優位性

Cloud AI API は利便性が高いが、 レート制限 ・ 利用コスト ・ プライバシー問題 ・ ネットワーク遅延 が課題
コードレビューやプロンプト作成など、 短時間・小規模タスク ではローカルモデルが有利
APIコストゼロ、 データ漏洩リスクなし、 常時利用可能 という利点

Google Gemma 4の特徴とMixture-of-Experts構造

Google Gemma 4 は Mixture-of-Experts (MoE) アーキテクチャ採用
- 26Bパラメータモデルだが、1回の推論で4Bのみ有効化
- 14インチMacBook Pro M4 Pro（48GBメモリ） で快適動作・51トークン/秒生成
Claude Code との組み合わせでは体感的に遅延あり
Gemma 4ファミリー は4種類のモデルをラインナップ
- E2B/E4Bは 音声入力対応 ・ Per-Layer Embeddings 搭載
- 31B Denseモデルは最高性能（MMLU Pro 85.2%、AIME 2026 89.2%）
26B-A4B は128エキスパート＋1共有エキスパート、1トークンで8エキスパート（3.8Bパラメータ）有効化
- 推論コストは4B Dense相当、実効品質は10B相当
- ベンチマーク：MMLU Pro 82.6%、AIME 2026 88.3%、31B Denseに迫る性能
Eloスコア で見てもGemma 4 26B-A4Bは高効率・高性能
- 400B+パラメータモデルと同等のスコアを大幅に少ないパラメータで実現
- MoEモデル はローカル推論に革命をもたらす存在

LM Studioによるローカルモデル運用

LM Studio v0.4.0 で llmster （スタンドアロン推論サーバ）導入
- lms CLI でコマンドラインからモデル運用・管理が可能
- 並列リクエスト処理 ・ REST API ・ MCP統合 など新機能
インストール手順
- Linux/Mac: curl -fsSL https://lmstudio.ai/install.sh | bash
- Windows: irm https://lmstudio.ai/install.ps1 | iex
デーモン起動: lms daemon up
推論ランタイム更新 （macOS）:
- lms runtime update llama.cpp
- lms runtime update mlx
Gemma 4 26Bモデルのダウンロード: lms get google/gemma-4-26b-a4b
- Q4_K_M量子化版（17.99GB）が標準
ダウンロード済みモデル一覧: lms ls
- MoEモデル（Gemma 4, Qwen 3.5, GLM 4.7 Flashなど）はローカル推論で高効率

パフォーマンス・メモリ管理・運用Tips

チャットセッション開始: lms chat google/gemma-4-26b-a4b --stats
- 51トークン/秒、1.5秒で最初のトークン、インタラクティブ用途に十分な応答性
モデルロード状況確認: lms ps
- メモリ使用量、コンテキスト長、並列リクエスト数、TTL（自動アンロード）など確認可能
詳細メタデータ取得: lms ps --json | jq
- アーキテクチャ、量子化方式、ビジョンサポート、最大コンテキスト長など把握可能
メモリ見積もり: lms load google/gemma-4-26b-a4b --estimate-only --context-length 48000
- 基本モデルは約17.6GiB、コンテキスト倍増ごとに3-4GiB追加
- 48GB Macなら256Kコンテキスト（37.48GiB）も運用可能
メモリ見積もり用スクリプト例
- 任意のモデル名・コンテキスト長でテーブル出力可能
最適なコンテキスト長選択
- OS分のメモリ（4-6GB）を差し引き、最大許容値を見積もり
- lms load google/gemma-4-26b-a4b --context-length 128000などでロード
- 不明な場合は--estimate-only推奨
Apple Siliconのユニファイドメモリ特性
- --gpu指定でGPU/CPU割り当て調整可能（--gpu=1.0でGPUフルオフロード）
- ディスクリートGPU環境では--gpu=maxや部分オフロードも選択肢
並列推論設定
- 連続バッチ処理 で複数リクエストを同時処理
- GUIから「Max Concurrent Predictions」設定（CLI未対応）
- 並列数増加＝追加メモリ消費増加

まとめ：Gemma 4 26B-A4BによるローカルAI活用の実践

高性能・低メモリ消費 なMoEモデルでノートPC単体運用が現実的
LM Studio CLI でサーバレス・自動化・CI/CD連携も容易
用途・ハードウェアに合わせた最適化 が柔軟に可能
プライバシー・コスト・可用性 を重視する開発者・研究者に最適な選択肢

ハクソク

LM Studioの新しいヘッドレスCLIとClaude Codeを使用して、Gemma 4をローカルで実行する

概要

Cloud AI APIの課題とローカルモデルの優位性

Google Gemma 4の特徴とMixture-of-Experts構造

LM Studioによるローカルモデル運用

パフォーマンス・メモリ管理・運用Tips

まとめ：Gemma 4 26B-A4BによるローカルAI活用の実践

Hackerたちの意見