概要
- Gemma 4のローカル推論 が実用的か、MacBook ProとDell GB10で検証
- コスト・プライバシー・レジリエンス の観点からローカルモデル導入を検討
- セットアップの難易度 やトラブルシューティングの詳細な記録
- ベンチマーク結果 とモデルアーキテクチャの意外な発見
- 品質重視の結論 と実践的なハイブリッド運用の提案
Gemma 4ローカル推論比較:MacBook Pro vs. Dell GB10
- 目的 :Gemma 4が日常的なエージェント的コーディングにおいてクラウドモデルの代替となるか実践検証
- 利用環境 :
- MacBook Pro 24GB(M4 Pro、llama.cppによる26B MoE)
- Dell Pro Max GB10(128GB、NVIDIA Blackwell、Ollama v0.20.5による31B Dense)
- 両者ともCodex CLIのカスタムプロバイダーとして設定
- クラウドモデル :GPT-5.4(Codex CLI標準、比較用)
ローカルモデル導入の動機
- コスト削減 :API利用料の増大回避
- プライバシー保護 :機密性の高いコードベースの外部送信防止
- レジリエンス向上 :クラウドAPIの制限や障害、価格変更リスク回避
過去の課題とGemma 4の進化
- ツールコール機能 の未熟さが障壁
- 旧Gemmaはtau2-benchで6.6%(約93%失敗)
- Gemma 4 31Bは86.4%達成、実用レベルへ進化
セットアップ詳細とトラブル
- MacBook Pro :
- Ollamaはバグ・フリーズで利用不可
- llama.cpp(Homebrew経由)で動作
- 重要フラグ :-np 1(スロット数制限)、-ctk/-ctv q8_0(KVキャッシュ量削減)、--jinja(ツールコールテンプレート)、-m(直接パス指定)
- Codex CLIのweb_search = "disabled"必須
- セットアップ所要時間 :半日程度、情報が分散・未整理
- Dell GB10 :
- vLLMはPyTorchバージョン不一致で失敗
- llama.cpp(CUDAビルド)はCodex CLIとの互換性問題
- Ollama v0.20.5で即動作
- SSHトンネルでMacから利用
- セットアップ所要時間 :1時間程度(モデルDL待ち含む)
ベンチマークと品質比較
- タスク :parse_csv_summary関数の実装・テスト生成・実行
- 結果 :
- GPT-5.4 :型ヒント・例外処理・補助関数も完璧、65秒、初回全テスト合格
- GB10 31B Dense :型ヒント・bool判定はなし、堅実な実装、7分、初回全テスト合格
- Mac 26B MoE :デッドコード残存、型推論ループの書き捨て、テスト5回失敗、10回のツールコール、4分42秒
モデルアーキテクチャによる速度差の理由
- Macが5.1倍速い (52 tok/s vs 10 tok/s)
- MoE(Mixture of Experts) :1トークンあたり3.8Bパラメータのみ活性化(1.9GB分)
- Dense :毎トークン31.2Bパラメータ全読み込み(17.4GB分)
- 同じメモリ帯域 でも、MoEは圧倒的に軽量・高速
- プロンプト処理速度も僅差 (531 tok/s vs 548 tok/s)
最大の発見
- トークン生成速度よりモデル品質が重要
- Macは5倍速でもリトライやエラーで時短効果限定
- 品質が高いモデルは一発で正解→結果的に最速
- ローカルでも実用可能な時代へ
- Gemma 3→Gemma 4のツールコール精度向上が決定的
- ハイブリッド運用推奨 :ローカルは反復作業・プライバシー重視、クラウドは複雑なタスク
実践者向けセットアップTips
- Apple Silicon
- Gemma 4はOllama非推奨、llama.cpp + --jinja必須
- Codex CLI:web_search = "disabled"、-mはGGUF直指定
- コンテキスト32,768以上、KVキャッシュは-ctk/-ctv q8_0で量削減
- NVIDIA環境
- Ollama v0.20.5が安定、codex --oss -m gemma4:31b
- リモート利用時はSSHトンネルでポート転送
- タイムアウト設定 :stream_idle_timeout_msを1,800,000以上に
- llama.cppのバージョン固定 :ビルドごとに速度大幅変動の報告あり
ベンチマーク条件
- 日付 :2026年4月12日
- ソフトウェア :Codex CLI v0.120.0
- Mac :llama.cpp ggml 0.9.11、gemma-4–26B-A4B-it Q4_K_M
- GB10 :Ollama v0.20.5、gemma-4–31B-it Q4_K_M
- クラウド :GPT-5.4(高推論モード)
- 同一プロンプト・同一自動実行コマンドで比較