2026年4月 Mac miniでのOllamaおよびGemma 4 26BのTLDRセットアップ

2026年4月3日原文(gist.github.com)

概要

Mac mini（Apple Silicon）でOllamaとGemma 4（8Bモデル）を快適に運用する手順の要約
HomebrewでOllamaをインストールし、Gemma 4をダウンロード・自動起動・プリロード・常駐化
メモリ要件や自動起動、モデルのプリロード・キープアライブの設定方法
API利用や便利なコマンド、アンインストール手順も網羅
Ollama v0.19以降の新機能やGemma 4利用時の注意点も解説

Mac mini（Apple Silicon）でのOllama + Gemma 4 12Bセットアップ（2026年4月版）

対象環境
- Apple Silicon搭載Mac mini（M1/M2/M3/M4/M5対応）
- Gemma 4（8Bモデル）には 最低16GB のユニファイドメモリ推奨
- Homebrew インストール済みのmacOS
Ollamaのインストール
- Homebrew caskで Ollamaアプリ をインストール
  - brew install --cask ollama-app
- /Applications/にOllama.app、/opt/homebrew/bin/ollamaにCLI配置
Ollamaの起動と動作確認
- open -a Ollamaでアプリ起動、メニューバーにアイコン表示
- サーバー起動後、ollama listで動作確認
Gemma 4のダウンロード
- ollama pull gemma4で約9.6GBダウンロード
- モデルサイズやバージョンはollama listで確認可能
- 26Bモデル は24GBメモリでも動作困難、 8B（Q4_K_M量子化） が推奨
モデルのテスト・GPU利用確認
- ollama run gemma4:latest "Hello, what model are you?"で動作テスト
- ollama psでCPU/GPUの利用割合を確認（例：CPU14%/GPU86%）
自動起動・プリロード・常駐化の設定
- Ollamaアプリの自動起動
  - メニューバーから「Launch at Login」またはSystem Settings > Login Itemsで設定
- Gemma 4の自動プリロード
  - ~/Library/LaunchAgents/com.ollama.preload-gemma4.plistを作成
  - 5分ごとに空プロンプト送信でメモリ常駐化
  - launchctl load ~/Library/LaunchAgents/com.ollama.preload-gemma4.plistで有効化
- モデルの常駐（Keep Alive）設定
  - launchctl setenv OLLAMA_KEEP_ALIVE "-1"でモデルを無期限常駐
  - 永続化は~/.zshrcへexport OLLAMA_KEEP_ALIVE="-1"追加推奨
動作確認コマンド
- ollama list：サーバー稼働確認
- ollama ps：モデルのメモリ常駐確認
- launchctl list | grep ollama：LaunchAgent登録確認

API利用

ローカルAPI：http://localhost:11434でOpenAI互換エンドポイント提供

例：

curl http://localhost:11434/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{ "model": "gemma4:latest", "messages": [{"role": "user", "content": "Hello"}] }'

便利なコマンド一覧
- ollama list：ダウンロード済みモデル一覧
- ollama ps：稼働中モデル・メモリ状況表示
- ollama run gemma4:latest：対話実行
- ollama stop gemma4:latest：モデルのメモリ解放
- ollama pull gemma4:latest：モデル更新
- ollama rm gemma4:latest：モデル削除
アンインストール・自動起動解除
- launchctl unload ~/Library/LaunchAgents/com.ollama.preload-gemma4.plist
- rm ~/Library/LaunchAgents/com.ollama.preload-gemma4.plist
- brew uninstall --cask ollama-app

Ollama v0.19以降の新機能（2026年3月31日以降）

Apple Silicon向けMLXバックエンド
- Apple Siliconでは MLXフレームワーク を自動利用し推論高速化
- M5/M5 Pro/M5 Max ではGPU Neural Acceleratorsも活用
- M4以前もMLXによる高速化恩恵あり
NVFP4（NVIDIA）対応
- NVIDIAの NVFP4形式 でモデル精度維持・メモリ帯域/ストレージ削減
- NVFP4最適化モデルにも対応し、推論結果の一貫性向上
キャッシュ機能強化
- コーディング・エージェント用途での キャッシュ再利用 によるメモリ効率化
- スナップショット保存による 高速応答
- スマートなキャッシュ破棄で 共通プロンプトの長期維持

メモリ要件・運用上の注意

Gemma 4（8B） は約9.6GBメモリ消費
- 24GB Mac miniでは約14GBの余裕、同時リクエストにも対応
Gemma 4（26B） は約17GB消費、システムの安定性低下・スワップ多発
- 8Bモデル が実用的

参考情報・公式アナウンス

Ollama MLX Blog Post — Ollama Newsletter, March 31, 2026
Ollama v0.20.0 Release
Gemma 4 Announcement — Google DeepMind

Hackerたちの意見

なんでオラマがこんなに多くの人に選ばれてるの？本当に気になる。試してみたけど、他のツールに比べてなんかシンプルすぎるというか、頭を使わなくていい感じがした。最近はUnsloth Studioをいじってて、こっちの方が初心者向けのデフォルトとしてはずっといいと思うんだよね。

└

オラマは、実際に llama.cpp をビルドして git pull するのがちょっと面倒だった時期に、先行者利益を得てたんだよね。開発者たちの Docker の経験が、彼らにマインドシェアをどれだけ主張できるか過大評価させたんだと思う。でも、誰もこんなに早く状況が変わるとは思ってなかったよね… 今はほとんどの人に LM-studio を勧めてる。Unsloth Studio には何が追加されてるの？

└

オラマはちょっと触るには十分だし、モデルを手に入れるのも「ollama pull」ってコマンド一発でできるから、Hugging Face で自分で調べて、モデルの名前の間にある変な文字や数字を理解するよりはずっと楽だよね。Hugging Face のアカウントもいらないし。そこからスタートして、最終的にはもっと複雑なことをやりたくなるけど、サーバーについてもっと学ばなきゃいけなくて、オラマを使うよりずっと複雑になる。モデルを試したいだけなのに、LLMのホスティングの細かいことまで学ぶ必要はないよね。

└

主に広告かな。オラマの組織は、さまざまな LLM やプログラミング関連の Reddit や Discord に人を送り込んで、「llama.cpp の簡単なフロントエンド」って言って人を騙してたんだよね。勝つためにはアンインストールして llama.cpp に切り替えるしかない。

└

私にとってはサーバーだけなんだ。インターフェースとしてopenwebuiを使ってる。全部同じマシンで動かしたくないんだよね。

└

Ollamaユーザーだけど、逆に聞きたいな。なんで使わないの？何を見逃してるの？俺は他のフロントエンドの実験用にバックエンドとして使ってるけど、全然問題ないよ。16GBのカード使ってるから、もっと良いパフォーマンスを逃してるのか気になるな。

└

本当に不思議なのは、なんでもっと人がLMStudioについて話さないのか。数ヶ月前に切り替えたけど、明らかにアップグレードだと思う。

昨晩、オラマの VO.20 プレリリースをインストールしないとこのモデルが使えなかったんだけど、これらの指示は正しいのかな？

これに対応してるハーネス（IDE）はあるの？今すぐローカルでコーディングに使える？

└

はい、ローカルコーディングに使えますよ。ほとんどのハーネスは、OpenAI 互換の API を提供するローカルエンドポイントを指すことができるけど、最近の Codex のバージョンを llama.cpp と一緒に使うと API の互換性の問題でちょっと苦労したことがある（Codex は新しい「responses」APIを使ってるけど、llama.cpp が完全にサポートしてない形で）。個人的には、シンプルで拡張性がある Pi が好きだけど、Claude Code や OpenCode を使う人もいるし、ローカルモデルで使える選択肢はたくさんあるよ。

└

ツール呼び出しをサポートする必要があるし、多くの量子化されたggufsはそうじゃないから、確認が必要だよ。俺は「ペットシッター」っていうワークアラウンドを持ってて、ハーネスと推論エンジンの間にプロキシとして座って、巧妙なプロンプトエンジニアリングや様々なアルゴリズムを通じて追加の機能をエミュレートしてる。これらは抽象的に「トリック」と呼ばれていて、好きなようにスタックできるよ。 https://github.com/day50-dev/Petsitter 量子化モデルをollamaで動かして、ペットシッターをその前に置いて、エージェントハーネスをその前に置けば、準備完了だよ。もし問題があったら、バグを報告してね。お願い！ありがとう。追記：確認したけど、ollamaのバージョンは全てサポートしてるよ。$ llcat -u http://localhost:11434 -m gemma4:latest --info ["completion", "vision", "audio", "tools", "thinking"] だから、それを使えばいいよ。

MacBook Pro m4 で 36GB 使ってちょっとテストしたけど、LM Studio でオープンコードをフロントエンドにしてもツールコールで何度も失敗した。qwen に戻したけど、同じような環境の人はうまくいった？

Hacker Newsで議論の続きを見る

ハクソク