世界を動かす技術を、日本語で。

2026年4月 Mac miniでのOllamaおよびGemma 4 26BのTLDRセットアップ

概要

  • Mac mini(Apple Silicon)でOllamaとGemma 4(8Bモデル)を快適に運用する手順の要約
  • HomebrewでOllamaをインストールし、Gemma 4をダウンロード・自動起動・プリロード・常駐化
  • メモリ要件や自動起動、モデルのプリロード・キープアライブの設定方法
  • API利用や便利なコマンド、アンインストール手順も網羅
  • Ollama v0.19以降の新機能やGemma 4利用時の注意点も解説

Mac mini(Apple Silicon)でのOllama + Gemma 4 12Bセットアップ(2026年4月版)

  • 対象環境

    • Apple Silicon搭載Mac mini(M1/M2/M3/M4/M5対応)
    • Gemma 4(8Bモデル)には 最低16GB のユニファイドメモリ推奨
    • Homebrew インストール済みのmacOS
  • Ollamaのインストール

    • Homebrew caskで Ollamaアプリ をインストール
      • brew install --cask ollama-app
    • /Applications/にOllama.app、/opt/homebrew/bin/ollamaにCLI配置
  • Ollamaの起動と動作確認

    • open -a Ollamaでアプリ起動、メニューバーにアイコン表示
    • サーバー起動後、ollama listで動作確認
  • Gemma 4のダウンロード

    • ollama pull gemma4で約9.6GBダウンロード
    • モデルサイズやバージョンはollama listで確認可能
    • 26Bモデル は24GBメモリでも動作困難、 8B(Q4_K_M量子化) が推奨
  • モデルのテスト・GPU利用確認

    • ollama run gemma4:latest "Hello, what model are you?"で動作テスト
    • ollama psでCPU/GPUの利用割合を確認(例:CPU14%/GPU86%)
  • 自動起動・プリロード・常駐化の設定

    • Ollamaアプリの自動起動
      • メニューバーから「Launch at Login」またはSystem Settings > Login Itemsで設定
    • Gemma 4の自動プリロード
      • ~/Library/LaunchAgents/com.ollama.preload-gemma4.plistを作成
      • 5分ごとに空プロンプト送信でメモリ常駐化
      • launchctl load ~/Library/LaunchAgents/com.ollama.preload-gemma4.plistで有効化
    • モデルの常駐(Keep Alive)設定
      • launchctl setenv OLLAMA_KEEP_ALIVE "-1"でモデルを無期限常駐
      • 永続化は~/.zshrcexport OLLAMA_KEEP_ALIVE="-1"追加推奨
  • 動作確認コマンド

    • ollama list:サーバー稼働確認
    • ollama ps:モデルのメモリ常駐確認
    • launchctl list | grep ollama:LaunchAgent登録確認
  • API利用

    • ローカルAPI:http://localhost:11434でOpenAI互換エンドポイント提供
    • 例:
      curl http://localhost:11434/v1/chat/completions \
        -H "Content-Type: application/json" \
        -d '{ "model": "gemma4:latest", "messages": [{"role": "user", "content": "Hello"}] }'
      
  • 便利なコマンド一覧

    • ollama list:ダウンロード済みモデル一覧
    • ollama ps:稼働中モデル・メモリ状況表示
    • ollama run gemma4:latest:対話実行
    • ollama stop gemma4:latest:モデルのメモリ解放
    • ollama pull gemma4:latest:モデル更新
    • ollama rm gemma4:latest:モデル削除
  • アンインストール・自動起動解除

    • launchctl unload ~/Library/LaunchAgents/com.ollama.preload-gemma4.plist
    • rm ~/Library/LaunchAgents/com.ollama.preload-gemma4.plist
    • brew uninstall --cask ollama-app

Ollama v0.19以降の新機能(2026年3月31日以降)

  • Apple Silicon向けMLXバックエンド

    • Apple Siliconでは MLXフレームワーク を自動利用し推論高速化
    • M5/M5 Pro/M5 Max ではGPU Neural Acceleratorsも活用
    • M4以前もMLXによる高速化恩恵あり
  • NVFP4(NVIDIA)対応

    • NVIDIAの NVFP4形式 でモデル精度維持・メモリ帯域/ストレージ削減
    • NVFP4最適化モデルにも対応し、推論結果の一貫性向上
  • キャッシュ機能強化

    • コーディング・エージェント用途での キャッシュ再利用 によるメモリ効率化
    • スナップショット保存による 高速応答
    • スマートなキャッシュ破棄で 共通プロンプトの長期維持

メモリ要件・運用上の注意

  • Gemma 4(8B) は約9.6GBメモリ消費
    • 24GB Mac miniでは約14GBの余裕、同時リクエストにも対応
  • Gemma 4(26B) は約17GB消費、システムの安定性低下・スワップ多発
    • 8Bモデル が実用的

参考情報・公式アナウンス

  • Ollama MLX Blog Post — Ollama Newsletter, March 31, 2026
  • Ollama v0.20.0 Release
  • Gemma 4 Announcement — Google DeepMind

Hackerたちの意見

なんでオラマがこんなに多くの人に選ばれてるの?本当に気になる。試してみたけど、他のツールに比べてなんかシンプルすぎるというか、頭を使わなくていい感じがした。最近はUnsloth Studioをいじってて、こっちの方が初心者向けのデフォルトとしてはずっといいと思うんだよね。

オラマは、実際に llama.cpp をビルドして git pull するのがちょっと面倒だった時期に、先行者利益を得てたんだよね。開発者たちの Docker の経験が、彼らにマインドシェアをどれだけ主張できるか過大評価させたんだと思う。でも、誰もこんなに早く状況が変わるとは思ってなかったよね… 今はほとんどの人に LM-studio を勧めてる。Unsloth Studio には何が追加されてるの?

オラマはちょっと触るには十分だし、モデルを手に入れるのも「ollama pull」ってコマンド一発でできるから、Hugging Face で自分で調べて、モデルの名前の間にある変な文字や数字を理解するよりはずっと楽だよね。Hugging Face のアカウントもいらないし。そこからスタートして、最終的にはもっと複雑なことをやりたくなるけど、サーバーについてもっと学ばなきゃいけなくて、オラマを使うよりずっと複雑になる。モデルを試したいだけなのに、LLMのホスティングの細かいことまで学ぶ必要はないよね。

主に広告かな。オラマの組織は、さまざまな LLM やプログラミング関連の Reddit や Discord に人を送り込んで、「llama.cpp の簡単なフロントエンド」って言って人を騙してたんだよね。勝つためにはアンインストールして llama.cpp に切り替えるしかない。

私にとってはサーバーだけなんだ。インターフェースとしてopenwebuiを使ってる。全部同じマシンで動かしたくないんだよね。

Ollamaユーザーだけど、逆に聞きたいな。なんで使わないの?何を見逃してるの?俺は他のフロントエンドの実験用にバックエンドとして使ってるけど、全然問題ないよ。16GBのカード使ってるから、もっと良いパフォーマンスを逃してるのか気になるな。

本当に不思議なのは、なんでもっと人がLMStudioについて話さないのか。数ヶ月前に切り替えたけど、明らかにアップグレードだと思う。

昨晩、オラマの VO.20 プレリリースをインストールしないとこのモデルが使えなかったんだけど、これらの指示は正しいのかな?

これに対応してるハーネス(IDE)はあるの?今すぐローカルでコーディングに使える?

はい、ローカルコーディングに使えますよ。ほとんどのハーネスは、OpenAI 互換の API を提供するローカルエンドポイントを指すことができるけど、最近の Codex のバージョンを llama.cpp と一緒に使うと API の互換性の問題でちょっと苦労したことがある(Codex は新しい「responses」APIを使ってるけど、llama.cpp が完全にサポートしてない形で)。個人的には、シンプルで拡張性がある Pi が好きだけど、Claude Code や OpenCode を使う人もいるし、ローカルモデルで使える選択肢はたくさんあるよ。

ツール呼び出しをサポートする必要があるし、多くの量子化されたggufsはそうじゃないから、確認が必要だよ。俺は「ペットシッター」っていうワークアラウンドを持ってて、ハーネスと推論エンジンの間にプロキシとして座って、巧妙なプロンプトエンジニアリングや様々なアルゴリズムを通じて追加の機能をエミュレートしてる。これらは抽象的に「トリック」と呼ばれていて、好きなようにスタックできるよ。 https://github.com/day50-dev/Petsitter 量子化モデルをollamaで動かして、ペットシッターをその前に置いて、エージェントハーネスをその前に置けば、準備完了だよ。もし問題があったら、バグを報告してね。お願い!ありがとう。追記:確認したけど、ollamaのバージョンは全てサポートしてるよ。$ llcat -u http://localhost:11434 -m gemma4:latest --info ["completion", "vision", "audio", "tools", "thinking"] だから、それを使えばいいよ。

MacBook Pro m4 で 36GB 使ってちょっとテストしたけど、LM Studio でオープンコードをフロントエンドにしてもツールコールで何度も失敗した。qwen に戻したけど、同じような環境の人はうまくいった?

M5で32GBのLM Studioを使っても、最大コンテキストの半分でも動かなかった。マジでコンピュータがロックアップして再起動しなきゃいけなかったよ。でも、llama.cppでgemma-4-26B-A4B-it-GGUFは問題なく動いた。ローカルモデルに感動したのは久しぶりだな。速度も(約38t/s)質もすごく良い。

まだ試す時間がないけど、他の人から聞いた話では、動かすためにはメインとランタイムの両方をアップデートする必要があるみたい。

ツール呼び出しが落ちるのは推論エンジンの実装や量子化の問題だね。アップデートして数日後に再試行してみて。オープンウェイトモデルのローンチはいつもこんな感じだよ。

こっちはM5 Airで32GBのRAMと10コアのCPU。oMLXでmlxビルドがうまくいった人いる?今は自分のマシンじゃないから、これらのモデルがツール呼び出しも含めてちゃんと動くか知りたいな。

誰かがGemma 4 E4BをMLXで動かしたのは知ってるけど、詳しいことはあまり知らない。1: https://github.com/bolyki01/localllm-gemma4-mlx

最新のリリースv0.3.2は部分的なサポートがあるよ。生成はサポートされてるけど、全ての特殊トークンには対応してない。ツール呼び出しと思考サポートを追加するために個人的にテストしてみた。 https://github.com/Yukon/omlx

リリース直後にオープンウェイトモデルを使うのが初めてなら、早期の実装や量子化にはバグがあることを知っておいて。どのプロジェクトも、ユーザーを逃さないためにローンチ日にサポートを急いでるけど、出力が正しいとは限らない。トークナイザーの実装でいくつかの問題が見つかってるし、量子化もimatrixを使ってると問題があるかもしれない。だから、「試してみたけどツール呼び出しもできないからクソだ」みたいな報告がこれからの数週間でたくさん出てくるだろうね。壊れた実装を使ってることに気づいてない人たちから。最先端のオープンモデルを試したいなら、推論エンジンを常にアップデートして、量子化の更新をチェックして、変更があったら再ダウンロードする準備をしておかないとね。ローンチ日にサポートを急ぐから、出力トークンが生成できるように見えたらすぐに出荷されるけど、正しいかどうかのテストはされてないから。

あなたは詳しそうだね… どの推論エンジンを使うべきかな?(Linux、4090)「試してみたけどクソだ」って問題が多くて、主にツール呼び出し周りなんだけど、モデルなのかollamaなのかはっきりしない。特定のモデルじゃなくて、どれもそうなんだ。

ツール呼び出しとマルチモーダルは動いてる?量子化されたunsloth ggufsには見当たらないんだけど…

gemma 4 26bでこんなビルドはどれくらいのTPSを達成するの?

大のClaudeユーザーだけど…もしMac miniを買って立ち上げたら、現実的な期待値を設定するのを手伝ってくれる人いる?主に開発作業とホームラボプロジェクトでClaudeを使ってるんだけど、オープンモデルはローカルで動かすのに十分なの?それとも$20/月のClaudeサブスクリプションの方がいい?

小さなタスクには良いけど、Claudeみたいに使うのは難しいし、がっかりする可能性が高いよ。でも、君がどう使ってるかは知らないけどね。これらのモデルのホスティングサービスを提供しているオンラインサービスがたくさんあるから、ハードウェアを自分でホストすることを考えているなら、まずはそれを試してみるのがいいよ。そうすれば、ハードウェアを買う前にそのモデルの能力や限界を把握できるから。

今のところ、gpt-oss-20Bはエージェントとしては結構良いと思ってるけど、Claude Codeの有料モデルとは全然違うね。(120Bは試してないけど、20Bよりかなり良いって聞いたよ)

一番いい方法は、$10のOpenRouterクレジットを買って、自分でモデルを試してみることだよ。私の経験だと、全然近くもないけど、たまにチェックするのは面白いよ。

「Gemma 4 12b」って存在しないのに、その手順が書いてあるのが変だよね。それから途中で26bに切り替わるし。あと、GPUに合わないか確認するステップもあって、ollama psで「14%/86% CPU/GPU」って表示されるんだけど、これってパフォーマンスがすごく悪くなるってことじゃない?

Mac miniはCPUとGPUでメモリが別々じゃないから、そこは無視してもいいかもね?