OllamaはApple Silicon上でMLXによって動作するプレビュー版になりました

2026年3月31日原文(ollama.com)

概要

Ollama がApple Silicon向けに MLX 対応で高速化
M5 シリーズGPU活用による大幅なパフォーマンス向上
NVFP4 対応で高品質・省メモリ推論を実現
キャッシュ機能の強化で レスポンスと効率性向上
今後も新モデル・カスタムモデル対応を拡大予定

Apple Silicon × MLXによるOllama高速化

Ollama がApple独自の機械学習フレームワーク MLX 上で動作
統合メモリアーキテクチャ を活用し、全Apple Siliconデバイスで大幅な高速化
M5, M5 Pro, M5 Max チップでは GPU Neural Accelerators を利用
- TTFT（最初のトークン生成までの時間） と 生成速度（トークン/秒） 両方で性能向上
ベンチマーク例（Qwen3.5-35B-A3Bモデル使用）
- Prefill速度： Ollama 0.19 = 1810 tokens/s（従来比大幅増）
- Decode速度： Ollama 0.19 = 112 tokens/s（従来比約2倍）

NVFP4サポートによる高品質推論・省リソース化

NVIDIAのNVFP4形式 を採用し、 高精度な応答 と メモリ・ストレージ削減 を両立
NVFP4 対応により、 本番環境と同等の結果 をローカルでも再現可能
NVIDIA Model Optimizer で最適化されたモデルの実行にも対応
他の量子化精度も、用途や研究パートナーとの連携で順次対応予定

キャッシュ機能の強化

キャッシュ機能の刷新 で、コーディングやエージェントタスクの効率向上
- メモリ利用量削減 ：会話をまたいでキャッシュを再利用
- インテリジェントチェックポイント ：プロンプト内の適切な位置でスナップショット保存、応答高速化
- スマートなキャッシュ破棄 ：共有プロンプト部分は長く保持、古い分岐のみ削除

導入方法・利用例

Ollama 0.19 をダウンロードし、 32GB以上の統合メモリ搭載Mac で利用推奨
コーディングエージェント起動例
- Claude Code:
  - ollama launch claude --model qwen3.5:35b-a3b-coding-nvfp4
- OpenClaw:
  - ollama launch openclaw --model qwen3.5:35b-a3b-coding-nvfp4
- モデルとのチャット:
  - ollama run qwen3.5:35b-a3b-coding-nvfp4

今後の展開

新モデル対応 を積極的に進行中
カスタムモデル（対応アーキテクチャでファインチューニング済み）の インポート機能 も準備中
サポートアーキテクチャの拡大 継続

謝辞

MLXコントリビューター ：高速化フレームワーク構築
NVIDIA貢献者 ：NVFP4量子化・モデル最適化・CUDAサポート・Ollama最適化・テスト
GGML & llama.cppチーム ：ローカルフレームワークとコミュニティ
Alibaba Qwenチーム ：高品質なオープンソースモデル提供と協力

Hackerたちの意見

デバイス上のLLMが未来だね。もっと安全だし、データセンターの供給に対する推論の需要が多すぎる問題を解決できるし、電力も少なくて済む。パフォーマンスが十分に良くなるかどうかだけの問題だよ。ほとんどのユーザーは最先端モデルのパフォーマンスなんて必要ないしね。

└

「ほとんどのユーザーは最先端モデルのパフォーマンスなんて必要ない」って言うけど、残念ながらそうじゃないよね。

└

ここ5年間、デジタルで日記をつけてきたけど、その期待を持ってた。最近、Qwen 3.5 4bを使って、質問のタイプを分類したり、エンティティ抽出プロセス自体のためにgraphRAGアプリを作ったんだ。graphRAGは抽出されたトリプレット（エンティティ1、関係、エンティティ2）に依存してるからね。実際に質問に答えるのにはQwen 3.5 27bを使ったけど、結構うまくいってるよ。ちょっと待つ必要があるけど、それだけ。だから、その特定のユースケースでは同意するよ。MLXとM1 64GBのデバイスを使ったけど、エンティティやトリプレットをバッチで抽出するのはMLXの方が確実に早かった。

└

良いオープンウェイトモデルがあるのは、企業が大手を妨害しようとしているからだって主張できるよね。彼らは何百万も使って、あまり先に行かないようにしてる。もしバブルが弾けたら、続けるインセンティブがなくなるだろうね。

└

ユースケースによっては、未来はもう来てるよ。例えば、先週、iPhone 15でローカルに動くリアルタイム音声AIを作ったんだ。英語を話す練習をしている人向けのユースケースもあるよ。STTはかなり良くて、小さなLLMでも基本的な会話には十分だよ。 https://github.com/fikrikarim/volocal

└

最近、消費者向けのM4 MBPにllama.cppをインストールしたばかりで、ローカルモデルをいじくるのがめっちゃ楽しい！今はllama.cppにChatGPTスタイルのインターフェースが組み込まれてて、すぐに実験するのに便利だよ。（Ollamaが何を提供してくれるのか、llama.cppにはないものがあるのか、ちょっと分からないから、アドバイスもらえると嬉しい！）意外と良いモデルがあって、16GBのRAMでもちゃんと動くよ。最近のQwen 3.5 9Bモデルは結構いいけど、1989年の天安門事件については話そうとするとすごくもじもじしてた。（でも「Qwen3.5-9B-Uncensored-HauhauCS-Aggressive」ってのを試したら、逆にベルギー侵攻の詳細な計画を喜んで書いてくれたから、結局バランスが取れてるのかな？）

└

電力をあまり使わないって部分はよく分からないな。バッチ処理を使うと、複数のユーザーに同時にサービスを提供する方が効率的だよ。

└

近いうちに、リモートLLMと仲介するためにローカルLLMが必要になる気がする。ブラウザの広告ブロッカーみたいに、広告を注入するのを止めたり、企業のIPをインターネットに送らないようにリマインドしてくれる感じ。

└

"それは電力をあまり使わないだろう" どうして電力をあまり使うことができるの？もっと知りたいな。

└

シリコンにLLMが入るのが未来だよ。もうすぐLLMチップをコンピュータに差し込んで、今のLLMの100倍の速度で話せるようになるだろうね。性能は少し落ちるけど、そのスピードでカバーできると思う。

└

ほとんどのユーザーはフロンティアモデルのパフォーマンスは必要ない。SSDのオフロードがあれば、消費者向けやプロシューマー/エンスージアストクラスのプラットフォームでSOTAのローカルモデルを動かすのが実現可能だけど、スループットはすごく低い（SSDオフロードの帯域幅が大きなボトルネックで、キャッシング用にたくさんのRAMが必要）。でも、SOTAのパフォーマンスがたまにしか必要なくて、答えを待てるなら、すごくいい選択肢になるよ。

turboquantizationをサポートしている新しいmlx推論エンジン、optiqと比べるとどうなの？

Hacker Newsで議論の続きを見る

ハクソク