世界を動かす技術を、日本語で。

OllamaはApple Silicon上でMLXによって動作するプレビュー版になりました

概要

  • Ollama がApple Silicon向けに MLX 対応で高速化
  • M5 シリーズGPU活用による大幅なパフォーマンス向上
  • NVFP4 対応で高品質・省メモリ推論を実現
  • キャッシュ機能の強化で レスポンスと効率性向上
  • 今後も新モデル・カスタムモデル対応を拡大予定

Apple Silicon × MLXによるOllama高速化

  • Ollama がApple独自の機械学習フレームワーク MLX 上で動作
  • 統合メモリアーキテクチャ を活用し、全Apple Siliconデバイスで大幅な高速化
  • M5, M5 Pro, M5 Max チップでは GPU Neural Accelerators を利用
    • TTFT(最初のトークン生成までの時間)生成速度(トークン/秒) 両方で性能向上
  • ベンチマーク例(Qwen3.5-35B-A3Bモデル使用)
    • Prefill速度: Ollama 0.19 = 1810 tokens/s(従来比大幅増)
    • Decode速度: Ollama 0.19 = 112 tokens/s(従来比約2倍)

NVFP4サポートによる高品質推論・省リソース化

  • NVIDIAのNVFP4形式 を採用し、 高精度な応答メモリ・ストレージ削減 を両立
  • NVFP4 対応により、 本番環境と同等の結果 をローカルでも再現可能
  • NVIDIA Model Optimizer で最適化されたモデルの実行にも対応
  • 他の量子化精度も、用途や研究パートナーとの連携で順次対応予定

キャッシュ機能の強化

  • キャッシュ機能の刷新 で、コーディングやエージェントタスクの効率向上
    • メモリ利用量削減 :会話をまたいでキャッシュを再利用
    • インテリジェントチェックポイント :プロンプト内の適切な位置でスナップショット保存、応答高速化
    • スマートなキャッシュ破棄 :共有プロンプト部分は長く保持、古い分岐のみ削除

導入方法・利用例

  • Ollama 0.19 をダウンロードし、 32GB以上の統合メモリ搭載Mac で利用推奨
  • コーディングエージェント起動例
    • Claude Code:
      • ollama launch claude --model qwen3.5:35b-a3b-coding-nvfp4
    • OpenClaw:
      • ollama launch openclaw --model qwen3.5:35b-a3b-coding-nvfp4
    • モデルとのチャット:
      • ollama run qwen3.5:35b-a3b-coding-nvfp4

今後の展開

  • 新モデル対応 を積極的に進行中
  • カスタムモデル(対応アーキテクチャでファインチューニング済み)の インポート機能 も準備中
  • サポートアーキテクチャの拡大 継続

謝辞

  • MLXコントリビューター :高速化フレームワーク構築
  • NVIDIA貢献者 :NVFP4量子化・モデル最適化・CUDAサポート・Ollama最適化・テスト
  • GGML & llama.cppチーム :ローカルフレームワークとコミュニティ
  • Alibaba Qwenチーム :高品質なオープンソースモデル提供と協力

Hackerたちの意見

デバイス上のLLMが未来だね。もっと安全だし、データセンターの供給に対する推論の需要が多すぎる問題を解決できるし、電力も少なくて済む。パフォーマンスが十分に良くなるかどうかだけの問題だよ。ほとんどのユーザーは最先端モデルのパフォーマンスなんて必要ないしね。

「ほとんどのユーザーは最先端モデルのパフォーマンスなんて必要ない」って言うけど、残念ながらそうじゃないよね。

ここ5年間、デジタルで日記をつけてきたけど、その期待を持ってた。最近、Qwen 3.5 4bを使って、質問のタイプを分類したり、エンティティ抽出プロセス自体のためにgraphRAGアプリを作ったんだ。graphRAGは抽出されたトリプレット(エンティティ1、関係、エンティティ2)に依存してるからね。実際に質問に答えるのにはQwen 3.5 27bを使ったけど、結構うまくいってるよ。ちょっと待つ必要があるけど、それだけ。だから、その特定のユースケースでは同意するよ。MLXとM1 64GBのデバイスを使ったけど、エンティティやトリプレットをバッチで抽出するのはMLXの方が確実に早かった。

良いオープンウェイトモデルがあるのは、企業が大手を妨害しようとしているからだって主張できるよね。彼らは何百万も使って、あまり先に行かないようにしてる。もしバブルが弾けたら、続けるインセンティブがなくなるだろうね。

ユースケースによっては、未来はもう来てるよ。例えば、先週、iPhone 15でローカルに動くリアルタイム音声AIを作ったんだ。英語を話す練習をしている人向けのユースケースもあるよ。STTはかなり良くて、小さなLLMでも基本的な会話には十分だよ。 https://github.com/fikrikarim/volocal

最近、消費者向けのM4 MBPにllama.cppをインストールしたばかりで、ローカルモデルをいじくるのがめっちゃ楽しい!今はllama.cppにChatGPTスタイルのインターフェースが組み込まれてて、すぐに実験するのに便利だよ。(Ollamaが何を提供してくれるのか、llama.cppにはないものがあるのか、ちょっと分からないから、アドバイスもらえると嬉しい!)意外と良いモデルがあって、16GBのRAMでもちゃんと動くよ。最近のQwen 3.5 9Bモデルは結構いいけど、1989年の天安門事件については話そうとするとすごくもじもじしてた。(でも「Qwen3.5-9B-Uncensored-HauhauCS-Aggressive」ってのを試したら、逆にベルギー侵攻の詳細な計画を喜んで書いてくれたから、結局バランスが取れてるのかな?)

電力をあまり使わないって部分はよく分からないな。バッチ処理を使うと、複数のユーザーに同時にサービスを提供する方が効率的だよ。

近いうちに、リモートLLMと仲介するためにローカルLLMが必要になる気がする。ブラウザの広告ブロッカーみたいに、広告を注入するのを止めたり、企業のIPをインターネットに送らないようにリマインドしてくれる感じ。

"それは電力をあまり使わないだろう" どうして電力をあまり使うことができるの?もっと知りたいな。

シリコンにLLMが入るのが未来だよ。もうすぐLLMチップをコンピュータに差し込んで、今のLLMの100倍の速度で話せるようになるだろうね。性能は少し落ちるけど、そのスピードでカバーできると思う。

ほとんどのユーザーはフロンティアモデルのパフォーマンスは必要ない。SSDのオフロードがあれば、消費者向けやプロシューマー/エンスージアストクラスのプラットフォームでSOTAのローカルモデルを動かすのが実現可能だけど、スループットはすごく低い(SSDオフロードの帯域幅が大きなボトルネックで、キャッシング用にたくさんのRAMが必要)。でも、SOTAのパフォーマンスがたまにしか必要なくて、答えを待てるなら、すごくいい選択肢になるよ。

turboquantizationをサポートしている新しいmlx推論エンジン、optiqと比べるとどうなの?

MacOSで16GBのRAMだけでローカルLLMを使ってClaude Codeを快適に動かせる日をまだ待ってる。

どれくらい近いの?最小32GBが必要って書いてあるけど?

今、M2 Max 96GBでqwen 70bの4ビットをllama.cpp経由で動かしてるけど、日常的な作業には結構安定してるよ。mlxスイッチは面白いね。前はollamaがmac上でllama.cppにシェルアウトしてたから、ネイティブのmlxならAppleシリコンでのメモリ管理が良くなるはず。大きいモデルでggufパスと比べてどうなるか気になるな。

最初のローンチでミスして、ライブラリのいくつかのGGUFモデルを上書きしちゃって、Appleシリコン以外のプラットフォームではダウンロードできなくなってたんだ。早く修正されるといいな。

llama.cppと比べて、パフォーマンスはどうなの?

MLXはちょっと早いよ(低い二桁のパーセンテージで)、でも少しRAMを多く使うね。多くの人にとっては、そこまでのトレードオフは価値があると思う。

OllamaがMacでの推論に追いついてきてるのは良いことだね。MLXを使った推論は大きな違いを生むよ、特にM5ではグラフが示してる通り。私のワークフローで本当に変わったのは、SSD KVコールドキャッシングを持ってる https://omlx.ai/ を使うようになったこと。セッションがメモリから消えちゃって再度プリフィルする心配がなくなったよ。これにM5 Maxのプリフィル速度を組み合わせると、50k以上のコンテンツウィンドウを処理するのを待つよりも生成にもっと時間を使えるようになった。

なんでまだオラマ使ってる人がいるの?マジで。レモネードや llama.cpp の方がずっと最適化されてるし、使いやすさも同じくらいだと思うんだけど。

「apfel」っていうのを作ったよ。https://github.com/Arthur-Ficial/apfel これはAppleのデバイス上で動くローカルな基盤モデル(Appleの知能)用のCLIなんだけど、4kのコンテキストウィンドウとよくある誤検出のガードレールがあって、すごく制限されてるんだ(色を説明させてみて)。でも、ホームに呼び出したり余分なコストがかからずに動くbashスクリプトで使えるのはめっちゃパワフルだよ。

いいプロジェクトだね、シェアしてくれてありがとう。簡単にインストールできるようにbrewを通して提供する予定はある?

同じパフォーマンスでこれらのモデルをローカルで動かすためのMac以外のコンピュータって何かある?同じレベルに達するLinuxのARMベースのコンピュータとか?

ぜんぜん無理だよ。PCでこれを動かしたいなら、5090みたいなGPUが必要だけど、それでもトークンあたりのコストは違うし、信頼性も低いし、消費電力もめっちゃ多い。今のところ、Appleシリコンのマシンがトークンあたりとワットあたりのコストで最も効率的だね。