概要
- Ollama がApple Silicon向けに MLX 対応で高速化
- M5 シリーズGPU活用による大幅なパフォーマンス向上
- NVFP4 対応で高品質・省メモリ推論を実現
- キャッシュ機能の強化で レスポンスと効率性向上
- 今後も新モデル・カスタムモデル対応を拡大予定
Apple Silicon × MLXによるOllama高速化
- Ollama がApple独自の機械学習フレームワーク MLX 上で動作
- 統合メモリアーキテクチャ を活用し、全Apple Siliconデバイスで大幅な高速化
- M5, M5 Pro, M5 Max チップでは GPU Neural Accelerators を利用
- TTFT(最初のトークン生成までの時間) と 生成速度(トークン/秒) 両方で性能向上
- ベンチマーク例(Qwen3.5-35B-A3Bモデル使用)
- Prefill速度: Ollama 0.19 = 1810 tokens/s(従来比大幅増)
- Decode速度: Ollama 0.19 = 112 tokens/s(従来比約2倍)
NVFP4サポートによる高品質推論・省リソース化
- NVIDIAのNVFP4形式 を採用し、 高精度な応答 と メモリ・ストレージ削減 を両立
- NVFP4 対応により、 本番環境と同等の結果 をローカルでも再現可能
- NVIDIA Model Optimizer で最適化されたモデルの実行にも対応
- 他の量子化精度も、用途や研究パートナーとの連携で順次対応予定
キャッシュ機能の強化
- キャッシュ機能の刷新 で、コーディングやエージェントタスクの効率向上
- メモリ利用量削減 :会話をまたいでキャッシュを再利用
- インテリジェントチェックポイント :プロンプト内の適切な位置でスナップショット保存、応答高速化
- スマートなキャッシュ破棄 :共有プロンプト部分は長く保持、古い分岐のみ削除
導入方法・利用例
- Ollama 0.19 をダウンロードし、 32GB以上の統合メモリ搭載Mac で利用推奨
- コーディングエージェント起動例
- Claude Code:
ollama launch claude --model qwen3.5:35b-a3b-coding-nvfp4
- OpenClaw:
ollama launch openclaw --model qwen3.5:35b-a3b-coding-nvfp4
- モデルとのチャット:
ollama run qwen3.5:35b-a3b-coding-nvfp4
- Claude Code:
今後の展開
- 新モデル対応 を積極的に進行中
- カスタムモデル(対応アーキテクチャでファインチューニング済み)の インポート機能 も準備中
- サポートアーキテクチャの拡大 継続
謝辞
- MLXコントリビューター :高速化フレームワーク構築
- NVIDIA貢献者 :NVFP4量子化・モデル最適化・CUDAサポート・Ollama最適化・テスト
- GGML & llama.cppチーム :ローカルフレームワークとコミュニティ
- Alibaba Qwenチーム :高品質なオープンソースモデル提供と協力