macOS上でのローカルLLMの実験

2025年9月8日原文(blog.6nok.org)

概要

LLM（大規模言語モデル）に対する懐疑的な立場からの実践的な利用体験
LLMの強み・弱み、そしてローカル実行の利点を解説
macOS上でLLMを動かす２つの主要手段（llama.cppとLM Studio）の紹介
モデル選びや運用時の注意点、実践的なTipsを網羅
小型モデルの価値や、ローカル運用の意義についての総括

LLMへの懐疑と実験精神

LLM （大規模言語モデル）への評価は人によって大きく異なる状況
自身は 懐疑的立場 だが、技術的好奇心からローカルでの実験を重視
LLMは 高度な補完機能 であり、創造性や意識は持たない存在
未来的には 知性を持つ機械 が登場するかもしれないが、現状は未到達
LLMの実用性は、 要約・情報検索・雑談 など限定的な範囲に留まる認識

LLMの活用法と注意点

個人の思考整理 や日記代わりの「ブレインダンプ」用途で有用
返答内容はあまり重視せず、 自己整理ツール としての利用を推奨
AIへの 過度な擬人化 や依存を避けるべき
出力内容は 必ずファクトチェック、誤情報（ハルシネーション）多発のため
検証困難な質問 は避けることが安全策

ローカル実行のメリット

ChatGPT無料版 でも多くのことができるが、ローカル実行には独自の利点
- 実験の自由度
- プライバシーの確保 （個人情報が外部に流出しない）
- AI企業への 倫理的懸念 からの距離
オープンモデルの普及により、 12GB程度のモデル で手軽にローカル実行が可能
企業のデータ管理能力や倫理観 への不信感がローカル利用の動機

macOSでLLMを動かす方法

llama.cpp
- Georgi Gerganov開発の オープンソース実装
- 多数のプラットフォーム対応、豊富な設定項目
- Nixで簡単インストール：nix profile install nixpkgs#llama-cpp
- 推奨モデル例： Gemma 3 4B QAT
- Web UIはシンプルだが、十分な機能性
LM Studio
- クローズドソース だが使いやすいUIが特徴
- モデルの検索・管理・チャット分岐など多機能
- モデルサイズや動作可否を自動判別し、システム安定性を保持
- llama.cpp とAppleの MLX エンジン両対応（MLXは高速だが設定項目が少なめ）
- UIは直感的で、詳細なチュートリアル不要

LLMモデル選び・運用のポイント

モデルサイズ
- RAM容量が制限要因（例：16GBなら12GB未満モデル推奨）
- 大型モデルは動作が重く、システム不安定化リスク
ランタイム
- llama.cpp利用時は GGUF形式 モデル
- MLX利用時は MLX形式 モデル
- MLXは高速、GGUFは設定自由度・互換性が高い
量子化（Quantization）
- 標準は16bitだが、 4bit（Q4） 程度まで圧縮しても性能維持
- 詳細な量子化方式の学習は不要、デフォルト推奨
ビジョンモデル
- 画像入力対応モデルも存在、簡易OCRや画像認識に利用可能
- 本格的なOCRには専用ツールが優秀
推論機能
- 「推論型」モデルは回答生成前に 思考プロセス を挟む
- 小型推論モデルは大型非推論モデルに匹敵する性能を持つ場合あり
- 推論処理は時間がかかり、文脈ウィンドウを圧迫
ツール連携（Tool Use）
- 特定トークンで外部ツール呼び出しが可能
- LM Studioは MCPサーバー 連携で機能拡張
- ツールコールは セキュリティリスク も伴うため、確認プロンプトあり
- 例：JavaScript MCP（Denoベース）、Web検索MCP、Obsidian連携MCPなど

エージェント（Agent）について

Agent とは「推論＋ツール利用」を繰り返すモデル
連続的なツール呼び出しで複雑なタスクを自動化
現状は完璧ではないが、今後の進化が期待される分野

小型モデルとローカル運用の意義

小型モデルは 最先端モデルには及ばない が、実用性は十分
ローカル実行は モデルの理解・弱点克服の訓練 にも最適
LM Studioの コンテキストウィンドウ表示 を活用し、文脈が溢れる前に要約させる運用が有効

最後に

ローカルLLM は新しい体験と自己学習の場
プライバシー・倫理・実験精神の観点からも価値あり
Mシリーズ（Apple Silicon）推奨、Intel Macは非推奨
ぜひ、自分だけの「魔法のランプ」を楽しんでほしい

（Jull氏によるドラフトレビューと、girlfriendによるヒーローイメージに感謝）

Hackerたちの意見

Hermes Mistralを使ってるんだけど、最初にやったことは幻覚を見始めることだったよ。最近、オーディオの夢日記を始めたんだけど、プライベートにしておきたいんだ。Whisperを使って.wavファイルを文字起こしして、Obsidianのフォルダに入れるように設定したんだ。計画では、ローカルのLLMを使って、句読点や段落を整えるつもりだった。文字起こしを変えたり追加したりせずにきれいにするように指示を入れたんだけど、Hermesは孫子とのインタビューを作り始めて、なぜ『孫子の兵法』を書いたのかについて語り出した。プロセスを止めたら、謝ってきて、孫子について話したときに誤解したって言ってた。孫子のことなんて一言も言ってないし、文字起こしも渡してないのに。ただ指示だけ。しばらくこのやり取りを続けて、やっと間違いを認めさせることができたけど、なぜそうなったのかは教えてくれなかった。変な幻覚を細かくチェックするのは、自分で編集するよりもずっと時間がかかるよ。この論理は、ローカルのLLMを使いたい他の分野にも当てはまると思う。早く改善されるといいな。

└

正確さや「正しさ」は、論理に基づいて動くコンピュータで簡単に実装できるだろうとよく考えられてきたけど、実際にはオリジナリティや創造性が難しい、あるいは不可能だってことが多いよね。SF作品にはそういう前提がたくさんあった。だけど、実際の問題は、新しいトレーニングのための重い棒を発明して、AIが常に嘘をついて創作するのを防ぐことなんだ。振り返ってみれば、驚くべきことではないかもしれない。結局、人間のコミュニケーション行動で彼らを訓練したんだから。もしかしたら、Redditを情報源にするのは賢い選択ではなかったのかも。Redditに入れて、Redditが出てくる。

約10GBのファイルをダウンロードして、突然ノートパソコンがテキストを要約したり、質問に答えたり、ちょっとした推論までできるようになるって、確かに魔法みたいだよね。モデルのサイズとRAMのバランスが重要なんだ。16GBのマシンでは、12B〜20Bが上限に近いかな。面白いのは、これらのモデルが実際にはAppleのNeural Engineを使ってなくて、Metal経由でGPU上で動いてること。Core MLはカスタムランタイムには向いてないし、AppleはANEへの低レベルの開発者アクセスを与えてないと思う。あと、メモリ帯域幅や専用のSRAMの問題もあるね。AppleがCore MLを最適化して、トランスフォーマーのワークロードをANEにマッピングしてくれるといいな。

└

できればAppleがCore MLを最適化して、トランスフォーマーのワークロードをANEにマッピングしてくれるといいな。ANEで動かすためにモデルを変換したいなら、ツールが用意されてるよ：> TensorFlow、PyTorch、その他のライブラリからCore MLにモデルを変換する。 https://apple.github.io/coremltools/docs-guides/index.html

└

僕もAppleのNeural EngineがローカルのLLMと連携しないのは面白いと思った。AppleやAMD、Intelがllama.cppで自社のNPUをちゃんとサポートしてないせいで、AIの波に乗り遅れてる感じがする。これについてどう思う？

└

ブラウザからもそれができるってのは驚きだね（例えばWebLLM）。近い将来、APIを通さずに多くのユースケースでこれらのエンジンをローカルで動かすようになると思う。

└

モデルをローカルで動かしたいなら、AppleのMLXを使った方がいいよ。

└

https://github.com/Anemll/Anemll

└

GLM 4.5 Airとgpt-oss-120bを両方ともかなりリーズナブルに動かせるよ。特にGPT OSSはレイテンシが良い。128GBのM4 MacBookを使ってるけど、今は「強力」だけど、数年後には古い話になるだろうね。これらのモデルは最前線のモデルに近づいているだけなんだ。

└

Appleには新しいCEOが必要だと思う。ずっとそう感じてる。もし私がAppleを任されていたら、ローカルLLMを取り入れて、Nvidia向けに設計されたモデルを最適化する推論エンジンを作っていただろうし、サーバーグレードのApple Siliconプロセッサを売るアイデアや、GPUの仕様をオープンにして人々がそれに基づいて開発できるようにすることも考えていたと思う。Appleは安全策を取りすぎている気がする。ティム・クックはCOOとしては優秀だけど、まだCOOの視点でAppleを運営している。ビジョンを持った人が舵を取るべきだよ。

└

旅行中に16GBのMacBookで13Bモデルを試してみたことがあるんだけど、まあ大丈夫だろうと思ってたんだ。そしたら、ベルリンのカフェでファンがジェットエンジンみたいにうるさくなって、トラックパッドが手のひらを焼くような熱さで、バリスタに「クリプトマイニングしてるの？」って聞かれちゃった。でも驚いたのは、遅いながらもちゃんと動いて、オフラインでHacker Newsのスレッドを要約してくれたこと。まるでリュックに小さなAI研究所を背負ってるみたいだったよ。でも、ChromeとSpotifyを同時に使ったら、RAMに対するサービス拒否攻撃みたいになってるのに気づいた。あれ以来、AppleのANEがどう役立つかにすごく興味が湧いてる。もしCore MLがスムーズにトランスフォーマーのワークロードを処理できるようになったら、今度はノートパソコンが葉っぱのブロワーみたいにうるさくならずに20Bフロンティアに挑戦してみようかな。

これまで、ローカルのLLMが提供できるような使い方には出会ってないな。まるで2022年の初代ChatGPTを使ってるみたいで、限界があってかなり制約を感じる。コミュニティが見つけた使い方には興味があるよ。このスレッドで一人のユーザーが言ってた、ローカルLLMが孫子のインタビューを作り出したっていう例は、まさに僕が言ってる制約そのものなんだ。ローカルLLMを使って、実際に役立つことをするにはどうすればいいの？

Hacker Newsで議論の続きを見る

ハクソク