世界を動かす技術を、日本語で。

macOS上でのローカルLLMの実験

概要

  • LLM(大規模言語モデル)に対する懐疑的な立場からの実践的な利用体験
  • LLMの強み・弱み、そしてローカル実行の利点を解説
  • macOS上でLLMを動かす2つの主要手段(llama.cppとLM Studio)の紹介
  • モデル選びや運用時の注意点、実践的なTipsを網羅
  • 小型モデルの価値や、ローカル運用の意義についての総括

LLMへの懐疑と実験精神

  • LLM (大規模言語モデル)への評価は人によって大きく異なる状況
  • 自身は 懐疑的立場 だが、技術的好奇心からローカルでの実験を重視
  • LLMは 高度な補完機能 であり、創造性や意識は持たない存在
  • 未来的には 知性を持つ機械 が登場するかもしれないが、現状は未到達
  • LLMの実用性は、 要約・情報検索・雑談 など限定的な範囲に留まる認識

LLMの活用法と注意点

  • 個人の思考整理 や日記代わりの「ブレインダンプ」用途で有用
  • 返答内容はあまり重視せず、 自己整理ツール としての利用を推奨
  • AIへの 過度な擬人化 や依存を避けるべき
  • 出力内容は 必ずファクトチェック、誤情報(ハルシネーション)多発のため
  • 検証困難な質問 は避けることが安全策

ローカル実行のメリット

  • ChatGPT無料版 でも多くのことができるが、ローカル実行には独自の利点
    • 実験の自由度
    • プライバシーの確保 (個人情報が外部に流出しない)
    • AI企業への 倫理的懸念 からの距離
  • オープンモデルの普及により、 12GB程度のモデル で手軽にローカル実行が可能
  • 企業のデータ管理能力や倫理観 への不信感がローカル利用の動機

macOSでLLMを動かす方法

  • llama.cpp

    • Georgi Gerganov開発の オープンソース実装
    • 多数のプラットフォーム対応、豊富な設定項目
    • Nixで簡単インストール:nix profile install nixpkgs#llama-cpp
    • 推奨モデル例: Gemma 3 4B QAT
    • Web UIはシンプルだが、十分な機能性
  • LM Studio

    • クローズドソース だが使いやすいUIが特徴
    • モデルの検索・管理・チャット分岐など多機能
    • モデルサイズや動作可否を自動判別し、システム安定性を保持
    • llama.cpp とAppleの MLX エンジン両対応(MLXは高速だが設定項目が少なめ)
    • UIは直感的で、詳細なチュートリアル不要

LLMモデル選び・運用のポイント

  • モデルサイズ
    • RAM容量が制限要因(例:16GBなら12GB未満モデル推奨)
    • 大型モデルは動作が重く、システム不安定化リスク
  • ランタイム
    • llama.cpp利用時は GGUF形式 モデル
    • MLX利用時は MLX形式 モデル
    • MLXは高速、GGUFは設定自由度・互換性が高い
  • 量子化(Quantization)
    • 標準は16bitだが、 4bit(Q4) 程度まで圧縮しても性能維持
    • 詳細な量子化方式の学習は不要、デフォルト推奨
  • ビジョンモデル
    • 画像入力対応モデルも存在、簡易OCRや画像認識に利用可能
    • 本格的なOCRには専用ツールが優秀
  • 推論機能
    • 「推論型」モデルは回答生成前に 思考プロセス を挟む
    • 小型推論モデルは大型非推論モデルに匹敵する性能を持つ場合あり
    • 推論処理は時間がかかり、文脈ウィンドウを圧迫
  • ツール連携(Tool Use)
    • 特定トークンで外部ツール呼び出しが可能
    • LM Studioは MCPサーバー 連携で機能拡張
    • ツールコールは セキュリティリスク も伴うため、確認プロンプトあり
    • 例:JavaScript MCP(Denoベース)、Web検索MCP、Obsidian連携MCPなど

エージェント(Agent)について

  • Agent とは「推論+ツール利用」を繰り返すモデル
  • 連続的なツール呼び出しで複雑なタスクを自動化
  • 現状は完璧ではないが、今後の進化が期待される分野

おすすめモデル例

  • Gemma 3 12B QAT :視覚対応・高速・高品質な非推論モデル
  • Qwen3 4B 2507 Thinking :小型・高速・推論対応
  • GPT-OSS 20B :最大級で高性能、推論レベル多段階、動作は重め
  • Phi-4 (14B) :推論・非推論両対応、かつてのお気に入り

小型モデルとローカル運用の意義

  • 小型モデルは 最先端モデルには及ばない が、実用性は十分
  • ローカル実行は モデルの理解・弱点克服の訓練 にも最適
  • LM Studioの コンテキストウィンドウ表示 を活用し、文脈が溢れる前に要約させる運用が有効

最後に

  • ローカルLLM は新しい体験と自己学習の場
  • プライバシー・倫理・実験精神の観点からも価値あり
  • Mシリーズ(Apple Silicon)推奨、Intel Macは非推奨
  • ぜひ、自分だけの「魔法のランプ」を楽しんでほしい

(Jull氏によるドラフトレビューと、girlfriendによるヒーローイメージに感謝)

Hackerたちの意見

Hermes Mistralを使ってるんだけど、最初にやったことは幻覚を見始めることだったよ。最近、オーディオの夢日記を始めたんだけど、プライベートにしておきたいんだ。Whisperを使って.wavファイルを文字起こしして、Obsidianのフォルダに入れるように設定したんだ。計画では、ローカルのLLMを使って、句読点や段落を整えるつもりだった。文字起こしを変えたり追加したりせずにきれいにするように指示を入れたんだけど、Hermesは孫子とのインタビューを作り始めて、なぜ『孫子の兵法』を書いたのかについて語り出した。プロセスを止めたら、謝ってきて、孫子について話したときに誤解したって言ってた。孫子のことなんて一言も言ってないし、文字起こしも渡してないのに。ただ指示だけ。しばらくこのやり取りを続けて、やっと間違いを認めさせることができたけど、なぜそうなったのかは教えてくれなかった。変な幻覚を細かくチェックするのは、自分で編集するよりもずっと時間がかかるよ。この論理は、ローカルのLLMを使いたい他の分野にも当てはまると思う。早く改善されるといいな。

正確さや「正しさ」は、論理に基づいて動くコンピュータで簡単に実装できるだろうとよく考えられてきたけど、実際にはオリジナリティや創造性が難しい、あるいは不可能だってことが多いよね。SF作品にはそういう前提がたくさんあった。だけど、実際の問題は、新しいトレーニングのための重い棒を発明して、AIが常に嘘をついて創作するのを防ぐことなんだ。振り返ってみれば、驚くべきことではないかもしれない。結局、人間のコミュニケーション行動で彼らを訓練したんだから。もしかしたら、Redditを情報源にするのは賢い選択ではなかったのかも。Redditに入れて、Redditが出てくる。

約10GBのファイルをダウンロードして、突然ノートパソコンがテキストを要約したり、質問に答えたり、ちょっとした推論までできるようになるって、確かに魔法みたいだよね。モデルのサイズとRAMのバランスが重要なんだ。16GBのマシンでは、12B〜20Bが上限に近いかな。面白いのは、これらのモデルが実際にはAppleのNeural Engineを使ってなくて、Metal経由でGPU上で動いてること。Core MLはカスタムランタイムには向いてないし、AppleはANEへの低レベルの開発者アクセスを与えてないと思う。あと、メモリ帯域幅や専用のSRAMの問題もあるね。AppleがCore MLを最適化して、トランスフォーマーのワークロードをANEにマッピングしてくれるといいな。

できればAppleがCore MLを最適化して、トランスフォーマーのワークロードをANEにマッピングしてくれるといいな。ANEで動かすためにモデルを変換したいなら、ツールが用意されてるよ:> TensorFlow、PyTorch、その他のライブラリからCore MLにモデルを変換する。 https://apple.github.io/coremltools/docs-guides/index.html

僕もAppleのNeural EngineがローカルのLLMと連携しないのは面白いと思った。AppleやAMD、Intelがllama.cppで自社のNPUをちゃんとサポートしてないせいで、AIの波に乗り遅れてる感じがする。これについてどう思う?

ブラウザからもそれができるってのは驚きだね(例えばWebLLM)。近い将来、APIを通さずに多くのユースケースでこれらのエンジンをローカルで動かすようになると思う。

モデルをローカルで動かしたいなら、AppleのMLXを使った方がいいよ。

https://github.com/Anemll/Anemll

GLM 4.5 Airとgpt-oss-120bを両方ともかなりリーズナブルに動かせるよ。特にGPT OSSはレイテンシが良い。128GBのM4 MacBookを使ってるけど、今は「強力」だけど、数年後には古い話になるだろうね。これらのモデルは最前線のモデルに近づいているだけなんだ。

Appleには新しいCEOが必要だと思う。ずっとそう感じてる。もし私がAppleを任されていたら、ローカルLLMを取り入れて、Nvidia向けに設計されたモデルを最適化する推論エンジンを作っていただろうし、サーバーグレードのApple Siliconプロセッサを売るアイデアや、GPUの仕様をオープンにして人々がそれに基づいて開発できるようにすることも考えていたと思う。Appleは安全策を取りすぎている気がする。ティム・クックはCOOとしては優秀だけど、まだCOOの視点でAppleを運営している。ビジョンを持った人が舵を取るべきだよ。

旅行中に16GBのMacBookで13Bモデルを試してみたことがあるんだけど、まあ大丈夫だろうと思ってたんだ。そしたら、ベルリンのカフェでファンがジェットエンジンみたいにうるさくなって、トラックパッドが手のひらを焼くような熱さで、バリスタに「クリプトマイニングしてるの?」って聞かれちゃった。でも驚いたのは、遅いながらもちゃんと動いて、オフラインでHacker Newsのスレッドを要約してくれたこと。まるでリュックに小さなAI研究所を背負ってるみたいだったよ。でも、ChromeとSpotifyを同時に使ったら、RAMに対するサービス拒否攻撃みたいになってるのに気づいた。あれ以来、AppleのANEがどう役立つかにすごく興味が湧いてる。もしCore MLがスムーズにトランスフォーマーのワークロードを処理できるようになったら、今度はノートパソコンが葉っぱのブロワーみたいにうるさくならずに20Bフロンティアに挑戦してみようかな。

これまで、ローカルのLLMが提供できるような使い方には出会ってないな。まるで2022年の初代ChatGPTを使ってるみたいで、限界があってかなり制約を感じる。コミュニティが見つけた使い方には興味があるよ。このスレッドで一人のユーザーが言ってた、ローカルLLMが孫子のインタビューを作り出したっていう例は、まさに僕が言ってる制約そのものなんだ。ローカルLLMを使って、実際に役立つことをするにはどうすればいいの?

ローカルモデルは埋め込みが得意で、例えばスクリーンショットマネージャーを作るのに役立つよ。

インターネットアクセスが限られている状況や、頻繁に接続が切れる場合もあるよね。古いLLMでも全くないよりは役に立つかもしれない。例えば、激しい嵐でインターネットが切れたとき、どんな安全対策を取ればいいの?

Qwen3 A3Bは(私の経験では)ChatGPT 4oと同じくらいのコードを書けて、GPT-OSSよりずっと良いよ。

僕は主にターミナルでClaudeコードを使って、コミットする内容やコミットメッセージを書くために何をするかを考えてる。7〜8bのモデルなら、ローカルでこれができると思う。だから、これは僕が使うための小さな便利なワークフローロボットの一つだね(自分で作るのも簡単だし)。ターミナルのコマンドオートコンプリートにも使えるし、これも小さなモデルで十分だよ。全フォルダの内容をオンラインでClaudeに送るのはなんか気持ち悪いから、ローカルでツールキットを作りたいと思ってる。オフラインの世界はまだ始まったばかりで、大手企業は「気をつけて、これを保存してるからね」って言ってるようなもんだ。

ローカルモデルで何ができるかは、結局は自分のハードウェア次第だけど、doclingはローカルモデル(普通のLLMじゃなくてVLM)を「裏で」使って生産的なタスクをこなす良い例だね。

ローカルのLLMは、事実に基づく知識よりも自動化に使われることが多いと思う。分類、要約、検索、文法チェックみたいなことにね。だから、求められる言語や日常的に使う概念について賢くなっておく必要がある(文書やメッセージの内容を理解するためにね)。でも、人類の歴史やプログラミング言語、ライブラリ、健康、その他の詳細な事実知識は必要ない。要するに、LLMに直接プロンプトを送るんじゃなくて、OSのツールがそれを使って、アプリケーションがURLを取得するのと同じくらい頻繁にプロンプトを送るってことだね。

アプリをプロトタイピング/開発する時に、ローカルモデルを使うか、少なくとも使おうとしてるよ。まず、開発中のコストを抑えられるから、やってることによっては低予算や無予算のプロジェクトだとかなり高くつくこともあるからね。次に、もっと制約を持たせて、慎重に構成することを強いられる。もしローカルモデル(gpt-ossやqwen3みたいなそこそこ使えるもの)が、私がモデル化しようとしているエージェントのワークフローを組み立て始めたら、たぶん、予算のあるクラウドモデル(gpt-5-miniみたいな)に切り替えたらかなりうまくいくと思う。ただ、もしクラウドモデルのコンテキストウィンドウに全てのドキュメントを詰め込んで良い結果が出るなら、これらの制約に対処するのは時間の無駄かもしれないけど、タスクを分ける方が継続的には安くて早いと思う。

検索エンジンを使ってた小さなことにローカルLLMを使ってるよ。言葉の定義、コピー/ペースト用のユニコードシンボルの検索、bashやPythonでのXのやり方のリマインダーとかね。たまに高レベルの質問や好奇心の出発点として使って、その後、実際の人間のコンテンツや大きなオンラインモデルに移って詳細やファクトチェックをすることもあるよ。もしあなたのコンピュータがそこそこ現代的で、余裕のあるRAMがあれば、小さくてもまだ役に立つモデルをGPUなしでも動かせると思う。私の理由は、1) 検索エンジンは有用な結果を表示しないようにインセンティブが働いてる。SEO最適化されたクリックベイト記事は、長いフワフワした内容のない文章と広告が混ざってる。情報を「見つける」代わりに「探し続ける」時間が長ければ長いほど、彼らの利益になるからね。もし本当に探してる情報を見つけたら、タブを閉じて広告を見なくなる。必要なものが見つからなければ、スクロールし続けて広告収入を増やすことになる。これはほとんどの人にとってオンラインデーティングサイトが無駄な理由と同じだよ。成功したマッチがあると、2人の顧客を失うことになるから、収益には悪影響だよ。LLM(場合によってはローカルのものも)は、直接的な質問に対して直接的な答えを出すのが得意で、それが私が検索エンジンを使う理由の90%なんだ。確かに、時々ハルシネートするけど、常識を使えば大した問題じゃないよ。2) ほとんどのデータセンターにホストされているLLMには今は広告が組み込まれてないけど、いつかはそうなるよ。ホストされたモデルがどれだけ良くなったかに慣れてしまったら、モデルの開発者や運営者はそのモデルをこっそりと営業マンに変える方法を見つけるだろう。特定のDellノートパソコンの仕様を尋ねると、「HPの最新のビジネスクラスノートパソコンを試してみて!速くて手頃で、あなたのユニークなスタイルに合った5つの素晴らしい色があるよ!」って返事が来るんだ。これが起こるのは「もし」ではなく「いつ」だって強調したい。ローカルLLMもいつかは広告を持つかもしれないけど、これらの小さなモデルは主に開発や実験のために作られてるから、珍しいか変な形になると思う。商業的にホストされたモデルに全体的な品質で対抗することはないかもしれないけど、何らかの形でオープンウェイトモデルは常に存在すると思ってる。3) ビッグテックの時代におけるデータプライバシーは神話だってことには納得してるけど、それでも自分のランダムな考えやクエリを自分の中に留めることで、露出を最小限に抑えることはできる。自己ホスト型AIモデルは、データセンターにホストされたものほど「良く」はないけど、十分に役に立つよ。4) まだ初期段階だけど、小さなローカルモデルを使って自分のツールを開発できるから、ホストモデルの提供者にお金を払ったり、彼らの製品になる必要はない。5) 初期の盛り上がりの時にはAIの全体的な価値に対して大きな懐疑的だったけど、これが明日消える流行じゃないことに気づいた。どんどん良くなるし、体験も洗練されていく。もっと正確になって、エネルギー消費も減って、完全に普及するだろう。重要な新技術やトレンドについていけないと、追い抜かれることになるんだ。懐疑的な意見や反発は理解できるけど、未来は前に進むよ。

いろんなLLMを試してみたけど、48GB以上のMacbookで動かすGemma3:27bが、日記や個人的なことを分析するには一番良いと思う。中国のモデルは、人生相談に関しては笑っちゃうくらいダメだね。例えば、Deepseekに日記を読んでもらって、人生の目標について話してもらったら、すごく儒教的な感じで、今の自分の人生のステージや社会的地位に合った適切な人間関係について教えてくれた。Gemmaはもっと西洋的だよ。

rewindやopenRecallみたいなものは、ローカルLLMを使ってデバイス内でのセマンティックサーチができるよ。

最先端のLLMをスマホやノートパソコンで動かすのは、まだまだ先の話だと思う。近い将来、家の中で素晴らしいモデルを動かすことができるようになるかもしれない。AIは家にいて、薄型クライアントがそれと通信する。もしかしたら、デバイス上で小さなAIを動かして、遅延と品質のバランスを取るかもね。(これはAppleがMac Proラインで進出する自然な拡張になるだろう。家庭用のLLMデバイスが1万ドルから2万ドルって、そんなに馬鹿げた話じゃないよ。)

家庭用のLLMデバイスに1万ドルから2万ドルは、全然馬鹿げてないよ。その時点で、推論用ハードウェアのためにデータセンターが払ってる金額よりも高くなってるからね。

Mac Proについてはよく分からないけど、あの大きくてかっこいいケースにお金をかけるのはちょっとね。Studioの方がもっと現実的な気がする。もちろん、NvidiaやAMDもデスクトップ向けに大量の高帯域幅GPUメモリのオプションを出してくるし。基本的にローカルのLLMサーバーを持って、ノートパソコンや他のデバイスが接続できるってアイデアはいいと思う。そうすれば、ノートパソコンがLLM作業でバッテリーを消耗しなくて済むし、ローカルにあるからね。

今、512GBのMac Studioで最高のオープンウェイトモデルのいくつかを動かせるよ。価格は約10,000ドル。これがQwen3-Coder-480B-A35Bが4bitで24トークン/秒で動いてる様子だよ: https://twitter.com/awnihannun/status/1947771502058672219 それから、Deep Seek V3 0324が4bitで20トークン/秒で動いてるのもあるよ: https://twitter.com/awnihannun/status/1904177084609827054 さらに、MLXを使って2台の512GB Mac Studioをつなげて、もっと大きなモデルもロードできる。671Bの8bit DeepSeek R1がそれをやってるよ: https://twitter.com/alexocheema/status/1899735281781411907

これが私のamd 395+でやってることだよ。いろんなアプリでdockerコンテナを動かしてて、私の使い方には十分に機能してる。今は主にQwen CodeとGPT OSS 120bを使ってるけど、次世代の技術が出てきたら、価格に関わらずアップグレードすると思う。その価値は私にとって十分あるからね。

家庭用のLLMデバイスに$10,000から$20,000は馬鹿げてはいない。ほとんどの人にとってその価格は高すぎるよ。シリコンバレーの給与水準ならそれくらい出せるけど、Apple Vision Proがずいぶん安いのにあまり売れなかったのを見てみて。

ローカルのLLMが未来だと思ってる。これからどんどん良くなるよ。去年の最先端レベルに達したら、chatgptやanthropic、他のものを使う理由が見当たらない。全てに優れた一つの大きなモデルなんて必要ないよ。タスクに応じて、数十のモデルから小さなモデルをロードすることを想像してみて。囲い込みなんてないからね。

ローカルのLLMは確実に進化していくけど、近い将来に実用的になるかは不透明だよね。ローカルモデルの推論やコーディング能力は大きく向上してるけど、そのほとんどはトレーニングデータやトレーニング手法(例えば、RLHFやDPO、CoTなど)の改善から来てるんだ。最も重要なのは、膨大なフルプレシジョンのパラメータ数を使って、ハルシネーションを快適な範囲に抑える能力だと思う。今の最先端モデルと消費者が手に入れられるものとのハードウェアのギャップはかなり大きいから、実用化されるまでには少なくとも10年はかかるだろうね。

セキュアでプライベートなクラウドコンピューティングが明らかに未来だと思う。

現在、ほとんどの人が自分のコンピュータにいくつかの量子化を適用できるベストなモデルは、Apple SiliconのMacやゲーミングPCの場合だと:コーディングしない場合は、Qwen3-30B-A3B-Instruct-2507(使い方によっては思考バリアントも)で、コーディングの場合はQwen3-Coder-30B-A3B-Instructかな。もしVRAMがもう少しあれば、GLM-4.5-AirやフルのGLM-4.5もおすすめ。

Qwen3とDeepseekはOllamaで制限されてるから、ツールが使えないんだ。システムプロンプトのツール部分が欠けてるからね。おすすめは、別のものでモデルを動かすこと。Ollamaは便利だけど、これらのモデルのツール使用には不十分だよ。

まだローカルの画像キャプショナーを探してるんだけど、使いやすいのはどれが3つか教えてもらえる?

こちらも見てみてね: https://github.com/Mozilla-Ocho/llamafile。

カーソルスタイルのオートコンプリートやコード提案に最適なローカルモデルは何ですか? それに、VS Codeにローカルモデルを統合できる拡張機能はありますか?

「エマージェント」という言葉の使い方にはちょっと懸念を感じるな。これは観察された効果の誇張だと思う。視点やその分野の知識によっては、これがエマージェントに見えるかもしれないけど、計算リソースや時間が圧倒的に不足している中で、もっと複雑なマルコフ連鎖でも同じくらい興味深い発展が見られたからね。今観察しているのは、その階段を一段上がっただけで、前の言葉から得られた情報を元に次のトークンを選ぶための別の角度なんだ。言語学は効率的でロスのないデータ転送が全て。確かに「クール」で驚くべきことだけど、これをスペルチェッカーと知覚を持つ存在の中間として扱うべきだとは思わない。人間は単純なヒューリスティックモデルじゃないし、これらの機械がそれに近いなんて言うのは全く不正確で、将来的にさらなる混乱や失望を招くと思う。