世界を動かす技術を、日本語で。

HNに聞く: オープンLLMやコーディングアシスタントをローカルで使用しているのは誰ですか? セットアップとラップトップを共有してください

206日前

概要

  • ノートPC上での オープンソースLLMコーディングアシスタント の利用実態調査
  • OllamaLM Studio などのモデル選択例
  • VS Codeプラグイン 等の統合例
  • ハードウェア構成と パフォーマンス評価
  • 主な用途と 信頼性・課題点 のまとめ

ノートPCでのオープンソースLLM利用ワークフロー

  • 主な実行モデル: Ollama (ローカルLLM管理ツール)、 LM Studio (GUIベースLLMランチャー)、 llama.cpp (CLIベースの軽量実装)
  • コーディングアシスタント統合例:
    • Continue (VS Code/JetBrains向け拡張機能、Ollama等ローカルLLMに対応)
    • Open Interpreter (CLIやエディタ統合用、Python等で動作)
    • Tabby (自己ホスト型コード補完サーバ、VS Codeプラグインあり)
  • ハードウェア構成例:
    • CPU: Intel Core i7/i9AMD Ryzen 7/9 (8コア以上推奨)
    • GPU: NVIDIA RTX 3060/4060 等のディスクリートGPU、または Apple M1/M2 (統合NPU/16GB以上RAM推奨)
    • メモリ: 16GB〜32GB (大規模モデル利用時は32GB推奨)
    • OS: Ubuntu 22.04macOS SonomaWindows 11 Pro
  • パフォーマンス所感:
    • 7B〜13Bモデル(例: Llama-2 7B/13B)は 16GB RAM でも実用的
    • 33B以上は 32GB RAM+ディスクリートGPU 必須、応答速度は 数秒〜10秒
    • Apple Silicon(M1/M2)は llama.cpp 等で高効率、ファンレス運用可
  • 主な用途:
    • コード補完 (Python/TypeScript/Go等)
    • リファクタリング (関数分割、命名改善等)
    • デバッグ (エラーメッセージ解析、修正案提示)
    • コードレビュー (簡易的なバグ検出やスタイル指摘)
  • 信頼性・課題:
    • 短いコード補完 は高精度、 長文生成複雑なリファクタリング は精度低下
    • VS Codeプラグイン 経由だと 入力制限メモリ不足 で停止する場合あり
    • ローカル実行 のため 個人情報漏洩リスク低減、ただし モデルサイズ に応じてPCの発熱・バッテリー消費増大
    • 英語以外の言語特殊なフレームワーク への対応は限定的

今後の調査・共有予定

  • 他ユーザーの ハードウェア構成ワークフロー 事例収集
  • タスクごとのモデル最適化効率的な統合方法 の検証
  • 調査結果の 共有レポート作成 予定

Hackerたちの意見

時々、ローカルのLLMでコードを書くこともあるけど、ノートパソコンでやるのは想像できないな。GPUがあるサーバーで、llama-swapの背後でllama.cppを動かしてるから、モデルをすぐに切り替えられるんだ。今までのところ、Aiderとgpt-oss-120bを使ったのが一番いいローカルコーディング環境かな。Ryzen AI Max+を128GB RAMで使えば、ローカルでも試せるかもしれないけど、nVidia以外のハードウェアはコーディングにはすごく遅いから、プロンプトが大きくなって時間がかかるんだよね。でも、gpt-ossはスパースモデルだから、そこまでひどくはならないかも。あと、OpenRouterをAiderやroocodeみたいなもので使うと、データ保持ポリシーがゼロのプロバイダーだけを使うようにアカウントを設定できるから、ソースコードのトレーニングが心配ならそれもいいかも。GPT5やClaudeは、ローカルでできることよりも無限に優れていて、速くて安いし、俺はモンスターセットアップを持ってるのにね。

gpt-oss-120bはすごいよ。GCPのドキュメントをほとんど保持するRAGエージェントを作ったんだ(別のダウンロード、パース、チャンクなど)。ChatGPTは50問のクイズを6分で終わらせて、スコアは46/50だった。gpt-oss-120bは1時間以上かかったけど、47/50を取ったよ。他のローカルLLMは小さくて、パフォーマンスも悪くて、正解率は50%未満だった。これはi7で64GBのRAM、古いNVIDIAカード(VRAM8GB)で動かしたんだ。追記:RAGシステムがGCPとクラウドエンジニアリングに関する50問の選択肢テストに答えていたことを言うのを忘れてた。

https://github.com/mostlygeek/llama-swap

Macbook Pro 64GBで、Qwen3-Coder-30B-A3B Q4量子化をllama.cppで使ってるよ。VSCodeでは、continue.devを使って自分の(短い)システムプロンプトを設定してる。生成速度は約50トークン/秒、プロンプト処理は550トークン/秒だね。明確な小さなタスクを与えると、どのフロンティアモデルにも負けないくらいの性能だよ。速度と低遅延、飛行機や電車、オフグリッドでも使えるのが好き。llama.cppのVSCodeプラグインもなかなか良いFIMだし。もっとインテリジェンスが必要な時は、個人的にはClaudeとDeepseekのAPIが好きだね。

128GBのマシンで別の量子化を使う?huggingfaceで使った特定のダウンロードリンクを教えてもらえる?あそこにある選択肢が結構混乱するんだよね。

qwen3をllama-vscodeでどうやって動かしてるの? 私はまだqwen-2.5-7bを使ってるよ。Qwen3のサポート追加についてのオープンな問題があって、それを監視してるんだ。可能ならQwen3を使いたいな。問題 - https://github.com/ggml-org/llama.vscode/issues/55

continue.devの新しいオープンコンプリーションモデル試してみた? llama.vscodeのFIMとqwenと比べてどうだった? [1] https://blog.continue.dev/instinct/

これを実際にやってるワークステーションを見たい人は、YouTubeのAlex Ziskindのチャンネルをチェックしてみて。https://www.youtube.com/@AZisk 彼はほとんどLLMや機械学習関連のタスクを実行するためのワークステーションをレビューしてるんだ。俺は彼のターゲット層じゃないけど、開発者だから彼の動画がYouTubeで常におすすめされるんだ。彼はプレゼンが上手で、アドバイスもすごく理にかなってるよ。

彼は私のターゲット層じゃないな。 私もそうだよ、私も開発者だし。 彼はプレゼンが上手で、アドバイスもすごく理にかなってる。 同意。彼がスポンサーに応じて答えを変えてるとは思わないけど、スポンサーなしでは彼がやってることの多くはできないと思う。もしスポンサーがあのハードウェアを提供してくれなかったら、彼は自腹で全部買うのはかなりリスクが高いと思うし、YouTubeからの収入でそれをカバーできることを願ってるんだろうね(実際、何度もカバーできてると思うけど)。でも、YouTubeからの収入がコストをカバーする保証はないってことが言いたいんだ。でも、彼は他の動画でもそのハードウェアを使ってるから、単一の動画に頼ってるわけじゃないよね。

いや、めっちゃいいYouTubeチャンネルだね。あの人、無駄がなくて、ストレートに要点を言ってる。ありがとう。

モデルはgpt-oss-120b、Meta Llama 3.2、Gemma(やってることによる)だね。ハードウェアはApple M4 Max(128GB RAM)で、GPD Win 4をUSB-CネットワーキングでUbuntu 24.04を動かしてる。ソフトウェアはClaude Code - RA.Aid - llama.cpp。CUDAコンピューティングには古いNVIDIA RTX 2080を古いSystem76ワークステーションで使ってる。プロセスとしては、Claude/Raidのためにタスクと生産プロセスを指定した良いINSTRUCTIONS.mdを作成して、タスクリストを維持してる。Claude Agentsとエージェントオーガナイザーを使って、どのエージェントを使うかを決める手助けをしてるよ。それがアーキテクチャ、prdとセキュリティデザインを作成し、コードを書いて、リント、テスト、コードレビューを行うんだ。

各モデルでどんなトークン/トークン数が出てるの?

使ってるエージェントオーガナイザーって何?

このシナリオでGPD Win 4は何をするの?エージェントオーガナイザーで、タスクがWin 4の小さいモデルに行くか、Macの大きいモデルに行くかを決めるステップはあるの?

マックブックを買うなら、プロモデルを選んだ方がいいよ。ファンが内蔵されてるから、マックブックエアみたいに熱がこもるのは避けられるし。マックミニも同じで、スタジオの方がいいよ。ファンがついてるし、ミニにはないからね。あなたはどうかわからないけど、私なら新しいノートパソコンやデスクトップがずっと熱くなってるのは嫌だな。もしマックを選ぶなら、TG Proをおすすめするよ。マックのデフォルトのファン設定はひどくて、すぐに動き出さないから。TG Proを使うと温度変化に対してもう少し「敏感」にできるし、確か20ドルくらいだったと思うけど、買う価値はあるよ。私はM4 Proチップのマックブックプロを持ってて、RAMは24GBだけど、モデルが使えるのは16GBだけなんだ。だから、GPT OSS 20Bモデル(だったかな)を動かせるけど、小さい方だね。少しは動くけど、コンテキストウィンドウがすぐにいっぱいになっちゃうから、頻繁にコンテキストウィンドウを切り替えないといけない。最大限のマックブックプロならもっと大きなコンテキストウィンドウを扱えるのかな?そうすれば、オフラインで一日中コーディングできると思う。マックは、正しいモデルを選べばローカルLLMを動かすのに素晴らしいと思うよ。

マックは、正しいモデルを選べばローカルLLMを動かすのに素晴らしいと思う。 今日のプロンプト処理速度はどうなってる? M3かM4と128GBの組み合わせだったと思うけど、少しでも長いプロンプトを処理するのに時間がかかりすぎて、推論の速度向上があってもほとんど意味がなかった。今はもう少し良くなってるのかな?

ちょっと訂正:マックミニにはファンがあるよ。スタジオは確かに大きくて良いチップが搭載されてるから能力が高いけど、私の理解ではミニは購入できるチップで熱によるスロットリングのリスクは一般的にないと思う。デスクトップマックの選択は、結局どれだけのチップにお金を払いたいかってことだね。

そうだね、コンテキストウィンドウやキャッシュされたコンテキストに関しては、128GBのメモリを搭載したマックブックプロは驚異的なラップトップだよ。スタジオウルトラスも、かなり強力で、モニタースタンドとしては意外と優秀だね。

修正だけど、Macを買うならMaxかUltraを選んで、できるだけメモリを積んだ方がいいよ。RAMの帯域幅が増えることで、大きなモデルを動かすのが現実的になるからね。

ハードウェア:マックブックプロ M4 Max、128GB プラットフォーム:LMStudio(主に)& Ollama モデル:

  • qwen/qwen3-coder-30b A3B Instruct 8-bit MLX
  • mlx-community/gpt-oss-120b-MXFP4-Q8 特に大きなプロジェクトのコード生成には、これらのモデルは最新の基盤モデルほど良くないよ。ローカルのGitリポジトリやライブラリの要約、ドキュメント生成、シンプルなオフラインコマンドラインツールの使用には、いい仕事をしてくれると思う。これらのコミュニティも結構活気があって助けになるよ:
  • https://www.reddit.com/r/LocalLLM/
  • https://www.reddit.com/r/LocalLLaMA/

Mac使ってるなら、コード実行用のサンドボックスが必要だったら、AppleのコンテナをベースにしたCoderunnerをチェックしてみて。これを使えば、LLMが生成したコードを実行できるけど、マシンでの任意のコード実行のリスクはないよ。最近、Claudeのスキルも追加したから、MacでもローカルでClaudeのスキルが実行できるよ。

新しい人向けに、Macでローカルコードエージェントを動かす方法はこんな感じだよ:

  1. $ npm install -g @openai/codex
  2. $ brew install ollama; ollama serve
  3. $ ollama pull gpt-oss:20b
  4. $ codex --oss -m gpt-oss:20b これでインターネットなしでローカルで動くよ。Codexのテレメトリーがあるかはわからないけど、あればオフにできるはず。M1 Mac以上で、GPUメモリは最低24GB必要だよ。モデルは結構大きくて、~/.ollamaに16GBのディスクスペースが必要。注意してね - 120bモデルはこの20bバリアントより1.5倍良いけど、要求スペックは5倍高いから。

20bだけでコードをバイブするのに、何か価値のあるものを作ったり再構築したりできた?

Ollama、16-CPUのXenon E6320(古い)、1.9GHz、120GB DDRAM4、240TB RAID5 SSD、Dell Precision T710(「ザ・ビースト」)。GPUなし。20b(全然速くない)。純粋にCPU依存。256KBのチャンクにRAG用に調整済み。50州、領土、連邦の選挙法を取り込んだ。目標は、選挙の各機能をマッピングして、異なる大学で訓練された公共行政から生まれた(不)一致な用語を扱うこと。これがハルニケーションの核心だね:投票処理とその用語の図を作ること。その後、選挙の不正行為の多様な方法に取り組むか、少なくとも各地域の整合性のギャップを指摘するかも。

Qwen3:32bをMBP M1 Pro 32GBでAsahi Linuxを使って動かしてるよ。主にarmv8アセンブリやSoC関連のコマンドラインでの助けが必要で、今週はI2Cプロトコルを説明してる。ウェブ広告では良い入門が見つからなかった。Zigにはあまり役立たないけど、今のところZigに追いつくものはないみたい。トークンの流れは安定してて、読みのペースより少し遅いけど、十分速いと思う。実際、同じものを置き換えるか、M2 + Asahiで大きなQwen3モデルを動かせるだけのRAMがあればいいかな。ここでqwen3-coderが言及されてたのを見たけど、それについては知らなかった。qwen3と比べてどうなんだろう?32GBに収まるかな?エージェントやツール統合には興味ないし、特にクラウドは使わない。自分の環境を持って、コードを最初から最後まで管理したいんだ。KateとFossilに切り替えたら、完璧な開発環境になった気がする。今は古いOllamaを使ってるけど、Ollamaがオフライン専用から方向転換したから、今度はllama.cppに切り替えるつもり。llama.cppはインストールしたけど、Ollamaからモデルを再利用する方法がわからない。Ollamaはただのラッパーだと思ってたけど、モデルフォーマットが違うみたい? [編集] ちゃんと電源を使ってね、Linuxはバッテリー消費がちょっと多いけど、Qwen3は60W以上引っ張るから、バッテリーがすぐに減っちゃうよ。

Qwen 3 Coderは30Bモデルだけど、3Bのアクティブパラメータを持つMoEだから、かなり速いはず。試してみて。一般的なタスクには密な32Bほど賢くないけど、StackExchangeからのコーディングタスクには理論的にはこっちの方が良いはず。

参考までに、128GBのM4 Maxを買ったんだけど、OCR用のローカルLLMには役立ってる。ただ、コーディング(CodexやClaude Codeみたいな)にはあんまり役立たないかな。GPT 5やClaude 4.5 Sonnetでも信頼性が低いと感じるし、ローカルLLMだとそれがちょっと下がっちゃって、あんまり使えないんだよね。熱も問題だし、Appleは素晴らしいハードウェアを作るけど、デスクトップみたいに連続使用には向いてないと思う。