HNに聞く: オープンLLMやコーディングアシスタントをローカルで使用しているのは誰ですか？セットアップとラップトップを共有してください

2025年10月31日

概要

ノートPC上での オープンソースLLM や コーディングアシスタント の利用実態調査
Ollama や LM Studio などのモデル選択例
VS Codeプラグイン 等の統合例
ハードウェア構成と パフォーマンス評価
主な用途と 信頼性・課題点 のまとめ

ノートPCでのオープンソースLLM利用ワークフロー

主な実行モデル： Ollama （ローカルLLM管理ツール）、 LM Studio （GUIベースLLMランチャー）、 llama.cpp （CLIベースの軽量実装）
コーディングアシスタント統合例：
- Continue （VS Code/JetBrains向け拡張機能、Ollama等ローカルLLMに対応）
- Open Interpreter （CLIやエディタ統合用、Python等で動作）
- Tabby （自己ホスト型コード補完サーバ、VS Codeプラグインあり）
ハードウェア構成例：
- CPU： Intel Core i7/i9、 AMD Ryzen 7/9 （8コア以上推奨）
- GPU： NVIDIA RTX 3060/4060 等のディスクリートGPU、または Apple M1/M2 （統合NPU/16GB以上RAM推奨）
- メモリ： 16GB〜32GB （大規模モデル利用時は32GB推奨）
- OS： Ubuntu 22.04、 macOS Sonoma、 Windows 11 Pro
パフォーマンス所感：
- 7B〜13Bモデル（例： Llama-2 7B/13B）は 16GB RAM でも実用的
- 33B以上は 32GB RAM＋ディスクリートGPU 必須、応答速度は 数秒〜10秒
- Apple Silicon（M1/M2）は llama.cpp 等で高効率、ファンレス運用可
主な用途：
- コード補完 （Python/TypeScript/Go等）
- リファクタリング （関数分割、命名改善等）
- デバッグ （エラーメッセージ解析、修正案提示）
- コードレビュー （簡易的なバグ検出やスタイル指摘）
信頼性・課題：
- 短いコード補完 は高精度、 長文生成 や 複雑なリファクタリング は精度低下
- VS Codeプラグイン 経由だと 入力制限 や メモリ不足 で停止する場合あり
- ローカル実行 のため 個人情報漏洩リスク低減、ただし モデルサイズ に応じてPCの発熱・バッテリー消費増大
- 英語以外の言語 や 特殊なフレームワーク への対応は限定的

今後の調査・共有予定

他ユーザーの ハードウェア構成 や ワークフロー 事例収集
タスクごとのモデル最適化 や 効率的な統合方法 の検証
調査結果の 共有レポート作成 予定

Hackerたちの意見

時々、ローカルのLLMでコードを書くこともあるけど、ノートパソコンでやるのは想像できないな。GPUがあるサーバーで、llama-swapの背後でllama.cppを動かしてるから、モデルをすぐに切り替えられるんだ。今までのところ、Aiderとgpt-oss-120bを使ったのが一番いいローカルコーディング環境かな。Ryzen AI Max+を128GB RAMで使えば、ローカルでも試せるかもしれないけど、nVidia以外のハードウェアはコーディングにはすごく遅いから、プロンプトが大きくなって時間がかかるんだよね。でも、gpt-ossはスパースモデルだから、そこまでひどくはならないかも。あと、OpenRouterをAiderやroocodeみたいなもので使うと、データ保持ポリシーがゼロのプロバイダーだけを使うようにアカウントを設定できるから、ソースコードのトレーニングが心配ならそれもいいかも。GPT5やClaudeは、ローカルでできることよりも無限に優れていて、速くて安いし、俺はモンスターセットアップを持ってるのにね。

└

gpt-oss-120bはすごいよ。GCPのドキュメントをほとんど保持するRAGエージェントを作ったんだ（別のダウンロード、パース、チャンクなど）。ChatGPTは50問のクイズを6分で終わらせて、スコアは46/50だった。gpt-oss-120bは1時間以上かかったけど、47/50を取ったよ。他のローカルLLMは小さくて、パフォーマンスも悪くて、正解率は50%未満だった。これはi7で64GBのRAM、古いNVIDIAカード（VRAM8GB）で動かしたんだ。追記：RAGシステムがGCPとクラウドエンジニアリングに関する50問の選択肢テストに答えていたことを言うのを忘れてた。

└

https://github.com/mostlygeek/llama-swap

Macbook Pro 64GBで、Qwen3-Coder-30B-A3B Q4量子化をllama.cppで使ってるよ。VSCodeでは、continue.devを使って自分の（短い）システムプロンプトを設定してる。生成速度は約50トークン/秒、プロンプト処理は550トークン/秒だね。明確な小さなタスクを与えると、どのフロンティアモデルにも負けないくらいの性能だよ。速度と低遅延、飛行機や電車、オフグリッドでも使えるのが好き。llama.cppのVSCodeプラグインもなかなか良いFIMだし。もっとインテリジェンスが必要な時は、個人的にはClaudeとDeepseekのAPIが好きだね。

└

128GBのマシンで別の量子化を使う？huggingfaceで使った特定のダウンロードリンクを教えてもらえる？あそこにある選択肢が結構混乱するんだよね。

└

qwen3をllama-vscodeでどうやって動かしてるの？私はまだqwen-2.5-7bを使ってるよ。Qwen3のサポート追加についてのオープンな問題があって、それを監視してるんだ。可能ならQwen3を使いたいな。問題 - https://github.com/ggml-org/llama.vscode/issues/55

└

continue.devの新しいオープンコンプリーションモデル試してみた？ llama.vscodeのFIMとqwenと比べてどうだった？ [1] https://blog.continue.dev/instinct/

これを実際にやってるワークステーションを見たい人は、YouTubeのAlex Ziskindのチャンネルをチェックしてみて。https://www.youtube.com/@AZisk 彼はほとんどLLMや機械学習関連のタスクを実行するためのワークステーションをレビューしてるんだ。俺は彼のターゲット層じゃないけど、開発者だから彼の動画がYouTubeで常におすすめされるんだ。彼はプレゼンが上手で、アドバイスもすごく理にかなってるよ。

└

彼は私のターゲット層じゃないな。私もそうだよ、私も開発者だし。彼はプレゼンが上手で、アドバイスもすごく理にかなってる。同意。彼がスポンサーに応じて答えを変えてるとは思わないけど、スポンサーなしでは彼がやってることの多くはできないと思う。もしスポンサーがあのハードウェアを提供してくれなかったら、彼は自腹で全部買うのはかなりリスクが高いと思うし、YouTubeからの収入でそれをカバーできることを願ってるんだろうね（実際、何度もカバーできてると思うけど）。でも、YouTubeからの収入がコストをカバーする保証はないってことが言いたいんだ。でも、彼は他の動画でもそのハードウェアを使ってるから、単一の動画に頼ってるわけじゃないよね。

└

いや、めっちゃいいYouTubeチャンネルだね。あの人、無駄がなくて、ストレートに要点を言ってる。ありがとう。

モデルはgpt-oss-120b、Meta Llama 3.2、Gemma（やってることによる）だね。ハードウェアはApple M4 Max（128GB RAM）で、GPD Win 4をUSB-CネットワーキングでUbuntu 24.04を動かしてる。ソフトウェアはClaude Code - RA.Aid - llama.cpp。CUDAコンピューティングには古いNVIDIA RTX 2080を古いSystem76ワークステーションで使ってる。プロセスとしては、Claude/Raidのためにタスクと生産プロセスを指定した良いINSTRUCTIONS.mdを作成して、タスクリストを維持してる。Claude Agentsとエージェントオーガナイザーを使って、どのエージェントを使うかを決める手助けをしてるよ。それがアーキテクチャ、prdとセキュリティデザインを作成し、コードを書いて、リント、テスト、コードレビューを行うんだ。

└

各モデルでどんなトークン/トークン数が出てるの？

Hacker Newsで議論の続きを見る

ハクソク

HNに聞く: オープンLLMやコーディングアシスタントをローカルで使用しているのは誰ですか？ セットアップとラップトップを共有してください

概要

ノートPCでのオープンソースLLM利用ワークフロー

今後の調査・共有予定

Hackerたちの意見

HNに聞く: オープンLLMやコーディングアシスタントをローカルで使用しているのは誰ですか？セットアップとラップトップを共有してください