JamesobによるSOTA LLMをローカルで実行するためのガイド

2026年7月4日原文(github.com)

概要

SOTA LLMs をローカルで動かすためのハードウェア選定と構成ガイド
$2,000から$40,000 までの予算別おすすめ構成
PCIeスイッチやBIOS設定 などの詳細なチューニング方法
Dockerを活用したモデル運用法 やSTT環境構築例
トラブルシューティングや参考リソース も網羅

ローカルでSOTA LLMを動かすためのガイド

AltmanやDario のクラウドAIに不安を感じるユーザー向けの、ローカルAI運用ノウハウ集
自作PCでSOTA LLM・STT を動かすための、筆者の実践的な構成例と理由
現行最高クラスのモデル（例：GLM-5.2-594B） をローカルで運用するためのノウハウ
Docker Compose を用いたモデルごとの独立運用手法
Speech-to-Text（Whisper-large-v3） のローカル運用例

予算別おすすめ構成

約$2,000構成
- 2枚のRTX 3090（合計48GB VRAM） 運用
- Qwen3.6-27B や Whisper-large-v3 のローカル実行が可能
- stt harness を使ったSTTも高精度で運用
- 11GB VRAM 搭載のNvidia GPUがあればSTT運用可能
約$40,000構成
- 4枚のRTX 6000 Pro（合計384GB VRAM） で、ほぼClaude Opus相当のモデルも運用可能
- GLM-5.2-Int8Mix-NVFP4-REAP-594B 等の巨大モデルも対応
- PCIe Gen4スイッチ を活用し、GPU間P2P通信を最大化

ベースシステム詳細

中古パーツ（eBay中心） でコストを抑えつつ、DDR4世代のEPYC構成
ASRock Rack ROMED8-2T マザーボード（PCIe 4.0 x16×7、10GbE×2）
AMD EPYC Milan 7313P （16コア3.0GHz）
Crucial DDR4 ECC RDIMM 128GB
PCIeスイッチ（c-payne Microchip Switchtec PM40100 Gen4） でGPU間P2P通信を強化
NVMe SSD 4TB＋8TB×2 でモデル重みをローカル保存＆ZFSで冗長化
Super Flower 1700W PSU×2 で十分な電源供給

GPU構成

NVIDIA RTX PRO 6000 Blackwell Workstation ×4（各96GB、計384GB VRAM）
PCIe Gen4スイッチ関連部品 をc-payne.comで調達
木製自作ケース でGPUとスイッチを安定配置、ファンノイズ対策も実施

モデル運用・Docker活用

モデルごとに専用ディレクトリ＋docker-compose.yml で独立運用
~/storage/models をread-onlyで各Dockerコンテナにマウント
opencode を別VMで走らせ、http://clank.j.co:5000 経由でモデルAPI化
内部DNS でclank.j.coをLLMマシンに割り当て、もしくはIP直指定も可
tmux＋opencode で各ディレクトリごとにセッション生成、バックエンドAPIとして活用
各種ツール連携 （camofox、kagi.com API、searXNG、Telegramボット、Gitea等）で運用効率化

BIOS・カーネル・GRUB設定

BIOSでPCIe Link Widthをx16固定 （x8/x8分割を回避、SlimSASケーブル2本必須）
PCIe Link SpeedはGen4固定 （AutoだとGen1にダウングレードすることがあるため）
ASPM無効化 （アイドル時の速度低下やリンク再トレイン遅延を防止）
Re-Size BAR有効化 （全VRAMへのアクセス、P2P通信に必須）
SR-IOV無効化 （IOMMUによるオーバーヘッドやP2P干渉を防ぐ）
Preferred IOはAuto推奨 （バス番号が変更されるため）
c-payneツールでリドライバのゲインを調整 （SASケーブル長に応じて最適化）
SASケーブルは純正品推奨 （互換品だと不具合が出やすい）

カーネル・GRUBパラメータ

/etc/default/grub
- GRUB_CMDLINE_LINUX="iommu=off amd_iommu=off nomodeset"
- sudo update-grub
nvidia_uvm P2P fix
- echo 'options nvidia_uvm uvm_disable_hmm=1' | sudo tee /etc/modprobe.d/uvm.conf
- sudo update-initramfs -u
ACS（Access Control Services）無効化
- setpciでランタイム無効化スクリプトを作成し、systemd oneshotで自動実行
- lspci -vvv | grep ACSCtlで全て「-」になっていることを確認
- nvidia-smi topo -mで全GPU間がPIXになっていることを確認

GPU電力制限

110V回路で運用するため、GPUごとに350Wにパワーリミット
nvidia-smiでPersistence mode＋Power Cap設定
nvidia-smi --query-gpu=index,power.limit,power.draw --format=csvで確認

性能・ベンチマーク

Gen4 x16でCPU⇔GPU間30GB/s
スイッチ経由P2P通信で27.5GB/s（単方向）、50.4GB/s（双方向）、0.37–0.45μsレイテンシ
ASPM有効時はlspciで2.5GT/sと表示されるが、実際は負荷時にGen4へ復帰

参考リソース

4/6/8 RTX 6000 Pro運用の最新情報リポジトリ https://github.com/local-inference-lab/rtx6kpro
c-payne製Indie PCIeスイッチ https://c-payne.com
RTX6kPRO Discordコミュニティ https://discord.gg/QMNvFkuDN

まとめ

$2,000から$40,000までの幅広い予算で、ローカルSOTA LLM/STT環境を構築可能
中古パーツやPCIeスイッチ活用でコストパフォーマンス最大化
Dockerや各種ツール連携で、運用・開発効率も大幅向上
詳細なBIOS/カーネル/電源設定で、最大限の性能を引き出すことが可能
最新情報やトラブルシューティングはリポジトリ・Discordで随時アップデート

Hackerたちの意見

「2枚のRTX 3090を使うのがいいと思うよ。合計で48GBのVRAMが手に入るからね。これでQwen3.6-27Bを動かせるし、めっちゃいいモデルだよ。」それに、$3,000で48GBの共有メモリを搭載したM5 MacBook Proが手に入るし、巨大な箱じゃないからね。あと、そのお金をクラウドホスティングに使うのも考えてみて。そっちの方が少し安くなるかも。ローカルでモデルを動かせるのは最高だけどね。

└

それは合理的な選択だね。ただ、M5 Proだとメモリ帯域幅が約1/3になることは知っておいた方がいいよ。M5 Maxだと2/3になるし、（一番安いので$4,100だね）。だから、プリフィル（フロップス制約、M5はかなり少ない）とデコード（帯域幅制約）は遅くなるよ。

└

私は、経験したことのない状況を想像できないバカです。だから、ローカルLLMは追求する価値のないおもちゃだと思ってました。でも、Gemma 4 31BやQwen 3.6 27Bを試したとき、どれだけ役立つかを実感しました。敏感な情報を共有することを恐れなくなったし、トークンが足りなくなる心配もなくなった。リモートAIの可用性を気にする必要もなくなった。ローカルLLMは本当に貴重です。

└

私はM5 MacBook Proを持っていて、モデルを動かすための別のGPUセットアップもあるよ。速度の違いはかなり大きい。トークン生成速度だけじゃなくて、最初のトークンが出るまでの時間（プロンプト処理）もね。M5のハードウェアは素晴らしいけど、GPUはまだまだ速い。GPUボックスでモデルを動かすと、ノートパソコンを膝の上で使えるし、熱くなりすぎることもないよ。

└

スタンドアロンのミニ/スタジオは、常に熱いノートパソコンを持ちたくないならいいよ。普通のノートパソコンを買って、ネットワークを使ってLLMにアクセスするのがいいね。

└

64GBの統合メモリを搭載したJetson Orinも買えるよ。

└

俺は24GBのGPUでQwen3.6-27Bを80トークン/秒で動かしてるから、2台も必要ないよ。

└

3090のいいところはRAMの帯域幅だよね。トークン生成は主にメモリ帯域幅にボトルネックがあるから、デュアル3090は1.87 TB/sのメモリ帯域幅（それぞれ0.936 TB/s）を持ってるのに対して、M5 Macbook Proは0.3 TB/sしかないんだ（最大チップは0.63 TB/sだけど、その構成だと10,000ドルかかる）。これのおかげで、qwen 27bがデュアル3090で十分な速さで動くし、Macbook Proだとすごく遅くなるんだよね。大きなモデルをMacbook Proで動かすと、UIがもっさりしてキーボードも熱くなるし、地下でデュアル3090を動かしてMacbookから接続する方がずっといいよ。

└

最近見た動画をまとめると[0]、あなたの主張に反論してるんだけど、MacBookはローカルモデルやClaude Code、Codexを動かすときにすごく遅くなることがあるんだ。実際、ノートパソコン自体が使えなくなるくらい。KVMを使えば、エージェントがリモートでマシンを制御できるから、エージェントが自分のマシンを制御するよりもはるかに多くの機能を持てるし、エージェントが動き終わるためにMacBookをずっと開いておく必要もないんだよね。

「$40kでほぼOpus GLM 5.2が手に入るけど、実際には“ほぼOpus”で、快適に推論するには少なくとも8xH200が必要だから、$40kより$400kに近いよ。」彼らはこの修正モデルを使うことを勧めてるね：>「REAPでプルーニングされた（約22%のエキスパートが削除）、Int8-mix NVFP4量子化版のGLM-5.2、パラメータ数約594B。」実際にベンチマーク以外でどう動くのか気になるな。Qwen3.6は、6ビット量子化でも推論中にループにはまることが多いし、ここでもいくつかのエキスパートが削除されてる。つまり、時には8ビットや16ビットの小さいモデルの方が、ロボトミーされた大きいモデルより賢いこともあるよ。コーディングには8ビット以下はダメっていうのがコンセンサスらしいし、ロボトミーされたモデルを4台のRTX 6000に詰め込もうとすると、どれだけのコンテキストが残るのかも不明だよ。100k未満はほとんど使えないことが多いし、必要なコンテキストを集める前に圧縮に引っかかることが多い。追記：リポジトリで見つけたけど、240kのコンテキストがあるよ。

└

これってスケーリングにどう影響するの？たぶん、数百のプロンプトを同時に実行できるんだよね？

└

8x RTX6000でlukealonsoのNVFP4量子化を使うと、1Mのコンテキストが得られて、400kまでは一貫性があって役に立つよ。8x H200を動かす必要は特にないけど、もしそうしたいなら別だけどね。多くの同時ユーザーやエージェントを定期的にサポートする必要がある場合を除いて。

Hacker Newsで議論の続きを見る

ハクソク