概要
- RTX 4080の16GB VRAMではローカルLLM運用に不足
- 安価なTesla V100 SXM2 16GBをアダプタで増設しVRAM合計32GBを実現
- ファン騒音の制御やNixOSでのドライバ調整が課題
- llama.cppによる2GPU分散推論で高性能モデル運用が可能
- 最新クラウドモデルに匹敵するローカルAI環境を低コストで構築
格安データセンターGPUによるVRAM拡張術
- RTX 4080(16GB VRAM)では大規模LLM運用にVRAM不足
- より大容量VRAMのGPUは高価なため、 中古データセンターGPU でコスト削減
- Tesla V100 SXM2 16GB (PCIe非対応、NVLink専用)をアダプタ経由で増設
- eBayで約£150 で入手、アダプタは£50、合計£200で16GB VRAM追加
- HBM2メモリ(4096bit、900GB/s帯域)搭載、 RTX 4080より22%高いメモリ帯域
- MacBook M3/M4/M5 MaxやAMD RX 7900 XTXよりも帯域効率が高い
- RTX 5090(32GB、1,792GB/s帯域)は£2,000超、コスパで圧倒
SXM2-PCIeアダプタと冷却ファン問題
- SXM2-PCIeアダプタ は非公式製品、NVIDIA未サポート、£50前後
- アダプタ搭載ファンは 騒音(82dB) が大きな課題
- 標準12V→9V動作で騒音低減を確認、PWM制御も可能
- JST PH2.0(4ピン)→2.54mm変換ケーブル でマザボからファン制御
- これにより静音化と冷却両立を実現
2GPUによるVRAM倍増と分散推論
- RTX 4080(Ada)+Tesla V100(Volta)で 合計32GB VRAM
- llama.cppの tensor splitting 機能でモデルを2GPUに分割ロード
- PCIe経由でレイヤーをパイプライン化
- 単一32GB GPUほど高速ではないが、 コスト1/10で同等VRAM
- V100の消費電力は最大150W程度、家庭運用も現実的
- さらにV100 32GB版や2枚運用で 64GB VRAM 構成も可能
NixOSでのドライバ・CUDA環境構築
- V100はVolta世代、 NVIDIAドライバ550.x(legacy_535) が最後の両対応
- CUDAは 12.2 まで対応、nixpkgsから12.2をピンポイント導入
- カーネルは 6.6系 限定、Xサーバ有効化必須
- NixOSの柔軟な設定で 再現性・安定性 を確保
- llama.cppサービスやCUDA環境も dotfilesで管理
実際のモデル運用と性能
- Qwen3.6-27B-MTP Q5_K_M(約19GB) を完全VRAM内で運用
- 2GPU分散(tensor split)で 32 tok/s の推論速度
- プロンプト処理は 133-160 tok/s、クラウドAPIより高速
- 99レイヤー全オフロード、128kトークンの長文文脈 にも対応
最新クラウドAIに迫る実力
- Qwen3.6-27Bは Claude Sonnet 4.6 と同等のAgentic Index
- MMMU-ProやTerminal-Bench 2.0でクラウドモデルを上回る性能
- 中古GPU+オープンソースLLM で最先端AIに迫る環境
- Opus 4.8等の最上位クラウドAIと比べても差は縮小傾向
Multi-Token Prediction(MTP)による高速化
- MTP(Multi-Token Prediction) で複数トークン同時予測
- 正解トークンは「無料」、誤答のみ通常推論に戻る
- 推論速度は 1.5~2倍 に向上、特にコード生成等で効果大
- llama.cppの最新版でのみ対応、NixOSで ソースビルド&バージョン管理
画像入力対応(Vision機能)
- Qwen3.6-27Bは 画像入力(Vision) にも対応
- mmproj(約928MB) を追加ロード、GPUオフロード可能
- 画像はベクトル化され、テキストトークンと同一空間で処理
- 画像URL+テキストプロンプト で画像認識・解析が可能
- llama.cppでは --mmproj と --mmproj-offload フラグで簡単設定
OpenCode等との連携運用
- OpenCode 等のローカルAIコーディングアシスタントと連携
- LLMサーバはデスクトップ上で稼働、他PCからも利用可能
- ローカルで 高性能AIを自由に活用 できる環境を構築
このように、 中古データセンターGPU+オープンソースLLM+NixOS環境 の組み合わせで、数万円規模の投資で クラウドAIに匹敵するローカルAI環境 を構築可能。ファン制御やドライバ調整の工夫で、静音性・安定性も確保。 自作好き・AIエンジニア にとって、コストパフォーマンス抜群の選択肢。