ハクソク

世界を動かす技術を、日本語で。

データセンター用GPUをゲーミングPCに搭載しました

2026年5月31日原文(blog.tymscar.com)

概要

RTX 4080の16GB VRAMではローカルLLM運用に不足
安価なTesla V100 SXM2 16GBをアダプタで増設しVRAM合計32GBを実現
ファン騒音の制御やNixOSでのドライバ調整が課題
llama.cppによる2GPU分散推論で高性能モデル運用が可能
最新クラウドモデルに匹敵するローカルAI環境を低コストで構築

格安データセンターGPUによるVRAM拡張術

RTX 4080（16GB VRAM）では大規模LLM運用にVRAM不足
より大容量VRAMのGPUは高価なため、 中古データセンターGPU でコスト削減
Tesla V100 SXM2 16GB （PCIe非対応、NVLink専用）をアダプタ経由で増設
eBayで約£150 で入手、アダプタは£50、合計£200で16GB VRAM追加
HBM2メモリ（4096bit、900GB/s帯域）搭載、 RTX 4080より22%高いメモリ帯域
MacBook M3/M4/M5 MaxやAMD RX 7900 XTXよりも帯域効率が高い
RTX 5090（32GB、1,792GB/s帯域）は£2,000超、コスパで圧倒

SXM2-PCIeアダプタと冷却ファン問題

SXM2-PCIeアダプタ は非公式製品、NVIDIA未サポート、£50前後
アダプタ搭載ファンは 騒音（82dB） が大きな課題
標準12V→9V動作で騒音低減を確認、PWM制御も可能
JST PH2.0（4ピン）→2.54mm変換ケーブル でマザボからファン制御
これにより静音化と冷却両立を実現

2GPUによるVRAM倍増と分散推論

RTX 4080（Ada）＋Tesla V100（Volta）で 合計32GB VRAM
llama.cppの tensor splitting 機能でモデルを2GPUに分割ロード
- PCIe経由でレイヤーをパイプライン化
単一32GB GPUほど高速ではないが、 コスト1/10で同等VRAM
V100の消費電力は最大150W程度、家庭運用も現実的
さらにV100 32GB版や2枚運用で 64GB VRAM 構成も可能

NixOSでのドライバ・CUDA環境構築

V100はVolta世代、 NVIDIAドライバ550.x（legacy_535） が最後の両対応
CUDAは 12.2 まで対応、nixpkgsから12.2をピンポイント導入
カーネルは 6.6系 限定、Xサーバ有効化必須
NixOSの柔軟な設定で 再現性・安定性 を確保
llama.cppサービスやCUDA環境も dotfilesで管理

実際のモデル運用と性能

Qwen3.6-27B-MTP Q5_K_M（約19GB） を完全VRAM内で運用
2GPU分散（tensor split）で 32 tok/s の推論速度
プロンプト処理は 133-160 tok/s、クラウドAPIより高速
99レイヤー全オフロード、128kトークンの長文文脈 にも対応

最新クラウドAIに迫る実力

Qwen3.6-27Bは Claude Sonnet 4.6 と同等のAgentic Index
MMMU-ProやTerminal-Bench 2.0でクラウドモデルを上回る性能
中古GPU＋オープンソースLLM で最先端AIに迫る環境
Opus 4.8等の最上位クラウドAIと比べても差は縮小傾向

Multi-Token Prediction（MTP）による高速化

MTP（Multi-Token Prediction） で複数トークン同時予測
正解トークンは「無料」、誤答のみ通常推論に戻る
推論速度は 1.5～2倍 に向上、特にコード生成等で効果大
llama.cppの最新版でのみ対応、NixOSで ソースビルド＆バージョン管理

画像入力対応（Vision機能）

Qwen3.6-27Bは 画像入力（Vision） にも対応
mmproj（約928MB） を追加ロード、GPUオフロード可能
画像はベクトル化され、テキストトークンと同一空間で処理
画像URL＋テキストプロンプト で画像認識・解析が可能
llama.cppでは --mmproj と --mmproj-offload フラグで簡単設定

OpenCode等との連携運用

OpenCode 等のローカルAIコーディングアシスタントと連携
LLMサーバはデスクトップ上で稼働、他PCからも利用可能
ローカルで 高性能AIを自由に活用 できる環境を構築

このように、 中古データセンターGPU＋オープンソースLLM＋NixOS環境 の組み合わせで、数万円規模の投資で クラウドAIに匹敵するローカルAI環境 を構築可能。ファン制御やドライバ調整の工夫で、静音性・安定性も確保。 自作好き・AIエンジニア にとって、コストパフォーマンス抜群の選択肢。

Hackerたちの意見

おめでとう！ほとんどの人はドライバーやカーネル、ACPI、アダプター、ファンヘッダーのデバッグなんてやりたがらないけど、やる気がある人にはコストパフォーマンスがめちゃくちゃいいね。

AMDのMI250X GPUも面白いよね。128GBのHBM2Eで3TB/sの速度、たまに中古で1,000ドル以下で見かけるけど、もちろんOAMソケットが必要なのがネック。普通のマザーボードに簡単に接続する方法は見たことないな。

└

これは面白いし、かなりのスループットを提供するね。でも、PCIレーンに適応する意味はないかな、スロットバスのボトルネックに引っかかっちゃうし。

└

追加の問題は、MI250Xは1つのパッケージに2つのGPUが入っているから、最初と最後のx16 SERDESグループをホストに接続しないと、1つのGPUしか見えないってことだね（もしくは全く動かないかも、よくわからんけど）。それに、eBayで売ってる安いHPEは、動かすために独自のHPEマジックが必要で、まだそれを解明した人は見たことないな。

└

ああ、幸いこのOAMソケットのおかげでお金を使わずに済むわ。

└

この人はOAMソケット用のコンバーターを作ったけど、今のところNVIDIAカードでしか動作が確認されてないみたい（https://www.reddit.com/r/NVIDIA_SXM2PCIE/comments/1d076cn/oa...）。MI250Xにフィットするし、システムはそれを認識するけど、ドライバーが動かないんだ。HPE MI250Xをテストしたらしい。スレッドには、MI250Xには2種類あるって噂があるよ：HPEのやつと他のメーカーのやつ。HPEのは特別なファームウェアが必要だけど、普通のは必要ない。ただ、セカンドハンド市場のMI250Xの大半はHPE製だから、注意が必要だね。

いい記事だね。プロジェクトのためにこのDCカードを考えてたけど、これで買う気になったよ。トークンにかかるコストとユニットの価格を比べてくれて、納得できた。

└

だからやったんだよ。こういうことを視野に入れるのは大事だと思う。

テスラのV100 SXM2 16GBは、著者が書いてるようにDGXクラスじゃないよ。HGXクラスだよ。V100はSXM2とSXM4の2つのクラスがあって、後者は最大80GBのオンボードメモリがある。通常、HGXライザーに8×A100 80GB SXM4をインストールするんだけど、これでNVSwitchファブリックと640GBのプールされたHBM2e（パッケージスタックメモリで約2TB/sのメモリ帯域幅）が得られる。2Uの標準ラックサイズでもあるしね。

└

何を言いたいのか全然わからないんだけど。V100はsxm2とsxm3で出てきたし、16GBと32GBがあったよ。HGXはDGXにちょっとしたトッピングが加わった感じ。

└

一体何を言ってるの？君のコメントは意味不明だよ。V100とA100は全然違う世代なんだから。V100は2TB/sの速度は持ってないよ。

すごい仕事だね。でも問題は30トークン/sじゃなくて、エージェントコーディングやチャットには十分だけど、プリフィルが遅いとエージェントのワークロードが完全に死んじゃう。もしOPが言ってるように100,000トークンを約150トークン/sで処理するなら、計算すると：100000 / (150/s) で、11分6.6666667秒待つことになる。これはかなりの待ち時間だね。

Hacker Newsで議論の続きを見る