概要
- RTX 5080とRTX 3090の2枚構成によるローカルLLM高速化事例
- Asus Prime X570-Proマザーボード選定とBIOS設定の要点
- NVIDIAドライバー導入時の注意点と動作確認方法
- llama.cppでのビルド・起動オプション最適化
- Qwen3.6-27Bモデルで80+トークン/秒の実現
RTX 5080とRTX 3090を活用したローカルLLM環境構築
- RTX 5080 を購入し、さらに 24GB VRAM の RTX 3090 を追加導入
- ローカルで Qwen 3.6 などの大規模言語モデル(LLM)を高速動作させるための構成
- DDR4メモリ と SSD は既存流用、 2枚差し対応マザーボード として Asus Prime X570-Pro を選択
- “Pro”モデルは PCIe 16xを2x8に分割 可能
BIOS設定のポイント
- OS起動モードは UEFI 必須、 BIOS/MBRモード不可
- Bootタブで CSM(Compatibility Support Module)をDisabled
- Advanced → PCI Subsystem Settings
- Above 4G Decoding:Enabled
- ReSize BAR Support:AutoまたはEnabled
- PCIEX16_1/2 Link Mode:Gen 4
- PCIe 4.0対応ライザーケーブル で5080を2番目のスロットに接続
NVIDIAドライバーと動作確認
- 異なる世代のGPU 混在環境では nvidia-openドライバー を使用
- nvidia-smi コマンドで2枚のGPU認識を確認
- 同一世代GPU なら open-gpu-kernel-modules の活用も可能
- パッチ適用後は nvidia-dkms-openアンインストール と novaドライバーのブラックリスト化 が必要
- PCIeスロットの速度確認 は
lspci -vvv -s [デバイスID] | grep "LnkSta:"で実施- 2x8分割時は Speed 16GT/s, Width x8 と表示
llama.cppのビルド・起動最適化
- 異世代GPU対応 のためビルド時に
CMAKE_CUDA_ARCHITECTURES="86;120"指定- Ampere(RTX 3090) と Blackwell(RTX 5080) 両対応
- NCCL無効化 (
-DGGML_CUDA_NCCL=OFF)がパフォーマンス向上に寄与 - 起動時オプション例:
-ts 2,3で 2枚のGPU使用比率 を最適化--spec-type ngram-mod,draft-mtpで MTPによる推論高速化-c 229376で 230kコンテキスト を確保- Q8量子化モデル (39GB)をフル活用
結果・パフォーマンス
- Qwen3.6-27B Q8量子化モデル で 80~90トークン/秒 を実現
- VRAM全体を有効活用 しつつ、 MTP・ngram による推論高速化
- llama.cpp のログで トークン生成速度 や プロンプト評価時間 を詳細確認可能
まとめ
- RTX 5080+3090 の組み合わせで 大規模LLMのローカル推論 が高速・安定動作
- UEFI・PCIe設定 や ドライバー選定 が安定運用のカギ
- llama.cpp のビルド・起動パラメータ最適化で 最大性能 を引き出す構成