世界を動かす技術を、日本語で。

RTX 5080およびRTX 3090のセットアップ:Qwen 3.6 27B Q8で80 Tok/s

2026年6月13日原文(imil.net)

概要

  • RTX 5080とRTX 3090の2枚構成によるローカルLLM高速化事例
  • Asus Prime X570-Proマザーボード選定とBIOS設定の要点
  • NVIDIAドライバー導入時の注意点と動作確認方法
  • llama.cppでのビルド・起動オプション最適化
  • Qwen3.6-27Bモデルで80+トークン/秒の実現

RTX 5080とRTX 3090を活用したローカルLLM環境構築

  • RTX 5080 を購入し、さらに 24GB VRAMRTX 3090 を追加導入
  • ローカルで Qwen 3.6 などの大規模言語モデル(LLM)を高速動作させるための構成
  • DDR4メモリSSD は既存流用、 2枚差し対応マザーボード として Asus Prime X570-Pro を選択
    • “Pro”モデルは PCIe 16xを2x8に分割 可能

BIOS設定のポイント

  • OS起動モードは UEFI 必須、 BIOS/MBRモード不可
  • Bootタブで CSM(Compatibility Support Module)をDisabled
  • Advanced → PCI Subsystem Settings
    • Above 4G Decoding:Enabled
    • ReSize BAR Support:AutoまたはEnabled
    • PCIEX16_1/2 Link Mode:Gen 4
  • PCIe 4.0対応ライザーケーブル で5080を2番目のスロットに接続

NVIDIAドライバーと動作確認

  • 異なる世代のGPU 混在環境では nvidia-openドライバー を使用
  • nvidia-smi コマンドで2枚のGPU認識を確認
  • 同一世代GPU なら open-gpu-kernel-modules の活用も可能
    • パッチ適用後は nvidia-dkms-openアンインストールnovaドライバーのブラックリスト化 が必要
  • PCIeスロットの速度確認lspci -vvv -s [デバイスID] | grep "LnkSta:"で実施
    • 2x8分割時は Speed 16GT/s, Width x8 と表示

llama.cppのビルド・起動最適化

  • 異世代GPU対応 のためビルド時にCMAKE_CUDA_ARCHITECTURES="86;120"指定
    • Ampere(RTX 3090)Blackwell(RTX 5080) 両対応
  • NCCL無効化-DGGML_CUDA_NCCL=OFF)がパフォーマンス向上に寄与
  • 起動時オプション例:
    • -ts 2,32枚のGPU使用比率 を最適化
    • --spec-type ngram-mod,draft-mtpMTPによる推論高速化
    • -c 229376230kコンテキスト を確保
    • Q8量子化モデル (39GB)をフル活用

結果・パフォーマンス

  • Qwen3.6-27B Q8量子化モデル80~90トークン/秒 を実現
  • VRAM全体を有効活用 しつつ、 MTP・ngram による推論高速化
  • llama.cpp のログで トークン生成速度プロンプト評価時間 を詳細確認可能

まとめ

  • RTX 5080+3090 の組み合わせで 大規模LLMのローカル推論 が高速・安定動作
  • UEFI・PCIe設定ドライバー選定 が安定運用のカギ
  • llama.cpp のビルド・起動パラメータ最適化で 最大性能 を引き出す構成

Hackerたちの意見

25ドルの中国製2x Oculinkカードと2つのMinis Forum DEG1を買ったんだけど、余ってたPSUもあったから、各カードに2枚ずつ取り付けてみた。ちゃんと動いたよ。4x Oculinkカードもあるみたいだけど、それが使えるかはわからないな。

ほぼ同じセットアップで、パフォーマンスにはすごく満足してる。最近、ローカルのQwen3.6 35B A3Bとpiエージェントの方がClaude Codeより好きになってきた。どちらもタスクによって失敗するんだけど、Qwenの方がClaudeよりも失敗がわかりやすい。文章を書くとき、Qwenの幻覚やデタラメはすぐに見抜ける。洗練された語彙や言葉の使い方がないから、無知を隠せないんだよね。コーディングタスクでQwenが解けないと、よくツールコールのループに入っちゃうけど、Claudeはどんどん複雑でクリエイティブなことを試みて、結局は片付けに時間がかかるだけになっちゃう。AIを使うタスクは結構シンプルだから、最先端モデルは必要ないのかも。でも、「ちゃんとした」開発者たちも似たような経験してるのかな?

Q3.6 27bのユースケースがどんどん増えてる(同じリーグで)。一番いいパフォーマンスは、質問の答えがすでにコンテキストにあるとき。オープンエンドや野心的なことを試すと、ClaudeやChatGPTの方が早くゴールに連れて行ってくれる。でも、知識ベースを構築できるタスクでは、ローカルのLLMが本当に競争力があると思う。大きなコンテキストがあって、何度も埋める心配がないから、かなり進めるよ。これを書いてるのは、まさにパスタを作ってる合間で、ローカルのLLMがオンラインで注文した商品についてなんだ。冷蔵庫に何があるか(ざっくり)や、最後の10回の代表的な注文(一般的な好みや周りの店やSKUに関する情報)を大体把握してるように、食材の買い物スキルを作ったんだ。最後の部分は、料理材料の配達を約束するすべての製品に対する俺の個人的な不満だった。これが、エージェントを持つ大手テック企業が約束してきたことで、今やローカルのLLMがそれを完全に解決してくれた。

それは本当だね。失敗のパターンがシンプルだし、上限も低い。小さいモデルは長いシーケンスでの安定性が低いから、CoTがたくさん必要なものは弱くなる。例えば、N生産者1消費者のキューで、複数の目覚ましを失ったときの防御策として、ダムロック+条件変数を使ってたんだけど、モデルはセマフォに切り替えられることに気づくまでにたくさんのCoTが必要なんだ。Qwenはそんなに長いCoTでは安定してなくて、どんどんスロップやバンドエイドを追加しちゃう。一方で、大きなモデルは大きなCoTを出力して、セマフォを使えば2行で3つの機能を切り替えられることに気づくんだ。

それは一貫して失敗するだろうね。Claudeを呼ぶとき、どのバージョンのモデルと話してるか分からないし、ロード中に量子化されてるか、パッチが当たってるかもしれない。

これ前にも言ったけど、これらの最上級モデルは賢くて複雑なコードを書くんだ。上から見ると知的に見えるけど、メンテナンスが大変。将来の開発にとって脆弱になる。小さいモデル、特に前述のものは、もっと失敗するけど、あんな狂ったコードは書かない。人間みたいにシンプルで賢くないコードを書くから、メンテナンスや拡張がずっと楽。Qwen-3.6-27bは素晴らしいモデルだよ。サイズに対して非常に優れていて、全体的にも素晴らしい。今はmtpが使えるから、1枚の3090で60トークン/秒以上も出せるし…これはほとんどの巨大データセンターから提供されるものより約30%速いんだ。

これに関してあまり経験がないから、ちょっと素朴な質問をするけど、ローカルのLLMをClaudeに接続して、もっとClaudeっぽい結果を得られる世界ってあるのかな?もちろん、パフォーマンスには大きな違いが出るだろうけど、これが実現可能なところに近づいてるのかな?答えは「まだ」や「でもすごく遅いよ」とか、「実際にはあまり意味がないよ、だって『Claudeが得られるもの』はAnthropicのモデルにしっかり組み込まれてるから、それが料金の一部なんだよね」って感じかな。

みんながpiハーネスについて話してるのをよく見るんだけど、これはどういうこと?

大きな研究所は自分たちのモデルが兆パラメータだと見せかけたがるけど、Qwen 3.6 35B A3Bが彼らのパフォーマンスにこれほど近いのに、本当にそうなる可能性はどれくらいあるのかな?最高の研究とトレーニングデータを使えば、60Bモデルで簡単にトップに立てるはずだと思うんだけど。

5080と3090のコンボで80tp/sはすごいね。俺は4090と2つのTenstorrent p150カードでやってるけど、3つ使ってもqwen3.6 27b q8で30tpsくらいしか出ない。もっと最適化しないとね。彼らのセットアップのパフォーマンスを、mtpとngramの推測デコーディングありなしで見てみたいな。それと並列デコードのパフォーマンスも(llamacpp mtpが複数スロットでうまく動くようになったら)。カリフォルニアにいると、電気代だけでクラウドに払った方が安くなるよ。

Tenstorrentカードのソフトウェア互換性はどうなの?ベンダーが提供するランタイムやモデルを使わざるを得ないのかな?値段を考えると、これらの問題があまり出てこないのは驚きだね。

新しいハードウェアプロバイダーを使うコストだね。単体のRTX Pro 6000 Blackwell Max-Qの方が性能が良くて、使いやすいよ。俺は2つのDS4 Flashを160 tok/sで動かしてて、最大シーケンス数は4。これらのTenstorrentチップは非常に興味深いね。実験用に1つ買ってみるかも。

Hacker Newsで議論の続きを見る