ベンチマークフレームワークデスクトップマザーボードと4ノードクラスター

2025年8月8日原文(github.com)

概要

Framework Desktopの AMD Ryzen AI Max+ 395 と Radeon 8090S 搭載機のクラスタテスト
プリプロダクションユニット4台 でローカルクラスタを構築・検証
シングルノード構成 と 4ノードクラスタ構成 の両方を評価
2.5Gbps/5Gbpsイーサネット および Thunderbolt 4 によるノード間接続を比較
詳細なベンチマークや自動化スクリプトは Beowulf AI Cluster リポジトリと sbc-reviews で公開

Framework Desktopクラスタのテスト概要

テスト対象は Framework Desktop の AMD Ryzen AI Max+ 395 搭載モデル
Radeon 8090S GPUを搭載したプリプロダクションユニットを4台使用
各ユニットは 128GB RAM を搭載、クラスタ構成時は合計 512GB RAM 構成
初期テストは 2.5Gbpsイーサネット でノード間を接続
NICGIGA製5Gbpsスイッチ へ変更し、通信速度を向上
DeskPi 提供の T1 mini rack と Framework Desktop mini rack tray（試作） を利用しラックマウント
Thunderbolt 4 によるノード間直結も検証、 10Gbps の転送速度を確認
詳細な組み立てやラック構築の様子は Mini rack build showcase で紹介

ベンチマーク・自動化・リソース

CPU、GPU、ディスク、ネットワークなどの 詳細ベンチマーク を実施
LLM（大規模言語モデル） を扱うためのクラスタ性能を評価
ベンチマーク結果やレビューは sbc-reviews: Framework Desktop で公開
テスト自動化の全プロセスは Beowulf AI Clusterリポジトリ で管理
- テストスクリプトやセットアップ手順も同リポジトリで共有

参考リンクと補足

詳細な検証記事および追加情報は Jeff Geerling のブログ参照
- I clustered four Framework Mainboards to test huge LLMs
クラスタ構成やテスト環境の詳細な写真・手順もブログで確認可能

Hackerたちの意見

小さいモデルの比較ベンチマークをやってみたよ。https://gist.github.com/mhitza/f5a8eeb298feb239de10f9f60f841... RTX 4000 SFF Ada（20GB）と比べてるんだけど、価格は約1.2kドル（NVIDIAの公式サイトの価格を信じるならね）https://marketplace.nvidia.com/en-us/enterprise/laptops-work... それにアクセスできるのはHetznerのGEX44なんだ。デスクトップよりも2.5〜3倍速いって感じかな。ただ、tg128テストだけは「最小限」の差だったけど、計算はしてないよ。

└

これらの統合メモリ設計の全目的は、20GBのVRAMを超えることなんだ。

└

Level1TechsのWendellがこのシステムについての動画で両方を組み合わせてるのを見たよ。理論的には、OcculinkのE-GPUエンクロージャを使うことを気にしなければ、両方の良いところを得られるかもね。https://youtu.be/L-xgMQ-7lW0

素晴らしい記事をありがとう。ROCmがこんなにうまく動くとは思ってなかったよ。価格的にもLLMのワークロードやちょっとしたゲームには悪くないね。（Appleは手頃な家庭用推論ではまだ王者だけど、ゲームに関しては…最近はすごいけどLinuxの方が全然いいよね。）

└

ほぼ2年前にFedora Swayを日常使いに切り替えたんだ。新しいPCでWindowsのタイトルが動かなかったから、Steam+Proton+Fedoraに切り替えたらすぐに動いたよ。Valveは、MicrosoftがWindows自体を通して提供するよりも、Protonを通してより安定した完全なWindows APIを提供してるんだ。

すでにこの分野にいる人たちへ。自分のローカルLLMを動かしたい場合、今のデスクトップにNvidia 5080 GPUを探した方がいいのかな？それともこれらのFramework AMDデスクトップを試す価値がある？

└

もし未来が小さいモデル（27B）だと思うならNvidiaを選んで。大きいモデル（70-120B）が価値があると思うなら、AMDかAppleが必要だよ。

└

短く言うと、コスパがいいのは中古のRTX 3090だね（長く言うと、もちろん状況によるけど）。一般的に、コンシューマー向けの機材でLLMを動かすときのボトルネックはメモリとメモリ帯域幅だよ。3090は24GBのVRAMがあるけど、5080は16GBしかない。16GBのVRAMに収まるモデルなら5080の方が3090より速いけど、3090は5080に収まらないモデルも動かせる。モデルの一部をCPUやシステムRAMにオフロードできるけど、デスクトップCPUでモデルを動かすのはすごく重いから、部分的にオフロードしても大変だよね。もちろん、32GBのVRAMを持つRTX 5090はもっといいけど、見つけられたとしても約2000ドルするし。Strix Haloシステムの面白いところは、CPU/GPU/APUにアクセスできる（またはほぼアクセスできる）128GBのRAMがあること。これによって、3090や5090ではできないような大きなモデルをこのシステムで動かせるんだ。ただ、パフォーマンステストではStrix Haloのメモリ帯域幅が大きなボトルネックになってるみたい。100GB以上のモデルを動かすには最も手頃な方法かもしれないけど、速くはないだろうね。

ジェフ、distributed-llamaプロジェクトをチェックしてみて。クラスター全体に分散できるはずだよ。

└

彼はそのことを動画で言ってたよ。

└

https://github.com/b4rtaz/distributed-llama ?

└

Exo（なんか死んでるっぽい）、llama.cpp RPC（パフォーマンスに結構制限がある）、それとdistributed-llama（速いけどVulkanのクセがあって、いくつかのモデルでしか動かない）を試してみたよ。俺のAIクラスターの自動化セットアップはここにあるよ: https://github.com/geerlingguy/beowulf-ai-cluster この動画を作る過程でそれを構築してたんだけど、家でAIクラスターを作るのにどれだけ手間がかかるか、マジでヤバいよね :D

Hacker Newsで議論の続きを見る

ハクソク

ベンチマークフレームワーク デスクトップマザーボードと4ノードクラスター

概要

Framework Desktopクラスタのテスト概要

ベンチマーク・自動化・リソース

参考リンクと補足

Hackerたちの意見

ベンチマークフレームワークデスクトップマザーボードと4ノードクラスター