概要
- Raspberry Pi Compute Blade を使ったクラスター構築体験記
- CM4→CM5 へのアップグレードとハードウェア選定の苦労
- HPC/AI用途 での性能・コスト・効率比較
- 実用面の限界 とニッチな用途の可能性
- パーツリスト とまとめ
Piクラスターは今でも価値があるのか?
- 2023年4月に Compute Blade 10枚セット を注文、約2年後に到着
- この間に Raspberry Pi CM4→CM5 へアップグレード
- CM5 Lite 16GBモジュール10枚 を追加購入、合計 160GB RAM 構成
- 総額 約3,000ドル (送料込)を投資した最大規模のPiクラスター
- 同時期に Xerxes Pi など他のPiベースブレードも登場
- Framework Desktop 4ノードクラスター (8,000ドル)と性能比較
- 価格/性能/効率/密度での比較検討
クラスター構築の苦労
- NVMe SSD の相性問題:手持ちのSSDは安定せず、 Patriot P300 に統一し信頼性向上
- ヒートシンク未固定 による冷却不良→全ブレード再分解し、ヒートシンクをしっかり固定
- クラスター構築・再構築を 3回 繰り返す羽目に
HPC性能ベンチマーク
- Top500 HPLクラスターベンチマーク を実施
- ヒートシンク未装着時: 275 Gflops (8.5倍速)
- サーマル対策後: 325 Gflops (10倍速、消費電力130W)
- Framework Cluster と比較して 4倍遅い が、 Gflops/W ではやや効率的
- 価格面では Framework Desktop の方が HPCコスト効率 が高い
- Piクラスターが 大規模HPC用途 で使われる可能性は低い
AI用途での評価
- 160GB RAM を活かした AI推論クラスター としての可能性を検証
- 現状 llama.cpp はPi 5 iGPUのVulkan未対応、 CPU推論のみ
- Llama 3.2:3B (小型モデル)は1台で 6トークン/秒 程度
- Llama 3.3:70B (40GBモデル)は分散推論必須
- llama.cpp RPC : 0.28トークン/秒 (Frameworkの25分の1)
- distributed-llama :8ノードで 0.85トークン/秒 (Frameworkの5分の1、安定性課題あり)
- Intel N100 や Framework Desktop の方が圧倒的に高速
実用性と用途の考察
- 学習用途 や 物理的に分離したノード が必要な特殊用途(CIジョブ、高セキュリティエッジ等)には有効
- Unredacted Labs は Tor exit relay 運用にPiクラスターを活用
- 効率・密度重視 ならわずかに優位性
- しかし コストパフォーマンス は一般的なx86サーバーに劣る
- Gateworks GBlade (産業用Compute Blade)は既に 販売終了
- Compute Blade はニッチな「カルト的存在」止まり
結論
- パワー不足・コスト効率の悪さ から99%のユーザーには不向き
- 学習・研究・特殊用途 には一考の余地
- 維持は容易、大規模Piクラスター(例:UC Santa Barbaraの1,050ノード)よりは管理しやすい
- Blade 9 だけはベンチマーク中によく死ぬが愛着あり
- サポートしてくれる Patreon/GitHub/YouTube/Floatplane の皆様に感謝
使用パーツリスト
- Compute Blade DEV
- Compute Blade Standard Fan Unit
- Compute Blade 10" 3D Print Rackmount
- Raspberry Pi CM5 16GB (CM5016000)
- GLOTRENDS Aluminum CM5 Heatsink
- Patriot P300 256GB NVMe SSD 10-pack
- GigaPlus 2.5 Gbps 10 port PoE+ switch
- GigaPlus 10" Rack Mount 3D Print ears
- Monoprice Cat6A SlimRun 6" Cat6 patch cables (10 pack)
- ioplex SFP+ Twinax DAC patch cable
- DeskPi RackMate TT