この3000ドルのPi AIクラスターを作ったことを後悔しています

2025年9月19日原文(jeffgeerling.com)

概要

Raspberry Pi Compute Blade を使ったクラスター構築体験記
CM4→CM5 へのアップグレードとハードウェア選定の苦労
HPC/AI用途 での性能・コスト・効率比較
実用面の限界 とニッチな用途の可能性
パーツリスト とまとめ

Piクラスターは今でも価値があるのか？

2023年4月に Compute Blade 10枚セット を注文、約2年後に到着
この間に Raspberry Pi CM4→CM5 へアップグレード
CM5 Lite 16GBモジュール10枚 を追加購入、合計 160GB RAM 構成
総額 約3,000ドル （送料込）を投資した最大規模のPiクラスター
同時期に Xerxes Pi など他のPiベースブレードも登場
Framework Desktop 4ノードクラスター （8,000ドル）と性能比較
価格/性能/効率/密度での比較検討

クラスター構築の苦労

NVMe SSD の相性問題：手持ちのSSDは安定せず、 Patriot P300 に統一し信頼性向上
ヒートシンク未固定 による冷却不良→全ブレード再分解し、ヒートシンクをしっかり固定
クラスター構築・再構築を 3回繰り返す羽目に

HPC性能ベンチマーク

Top500 HPLクラスターベンチマーク を実施
- ヒートシンク未装着時： 275 Gflops （8.5倍速）
- サーマル対策後： 325 Gflops （10倍速、消費電力130W）
Framework Cluster と比較して 4倍遅い が、 Gflops/W ではやや効率的
価格面では Framework Desktop の方が HPCコスト効率 が高い
Piクラスターが 大規模HPC用途 で使われる可能性は低い

AI用途での評価

160GB RAM を活かした AI推論クラスター としての可能性を検証
現状 llama.cpp はPi 5 iGPUのVulkan未対応、 CPU推論のみ
Llama 3.2:3B （小型モデル）は1台で 6トークン/秒 程度
Llama 3.3:70B （40GBモデル）は分散推論必須
- llama.cpp RPC ： 0.28トークン/秒 （Frameworkの25分の1）
- distributed-llama ：8ノードで 0.85トークン/秒 （Frameworkの5分の1、安定性課題あり）
Intel N100 や Framework Desktop の方が圧倒的に高速

実用性と用途の考察

学習用途 や 物理的に分離したノード が必要な特殊用途（CIジョブ、高セキュリティエッジ等）には有効
Unredacted Labs は Tor exit relay 運用にPiクラスターを活用
効率・密度重視 ならわずかに優位性
しかし コストパフォーマンス は一般的なx86サーバーに劣る
Gateworks GBlade （産業用Compute Blade）は既に 販売終了
Compute Blade はニッチな「カルト的存在」止まり

結論

パワー不足・コスト効率の悪さ から99%のユーザーには不向き
学習・研究・特殊用途 には一考の余地
維持は容易、大規模Piクラスター（例：UC Santa Barbaraの1,050ノード）よりは管理しやすい
Blade 9 だけはベンチマーク中によく死ぬが愛着あり
サポートしてくれる Patreon/GitHub/YouTube/Floatplane の皆様に感謝

使用パーツリスト

Compute Blade DEV
Compute Blade Standard Fan Unit
Compute Blade 10" 3D Print Rackmount
Raspberry Pi CM5 16GB (CM5016000)
GLOTRENDS Aluminum CM5 Heatsink
Patriot P300 256GB NVMe SSD 10-pack
GigaPlus 2.5 Gbps 10 port PoE+ switch
GigaPlus 10" Rack Mount 3D Print ears
Monoprice Cat6A SlimRun 6" Cat6 patch cables (10 pack)
ioplex SFP+ Twinax DAC patch cable
DeskPi RackMate TT

Hackerたちの意見

Piクラスターが実際にパフォーマンスでコスト競争力があったら、データセンターがそれでいっぱいになってるはずだよね。

└

何かしらのコスト競争力があればね…本当に何でも。

└

地面に落ちてる20ドル札を拾わない経済学者のジョークみたいだね。自由市場の完璧な効率への信頼は、長期的にはうまくいくけど、短期的には良い仕事をするための習慣がたくさんあるんだよね。

└

そうだね。もし女性が男性の1ドルに対して80セントしかもらってないなら、男性は雇用されなくなるよ。

└

Mythic BeastsがRaspberry Piサーバーをレンタルしてるよ: https://www.mythic-beasts.com/order/rpi/ - こういうニッチもあるんだ。

└

公平に言えば、プレイステーションについても同じことが言われてたよ。

ちょっと厳しい見出しだね。明らかに著者はテストを楽しんで、色々作ってたみたい。でも、記事の最初の一文にはちょっと後悔するかも。>「2023年4月に10台のコンピュートブレードを注文したんだけど、数週間前にやっと届いた。」これはきつい。

└

それが一番の後悔だけど、これまでに6つのKickstarterプロジェクトを支援してきた。中央値の納品時間は1年。なぜか、支援したアイテムはすべていつかは発送されてきた（これは予想外）。ハードウェアスタートアップは本当に難しいし、いくつかのプロジェクトと関わった結果（通常はニッチな市場で面白いアイデアを持った1人か2人）、半分以上は最初の小売製品を届ける前に失敗してるみたい。中にはプロトタイプやクラウドファンディングボードを届けるところまで行くものもあるけど、発送や物流の悪夢のせいで、もう完全に混乱してる状態になってる。

お気に入りのノームカンファレンスのセッションを思い出すな、「モデルのトレーニングと推論には一台の大きなマシンを使えばいい」ってやつ。https://youtu.be/9BXMWDXiugg?si=4MnGtOSwx45KQqoP それと、「スケーラビリティ！でも、どれくらいのコストで？」っていう古典的な論文もね。https://www.usenix.org/system/files/conference/hotos15/hotos... 要するに、並列処理に関するパフォーマンスの考慮はアムダールの法則を超えていて、スケールアウトをサポートすることで、単一ノードの実装には存在しない追加の作業がたくさん発生するんだ。（それに、マルチスレッドも逐次実装には存在しない作業を生み出すし。）コンピュータのパフォーマンスに関する本当の秘密は、最も速い操作は実行しない操作だってこと。

結論は明らかだったと思うけどね。ラズベリーパイのクラスターは、高性能コンピューティングへの実際の道ではなく、楽しむための高価なオタクの indulgence だよ。誰かがPiクラスターを作るとき、コスト効果のある取り組みだと思ってるとは思えないけど。もしかしたら、これはYouTubeスタイルの見出しがブログに流れ込んできた結果かもね。Linuxマシンのクラスターで遊んだり学んだりするのが目的なら、コスト効果の高い方法はデスクトップの消費者向けCPUを買って、ハイパーバイザーをインストールして、たくさんのVMを作ることだよ。それが好きなら、ラズベリーパイのユニットにケーブルをつないでいくのは満足感があるけど、ターミナルに入ったらデスクトップCPUやRAM、システムの柔軟性がありがたく感じるはず。

└

コスト効果の高い方法はクラウドでやることだね。だって、学びたいことは全部学べて、クラウドの請求書がデスクトップの価格に達する前に飽きちゃう可能性が高いから。

└

これについて計算してみたんだけど、最新のMx Ultraプロセッサを搭載したMac Studioを調達して、メモリを最大限にするのが100b+パラメータモデル空間に入るための最もコスト効果の高い方法みたいだよ。

Hacker Newsで議論の続きを見る

ハクソク