世界を動かす技術を、日本語で。

ダークブルーム – アイドル状態のMacでのプライベート推論

概要

Darkbloom は、アイドル状態の Apple Silicon搭載Mac を利用した分散型AI推論ネットワーク。 OpenAI互換API を提供し、エンドツーエンド暗号化で プライバシー保護中央集権型より最大70%安価 な推論コストを実現し、オペレーターは 収益の95%以上 を獲得。 信頼性確保 のため、四重の独立したセキュリティレイヤーを実装。 誰でも自宅のMacで収益化 が可能な新しいAIインフラ。

Darkbloom:アイドルMacを活用した分散AI推論ネットワーク

  • Darkbloom は、アイドル状態の Apple Silicon搭載Mac を直接AI推論需要へ接続するネットワーク
  • 100万台以上 のApple Silicon Macが、日中18時間以上アイドル状態
  • オペレーター(Mac所有者) は、推論データにアクセスできず プライバシー保証
  • OpenAI互換API で、チャット・画像生成・音声認識に対応
  • 推論コスト は中央集権型と比較して 最大70%削減
  • 収益の95% 以上がハードウェアオーナーに還元される仕組み

ユーザー向けメリット

  • 推論コスト半額以下 で利用可能
  • エンドツーエンド暗号化 により、データ漏洩リスクなし
  • OpenAI互換API で既存SDKやライブラリがそのまま利用可能

ハードウェアオーナー向けメリット

  • アイドルMac で簡単に USD収益化
  • 推論収益の100% を受け取り、電気代(1時間あたり$0.01〜$0.03)のみがコスト
  • 追加投資不要、ソフトウェア導入のみで開始可能

背景:AI計算資源のサプライチェーン問題

  • 現在のAI計算資源市場は 三重の中間マージン構造
    • NVIDIA がGPUをハイパースケーラーへ販売
    • AWS/Google/Azure/CoreWeave がGPUをAI企業へ貸し出し
    • AI企業 がAPIとして最終ユーザーへ提供
  • 各層がマージンを取得し、 実際のシリコンコストの数倍 の価格に
  • 供給・富の集中、少数企業による寡占状態
  • Apple Silicon は100万台以上出荷、 大半が未活用
  • Uber/Airbnb/屋上ソーラー のように、分散型リソース活用で価格破壊を目指す

技術的課題とDarkbloomのアプローチ

信頼性の課題

  • 分散型ネットワークでは データのプライバシー保証 が不可欠
  • 他人のMac で企業機密や個人会話の推論実行は、従来の契約だけでは不十分

Darkbloomのセキュリティ対策

  • アクセス経路の排除 :オペレーターが推論データへアクセスする全経路を遮断
  • 四重の独立したセキュリティレイヤー
    • エンドツーエンド暗号化 :リクエストは端末で暗号化、Mac上でのみ復号
    • ハードウェア認証 :Appleのセキュアエンクレーブ内で鍵生成、ルート認証局で検証可能
    • 実行時保護 :OSレベルでプロセスをロック、デバッガ・メモリ検査不可
    • 出力のトレーサビリティ :応答ごとにマシン署名、全認証チェーンを公開

実装と利用方法

API互換性

  • OpenAI互換API :ベースURL変更のみで利用可能
    • ストリーミング関数呼び出し、既存SDK対応
    • 例:Pythonでの利用
      • from openai import OpenAI
        client = OpenAI(
          base_url="https://api.darkbloom.dev/v1",
          api_key="your-api-key"
        )
        response = client.chat.completions.create(
          model="mlx-community/gemma-4-26b-a4b-it-8bit",
          messages=[{"role": "user", "content": "Hello!"}],
          stream=True
        )
        for chunk in response:
          print(chunk.choices[0].delta.content, end="")
        
  • 画像生成 (FLUX.2 on Metal)、 音声認識 (Cohere Transcribe)もサポート
  • 大規模MoEモデル (239Bパラメータまで)対応

コスト比較・収益モデル

  • アイドルハードウェア 活用により マージナルコストがほぼゼロ
  • サブスクリプション不要、従量課金制
  • 主要モデルの価格例(100万トークンあたり)
    • Gemma 4 26B :$0.03(OpenRouter比50%安)
    • Qwen3.5 27B :$0.10(50%安)
    • 画像生成 :$0.0015/枚(Together.aiの半額)
    • 音声認識 :$0.001/分(AssemblyAIの半額)
  • プラットフォーム手数料0%、オペレーターが100%収益取得

オペレーターの経済性

  • インストールはターミナル一発curl -fsSL https://api.darkbloom.dev/install.sh | bash
  • 依存関係なし・自動アップデート・launchdサービスとして常駐
  • 収益シミュレーション :機種・稼働時間ごとに年間収益と電気代を計算可能
  • 実際の収益 はネットワーク需要とモデル人気に依存

モデルカタログ

  • Gemma 4 26B :Google最新、4Bアクティブの高速マルチモーダルMoE
  • Qwen3.5 27B :高品質推論、Claude Opus蒸留
  • Qwen3.5 122B MoE :10Bアクティブ、トークン単価最良
  • MiniMax M2.5 239B :SOTAコーディング、Mac Studioで100トークン/秒
  • Cohere Transcribe :2B conformer、音声認識最高品質

まとめ:Darkbloomの意義

  • 分散型AI推論インフラ として、未活用リソースの収益化とコスト削減を両立
  • 高いプライバシー保証オープンな経済圏 を両立
  • Apple Silicon Mac 所有者とAIユーザー双方に新たな価値を提供

Hackerたちの意見

彼らはTEEを使って、モデルとコードが改ざんされていないか確認してるんだ。それは良いアプローチだし、うまくいくと思うよ(俺もAWSでTEEを使った似たようなことをやったことがある)。ここでの重要な質問は、外部のコンピュータが内部プロセスのメモリを見れないようにどうやって防ぐかだね。 > 「プロセス内推論設計は、推論エンジンを強化されたプロセスに直接埋め込み、観察可能なすべてのプロセス間通信チャネルを排除します。オプションのハイパーバイザーのメモリ隔離により、ソフトウェアによる強制からハードウェアによる強制へと保護を拡張し、パフォーマンスコストはゼロです。」 俺は、GPUを使う場合はこれが不可能だと思ってたんだけど、もしかしたら勘違いしてるかも。

確かにその主張はあるけど、実際に外部サーバーにプロンプトやデータを送るなら、ある程度のデータ保持があるって思っておいた方がいいよね。特に商業目的でDarkbloomを使う人は、敏感なデータ(トークンや顧客データなど)は送らない方がいいと思う。分類タスクや画像生成とか、そういうのだけにした方がいいね。

Macにはアクセス可能なハードウェアTEEはないよ。Macにはセキュアエンクレーブがあるけどね。

この論文全体がLLMの匂いがするね。最も優れた学者でも、SIPのステータスが運用中に変わらないことを証明するために記法を使うのは控えると思うよ。

彼らの数字にはちょっと信じがたいな。もしマックミニを2〜4ヶ月で払い終えて、その後毎月1〜2千ドルの利益が出るなら、なんで彼らのビジネスモデルはマックミニを買うことじゃないんだろう?

資本と可用性?

電力とラックは難しくて高い?

いい質問だね。これには「マス」(資本)のユーザーを引き寄せるのが簡単だっていう部分があると思う。世界にはアイドル状態のMacが結構あるからね。VCなしでも(自分の条件で資金調達できるまで必要ない!)明確な差別化ができる。ビジネス評価を本格的にやりたいなら、他の誰かが同じことをもっと高い手数料で実装することを心配した方がいいと思う(俺の意見では95%と市場に最初に出るのが十分だよ)。

これはあくまで推定です。特定の利用率や収益を保証するものではありません。実際の収益はネットワークの需要、モデルの人気、プロバイダーの評価スコア、同じモデルを提供している他のプロバイダーの数に依存します。他の人たちも需要が低いと報告しているよ。例えば: https://news.ycombinator.com/item?id=47789171

数字は明らかに高いけど、これが普及すれば推論の価格も下がるだろうね。でも、低所得国にとっては良い経済モデルだと思う。例えばウクライナでは、月200ドルで生活している人を知ってる。数台のMac Miniがあれば、いろんな場所で家族を養えるよ。ビジネスオーナーとしては、分散型ネットワークがハイパースケーラーの推論プロバイダーに頼るよりもいい理由がいくつも思いつく。

  1. いつでも切られたり、価格を変えられたりする大手テックプロバイダーに依存しない。これにはプレミアムを払う価値がある。
  2. 住宅用IPプロキシネットワークが内蔵されている。AIスクレイパーはそれに大金を払ってるからね。
  3. 検閲がない。
  4. 推論ノードが近くにあれば、レイテンシが低くなる。

ありえないくらい良すぎるよね。1日に何もせずにクラウドコードのサブスクリプションよりも稼いでるの見たら、年に50ドルくらいが限界だと思う。

「1台のロボタクシーは、年間約30,000ドルの粗利益を生む価値があるかもしれません。... テスラは価値が上がる資産です。」 - 2019年4月のテスラの自動運転デーでのイーロン・マスクの発言。

彼らは初期投資があまりないから、アイドル状態のコンピュータはすでにあるのに、最大の障害は人々にソフトウェアをインストールさせることなんだよね。レトリックを作ったりソフトウェアを作ったりするのは、大規模なハードウェアを直接所有して維持するよりも、何桁も安い。大きな初期投資を得ることが単なる形式的なものだと思うのは、99%の人々の現実とはかけ離れてる。実際には、どんな社会経済的な取り組みにおいても、一番の障害なんだよね。

これをローカルでやる方法があればいいな。オフィス内のPCをプールして計算リソースを共有したい。誰か提案ある?今はollamaを使ってるけど、プールを手動で管理してるんだ。

https://github.com/exo-explore/exo

ただ単にhttps://huggingface.coとか、すでに設定を全部済ませてくれて、クレジットカードを待ってるネオクラウドにお金を払うよりも、はるかに手間がかかる気がする。

ollamaサーバーの設定でCPUSchedulingPolicy=idle、Nice=19、IOSchedulingClass=idleにすれば、バックグラウンドで最低優先度で動くはずだよ。

面白いアイデアだね。ちょっと計算してみたけど(サイトの情報はあまり信用してない):俺のM5 ProはGemma 4 26Bで130トークン/秒(4ストリーム)生成できる。Darkbloomの価格はMtok出力あたり$0.20。フル稼働で24/7だと、約$2.24/日、月に$67の収益になる。50Wの持続負荷を仮定すると、月に約36 kWh、約$0.25/kWhでコストは約$9/月。たまにランチ代には良さそうだね!年間で約$700。

冷却コストも考慮に入れるのを忘れないでね。

OpenAIの有料顧客はたった5%くらいだけど、どうやって収益を上げてるの?これは持続可能なビジネスモデルじゃないと思う。例えば、Cubbitは分散型ストレージを作ろうとしたけど、今はもっと良い選択肢があるからやめたし、ハードウェアもどんどん改善されて安くなってる。電気代や所有権のリターンは低くなるし、実際にCO2を減らすわけじゃないよ。

ちょっと気になるんだけど、Macの償却を見積もる方法ってある?1年の重い使用で品質に何らかの影響が出ると思うんだ。

あなたの数字と彼らの数字の違いって何が原因だと思う?バッチ処理?それとも、実際の処理を減らすために全ノードでクレイジーなプレフィックスキャッシングをしてるのかな?

そうだね。自分のマシンで推論を行うと、持続的に50W以上の負荷がかかると思う。もっと倍以上になるかも。ここでは電気代も高いし(でも、太陽光パネルはあるけどね)。それに、ハードウェアが早く劣化することも考慮に入れないと。やる価値はないと思うけど、アイデア自体は面白いね。

彼らの例に挙げている大きな稼ぎモデルはFLUX.2 Klein 4BとFLUX.2 Klein 9Bで、これなら26Bモデルよりもずっと多くのトークンを生成できると思う。Gemma 4 26Bの計算はこんな感じだよ: single_tok/s = (307 GB/s / 4 GB) * 0.60 = 46.0 tok/s batched_tok/s = 46.0 * 10 * 0.9 = 414.4 tok/s tok/hr = 414.4 * 3600 = 1,492,020 revenue/hr = (1,492,020 / 1M) * $0.200000 = $0.2984 M5 Proがどれくらい生成できるかは分からないけど、彼らのサイトにはこう書いてある。電力計算でちょっとずるいことをしていて、12Wのアイドル電力を引いているんだ。24/7アイドル状態だと仮定しているから、実際に使うのは推定の18Wだけってこと。君はどうか知らないけど、僕は使ってないときはマシンをオフにするよ。

君にとってはランチ代かもしれないけど、世界の一部には月200ドルで生活している人もいるんだ。ウクライナとかね。

私のM5 ProはGemma 4 26Bで130 tok/s(4ストリーム)を生成できる。これは高いね。どの量子化で?LM Studioを使ってるの?注:DarkbloomはすべてQ8 MLXで動かしているみたい。

残念ながら、今のMacBookでは検証可能なプライバシーは物理的に不可能だよ。見た目に騙されないでね。Apple Siliconにはセキュアエンクレーブがあるけど、任意のコード用の公開SGX/TDX/SEVスタイルのエンクレーブはないから、これらの主張はOSの強化に関するもので、検証可能な機密実行ではないんだ。可能ならいいんだけどね。プライバシー以外にもたくさんのクールな革新ができるから。

どんなハードウェアキーも、十分なインセンティブがあれば壊されるよ。彼らの主張はまるで傲慢そのものだね。

今日の推論プロバイダーでプライバシーが守られると思ってるの?中央集権型のプロバイダー、例えばOpenAIがチャットを読まないって約束するよりも、分散型ネットワークのランダムに選ばれたマシンの方が信頼できると思うよ。

SGXを使うためのSDKを全部書いたんだけど、すごくクールな技術だよ。でも理論的には、Appleのプラットフォームではそれなしでもかなり進めるんだ。iOSはすでにこの機能を提供していて、ちゃんと動いてるし。macOSはセキュリティアーキテクチャが強力だから、Darkbloomみたいなものも、MacのブートシーケンスやTCC設定をリモートで確認できる方法があれば、ある程度の信頼性は持てると思う。OSのサンドボックスは、カーネルが正しくてハッキングされてなければ、アプリを適切に分離できるしね。Appleのシステムは簡単に悪用されないように対策がたくさん施されてるから、消費者向けのSGXエンクレーブと同じくらい良いかっていうと、アーキテクチャ的にはそうじゃないけど、使いやすさは高いよ。

これをインストールしたから、君はしなくて済むよ。ちょっと変わった感じで、あまり洗練されてない印象だった。画像モデルのダウンロードに失敗したし、音声/テキストモデルも読み込めなかった。Gemmaを15分間使ってみたけど、実際の推論リクエストはゼロで、健康チェックと2つのアテステーションだけだった。今のところ、収益予測を正当化するほどの需要はないみたい。

競争が激しくならない限り、彼らは絶対にそうならないと思う(その価格が維持されるといいな、少なくともユーザーには)。1年前にこのアイデアを考えてたけど、経済的な理由で諦めたんだ。APIを使う意味が全くないから、需要がゼロの状態で誰もお金を稼げない。UberやAirbnbがどうやって立ち上がったかを参考にするしかないね。元々のアイデアの問題は、一般的なコンピュート向けだったこと。実際には、AIトレーニングのような長時間動作するソフトウェアが一番の使い道なんだよね(でも、推論も十分長いか)。でも、GPUをレンタルできるソフトウェアはもう存在してるし…。

彼らが自分たちのネットワークに対して推論リクエストを生成していないのは変だね。少なくとも初期の利用者を動機づけるために、自分たちの推論ソフトウェアをホストさせるべきだと思う。

これが出たのは1日前だし、今は需要が足りないのも驚きじゃないよ。少し時間を与えてみて。

誰か、反対側からシステムを試した人いる?プロンプトを送って、返事をもらうってやつ。

彼らのMDMデバイス管理ソフトを自分のコンピュータにインストールしなきゃいけないんだ。基本的にそのコンピュータは彼らのものになっちゃうから、ちょっとの間だけノートパソコンを渡すつもりなら、会社に完全に所有されるのが気にならないならいいけどね。ちょっと古いノートパソコンが余ってる人には使えるかもしれないけど、例えばこのコンピュータで銀行のブラウザを使うなら、日常の活動と共有するのは注意が必要だよ。MDMっていうのは、彼らがSSL証明書やコンピュータのアクセスレベルを変更できるってことだから、間違ってたら教えてね。

macOSのMDMはAccessRightsで許可されていて、彼らの許可セットはかなり最小限で、ここで説明したことは許可されてないって確認できるよ(ビット0、4、10)。とはいえ、彼らのプライバシーの姿勢は彼らの主張の根幹にあるけど、詐欺みたいなもので大きな穴があるから、やっぱり信用できないけど、彼らがどうやって失敗してるのか正確に把握するのは大事だよ。

もし君が言ってることが本当なら、サービスには絶対サインアップしないよ。

この伝統を持つ[1]オファリングが、リアルタイムでオペレーターが価格で競争するダイナミックなマーケットプレイスを売り込むのではなく、推論オペレーターのためにフラットな収益率を提案しているのは面白いね。今はダッシュボードに78のプロバイダーがオンラインって表示されてるけど、スレッドの誰かが立ち上げたけどリクエストがなかったって言ってたよ。誰かが提示されたレートを下回って需要を取り込む気がするんだけど?これは移行ターゲットだと思うけど、V1のコミュニケーションからの戦略的な省略だね。合法的な可読性の理由(「xをyで売れる」っていうのは「マーケットプレイスに参加できる」よりも分かりやすい)と、少し不正な可読性の理由(将来の価格崩壊を隠す)もあると思う。でも、面白いプロジェクトだから、うまくいくことを願ってるよ。[1] Layer Labs、以前のEigenLayerは、Ethereumのプルーフ・オブ・ステークから経済的セキュリティの保証を抽象化してリサイクルするプロトコルを中心に構築された会社だよ。

自分のサイトで十分な推論リクエストが得られないなら、OpenRouterみたいなところにプロバイダーとして登録することも考えた方がいいかもね。

コンセプトはすごくいいね、folding@homeに似てるけど、もっと個人的な利益がある感じ。ただ、実際に試してみたら、まだ改善の余地があると思った。モデルをうまくダウンロードできなかったし、https://console.darkbloom.dev/providers のノードリストを見ると、これが普通みたいだね。それに、カジュアルなユーザーとしては、キャッシュアウトするにはSolanaアドレスが必要だって知るのにちょっと手間取ったよ(プロバイダー > 収益)。