世界を動かす技術を、日本語で。

Apple SiliconはOpenRouterよりも高価です

概要

Apple Silicon搭載のMacBook Proは、OpenRouterと比較してコストが高い。 電気代よりもハードウェアの減価償却費がコストの大部分を占める。 ローカル推論はOpenRouterよりも処理速度が遅い。 OpenRouterの方が1トークンあたりのコストが安価。 一般的な用途ではクラウド利用が経済的で効率的。

Apple SiliconとOpenRouterのコスト比較

  • Apple Silicon 搭載の M5 MacBook Pro は、 50-100ワット の消費電力

    • $0.20/kWh の電気代で、1時間あたり数セントのコスト
    • 1日24時間フル稼働で 1日あたり$0.48 の電気代
  • ハードウェアコスト が主要コスト要因

    • 14インチ M5 Max/64GB RAM モデルは $4299
    • 3年、5年、10年の耐用年数で年間コストは $1433/$860/$430
    • 1時間あたりのコストは $0.16/$0.10/$0.05
  • 減価償却 によるコストが電気代より大きい

    • 長期利用(7-10年)ならコスト低減可能
    • 推論専用で使う場合は3年程度が現実的

トークン生成速度とコスト計算

  • Gemma4:31b のローカル推論速度

    • 10-40トークン/秒 (M5 Max実測値)
    • 1時間あたり 36,000~144,000トークン
  • 3年~10年耐用・$0.18/kWhの場合

    • 100万トークンあたり$1.61~$4.79 (10トークン/秒時)
    • $0.40~$1.20 (40トークン/秒時)
  • OpenRouter で同等モデルのコスト

    • 100万トークンあたり$0.38~$0.50
    • ローカル最良条件でもクラウドと同等、悪条件では 10倍 のコスト差
  • 現実的にはローカル推論は3倍程度コスト高 となる見込み

速度とユーザー体験

  • 推論速度 が最大の差異

    • OpenRouterでは 60-70トークン/秒 のプロバイダも存在
    • Pro Maxでは 10-20トークン/秒 が一般的
    • クラウドの方が 3-7倍高速
  • 人件費 と比較した場合

    • 社員の給与コストはローカル推論で生成できるトークンコストの 1000倍以上
    • ビジネス用途では クラウド利用が合理的

総括

  • Apple Silicon でのローカル推論は コスト・速度面でOpenRouterに劣後
  • Gemma4:31b クラスのモデルが消費者向けデバイスで動作する点は革新的
  • 実務やビジネス用途では クラウド推論 が依然として優位
  • 個人利用や趣味用途ではローカル推論も選択肢となりうる

Hackerたちの意見

俺の理解が間違ってなければ、トークン生成のコストにノートパソコン全体が含まれてるってことだよね。計算が、LLMの出力を受け取るだけじゃなくて、お金を払ってノートパソコンも手に入れてるってことを無視してる気がする。もしこのマシンを暗い隅に置いて、トークンを生成するだけのサーバーとして使うつもりなら、ノートパソコンはその目的には全然向いてないよ。でも、ノートパソコンを普通に使うつもりなら、ノートパソコンがあるのはかなり大きなメリットだよね。プライバシーや検閲からの自由、使うモデルに対するコントロールも得られるし(特定のモデルの特性に基づいてワークフローを構築した後に、3ヶ月後に rugpull されることもないし)。

そうだね、もっと良い指標は、ローカルモデルを動かすために必要なノートパソコンのコストと、どうせ買うつもりだったノートパソコンのコストの違いかもしれないね。

使用するモデルに対するコントロールがあるけど、最も能力の高いモデルにはアクセスできなくなって、小さいモデルしか動かせないよ。

LLMの出力を受け取るだけでなく、お金の代わりにノートパソコンも手に入れたんだ。そして、Macだから、アップグレードする準備ができたときには、まだかなりのリセールバリューがあるよ。

OPは、精神的におかしくなってMacを抱え込んでる人たちと比べて、絶対に最高のケースを提示してるよ。これらの人たちの中には、まだ計算ボトルネックになってるMac Studioに$10,000以上も使った人がたくさんいるけど、Gemma 4より効率的なものはないんだ。

著者は出力トークンのコストだけを比較してるけど、典型的なエージェント的な作業負荷では、入力トークンがコストの大部分を占めるんだ。ローカルで推論を実行すると、入力トークンは、第一義的には、タダみたいなもんだよ。(実際には、初トークンまでの時間が長くなったり、電力消費が増えたり、トークン出力速度が下がったりすることで、間接的なコストが発生するけどね)。

そうだね、それで彼の主張は完全に無効になっちゃう。OpenRouterのアクティビティでいくつかのランダムなエージェントセッションを見てみたけど、入力コストは出力コストの10倍だった。OpenRouterのプロンプトキャッシングは複雑で信頼性がないし、ローカルハードウェアのllama-cppではほぼ無料だよ。

ローカル環境でのキャッシングを無視しても、Macのハードウェアは入力トークンを出力トークンの約10倍の速さで処理できることが多いよね。Openrouterは同じモデルで2倍の差しかないみたい。

これは良い分析じゃないね。全てを楽観的に丸めすぎてるから。電気代を10%上乗せしてるし、電力使用の範囲から高い方を取って(低い方の2倍)、それを膨らんだ電気代で掛け算してる。でも、その後新しく買ったMacを使って推論を行い、フル稼働で24時間365日動かすって話になる。なんでそんなことするの?Appleシリコンは速いけど、著者が指摘してる通り、1秒あたり10〜40トークンしか出ないんだ。悪くはないけど、これには向いてないよ!リンゴとオレンジを比べてるみたい。そう、データセンターは家庭用の電気料金を払わないし、データセンターは電力効率の良いチップを使ってる。データセンターはMac用に設計されてないチップを使ってる。Appleシリコンは、24時間365日トークンを消費しないなら、結構いい感じだし、特にそれをするためにハードウェアを買ってるわけじゃないならね。俺は週に数回、必要なことのためにMac Studioを使うけど、tailnet上で「無料」でollamaを動かせるよ。経済的には、Mac StudioをH100クラスターのように動かそうとしなければうまくいく。これは誰にとっても驚きじゃないはずだよ:安い電気でマルチテナントのハードウェアを使えば、トークンあたりのワット数が多い方が常に勝つから。

全てを最も楽観的な設定で丸めたら、百万トークンあたり0.40ドルになったし、openrouterでは同じモデルが0.38ドル/mtokだよ。

24時間365日使うと、平均コストは下がるんだよ。ローカルLLMをあまり使わないなら、使わないために高いハードウェアを買った意味がなくなるからね。

今のデータセンターの流行、効率的に見えないよね。

記事、全然意味わかんない。OpenRouterを一般的なコンピュータとして使えないし、なんで一つの目的のSaaSとコンピュータを比べてるの?

そうだね、丸めて言うと、効率を追求してる割には妙に非効率的だね。新しい64GBのM5 MacBookを4,000ドル以上で買えるけど、eBayで傷だらけだけど動くM1 Max 64GBを1,000ドルちょっとで買って、著者がM5で出してるのと同じ10-20 t/sを31bで出せるかもしれない。もっと言うと、フロンティアモデルに計画と判断をさせて、ローカルのMOEモデルで50 t/sで実行することもできる。これ、暇な元英文学専攻の人でもできることだよ。

あなたの投稿は、ハードウェアを他の理由で購入して、たまにモデルを試す程度なら理解できるけど、そうじゃない人が多いよね。最近のホームブリューオプションを持ち上げて、大手AIから解放されると信じている人たちがいるSNSのスペースがあるんだ。何百万もの人が、LLMを動かすためにMac StudioやDGXのような高額なハードウェアを買ってる。数字を冷静に計算するのはいいことだね。

OPはどこでもGemmaと比較してるけど、結局Anthropicにお金を払う方が理にかなうって結論に至ってる。Anthropicは百万出力トークンあたり15ドルで、openrouterでも30〜35倍高いんだ。これは、家でのe-bikeとレンタルのe-bikeを比べて、だからトヨタをレンタルする必要があるって結論づけてるようなもんだよ。悪い投稿が注目を集めるのにうんざりしてる。

うーん、賢い選択をすればそうでもないよ。MacBook M5 Maxの128GBは6万円でプレミアムなノートパソコンだけど、これがあれば色々できるし、日常のメインマシンとしても使えるよ。それに、DeepSeek V4フラッシュも動かせるし、ネット接続なしでもプライバシーに配慮したデータを扱えるから、いい選択だと思う。25万円でデュアルMac Studio 512GBを買ってOpenAIとかを捨てるのは、性能とコストの両方でがっかりすることになるよ。

俺のM4 Max 128GB、めっちゃ良い感じだよ。動画編集やMLモデルのトレーニング、大きなAIモデルの実行、3Dモデリング、レンダリング、CAD作業もやってる。全部を100%の時間やってるわけじゃないけど、MLトレーニングを夜中に回して朝に結果を確認したり、仕事中はサーバーとしてローカルモデルを動かしたり、空いてる時間に動画編集や3Dモデリングをしてる。ほんとに多用途なマシンで、データも自分のデバイスに保管できて、ワークフローを完全にコントロールできるのがいいね。

賢い選択は、約48GBのMacBookを手に入れて日常使いにすることだね。それからAIのサブスクリプションやトークンに年間約800ドルの予算を組めば、結局同じくらいの価格になるよ。ブログ記事の著者として言うけど、今これをMacBook M5 Max 128GBで書いてるよ。

HNの人たちには言わないでおいてほしいけど、$200のrpi5や$500のAMDミニPCでこれらのモデルのいくつかを動かせるよ。もう一つのオープンな秘密は、特定の企業が数万トークンを無料で提供してくれること。Gemini 3.1やGLM 4.6のようなかなり立派なモデルがね。

ここにあるコメントの多くはOPの分析の問題についてだけど、結局「違いのない区別」みたいなもんだよね。コストとパフォーマンスだけを見ると(プライバシーは置いといて)、個人の開発者は自己ホスティングよりもホスティングを利用した方がいい。雇用主は仕事中にトークンを払ってるし、多くの開発者は仕事以外では$PREFERRED_PROVIDERの$20/$100/$200/月のサブスクリプションで十分だと思ってる。多くの開発者はコストとパフォーマンスの観点からローカルモデルを運用する条件に当てはまらない。もっと重要なのは、実際にはローカルモデルをセットアップするのは趣味や教育的な練習、プライバシー管理の行為に近くて、コスト削減や生産性向上のためではないってこと。

モデルメーカーやメインフレームの夢は、OpenAIやGoogle、Anthropic、Microsoftが何を望んでも戻ってこないよ。門の前には、入りたがっている賢いテクノロジーの野蛮人がたくさんいるから、彼らはコンピュータ端末の時代に戻ることには満足しないだろう。パソコンは以前の端末時代を排除したし、その時代の企業はほとんど消えてしまった。IBMと数社の残党を除いて、彼らはかつての面影もないよ。

フロンティアAI企業は赤字で売ってるよ。u/bastawhizが言ったことを除いても、ここで明らかなのは、ClaudeやOpenAI、Geminiなんかが文字通り数百億ドルを燃やして、あなたにペニーで売ってるってこと。彼らは唯一の生き残りになりたいだけなんだ。オレンジを育てるのに10ドル使って、あなたに1ドルで売ったら、もちろんあなたが育てるのは高くつくよね。頭がおかしくなりそう。これらのモデルは時間が経つにつれて高くなる一方で、そうならないのは機能的に不可能だし、彼らは大きな損失を出す前に市場を捕まえたいだけなんだ。

それはあり得ないと思う。openrouterにはオープンモデルのプロバイダーがたくさんいるし、彼らが売るトークンごとにお金を無駄にしてるとは思えない。また、大規模での推論がはるかに効率的である技術的な理由もあるよ。

ブログでは、Gemma4 31bの運用コストを比較してるんだけど、OpenRouterでは無名の小規模な推論プロバイダーが提供してるみたい。フロンティアAI企業じゃないね。まあ、これは公平な比較だと思うよ。

証拠ある?AnthropicのCEOは、彼らは利益が出てるって言ってたよ。OpenAIも同じだね。

モデルの価格は、同じタスクをこなすのに年々10倍も下がってるんだ。Anthropicが400Bモデルで他の企業より10倍高く料金を取ってるからって、彼らが損をしてると思っても、モデルの改善だけで価格は下がり続けるよ。

でも、スケールで考えるともっと効率化できるよね。今の仕事量じゃ、ローカルモデルを24/7で98%稼働させるのは無理だわ。大きなクラウドならできるけど。DCでサーバーを動かせないし、ACからDCへの変換が面倒なんだよね。問題はまだまだ続くよ。

彼らを苦しめてるのはモデルのトレーニングなんだ。もし明日、軍拡競争が止まったら、今の価格で推論は賄えるよ。

フロンティアAI企業は赤字で販売している。リクエストをバッチ処理して、MoE(スパースモデル)用に大量のRAMを使うことで、大きな経済効果が得られる。バッチサイズ1で単一ノードでは、その効率を達成できないよ。

それは違うよ。APIトークンは赤字で売られてるわけじゃないし、ハードウェアは時間とともに効率が良くなるから、同じモデルの推論を提供するのが安くなるんだ。LLAMA 3.1の405Bパラメータは2024年に$6/$12/Mトークンだったけど、2026年にはそのモデルが$3/$3/Mトークンになる。ある時点で最も賢いモデルは前のモデルよりもずっと大きいから、GPT5.5のトークンコストは5.4より高くなるんだよ。でも、2年後にはGPT5.5サイズのモデルを提供するのが、今のGPT5.5よりも安くなると思っておいて。2年後には同じくらい賢いモデルを手に入れるのももっと安くなるはずだよ。蒸留技術が同じベンチマークスコアに必要なパラメータ数を減らすのに効果的だからね。

https://old.reddit.com/r/GithubCopilot/comments/1tbb5bj/gith... 進展してるみたいだね!少なくとも20倍の増加を見込んでる会社の人を知ってるし、関連情報を調べた限りでは(具体的な情報はないけど)、ビジネスアカウントでは計算機にいくつかのコストが抜けてるから、もっと高くなる可能性があるよ。

ちょっと話題に集中した方がいいかもね。この文章は明らかにオープンウェイトモデル(例えば、Gemma 4)について話してるんだから、赤字で売られてるとされるもの(Opus、ChatGPTなど)ではないよ。[0]: ちなみに、これらのAPIも赤字で売られてるわけじゃないけどね。でも、面白いミームだから、そういうことにしておこうよ。

いい密度のモデルが欲しいなら、qwen3.6 27Bを使った方がいいよ。速度も上がるし、賢さについて俺の言葉を信じなくても、openrouterの価格を見れば、より大きくて遅くてメモリ効率の悪いgemmaと比べてどうか分かるよ。もっと速いモデルが欲しいなら、qwen3.6 35Bを選ぶか、gemmaモデルがあなたのタスクに合うならgemma 4 26Bを選べばいい。みんな(俺も含めて)がこの2つ(特に27B)について話し続ける理由があるんだ。十分な速度で動かせるし(特に公式のllama.cppサポートがあるMTPを使えば)、多くのワークロードで(俺が試したベンチマークでは)期待以上の性能を発揮してる。数日前、インターネットがダウンした時に27Bをpiで起動して、ルーターのパスワードを教えて問題を診断させたら、コーヒーを取りに行って戻った頃には、進め方の提案付きの完全なレポートができてた。openrouterが大好きで色々使ってるけど、安くはないよ。主観や個人的な経験に基づく意見は自然に含まれてるけど、31B gemmaにも優位性があるケースがあると思う。ただ、俺はそれを見つけられなかったし、各モデルがリリースされた後、異なるタスクでずっと使い続けてる。実際、hermesではgemma 4 26Bからqwen3.5 9Bに切り替えたら、より良い結果が出始めたし、3.6シリーズの大幅な改善も関係なかった。多くの人が言ってる現在の消費者向けハードウェアの最前線を使わないのは、分析としては時代遅れ/選別されてる気がする。

そうだね。Qwen 3.6 45b(6パラメータ)は、一般的な5090で動くんだけど、ゲーム好きなら多分持ってるよね。大体のコード生成タスクには十分使えるよ。(全部ではないけど、大体はね。)それに、DeepSeek V4 Flashもローカルモデルでかなりアクセスしやすいし、DwarfStar 4を使えば96GBのMacBookでも簡単に動かせる。推論にお金を払うのは全然悪くないけど、ローカルモデルにはオフラインで使ったり、プライベートなPIIや法的特権のあるデータを扱ったり、請求超過を気にせずにタスクをこなすなど、素晴らしい可能性があるんだ。他にも、サービスがダウンしたり、終息する心配なしに100%運用できるサービスを構築できる可能性もある。これは今のフロンティアモデルの問題だね。私のローカルQwenのセットアップは完全に予測可能だし、ハードウェアが見つかる限り動かせるよ。賢い戦略は両方を使うこと:ローカルの推論ツールを用意して、低コストと高コストのクラウドベースモデルを使うこと。GPT-5.5やOpus-4.7を要求の高い推論タスクに使ったり(後者をClaudeのサブスクリプションで安くするのもあり)、DeepSeek V4 Proを少し要求の低いタスクに、V4 Flashを大体のコード生成に使って、ローカルモデルはローカルで使いたいものに使うといいよ。

あなたの主張には反対しないけど、> 良い密なモデルが欲しいなら、代わりにqwen3.6 27Bを使った方がいいよ。速度が上がるし、もし私の言うことが賢いとは思えないなら、オープンルーターの価格を見てみて。大きくて遅くてメモリ効率の悪いgemmaと比べてみて。これが正しい読み方かは分からないけど、これらのプロバイダーは単にAlibabaの27B Denseのファーストパーティ価格を参考にしてるだけだと思う。個人的にはちょっと高すぎると思う。Qwenモデルが「推論非効率的」だから(フロンティアモデルやGemmaと比べて)、長いシーケンスを処理するのが高くつくのかもしれないね。

記事はかなり間違ってる。最後の部分で大きなミスをしてるから。生成されたトークンだけを見てコストを計算するのはダメだよ。エージェントコーディングでは多くのターンがあって、出力トークンだけじゃなくて、毎回送信される入力トークンにもお金がかかる(キャッシュされてるときは10倍安いとしてもね)。だから、この計算はAPIコストを全然正確に表してない。もう一つは、エージェントチームを使えばローカルでトークン生成を大幅にアップグレードできるってこと。単一の会話はメモリ帯域幅に制約されていて、計算能力をフルに活用できてない。複数のエージェントからトークンをバッチ処理できれば、トークン生成を簡単に5倍にできるよ。

私のテストでは、qwen-3.6-27bのフル精度はsonnetよりもかなり下だけど、コーディングタスクではclaude haikuよりは上だよ。Gemmaはqwenには全然及ばない、もっともっと悪いよ。