LLMは安価である

2025年6月9日原文(snellman.net)

概要

生成AIの運用コスト は一般的な認識よりも はるかに安価
Web検索API との比較で、 LLM推論コストの低さ を明確化
API価格が低い理由 や、 誤解の背景 についても言及
AI企業の収益構造 や 今後の課題 を整理
消費者向けAIサービスの将来性 を展望

生成AIの運用コストは実は安い

生成AI（Large Language Models） の運用コストが高いという誤解が依然として多い現状
初期のAIブーム では推論コストが高額だったが、 近年は劇的なコストダウン
「$ per million tokens」 という価格モデルが直感的に理解しづらいことも誤解の要因
Web検索API との比較で、 LLMの推論コスト の安さを示す

Web検索APIとLLMのコスト比較

Google Gemini API ：「Grounding with Google Search」機能は $35/1,000クエリ
Bing Search API ：最安値で $15/1,000クエリ
Brave ：最安値 $5/1,000クエリ、実際の運用価格は $9/1,000クエリ
LLMの価格例 （2025年5月2日時点）
- Gemma 3 27B ： $0.20/1Mトークン
- Qwen3 30B A3B ： $0.30/1Mトークン
- Gemini 2.0 Flash ： $0.40/1Mトークン
- GPT-4.1 nano ： $0.40/1Mトークン
- Claude 3.5 Haiku ： $4.00/1Mトークン
- Claude 3.7 Sonnet ： $15.00/1Mトークン
- o3 ： $40.00/1Mトークン
1クエリあたり1,000トークン と仮定すると、 LLMはWeb検索APIより1桁以上安価 な場合が多い
バッチ処理やオフピーク時割引 など、さらに安価に利用できるオプションも存在

よくある反論とその検証

「LLMの応答はもっと長いのでは？」
- 通常のWeb検索用途では 500～1,000トークン が妥当な範囲
「API価格は赤字覚悟の市場獲得狙い？」
- 多くのモデルは ユニット単位で利益が出ている と考えられる
- 第三者ホスティング や 公開ウェイトモデル も同等の価格帯
- Deepseek の公開データでは、 GPUコストだけで80%の利益率
「Web検索APIはインデックス構築コストも含むのでは？」
- インデックス維持コストは存在するが、 人気LLMの推論コストに比べて大きな差はない
「Web検索の方が圧倒的に速いのに、なぜ高い？」
- 検索は 並列処理 が可能だが、 LLM推論は現状シリアル処理
「OpenAIは赤字だが？」
- 無料ユーザーの多さ と 収益化不足 が主因
- 1ユーザーあたり月$1の収益化 でも十分黒字化可能

コスト構造と今後の展望

推論コストの低下 により、 価格も下落 し需要が拡大
安価なモデルの利用増加 がOpenRouter APIのトラフィックからも確認できる
消費者向けAIサービス も同様のコスト構造、 広告モデル で十分な収益化が可能
AI企業の財務状況 は一部の悲観論より健全
本当のコスト課題 は、 AIエージェントが利用する外部バックエンドサービス 側に移行

まとめ

生成AIの運用コスト は Web検索APIよりも安価 なケースが多い
API価格は実コストを反映 しており、 サステナブルなビジネスモデル
誤解に基づく悲観論 は現実と乖離
今後も推論コストは下がり続け、AIサービスの収益化機会は拡大
本質的な課題 は AIの外部サービス連携コスト へとシフト

Hackerたちの意見

まだまだだね。数年後には、コアプレイヤーたちが市場での支配を確立して、規制が入る頃には、裏で約束された価格の値上げが見えてくるよ。

└

それとも、広告を使うだけかもね。どんな質問をしても、返答はクールでさわやかなコカ・コーラのソフトドリンクをおすすめするだろう。あなたのAIコーディングプロジェクトは、自動的にAnthropicのために収益を集める広告を表示するし、あなたのためじゃない。あなたのAIエージェントが送る10通のメールのうち1通は、受取人にGeicoに切り替えることを考えてもらうように促すだろう。チャンスは無限大だね。

利益が出ているAPI（検索）と、市場シェアを獲得するための損失を出している可能性があるAPI（ホステッドLLMクラウドモデル）を比べるのは無理があるよ。補助金を出している証拠はないかもしれないけど、利益が出ている証拠もないんだから。今あるデータポイントを見る限り、企業はAIの支配を獲得するために、収益がまだ伴わないのに信じられないほどの資本支出をしているんだ。成熟度のライフサイクルの異なる2つの製品を比べているし、全体的な使用が減少している10年物の製品で損失を出す理由は全くないよ。MBAに聞いてみればいい（エンジニアはビジネスの視点が嫌いかもしれないけど）。それに、検索クエリはCPUで高いキャッシング率で処理できるけど、LLMの推論は基本的にGPUが必要で、ユーザー間でキャッシュするのが難しいんだ。なぜなら、どのトークンが出力に大きな影響を与えるか分からないからね。

└

例えば、Perplexityは利益を見せるために、COGSをR&Dに移して会計数字を誤魔化しているって話だよ。詳しくはここを見てね: https://thedeepdive.ca/did-perplexity-fudge-its-numbers/

└

この記事にリンクされてるDeepSeekのAPIサービスの分析を読んでみて：彼らは500%の利益率を持っていて、同じモデルを提供しているアメリカの企業よりも安いんだ。OpenAIやAnthropicのAPIサービスは、もっと高い利益率を持っている可能性もあるよ。（GPUは一般的に、CPUよりもコスト効率が良くてエネルギー効率も高いから、解決策が両方のアーキテクチャにマッピングされる場合ね。Anthropicは確実に、彼らの24kトークンシステムプロンプトのKVキャッシュをキャッシュしてるし。）

└

それに、彼らが利益を上げている証拠もないよね。もちろんあるよ。AWSや他のホスティングプロバイダーに行って、推論のためにお金を払ってみて。AWSが他のモデルの使用を無限に補助してくれると思ってるの？ > 今日のデータポイントを見る限り、企業はAIの優位性を得るために、収益がまだ出ていないのに、信じられないほどの資本支出をしているよ。そう、資本支出であって、運営費じゃない。推論を運営するコストは運営費だよ。

└

無料ユーザー向けの広告が出るまで待ってみて。これは絶対に起こるよ。その広告がどれだけ巧妙かによっては、製品やサービスを直接文脈の中で勧める形で、めちゃくちゃ利益を上げる可能性もある。

└

でも、推論の限界コストがまだわからないんだよね。今のところ、ユーザーは従来のウェブ体験よりもLLMに対してお金を払う意欲があることを示している。一方で、カードは過去3年間で>8倍効率が良くなって、推論エンジンは>10倍効率が良くなっているし、原モデルも少なくとも横ばいか、もっと効率的になっている。次の2年間で推論コストがさらに10-100倍減る可能性が高いよ。

└

市場シェアを獲得するためのロスリーダーになりそうなAPI（ホスティングされたLLMクラウドモデル）。もうそうは思わないよ。オープンソースモデルをホストしているAPIプロバイダーを見ると、APIコストと推論ハードウェアコストの間にかなり健康的なマージンがあるのがわかるよ（もちろん、これが唯一のコストではないけど）[1]。それに、彼らの独自の推論最適化は考慮に入れていない。OpenAIやAnthropicのようなクローズドモデルAPIプロバイダーについては、彼らのモデルサイズに関するあまり秘密ではない情報をもとに、ある程度の推測ができるよ。私の知る限り、AnthropicはAPIコストと推論ハードウェアコストの間に非常に良いマージンを持っている。 [1]: これは、スケールでそれらのモデルを運用するのにかかるコストを知っていれば、自分で確認できることだよ。市販のソフトウェアを使うとしても、彼らはうまくやっている。

└

2024年夏にOpenAI APIの収益性を分析した結果、gpt-4クラスのモデルの推論はかなり利益が出ている可能性が高いことがわかったよ。粗利率は約50%（モデルのトレーニングにかかる資本支出は無視して）: https://futuresearch.ai/openai-api-profit

└

いろんなモデルがあって、価格もバラバラだよね（LLM同士の比較も結構難しいし）。この「損失リーダー」の理論に基づくと、全ての企業がコストを下回る価格設定をしていると考えなきゃいけないのかな…？もしそうなら、かなり無茶な主張に思える。今のモデル開発の流れを考えると、これらの企業が次にどう進むのか、ステップ2は何なのか気になるよね。もっと現実的な仮定は、会社の存続を心配しない程度には利益が出ているってことだと思う。すごく高額なモデルを作って、信じられないくらい高いインフラを構築しなきゃいけないのに、明確な次のステップもないまま赤字で運営するのは、全ての企業がインファレンスで利益を出せない価格設定をしているとしたら、かなり変な考え方が必要だよね。

└

この理論の問題は、クラウドインファレンスプロバイダーの数が膨大で（ほとんどがサードパーティのモデルをホスティングしてる）、もし全ての企業が同じ戦略をとっているとしたら、それはかなり奇妙だってことだよね。そして、彼らがそれを実行するための同じ財政的な余裕を持っているのも不思議。

Hacker Newsで議論の続きを見る

ハクソク