トークンの価格が上昇しています

2025年8月3日原文(ethanding.substack.com)

概要

AI業界の「コストは10倍下がる」神話の問題点を徹底解説。
フラットレート型サブスクリプションモデルの限界と崩壊の理由。
利用者の「品質への貪欲さ」と消費トークン量の爆発的増加。
サステナブルなAIビジネスモデルの3つの選択肢を比較。
今後生き残るための戦略的方向性を示唆。

AIサブスクリプションモデルの限界と「コストは10倍下がる」神話

新しいAI企業 を立ち上げる際、 利用者が月額20ドル以上払わない という現実。
VCの定石 として「利益度外視で成長重視」の戦略を採用。
a16zのグラフ により「LLMコストは毎年10倍下がる」という期待。
1年目は 20ドルでトントン、2年目には 90%の利益率 という皮算用。
GPT-3.5のコストは実際10倍安くなった が、なぜか利益率は悪化。
新モデル登場時、99%の需要が即座に最新モデルへ移動。
フロンティアモデルの価格 は常に一定水準で維持される現実。
- 例: GPT-4登場時、GPT-3.5は26倍安くなっても誰も使わない。
「最高品質」への需要 が絶対的で、ユーザーは常にベストを求める。

トークン消費の爆発とフラットレートモデルの崩壊

新世代モデル は1タスクあたりの トークン消費量が指数関数的に増加。
以前は 1,000トークン だった返答が、今や 100,000トークン に。
長時間エージェント稼働 が可能となり、 1日あたり72ドル のコストも現実味。
フラットレート（月20ドル） では、1日1回の「深掘りリサーチ」すら赤字。
モデルの能力向上＝消費トークンの増加 というジレンマ。
効率化で燃費が良くなっても、消費量が50倍に増える モンスター化現象。
WindsurfやClaude Code など、無制限プランの破綻事例。
ユーザーがAPIオーケストレーター化 し、24/7稼働でトークン消費が爆発。

サブスクリプションの「囚人のジレンマ」と業界の行き詰まり

使用量ベース課金 にすれば持続可能だが、 ユーザーはメーター制を嫌う。
競合がフラットレートを続ければ、使用量課金企業は淘汰される。
全社がフラットレート を続ければ「成長→赤字→値上げ発表」の流れ。
VC資金で赤字を埋める 成長重視型企業が業界を席巻。
Jasperのように、資金調達が止まれば一気に破綻。

サステナブルなAIビジネスモデルの3つの選択肢

初めから使用量ベース課金
- 補助金なし、正直な経済性。
- ただし消費者向けで大成した例はほぼ皆無。
- NetflixやSpotifyも全てフラットレート、メーター制は成長を止める。
高いスイッチングコスト→高利益率
- Devin のように大企業（例: Goldman Sachs）との大型契約。
- 一度導入されれば解約がほぼ不可能 なシステム・オブ・レコード型。
- CRM/ERP/EHR のような業界最大手が80-90%利益率を誇る理由。
垂直統合→インフラで稼ぐ
- Replit 型モデル：AIエージェント＋アプリホスティング、DB管理、デプロイ監視など。
- AIは集客用の損失リーダー、利益はインフラ層で回収。
- コード生成→ホスティング需要創出→全レイヤーで価値獲得。

今後の展望と生き残るための指針

フラットレート型で成長を追う企業は「死に体」、高額な葬式を待つのみ。
「モデルは10倍安くなる」神話 は、ユーザーが20倍の期待を持つ現実に追いつけない。
WindsurfやAnthropicですら、無制限フラットレートの持続は不可能。
「早く始めれば勝てる」だけでは墓場行きが早まるだけ という教訓。
Googleのような巨額買収も今は期待できず、「後で何とかなる」は通用しない。
生き残る道は「ネオクラウド」型 （詳細は次回）。
最先端モデルのコストは下がっても、消費の爆発がそれを上回る現実。

協力・フィードバック Mark Hay、Ben Mains、Nikunj Kothari、Bryan Bischof、Andy Jiang、Vedika Jain、Aman Kishoreに感謝。

Hackerたちの意見

現在の大きな問題は、無差別にモデルを使って小さな問題に大きなハンマーを振り下ろしていることだよね。すべての問題に最先端の一般モデルが必要なわけじゃないし、特定の目的に応じた異なるモデルの「バンドル」みたいなシステムやサービスが増えてくれば、もっと良い利用状況が見えてくると思う。

└

そうそう、これを見落とす人が多いんだよね。7.32bモデルは多くのことに対して全然問題なく動くし、以前のハイエンドのコンシューマーハードウェアでも動くんだ。でも、まだハイプの段階だから、大きなモデルのパフォーマンスが頭打ちになったら、みんな冷静になると思う。

└

完全に同意だわ。実験する時間をかける価値があるよね。最近作ったシンプルなチャットサポートシステムは、機能によって5つの異なるモデルを使ってるんだ。用途に応じてモデルを入れ替えることで、コストやユーザー体験、品質に大きな違いが出るよ。

└

Claude OpusにSonnetをガイドさせるオプションがあったら、大抵のやり取りでそれを使うんだけどな。手動でやるのは面倒だし流れが途切れちゃうから、Opusを使うことが多くなっちゃう。大きなプロンプトでも、並列処理のおかげで入力が安いから、そんなに高くならないはずなんだけど。

└

一般的なモデル＝代替可能？食品業界では、ホールケーキを売る方が甘味料だけを売るよりも利益が出るのかな？記事はreplitとレガシーERPシステムについていい指摘をしてるよね。生成AIの「生成」はストレージを置き換えるわけじゃない、ストレージこそが利益の源だから。CRUDのCが最終的にRとUを置き換えられない限り、Dは何もしない状態になる。

└

そうだけど、一番おいしいタスクはまだまだ解決されてないよ。人々が低精度の回答を受け入れることに対しては、あまり高い割合じゃない。テキスト処理パイプラインの一部には当てはまるかもしれないけど、ユーザー向けのユースケースは良いパフォーマンスが必要なんだ。

└

どのAIもまだ完全に信頼できるほどの性能じゃないからね。最高のやつでも、意外なタイミングで失敗することがあるし、ほとんどの作業には常に稼働しているAIがあって、頭を使わずに自分の脳に任せられるんだ。だから、任せるには確実に成功するものじゃないとダメ。AIを良く見せるためにここにいるんじゃなくて、自分のパフォーマンスを良くするためにいるから、確実なものだけが任せる候補になる。AI企業は最高のパフォーマンスを宣伝するけど、ユーザーは最悪の失敗を基準にAIツールを選ぶから、結局SOTA（最先端技術）だけが求められるんだ。TFA（テストファーストアプローチ）がこれをよく示してる。AIは最悪のパフォーマンスで評価されるし、人も最悪の結果で解雇されるからね。理想的な（＝慎重に作られた）環境でのAIのパフォーマンスなんて誰も気にしない。私たちが気にするのは、目を離した2秒後にどれだけ失敗するかだよ。

この1、2年でAPIアクセスにお金を払って、LibreChatみたいなオープンソースのフロントエンドを使ってモデルにアクセスしてるんだ。たまに使うにはこれがすごくうまくいってて、数ヶ月ごとに10ドルくらいアカウントにチャージしてる。使うトークンの量はパッケージプランよりずっと少ないから、安い従量課金の方が理にかなってると思ったんだ。でも、Claude Codeみたいなツールに手を出し始めたら、トークンがすごい勢いで減っていくんだよね。昨日は15分くらいで5ドル分のトークンを使っちゃった。確かに、Codeツールは特定のトピックについてLLMに聞くのとは全然違うけど、こんなに大きな差があるとは思わなかった。トークンの使い方は、増え続けるコンテキストやツールのやり取りに隠れてるから、気づきにくいんだろうけど。

└

DeepseekのAPIを通じて20ドルで（中国、私のコードを使ってもいいよ）、ほぼ1年持ってる。遅いけど、独立してホストされているDeepseekモデルよりも質の高い出力が得られるよ（私の経験では）。でも、エージェントとかはあんまり使ってないけどね。

└

その理由は簡単で、Claude Codeは普通のチャットよりもずっと多くの文脈や繰り返しを使うからだよ。

claude codeは今週、元々の無制限の200ドル/月プランを撤回しなきゃいけなかったんだ。記事はこれを繰り返してるけど、これって単なる嘘じゃない？プランは20倍の使用制限があるから20xって名付けられたわけで、常に5時間のセッション制限があったし、月に50セッションの制限も（強制されてない？ソフト？）あった。制限はあったけど、十分ではなかったし、私の使用状況から判断すると、今もそうだと思う。だから、真実を言っても議論は苦しまないと思うよ。

└

その通り、Maxプランは無制限として宣伝されてなかった。無制限だと思ってるコメントや記事がどれだけあるか信じられないよ。何度も繰り返されてるから、真実だと仮定されてるみたい。

Hacker Newsで議論の続きを見る

ハクソク