世界を動かす技術を、日本語で。

トークンの価格が上昇しています

概要

  • AI業界の「コストは10倍下がる」神話の問題点を徹底解説。
  • フラットレート型サブスクリプションモデルの限界と崩壊の理由。
  • 利用者の「品質への貪欲さ」と消費トークン量の爆発的増加。
  • サステナブルなAIビジネスモデルの3つの選択肢を比較。
  • 今後生き残るための戦略的方向性を示唆。

AIサブスクリプションモデルの限界と「コストは10倍下がる」神話

  • 新しいAI企業 を立ち上げる際、 利用者が月額20ドル以上払わない という現実。
  • VCの定石 として「利益度外視で成長重視」の戦略を採用。
  • a16zのグラフ により「LLMコストは毎年10倍下がる」という期待。
  • 1年目は 20ドルでトントン、2年目には 90%の利益率 という皮算用。
  • GPT-3.5のコストは実際10倍安くなった が、なぜか利益率は悪化。
  • 新モデル登場時、99%の需要が即座に最新モデルへ移動。
  • フロンティアモデルの価格 は常に一定水準で維持される現実。
    • 例: GPT-4登場時、GPT-3.5は26倍安くなっても誰も使わない。
  • 「最高品質」への需要 が絶対的で、ユーザーは常にベストを求める。

トークン消費の爆発とフラットレートモデルの崩壊

  • 新世代モデル は1タスクあたりの トークン消費量が指数関数的に増加
  • 以前は 1,000トークン だった返答が、今や 100,000トークン に。
  • 長時間エージェント稼働 が可能となり、 1日あたり72ドル のコストも現実味。
  • フラットレート(月20ドル) では、1日1回の「深掘りリサーチ」すら赤字。
  • モデルの能力向上=消費トークンの増加 というジレンマ。
  • 効率化で燃費が良くなっても、消費量が50倍に増える モンスター化現象。
  • WindsurfやClaude Code など、無制限プランの破綻事例。
  • ユーザーがAPIオーケストレーター化 し、24/7稼働でトークン消費が爆発。

サブスクリプションの「囚人のジレンマ」と業界の行き詰まり

  • 使用量ベース課金 にすれば持続可能だが、 ユーザーはメーター制を嫌う
  • 競合がフラットレートを続ければ、使用量課金企業は淘汰される。
  • 全社がフラットレート を続ければ「成長→赤字→値上げ発表」の流れ。
  • VC資金で赤字を埋める 成長重視型企業が業界を席巻。
  • Jasperのように、資金調達が止まれば一気に破綻。

サステナブルなAIビジネスモデルの3つの選択肢

  1. 初めから使用量ベース課金

    • 補助金なし、正直な経済性。
    • ただし消費者向けで大成した例はほぼ皆無。
    • NetflixやSpotifyも全てフラットレート、メーター制は成長を止める。
  2. 高いスイッチングコスト→高利益率

    • Devin のように大企業(例: Goldman Sachs)との大型契約。
    • 一度導入されれば解約がほぼ不可能 なシステム・オブ・レコード型。
    • CRM/ERP/EHR のような業界最大手が80-90%利益率を誇る理由。
  3. 垂直統合→インフラで稼ぐ

    • Replit 型モデル:AIエージェント+アプリホスティング、DB管理、デプロイ監視など。
    • AIは集客用の損失リーダー、利益はインフラ層で回収。
    • コード生成→ホスティング需要創出→全レイヤーで価値獲得。

今後の展望と生き残るための指針

  • フラットレート型で成長を追う企業は「死に体」、高額な葬式を待つのみ。
  • 「モデルは10倍安くなる」神話 は、ユーザーが20倍の期待を持つ現実に追いつけない。
  • WindsurfやAnthropicですら、無制限フラットレートの持続は不可能。
  • 「早く始めれば勝てる」だけでは墓場行きが早まるだけ という教訓。
  • Googleのような巨額買収も今は期待できず、「後で何とかなる」は通用しない。
  • 生き残る道は「ネオクラウド」型 (詳細は次回)。
  • 最先端モデルのコストは下がっても、消費の爆発がそれを上回る現実

協力・フィードバック Mark Hay、Ben Mains、Nikunj Kothari、Bryan Bischof、Andy Jiang、Vedika Jain、Aman Kishoreに感謝。

Hackerたちの意見

現在の大きな問題は、無差別にモデルを使って小さな問題に大きなハンマーを振り下ろしていることだよね。すべての問題に最先端の一般モデルが必要なわけじゃないし、特定の目的に応じた異なるモデルの「バンドル」みたいなシステムやサービスが増えてくれば、もっと良い利用状況が見えてくると思う。

そうそう、これを見落とす人が多いんだよね。7.32bモデルは多くのことに対して全然問題なく動くし、以前のハイエンドのコンシューマーハードウェアでも動くんだ。でも、まだハイプの段階だから、大きなモデルのパフォーマンスが頭打ちになったら、みんな冷静になると思う。

完全に同意だわ。実験する時間をかける価値があるよね。最近作ったシンプルなチャットサポートシステムは、機能によって5つの異なるモデルを使ってるんだ。用途に応じてモデルを入れ替えることで、コストやユーザー体験、品質に大きな違いが出るよ。

Claude OpusにSonnetをガイドさせるオプションがあったら、大抵のやり取りでそれを使うんだけどな。手動でやるのは面倒だし流れが途切れちゃうから、Opusを使うことが多くなっちゃう。大きなプロンプトでも、並列処理のおかげで入力が安いから、そんなに高くならないはずなんだけど。

一般的なモデル=代替可能? 食品業界では、ホールケーキを売る方が甘味料だけを売るよりも利益が出るのかな? 記事はreplitとレガシーERPシステムについていい指摘をしてるよね。生成AIの「生成」はストレージを置き換えるわけじゃない、ストレージこそが利益の源だから。CRUDのCが最終的にRとUを置き換えられない限り、Dは何もしない状態になる。

そうだけど、一番おいしいタスクはまだまだ解決されてないよ。人々が低精度の回答を受け入れることに対しては、あまり高い割合じゃない。テキスト処理パイプラインの一部には当てはまるかもしれないけど、ユーザー向けのユースケースは良いパフォーマンスが必要なんだ。

どのAIもまだ完全に信頼できるほどの性能じゃないからね。最高のやつでも、意外なタイミングで失敗することがあるし、ほとんどの作業には常に稼働しているAIがあって、頭を使わずに自分の脳に任せられるんだ。だから、任せるには確実に成功するものじゃないとダメ。AIを良く見せるためにここにいるんじゃなくて、自分のパフォーマンスを良くするためにいるから、確実なものだけが任せる候補になる。AI企業は最高のパフォーマンスを宣伝するけど、ユーザーは最悪の失敗を基準にAIツールを選ぶから、結局SOTA(最先端技術)だけが求められるんだ。TFA(テストファーストアプローチ)がこれをよく示してる。AIは最悪のパフォーマンスで評価されるし、人も最悪の結果で解雇されるからね。理想的な(=慎重に作られた)環境でのAIのパフォーマンスなんて誰も気にしない。私たちが気にするのは、目を離した2秒後にどれだけ失敗するかだよ。

この1、2年でAPIアクセスにお金を払って、LibreChatみたいなオープンソースのフロントエンドを使ってモデルにアクセスしてるんだ。たまに使うにはこれがすごくうまくいってて、数ヶ月ごとに10ドルくらいアカウントにチャージしてる。使うトークンの量はパッケージプランよりずっと少ないから、安い従量課金の方が理にかなってると思ったんだ。でも、Claude Codeみたいなツールに手を出し始めたら、トークンがすごい勢いで減っていくんだよね。昨日は15分くらいで5ドル分のトークンを使っちゃった。確かに、Codeツールは特定のトピックについてLLMに聞くのとは全然違うけど、こんなに大きな差があるとは思わなかった。トークンの使い方は、増え続けるコンテキストやツールのやり取りに隠れてるから、気づきにくいんだろうけど。

DeepseekのAPIを通じて20ドルで(中国、私のコードを使ってもいいよ)、ほぼ1年持ってる。遅いけど、独立してホストされているDeepseekモデルよりも質の高い出力が得られるよ(私の経験では)。でも、エージェントとかはあんまり使ってないけどね。

その理由は簡単で、Claude Codeは普通のチャットよりもずっと多くの文脈や繰り返しを使うからだよ。

claude codeは今週、元々の無制限の200ドル/月プランを撤回しなきゃいけなかったんだ。 記事はこれを繰り返してるけど、これって単なる嘘じゃない? プランは20倍の使用制限があるから20xって名付けられたわけで、常に5時間のセッション制限があったし、月に50セッションの制限も(強制されてない?ソフト?)あった。制限はあったけど、十分ではなかったし、私の使用状況から判断すると、今もそうだと思う。だから、真実を言っても議論は苦しまないと思うよ。

その通り、Maxプランは無制限として宣伝されてなかった。無制限だと思ってるコメントや記事がどれだけあるか信じられないよ。何度も繰り返されてるから、真実だと仮定されてるみたい。

記事から: > 消費者はメーター制の請求を嫌う。サプライズ請求を受けるくらいなら、無制限のために多く支払った方がいい。うん、でもそうでもない。アマゾンを考えてみて。コストが分かってると思ったら、いきなりサプライズ請求が来る。なんでサプライズ請求が来るの?「月にXドルでオフにして」って言えないからだよ。できないし、選択肢もない。こういう「サプライズネット30」のオファーはみんな同じ。安定した価格を得てると思ったら、GOTAHCAだよ。メーター制の請求は実際には良い場合もあるけど、ユーザーがメーターの状況を正確に把握していて、予算を超えないように最大値を設定できるときだけ。現実的に考えると、AI企業としては「使用したトークン/総トークン」の棒グラフを提供したり、レスポンスごとのトークン数や、超えないための推定レスポンス数を示すべきだよ。再度言うけど、ユーザーを驚かせるな。だけど、トークンをドルに隠したい企業にはそれが逆効果なんだよね。ギャンブル会社が「企業バックス」をUSDにごまかすのと同じように。

アマゾンの価格設定は曖昧で謎めいてることが多いよ。例えば、データベースのコストが常に変動してる理由が全く分からないこともある。

請求アラートを設定して、リソースを無効にするためのラムダ関数を書くこともできるよ。もちろん、簡単にはしてくれないけど、制限の使い方を学ばないなら、何を期待してるの?この議論には驚かされる。クラウドサービスはユーザー側にもある程度の責任が求められるんだ。

再度言うけど、ユーザーを驚かせるな。だけど、トークンをドルに隠したい企業にはそれが逆効果なんだよね。これがGitHubのAI展開で私がイライラする理由なんだ。新しいCopilotエージェントを試してるけど、そのコストは全く不透明だよ。「プレミアムリクエスト」に何度も言及されてるけど、リアルタイムでダッシュボードに表示されないし、全体でいくつ残ってるのかも分からない。UIでプレミアムリクエストが参照されると、制限についても触れてないドキュメントにリンクされるんだ(関連する請求ダッシュボードにリンクされるのではなく)。

YCが無数の企業にAIインフラの可視化製品を作らせてるのは驚きだけど、ユーザーにトークン使用量や価格の見積もりを簡単に提示する製品はまだ見たことがない。これが私にとっては一番重要な基準なんだ。請求書や価格設定をもっと簡単にしてほしいのに、代わりに彼らは評価やニッチな機能に頭を悩ませてる。

GOTAHCA?

メーター制は定義されたプロセスにはいいよね。AWSが好きなのは、コストをビジネスに合わせられるから。昔はそれが難しくて、内部の政治プロセスが絡んでた。ある営業の女の子がディレクターに資産を見せて、今は必要ないネットワーク機器のコストを私が負担する羽目になったりしてた。でも、ユーザーにとっては、その細かいコストは良くない。生産性に結びついてないメトリクスでユーザーに責任を負わせることになるから。90年代にインターンをしてた時、長距離電話をかけるには承認が必要な会社にいたんだ。ある官僚が私の20分の電話が正当かどうかを判断して、月の経費がある限度を超えたら請求されることもあった。楽しくなかったな。ユーザーAIには定額制が一番だと思う。ビジネスの価値を理解するまで、プロバイダーがマージンを探し始めるまでね。もし私が時給$40のアナリストを20%生産的にしたら、それは$16,000の価値がある。月$200のChatGPT Proはお得だよ。

アマゾンはこれよりもひどいけど、AWSの釣り餌とスイッチの問題は、他の選択肢よりも節約できることになってるんだよね。だから、開発にかける時間以上に節約できるなら切り替える価値はあるはずだよね?でも、あなたの会社はそれをやらない。機会コストがあるから。会社は投資した開発時間の何倍かを自分たちのビジネスで取り戻すことを期待してる。さまざまな不確実性、リターンや開発にかかる時間、競争などがあるから、その倍数が小さくないときだけ開発時間を投資するんだ。私はビジネスマネージャーじゃないけど、5倍くらいだと思う。でも、もしあなたが実際には代替案よりもコストがかかるインフラを使うように騙されて、コスト構造が悪化してしまったら、元に戻すために開発者の時間を使う価値がないから、損失を被ることになるよ。でも、トークンにはまだこの問題はない。ほとんどの人はまだ従来の方法で開発できるし、それを止めるプロジェクトでもないからね。ただ、これが変わることは期待しておいた方がいい。

メーター制の請求は、B2Bのインフラサービス型製品には合ってるけど、会社が成長するにつれて請求額も管理可能に増えていくからね。でも、ポイントソリューションや実際の業務でのAIの文脈では、これは致命的な打撃になる。メーター制の請求は、製品を使わない大きなインセンティブになるんだ。B2Bの文脈では、チームが再度その製品を使いたい場合、予算委員会の承認が必要になることもある。生産性を高めるためのツールなのに、250回も「このボイラープレートをコーディングするのに3ドルの価値があるか」ってコスト/ベネフィット分析をしたい人なんてほとんどいないよ。メーター制の請求だと、結局使わなくなるんだ。

トークンあたりのコストについてだけど、トークンを理想的には、構成可能な原子情報単位として表現するのは正しいのかな。でも、(しばしば)英語をエンコーディングフォーマットとして使ってるから、英語がデータをエンコードできる効率にしかならないよね。これって、他の言語がトークンあたりの情報密度をもっと良くできる可能性があるってこと?それとも、こういう目的にもっと効率的な言語を発明できて、人間(たぶんプロンプトエンジニアになりたい人だけ)が学べるものになるってこと?ケビン、いいこと言う? https://youtu.be/_K-L9uhsBLM?si=t3zuEAmspuvmefwz

人間のスピーチは、どんなに早く話しても、約39ビット/秒のビットレートがあるよ。読むのも似てると仮定すると、もっと「密度」のあるトークンは、人間が読むのに時間がかかるってことかな。 https://www.science.org/content/article/human-speech-may-hav...

確かに、例えば韓国語はユニコードが多いんだよね。警察は「경찰」って書くけど、たった2つのユニコード文字なんだ。エンコーディングのことはあまり詳しくないけど、もっと効率的にできるかもしれないね。

確か、言語学では「均一情報密度」という仮説があって、人間レベルで言語がそういう傾向にあるみたいなんだ(密度の高い言語は遅く、スカスカな言語は速くなる)。だから、人工的なエンコーディングを使う必要があるかもね。英語や他の主要な言語にうまくマッピングできるものが、LLMにとっては他の言語よりもずっと効果的に働くと思う。

英語は冗長な部分が多いから、コメントをこう書き直しても元の意味は伝わるよ:トークンあたりのコストについてだけど、トークンは理想的には構成可能で原子的な情報の単位なのかな?英語はよくエンコーディングフォーマットとして使われるから、効率は英語のエンコーディング能力に制限される。別の言語はトークンあたりの情報密度が高い可能性がある?この目的のために、特にプロンプトエンジニアを目指す人間に教えられるような、もっと効率的な言語が発明される可能性は?元の文は67トークンだけど、これだと106トークン。多くの言語には冠詞がないから、これを省いても意味はわかると思うよ。

この記事はちょっと分かりにくいな。> 新しいモデルがSOTAとしてリリースされると、99%の需要がすぐにそっちに移る。99%はちょっと違う気がする。多くのユーザーはOpus 4よりSonnet 4を使ってるし、Opusの方が「より」SOTAなのにね。4oよりo3を使う人も多いし、GeminiよりClaudeを選ぶ人もいる。実際、誰が「最高」かのレースは今までで一番接戦だよね。> Opus($75/mトークン)からSonnet($15/m)に切り替えるのが重くなった時の選択肢。読みやすさのためにHaikuで最適化する。AWSのオートスケーリングみたいな感じだけど、脳に対してね。おそらくこの行動はモデルの重みに直接組み込まれてるんじゃないかな?全体的に見ると、この記事は企業が使用ベースの価格設定で問題に直面していると主張しているけど、消費者がそれを受け入れたり慣れたりしていないから、最初にそれを突破して切り替えるのは難しいってことだね。著者が言うほど大きな問題だとは思わないな。クラウドホスティングでも似たようなことがあったし。- 多くの消費者は月額の定額料金に満足していて、劣ったモデルを使ってる。4oはo3より明らかに劣ってるけど、何百万もの人が使ってる(あるいはそれ以上のことを知らない)。無料のChatGPTは4oよりもさらにひどいけど、ほとんどのChatGPTの訪問者はそれを使ってる! - ヘビーユーザーやビジネスはAPIを通じて消費していて、使用ベースの価格設定(クラウドを参照)を利用している。これはほぼ確実に利益が出る。 - 基本的に、これらのスタートアップのほとんどはB2Bで、B2Cではないんだよね。

実際、誰が「最高」かのレースは今までで一番接戦だよね。その事実を指摘してくれてありがとう。時々、視点を保つのが難しいことがある。時にはMistralをメインのLLMとして使ってる。最高のLLMとして称賛されてはいないけど、実際のところ、その結果はChatGPTやGemini、Claudeの出力と同じくらい役に立つし、ずっと速いんだよね。現在の商業LLMのブレンドには確かに限界がある。Deep Seekはすでにコストが大きな要因になり得ることを証明していて、品質も向上する可能性がある。価格に基づく競争が近づいていると思うし、それが専門モデルのミクスチャーアプローチについての話が多い理由かもしれないね。専門モデルがコストを下げつつ、ターゲット出力を改善できるんだ。

実際、99%の需要があるフロンティアモデルの実際の価格履歴を見てみて。意味のあるフロンティアは、単に能力のスカラーではなく、特定のコストに対する能力なんだ。最高の能力を持つモデルは、99%の需要があるところではない。実際にはその逆だよ。人々がどのポイントを好むかを知りたいなら、OpenRouterの統計を見てみて(https://openrouter.ai/rankings)。Claude Opus 4は彼らの総使用量の約1%で、99%ではない。Claude Sonnet 4は約18%で、最も人気のあるモデルなんだ。ボリュームで次に多いのはGemini Flash 2.0と2.5で、これらはSonnet 4よりもかなり安いんだよ。

これは本当だね。記事の全体的な前提には賛成だけど、OpusがSonnetよりも多く使われているというのは間違いだよ。グラフの一つには「Claude 3.5 Opus」って書かれてるけど、それは存在しない。3.5 Sonnetがリリースされた後、3 Opusはほとんど無関係になって、Opus 4という別の大きくて高価なモデルをやっとリリースすることに決めたけど、それでもAPI価格を払うユーザーにはSonnet 4ほど人気がないんだ。

トークンが安くなってきてるけど、「無制限」のLLMプランの本当の問題はトークンコストじゃなくて、使い方のカーブが持続不可能な形になってることだと思う。これらの製品はZipfの法則に似た分布を示してる。何千人ものカジュアルユーザーが1日に数百トークンを使う一方で、ほんの一握りのパワーユーザーが何千万トークンも消費してる。フラットプライシングは、そのクジラの一人がリポジトリ全体をリファクタリングしたり、100MBのPDFをチャットに投げ込んだりするまではうまくいくけど、そうなると利益が一瞬で吹っ飛ぶ。ベンダーがその極端なループを安価で目的に特化したプリミティブ(検索、静的解析ツール、ローカル量子化モデルなど)に変えない限り、すべての「食べ放題」AIサブスクリプションは、次のクジラを待ってるスローモーションの崩壊に過ぎない。

まず第一に、サンフランシスコでは大文字や句読点を使うと撃たれるの?第二に、SVの人たちはなんで偽の指数関数にこだわるの?AIの進歩が指数関数的だったのは、数年前よりもずっと多くのリソースをAIに投資しているからだってことは明らかだよね。

まず第一に、サンフランシスコでは大文字や句読点を使うと撃たれるの? これは、LLMが書いたんじゃないってことを示すためにこうしてるの?

ああ、やだ!共通語の自然な変化には対処できないよ!/j 古風なものに生きる必要がある。

テンダーロインやミッションストリートに行くならそうだけど、大文字や句読点を使わなくても大丈夫だよ。

あるAI企業が、シンプルなタスクを「もっと頭の悪い」モデルに任せられるモデルを作る必要があるね。複雑すぎてOpusみたいな強力なモデルが必要なタスクにしばしば遭遇するけど、それがいくつかのタスクに分かれることが多いんだ。そのほとんどは3.5 Sonnetでもできるレベルなんだよ。Opusがやるべきことは、タスクを簡単な部分と難しい部分に分けて、簡単な作業用にたくさんの3.5 Sonnetsを立ち上げることだけ。これってすごく明白なアイデアだから、みんなすでに取り組んでると思うよ!

プロンプトに、生成する各サブタスクに必要なモデルの「レベル」を1から10の間で出力させるっていうのもいいかもね。