世界を動かす技術を、日本語で。

OpenAIとAnthropicは推論で赤字を出しているのか?

概要

AI推論コストの実態を、現実的な前提で分解・検証 入力トークンと出力トークンのコスト非対称性が極めて大きい現状 多くのビジネスモデルがこのコスト構造を活用し高収益性を実現 「AIは持続不可能なコスト構造」という主張への懐疑 今後のAIインフラ市場における競争・価格形成への警鐘

AI推論コスト分解と経済性の再検証

  • AI推論コスト に関して「キャッシュインシネレーター(現金焼却炉)」という言説の検証
  • 大規模モデル運用経験は無い が、高スループットクラウドサービス運用経験とコスト構造の知見を活用
  • 前提条件
    • 純粋な計算コストのみを対象(運用・開発・ネットワーク等は除外)
    • H100 GPUのレンタルコストを2ドル/時 で計算(実際の大手AI企業はさらに安価なはず)
    • DeepSeek R1(671Bパラメータ、37BアクティブMoE)をベースラインモデルに設定
  • 推論環境例
    • 72台のH100(2ドル/時 × 72台=144ドル/時)
    • 8GPU/インスタンスでテンソル並列、9インスタンス同時稼働
    • 1インスタンスあたりバッチ32・1,000トークン平均で現実的なレイテンシ要件を想定

入力処理(Prefill phase)

  • H100はHBM帯域3.35TB/s、37Bパラメータ(FP16で74GB)がボトルネック
  • 1インスタンスあたり 毎秒45回のフォワードパス が可能
  • 1パスでバッチ32×1,000= 32,000トークンを同時処理
  • 9インスタンス合計で 毎秒約1,300万トークン、1時間で約468億トークン処理
  • MoEによる専門家選択でスループットが2~3割減る可能性も、近年は効率化技術により30~50%程度の影響で済むケースが多い

出力生成(Decode phase)

  • 出力はトークンを逐次生成(バッチ32で1パスあたり32トークン)
  • 1インスタンスあたり 毎秒1,440トークン、9インスタンスで 毎秒12,960トークン、1時間で約4,670万トークン生成
  • 入力処理と比較し 出力生成は圧倒的に低スループット

トークン単価試算

  • 入力:144ドル/46,800Mトークン= 100万トークンあたり約0.003ドル
  • 出力:144ドル/46.7Mトークン= 100万トークンあたり約3.08ドル
  • 入力と出力で1,000倍ものコスト差

計算ボトルネックの変化

  • 通常はメモリ帯域が制約だが、 長大な文脈長(128k+)や巨大バッチ時は計算量が急増しコスト2~10倍に
  • Claude Codeなどが文脈長を200kトークンで制限する理由は、コスト高騰回避も大きい
  • 200k超のウィンドウで追加課金するサービスが多いのもこのため

実際の利用形態と利益構造

A. コンシューマープラン

  • 例:ChatGPT Pro(20ドル/月、1日10万トークン利用上限)
  • 入力70%・出力30%と仮定→ 実コストは月3ドル程度
  • OpenAIの 5~6倍のマークアップ、高収益性

B. デベロッパー用途

  • 例:Claude Code Max 5(100ドル/月、1日2M入力・3万出力トークン)
  • 実コストは 月4.92ドル、20倍超のマークアップ
  • 例:Claude Code Max 10(200ドル/月、1日10M入力・10万出力トークン)
  • 実コストは 月16.89ドル、11.8倍のマークアップ
  • コーディング用途は 入力トークン大量・出力少量 でコスト構造的に極めて有利

C. APIマージン

  • API価格:入力3ドル/100万、出力15ドル/100万(実コスト0.01ドル/3ドル程度)
  • 粗利80~95%超、ソフトウェアビジネス並みの利益率

コスト構造の本質とビジネスインパクト

  • 入力処理は事実上ほぼ無料、出力生成のみが高コスト
  • この コスト非対称性 が強い収益性を生み、入力大量・出力少量の用途(コーディング、文書解析、リサーチ等)が極めて有利
  • ビデオ生成 のように「少量入力→大量出力」な用途は逆にコストが非常に高く、価格が高止まりしやすい

AI推論コスト神話への警鐘

  • 「AI推論は持続不可能なコスト構造」という主張は 既存大手の既得権益保護の側面も
  • 実際は入力偏重のワークロードなら十分に高収益
  • クラウド黎明期に「高コスト神話」によって寡占化が進んだ過去を再現しないためにも、 コスト構造の実態把握と透明化が重要

まとめ

  • AI推論の計算コストは用途によって大きく異なる
  • 入力大量・出力少量の用途では 粗利率が極めて高い
  • 「AIは金食い虫」という言説は 誇張や既得権益保護の意図も
  • 今後のAIインフラ市場でも コスト構造の透明性 が競争・イノベーションの鍵

Hackerたちの意見

サム・アルトマンが言ったこと: >「もしトレーニングにお金を払わなかったら、私たちはすごく利益の出る会社になってた。」

そうだね、他の人たちも同じような意見を持ってるのを見たことがある。推論はおそらく利益が出てるけど、トレーニングはめちゃくちゃ高くて、時には良い結果が出ないこともある。

トレーニングが無料だったらみんなやるだろうし、OpenAIは利益を出せないってことを無視しちゃダメだよね。

その通り。OpenAIがリクエストごとに赤字だっていう主張は間違ってる。OpenAIは、広告(Google検索みたいに)やアフィリエイトリンク、他のサービスなど、無料プランからの収益機会をまだ全部活用してない。ここには、いろんな理由でLLM企業が失敗することを望んでるコメントもたくさんあって、そういう人たちが想像上のユニットエコノミクスにその願望を投影してる。Uberについての会話を思い出すよ。投資資金が尽きたらすぐに崩壊するって言われてたけど、Uberは徐々に利益を出すようになったし、批評家たちはAI企業に同じことを言い始めた。

それに著作権費用を払わなきゃいけない場合もあるよね。盗まれたデータがたくさん再パッケージされて売られてるし。

うん、ダリオもインタビューで似たようなこと言ってたよ。彼の説明によると、各モデル(例えばSonnet 3.5)をそれぞれ別の会社と見なすと、最終的にはどれも利益が出るんだって。展開後は使用による利益率が良いから、トレーニングの費用も回収できるんだ。

どの会社にも言えることだよね。もし製品を作るための費用を払ってなかったら、すごく利益が出てるはず。

この数字はおかしいよ。 > $20/月のChatGPT Proユーザー: ヘビーユーザーだけど、トークン制限のあるChatGPT Proは$200/月だし、サム・アルトマンはすでに2025年1月にProサブスクリプションでOpenAIが赤字だって認めてる: 「狂ったことに、今私たちはOpenAI Proのサブスクリプションでお金を失ってる!人々は予想以上に使ってるんだ。」 - サム・アルトマン、2025年1月6日 https://xcancel.com/sama/status/1876104315296968813

でも、彼にはそう見せるインセンティブがあるんじゃない? 彼の言い方だと、みんなが使いすぎて赤字になってるみたいに聞こえるから、Proのサブスクライバーがスーパーユーザーみたいに思える。推論にコストがかかる限り、このケースは赤字になるから、サムはビジネスモデルが欠陥があるとは認めてないよね。

彼を全く信じてない。彼がそう言うのは、「うちの製品は本当に価値がある!使ってみて!」って言ってるのと同じことだよ。

彼が最近言ったこととは矛盾してる気がするな。>「推論では利益が出てる。もしトレーニングにお金を払わなければ、かなり利益の出る会社になる。」出典: https://www.axios.com/2025/08/15/sam-altman-gpt5-launch-chat... 彼の可能なインセンティブや、OpenAIが公開企業じゃないってこともあって、どの発言が真実に近いのか判断するのが難しいよね。

ごめん、Plusのことね。後で記事を更新するよ。

サム・アルトマンが言うことには、全く信用できないって思ってる人が多いはず。

コストに関してその人を信じるのは、環境問題について石油会社のCEOを信じるよりももっと間違ってると思う。

たぶん、ほとんどのユーザーはあまり使わなくて、上位10%のユーザーが全体の90%の利用を占めるパワーロー曲線になると思う。つまり、プロユーザーってことだね。うちの奥さんは普通のサブスクを軽く使ってるけど、たぶん大多数の人もそんな感じだと思う。

うーん、この分析で気になるのは、入力トークンと出力トークンの分け方かな。俺は質問をたくさんするタイプだから、1回のプロンプトで使う入力トークンは20個くらいなんだけど、Geminiは数百個出さなきゃいけないみたいで、これが経済的に結構影響しそうだよね。

そうそう、Chatgpt5はすごくおしゃべりだよね。1文の質問をすると、3〜4段落の返事が返ってくることが多くて、そのほとんどは無視しちゃうけど、タスクによっては使うかな。

それが彼らにとって経済的に痛手になるかもしれないけど、市場シェアを争ってるから、短い回答はユーザーを遠ざけると思う。私は長い回答の方が好きだな。直接聞いてないことも含まれてることが多いし、役に立つことが多いから。

この記事はDeepSeek R1を使った前提で成り立ってるけど、その前提は正しくないと思う。DeepSeekはもっと効率的だし、OpenAIやAnthropicのコストを推定するには妥当じゃないよ。https://www.wheresyoured.at/deep-impact/ 基本的に、DeepSeekは推論がめちゃくちゃ効率的で、それがリリースされたときに業界を揺るがした理由なんだよね。

DeepSeekの推論効率は、MoEとMLAアテンションの2つから来てるんだ。OpenAIはGPT4の頃にMoEを使ってたって噂があったし、かなり前の話だね。Geminiが長いコンテキストで効率的だから、彼らのアテンションもすごく効率的だと思う。GPT OSSはfp4を使ってるけど、DeepSeekはまだ使ってないよ。だから、大きなラボがDeepSeekの効率に負けてるわけじゃないよ。少なくとも、そんなに差はない。

あなたがリンクしたブログ記事で言及されている「効率」は、Deepseekとo1の価格差のことだよ。GPT-5や他の最先端モデルが効率が悪いって意味じゃないからね。

市場が揺れた理由は、トレーニングコストが500万ドルだっていう主張だったからだね。

うーん、DeepSeekが業界を揺るがしたのは、トレーニングコストが14倍削減されたからで、推論コストじゃないと思うよ。OpenAIやAnthropicのモデルのトークンあたりのコストもわからないけど、誰でも使えるオープンモデルよりもかなり高いとは思えないな。推論研究にも投資してるわけだし。

それは間違った見解だね。deepseekで素晴らしかったのはMoEじゃなくて、共有エキスパートとグループだよ。

なんでディープシークの方がGPT-5やクロード4より効率的だと思うの?ディープシークからの教訓を取り入れる時間は十分あったと思うけど。

8000語のZitronの投稿から何を学べばいいのかね?とりあえず、AnthropicのCEOダリオ・アモデイがDeepSeekについて言ったことを紹介するよ。「DeepSeekは、アメリカのモデルよりも7〜10ヶ月古い性能に近いモデルを、かなり安いコストで生み出した(でも、みんなが言ってるような比率ではないけどね)」 「DeepSeek-V3は特別なブレイクスルーでもなく、LLMの経済を根本的に変えるものでもない。これは、進行中のコスト削減曲線上の予想されるポイントだ。今回違うのは、期待されるコスト削減を最初に示したのが中国の会社だったことだ。」 https://www.darioamodei.com/post/on-deepseek-and-export-cont... 彼の言葉をそのまま信じる必要はないけど、DeepSeekのモデルは、同等の品質のクローズドモデルと比べて、トレーニングや推論の効率があまり良くないという主張があるんだ。さらに、アモデイもサム・アルトマンも最近、推論が利益を生むと言ってるよ。アモデイはこう言ってる。「もし各モデルを会社と考えるなら、2023年にトレーニングされたモデルは利益を上げていた。100百万ドル払って、200百万ドルの収益を上げた。モデルの推論にはコストがかかるけど、この漫画の例では、仮にその二つを足しても、いい状態だと仮定しよう。だから、もし全てのモデルが会社なら、この例のモデルは実際に利益が出ている。実際には、一つの会社から利益を得ながら、もっと高価で前払いのR&D投資が必要な別の会社を立ち上げているってことだ。だから、この状況は、数字が大きくなるまで続いて、モデルがそれ以上大きくならなくなったら、大きくて非常に利益のあるビジネスになるか、あるいは、いつかモデルが改善されなくなるかもしれない。AGIへの道が何らかの理由で止まってしまうかもしれないし、そうなったら、一度きりの「おい、たくさんお金を使ったのに何も得られなかった」ってことになるかも。そしたらビジネスは元の規模に戻るだろう。」 https://cheekypint.substack.com/p/a-cheeky-pint-with-anthrop... アルトマンはこう言ってる。「もしトレーニングにお金を払わなかったら、私たちは非常に利益のある会社になるだろう。」 https://www.theverge.com/command-line-newsletter/759897/sam-...

うーん、この記事にはちょっと疑いを感じるな。数字について具体的に反論できるわけじゃないけど、オープンソースのモデルは結構いいのがあるし、最新技術ではないけど、もし推論がこんなに安いなら、なんで複数のAPIプロバイダーが安い価格でモデルを提供してないの?見たことある安いプロバイダーは、小さいモデルしか動かしてないし。俺の安いdeepseek-R1はどこにあるんだ?こんなに安いなら、利益率が大きいって話なら、600Bパラメータのモデルを安く手に入れたり、自分で動かしたりできるはずだよね。何か見落としてる?実際にこんなに安くやってる人がいないっていう現実が、この計算の最大の批判みたいだね。

数字については全然わからないけど、同じ会社がモデルのトレーニングに何十億ドルも注ぎ込んで、高いスタッフを雇って、インフラを整えてるのは知ってる。これらのコストを考慮しないと、実際の利益率は出てこないよね。

https://openrouter.ai/deepseek/deepseek-chat-v3.1 彼らはめっちゃ安いよ。同じモデルアーキテクチャでの比較だと、$0.30/M $1.00/M。別のプロバイダーからは$0.20-$0.80でもあるし。

個人的には、この記事は全然的外れだと思う。ユーザーが平均して1日あたり100万トークンを超えないって前提になってるけど、実際にはそうじゃないよ。確か、OpenAIは$20プランでも、プラットフォームに負荷がかからない限り、日々のクォータを強制してないし。自分はよく1日で2000万トークン消費するから、この記事の計算にある100万トークンよりも遥かに多く使ってる人が多いと思う。

なんで複数のAPIプロバイダーが激安でモデルを提供してないの? あるよ。基本的に、この記事で予想されているよりも、ほとんどのプロバイダーのR1価格は安いよ。 https://artificialanalysis.ai/models/deepseek-r1/providers

そうそう、この記事にDeepInfraのスクリーンショットを載せたけど、もっとたくさんあるよ。 https://openrouter.ai/deepseek/deepseek-r1-0528

でも、推論がこんなに安いなら、なんで複数のAPIプロバイダーが激安でモデルを提供してないの? 激安でモデルを提供してるAPIプロバイダーはたくさんいるよ。少なくとも、他のAPIプロバイダーを集約して、たくさんのモデルを$0で提供してる有名なAPIプロバイダーがいる。 > 見た中で唯一の激安プロバイダーは、小さいモデルしか動かしてない。安いDeepSeek-R1はどこにあるの? https://openrouter.ai/deepseek/deepseek-r1-0528:free

運営コストが控えめだとしても驚かないけど、これらの会社は非常に高額なR&D開発費と大きな初期投資も抱えてるからね。

https://lambda.chat ディープシークR1が無料で使えるよ。

これはかなりズレてると思う。最新の報告によると、Anthropicの粗利率は60%だって。最新の資金調達の話で出てきたんだ。それに、The InformationのレポートからはOpenAIの粗利率が50%だと推定されてる。これらは粗利だから、償却やモデルのトレーニングコストはその後に来るはず。今ではほとんどのラボが、コストを削減してスピードを上げるために、投機的デコーディングやキャッシングのような方法を使ってる。入力数字はかなりズレてるよ。アクティブパラメータが37Bだって仮定してるけど、Sonnet 4は100B-200Bパラメータのモデルだし、Opusは約2Tパラメータだよ。どちらも(MoEを仮定しても)正確にこの数の出力パラメータを持ってるわけじゃない。推論時にパラメータをホスティングしてアクティベートするコストもあるし。(この記事は、同じ37Bパラメータが常に使われる前提で書かれてるみたいだけど。)

粗利益率だけじゃ全体の話はわからないよ。AzureやAmazonがインフラにどれくらいの料金を請求しているのかはわからないし、彼らが大幅な割引で売っている理由もあると思う(Microsoftは確実にそうしてるし、OpenAIとの契約からもそれがわかる)。彼らがモデルを手に入れ、OpenAIは割引されたインフラを得る。

ソネット4が100B-200Bのアクティブパラメータを持ってると思ってるの?オーパスが2Tアクティブだって?そんな突拍子もない仮定の根拠は何なの?

確かに面白い計算だね。ただ、GPUの経験がある人から一つだけ言わせてもらうと、> ただし、特定のシナリオでは計算がボトルネックになる。長いコンテキストシーケンスでは、注意計算がシーケンスの長さに対して二次的にスケールする。もし二次的にスケールするというのが正しいとしても、私たちが話しているボトルネックは1000倍以上のところにある。もし1万コアが単純な行列演算だけを行うなら、各コアは500サイクルごとに新しいデータ(最大64k)を利用できる必要がある。これだけのデータを取得するには(衝突なしで)1コアあたり100GB/s以上が必要になる。HBMで2TB/s以上でも、ボトルネックはメモリ転送速度で、500倍くらいの差がある。衝突がある場合は、さらに5000倍くらいの要因が関わってくる(4090でテストしたときはそんな感じだった)。

衝突ってどういう意味?

著者が認めているように、外部の人間は情報が不足してるから(コストやロスリーダーなど)、どんなモデルも不正確すぎて価値がないと思わざるを得ない。だから、この質問は少なくとも私たちには答えがないままだね。お金を出してる人たちは、確実にその質問に答えるのに十分なデータを持ったモデルを持ってると思う。お金が入ったから、たとえそれがベンチャーでも、答えは「短期的にはイエスだけど、長期的にはノー」だと思う。

https://www.axios.com/2025/08/15/sam-altman-gpt5-launch-chat... サム・アルトマンが言ってるのを引用すると、> 現在私たちが構築しているもののほとんどは推論です [...] 推論では利益が出ています。もしトレーニングにお金を払っていなければ、私たちは非常に利益の出る会社になっていたでしょう。

ちなみに、アモデイはもっと詳しく同じことを言ってたよ。「もし各モデルを会社と考えるなら、2023年にトレーニングされたモデルは利益を上げていた。100百万ドル払って、200百万ドルの収益を上げた。モデルの推論にはコストがかかるけど、この漫画の例では、仮にその二つを足しても、いい状態だと仮定しよう。だから、もし全てのモデルが会社なら、この例のモデルは実際に利益が出ている。実際には、一つの会社から利益を得ながら、もっと高価で前払いのR&D投資が必要な別の会社を立ち上げているってことだ。だから、この状況は、数字が大きくなるまで続いて、モデルがそれ以上大きくならなくなったら、大きくて非常に利益のあるビジネスになるか、あるいは、いつかモデルが改善されなくなるかもしれない。AGIへの道が何らかの理由で止まってしまうかもしれないし、そうなったら、一度きりの「おい、たくさんお金を使ったのに何も得られなかった」ってことになるかも。そしたらビジネスは元の規模に戻るだろう。」 https://cheekypint.substack.com/p/a-cheeky-pint-with-anthrop...

それはそうかもしれないけど、GPT-3以降、推論時間はどんどん増えてるよ(GPT-5はいつも20秒以上かかる)。

それは「もし私たちが人にお金を請求するだけで、COGSがなかったら、私たちは非常に利益のある会社になるだろう」と言ってるようなもんだね。これはどのビジネスにも当てはまる真実だから、基本的には意味がない。

これは技術的には正しいかもしれないけど、実際にはそうではないこともある。つまり、OpenAIはCursor/Windsurf/スタートアップに投資して、ユーザーにクレジットを配って、推論APIを多く使わせている。お金はOpenAIに戻ってきて、OpenAIはその会社にクレジットや投資で返す。これはさらに循環的で、nvidiaも推論を生み出す会社に資金を提供しているから、実際に利益が出ているかどうかを判断するのはかなり難しい。新しい投資のお金が枯渇し始めるまで、実際に利益が出ているかどうかはわからないだろう。

スケールで運用しているときは、小さなモデルを使って自己回帰的なフェーズで連続トークンを生成し、いくつかのトークンを生成した後に大きなモデルを使うことが多い。二つのモデルが同じ出力を予測する時は、実質的に一度に複数のトークンを生成していることになる。アイデアは、モデルが十分に同意することで出力トークンコストを大幅に削減することなんだけど、実際にはどれくらい効果的なのか知ってる人いる?