概要
AI推論コストの実態を、現実的な前提で分解・検証 入力トークンと出力トークンのコスト非対称性が極めて大きい現状 多くのビジネスモデルがこのコスト構造を活用し高収益性を実現 「AIは持続不可能なコスト構造」という主張への懐疑 今後のAIインフラ市場における競争・価格形成への警鐘
AI推論コスト分解と経済性の再検証
- AI推論コスト に関して「キャッシュインシネレーター(現金焼却炉)」という言説の検証
- 大規模モデル運用経験は無い が、高スループットクラウドサービス運用経験とコスト構造の知見を活用
- 前提条件
- 純粋な計算コストのみを対象(運用・開発・ネットワーク等は除外)
- H100 GPUのレンタルコストを2ドル/時 で計算(実際の大手AI企業はさらに安価なはず)
- DeepSeek R1(671Bパラメータ、37BアクティブMoE)をベースラインモデルに設定
- 推論環境例
- 72台のH100(2ドル/時 × 72台=144ドル/時)
- 8GPU/インスタンスでテンソル並列、9インスタンス同時稼働
- 1インスタンスあたりバッチ32・1,000トークン平均で現実的なレイテンシ要件を想定
入力処理(Prefill phase)
- H100はHBM帯域3.35TB/s、37Bパラメータ(FP16で74GB)がボトルネック
- 1インスタンスあたり 毎秒45回のフォワードパス が可能
- 1パスでバッチ32×1,000= 32,000トークンを同時処理
- 9インスタンス合計で 毎秒約1,300万トークン、1時間で約468億トークン処理
- MoEによる専門家選択でスループットが2~3割減る可能性も、近年は効率化技術により30~50%程度の影響で済むケースが多い
出力生成(Decode phase)
- 出力はトークンを逐次生成(バッチ32で1パスあたり32トークン)
- 1インスタンスあたり 毎秒1,440トークン、9インスタンスで 毎秒12,960トークン、1時間で約4,670万トークン生成
- 入力処理と比較し 出力生成は圧倒的に低スループット
トークン単価試算
- 入力:144ドル/46,800Mトークン= 100万トークンあたり約0.003ドル
- 出力:144ドル/46.7Mトークン= 100万トークンあたり約3.08ドル
- 入力と出力で1,000倍ものコスト差
計算ボトルネックの変化
- 通常はメモリ帯域が制約だが、 長大な文脈長(128k+)や巨大バッチ時は計算量が急増しコスト2~10倍に
- Claude Codeなどが文脈長を200kトークンで制限する理由は、コスト高騰回避も大きい
- 200k超のウィンドウで追加課金するサービスが多いのもこのため
実際の利用形態と利益構造
A. コンシューマープラン
- 例:ChatGPT Pro(20ドル/月、1日10万トークン利用上限)
- 入力70%・出力30%と仮定→ 実コストは月3ドル程度
- OpenAIの 5~6倍のマークアップ、高収益性
B. デベロッパー用途
- 例:Claude Code Max 5(100ドル/月、1日2M入力・3万出力トークン)
- 実コストは 月4.92ドル、20倍超のマークアップ
- 例:Claude Code Max 10(200ドル/月、1日10M入力・10万出力トークン)
- 実コストは 月16.89ドル、11.8倍のマークアップ
- コーディング用途は 入力トークン大量・出力少量 でコスト構造的に極めて有利
C. APIマージン
- API価格:入力3ドル/100万、出力15ドル/100万(実コスト0.01ドル/3ドル程度)
- 粗利80~95%超、ソフトウェアビジネス並みの利益率
コスト構造の本質とビジネスインパクト
- 入力処理は事実上ほぼ無料、出力生成のみが高コスト
- この コスト非対称性 が強い収益性を生み、入力大量・出力少量の用途(コーディング、文書解析、リサーチ等)が極めて有利
- ビデオ生成 のように「少量入力→大量出力」な用途は逆にコストが非常に高く、価格が高止まりしやすい
AI推論コスト神話への警鐘
- 「AI推論は持続不可能なコスト構造」という主張は 既存大手の既得権益保護の側面も
- 実際は入力偏重のワークロードなら十分に高収益
- クラウド黎明期に「高コスト神話」によって寡占化が進んだ過去を再現しないためにも、 コスト構造の実態把握と透明化が重要
まとめ
- AI推論の計算コストは用途によって大きく異なる
- 入力大量・出力少量の用途では 粗利率が極めて高い
- 「AIは金食い虫」という言説は 誇張や既得権益保護の意図も
- 今後のAIインフラ市場でも コスト構造の透明性 が競争・イノベーションの鍵