世界を動かす技術を、日本語で。

GPT-5.5の価格上昇:そのコストとは

2026年5月8日原文(openrouter.ai)

概要

  • GPT-5.5 の料金が 2倍 に値上げ
  • 出力トークン数 が長文プロンプトで 19〜34%削減
  • 実際のコスト増加は 49〜92%
  • 短いプロンプトでは コスト効率悪化
  • 同一ユーザーによる 比較分析 を実施

GPT-5.5価格改定と実コスト影響

  • GPT-5.5GPT-5.4 と比べて 入力トークン単価が$2.50/Mから$5.00/M出力トークン単価が$15/Mから$30/M に上昇
  • OpenAI は「 冗長性が減少し、同じタスクでも短い出力」と説明
  • Opus 4.7 時と同様、 5.4から5.5へ移行したユーザー を対象に 実コスト比較
  • コスト増加幅は49%〜92% で推移
  • 長文プロンプト では 19〜34%出力トークン削減 により一部コスト増を緩和
  • 短文プロンプト では出力トークン数が減少せず、コスト増加が顕著

分析手法と検証方法

  • Opus 4.7分析 と同じ「 スイッチャーコホート」手法を採用
    • GPT-5.4 を主に使っていたユーザーが GPT-5.5 へ移行したケースを抽出
    • ユーザー・ワークフロー・トークナイザー は同一条件
  • OpenRouterトークンカウント を基準に比較
  • プロンプト長別 に、出力トークン数とコストを集計

出力トークン長の変化

  • 10Kトークン以上の長文19〜34%出力トークン減少
  • 2Kトークン未満 では 出力長ほぼ変化なし
  • 2K〜10Kトークン では 52%出力増加 という逆転現象も観測

実コストの詳細

  • プロンプト長別のコスト比較(1M OpenRouterトークンあたり)
    • <2Kトークン :$4.89(5.4)→$9.37(5.5)、 +92%
    • 2K〜10Kトークン :$2.25→$3.81、 +69%
    • 10K〜25Kトークン :$1.42→$2.15、 +51%
    • 25K〜50Kトークン :$1.02→$1.65、 +62%
    • 50K〜128Kトークン :$0.74→$1.10、 +49%
    • 128K+トークン :$0.71→$1.31、 +85%
  • 長文プロンプト では出力短縮によるコスト増緩和
  • 短文プロンプト ではコスト増加が顕著

分析条件・データソース

  • データ出典 :OpenRouterリクエストログ
  • コホート :GPT-5.4からGPT-5.5に乗り換えたユーザー
  • サンプル :テキストのみ、キャンセルなしリクエスト
  • 期間 :GPT-5.4(2026年4月21~23日)、GPT-5.5(2026年4月25~28日、ローンチ日除く)
  • 正規化 :OpenRouterトークン単位でプロンプト長ごとにバケット化
  • 除外条件 :メディア(画像・音声・動画・ファイル)、キャンセル、ゼロトークンリクエスト

まとめ

  • GPT-5.5値上げ出力長短縮 により、 長文プロンプト ではコスト増を緩和
  • 短文プロンプト では 大幅なコスト増 が発生
  • 利用パターンによってコスト効率が大きく変動

Hackerたちの意見

これって、ターン数を全然考慮してないように見えるけど、何か見落としてる?タスクを達成するのに少ないターンで済む強力なモデルって、エージェントコーディングの効率向上にとって重要な要素だと思うんだけど、個々のレスポンスが短いよりもね。

サンプルサイズや入力とレスポンスの長さの分布についても言及してないよね。もし著者がデータをプロットしてくれたら、分布がどうなってるのか見てみたいな。ggplot2のgeom_densityを使って、モデルごとに色と塗りつぶしを設定して、0.1のアルファと適切なバンド幅調整をすれば、入力データの分布が二つのモデルで似てるかどうか分かるし、出力長の分布も同じように入力長のビンでファセット化すれば、そっちも似てるかどうか分かると思う。編集:出力長/入力長の入力ビンを使ったファセットプロットでもいいかも。

目標に対してテストすべきだと思う。例えば、「このパズルを解け」とか「このコードを直してテストを通せ」とかね。(人間が確認できるから、インチキはないよ)。

OpenRouterは何百ものリクエストを投げられるかもしれないけど、「午後4時のこの50件のリクエストはタスクA用」、「あの100件のリクエストはタスクB用」とか、そういうことは全然わからないんだ。だから「全体のリクエストの形状」レベルでの浅い分析になってる。

2023年以降、価格と「出力」を時間ごとにグラフにしたハッカーっている?「品質」を考慮に入れると、かなり難しい分析になりそうだけど、きっとそれを明確にしようとしてる人もいるはず。

品質って、与えられたベンチマークに対するパフォーマンスのことだよね?家の標準的なコンピュータで動かせるオープンウェイトモデルがいくつかあって、GPT-4の品質に匹敵するんだ。これも方程式を変える要素になると思う。

プロプライエタリモデルを比較するものは、かなり誤った調整になってるだろうし、指標にならないかも。チャットやAPIでモデルの変更が多すぎて、モデル提供者が気づく前に変わっちゃったこともあったし。

人工分析には知能のベンチマークがあるよね。

最近のLLMの進化って、直感的な質的飛躍を提供してない気がする。もうボトルネックに入っちゃったのかな?

僕の考えでは、需要も増えてるから、モデルの品質を少しずつ改善しつつ、推論コストの改善に集中してるのかも。価格は上がってるけど、たとえ非常に効率的なモデルを実現しても、まだ赤字で売ってるからね。

5.5は5.4や5.3とは質的に違うと思う。違いを一言で言うなら、5.5はこっちが求めてることをもっとちゃんとやってくれる感じ。5.4は「続けて」って言わないといけなかったけど、5.5はちょっと「わかってる」って感じ。結局、値段は高いけど、5.4や5.3を高めに使うより、5.5を低めで使いたいな。

gpt-5.5をxhigh reasoningで動かしてるの? 5.4のxhighと比べて明らかに違いが見えるんだけど。

Hacker Newsで議論の続きを見る