世界を動かす技術を、日本語で。

「Claude Opus 4.7」はセッションごとに20〜30%のコスト増加

概要

Anthropic Claude Opus 4.7の新トークナイザーは、4.6よりも1.3〜1.45倍多くトークンを消費。 実際の技術文書やコードで上限値に近いトークン増加を確認。 料金やクォータは据え置きだが、1セッションあたりのコストが20~30%増加。 厳密な指示遵守率は+5pp向上したが、効果は小さい。 用途によってコスト増に見合うかは異なる。

Claude Opus 4.7 トークナイザー移行の実態

  • 新トークナイザー は4.6より 1.3~1.45倍多くトークンを消費 (公式ガイド記載より高い実測値)
  • CLAUDE.mdファイル技術ドキュメント で1.45~1.47倍の増加を確認
  • 英語・コード中心の実用データ で1.325倍、 CJK(日本語・中国語) では1.01倍とほぼ変化なし

サンプルごとのトークン増加率

  • 英語技術文書: 1.47倍
  • Shell script: 1.39倍
  • TypeScriptコード: 1.36倍
  • Markdown(コード含む): 1.34倍
  • Pythonコード: 1.29倍
  • JSON: 1.13倍
  • 日本語・中国語: 1.01倍

トークナイザーの変化内容

  • 非ラテン系(CJK等) は変化が小さい
  • 英語・コード は短いサブワード単位で分割される傾向
  • コード は頻出パターンが多いため、トークン増加の影響が大きい

コスト増加の具体例

  • セッション単位のコスト:
    • 4.6: 約$6.65
    • 4.7: 約$7.86~$8.76(20~30%増加)
  • 最大プラン利用者レートリミット に先に到達する可能性が高まる
  • キャッシュヒット率キャッシュ無効化時 のコスト増加も顕著

指示遵守率の変化

  • IFEvalベンチマーク による評価
    • 厳密な指示遵守率 が+5pp向上(4.6: 85%、4.7: 90%)
    • 大きな劇的改善 ではなく、小幅な向上
    • 複数制約があるプロンプト で4.7が優位

コスト増加の内訳と影響

  • キャッシュリード がコストの大部分を占める
  • 出力量 が増えると、さらにコスト増加
  • キャッシュ無効化イベントモデル切替 時は特にコスト増

結論:コスト増加に見合うか?

  • 英語・コード中心の利用 では 1.3~1.45倍のトークン増加 を想定する必要
  • 指示遵守の向上 は+5pp程度の小幅な改善
  • 20~30%のセッションコスト増加 が許容できるかは、ユーザーの用途次第
  • 厳密な指示遵守が重要 なケースでは価値があるが、 コスト重視 なら影響大

Hackerたちの意見

LLMは、対数的なパフォーマンス/コストのフロンティアに存在してるんだよね。Opus 4.5+がこのフロンティアでのレベルシフトを示しているのか、それとも単に高いパフォーマンスを提供する位置にいるだけなのかは、ちょっと不明だな。でも、推論コストに対するリターンが急激に減少しているのは確か。今のところ、この仮説を否定するのは難しいと思う。Anthropicが急速に価格を上げようとしているのは、最近のリードが劇的に高い運営コストの代償であることを示しているかもしれないね。この前の四半期の粗利益率は、重要なデータポイントになると思う。モデル評価のグラフがコスト/トークンの対数をx軸に表示する傾向(例えばArtificial Analysisのサイト)が、このダイナミクスを見えにくくしている気がする。

彼らはIPOに近づいていて、ユーザーベースも増えてるからね。IPOの目論見書で他の人の何十億ものお金を失う理由を正当化できない。だから、ユーザーあたりの収益を増やそうとする圧力があって、これがモデルを運営する本当のコストに近づいているんだ。

ここでToby Ordの研究を参照したかったんだ。彼のパフォーマンス/コストのフロンティアの枠組みは、もっと注目されるべきだと思う。

Anthropicが急速に価格を上げようとしているのは、最近のリードが運営コストの大幅な増加を伴っている可能性を示唆しているか、もしくはOpenAIのように異常な資本を燃やすつもりがないだけかもしれない。

まあ、これらのモデルを運用するコストが単純な推論コストだけじゃないっていうサインはあったよね。実際、アンソロピックのコストは多くの人が言うほど簡単じゃないっていうのも、今でもそうだと思う。だから、この値上げには全然驚かないよ。いつか来るだろうとは思ってたし、まだまだ終わってないんじゃないかな。2、3年後には「マックス」プランが800ドルとか2000ドルになるかもしれないね。

昨日、週間の制限がリセットされたのが嬉しかったんだ。[1] それで、たくさんモックアップ作業をしてるから、HTMLもたくさん書いてるんだけど、1Mトークンのやつは本当にトークンをめちゃくちゃ消費してる気がする。もう1日で週間制限の27%に達しちゃったよ。

俺も似たような感じだな。トークンをめちゃくちゃ使うし、指示に従うROIがよくわからない。ちょっと幻覚を見てる感じがする(経験談だけど)。

俺は逆のことを感じてる。Opus 4.7とxhighを使ってるけど、セッションの使用が減ってるし、動作も速くなってる。Team Proアカウントでの週間使用量もあまり変わってないよ。

4日間の労働週!

今22%だよ、タスクは2つだけ。バグ修正とスカラー統合。

もう1日で週間制限の27%に達しちゃった。痛いな、これは全然違う体験だね。どのくらいの努力レベル?セッションコンテキストの使用を350kくらいに抑えるように気をつけてる?

個人的には、モデルの品質が徐々に向上しても、限界があると思う。8Kディスプレイと16Kディスプレイを比較するようなもので、通常の視距離では違いがほとんどわからないけど、16Kはかなりのプレミアムがかかる。知能にも同じことが言える。確かに、一部のユーザーは意味のある向上を感じるかもしれないけど、99%の人が日常の仕事で違いを感じられないなら、それって重要なのかな?20-30%のコスト増加は、感じられる価値の比例した飛躍をもたらす必要があるよね。

Hacker Newsで議論の続きを見る