世界を動かす技術を、日本語で。

Anthropicは3月6日にキャッシュTTLを引き下げました

概要

Anthropicが2026年3月初旬に Claude CodeのプロンプトキャッシュTTLデフォルト1時間から5分へ変更 したことを示す詳細分析。 この変更により キャッシュ作成コストが20–32%増加、サブスクリプションユーザーのクォータ消費も急増。 1時間TTLが本来の意図 だった可能性が高く、3月の変更は サーバーサイド設定の回帰 と推測。 コスト・クォータ影響は TTL階層に完全依存、利用量やモデル種別には非依存。 元の1時間TTLへの復帰 または ユーザー設定可能化 を要望。

Claude CodeプロンプトキャッシュTTL変更の経緯と影響

  • 2026年1月11日~4月11日 にかけての Claude CodeセッションJSONLファイル を分析
  • AnthropicがプロンプトキャッシュのTTLデフォルト1時間→5分 にサイレント変更
  • 変更時期は2026年3月6日~8日ごろ、両OS・別アカウントで同一挙動を確認
  • 1時間TTL時代(2月) はキャッシュ再作成コスト・クォータ消費が最小
  • 5分TTL化以降、キャッシュ作成コストが 20~32%増加 し、サブスクユーザーの クォータ消費も急増
  • キャッシュ作成(write)キャッシュ読み出し(read)12.5倍高額、再作成が多発するとコスト爆発
  • ロングセッション用途 が多いClaude Codeでは 5分TTL は極端に不利
  • 1時間TTL時代ほぼ無駄コストなし (2月は1.1%のみ)、他の月は 15~53%が無駄コスト
  • サブスクリプションユーザーのクォータ制限到達 も3月以降に初めて発生

フェーズ別TTL挙動

  • Phase 1(1/11–1/31): 5分のみ(1時間TTL未実装時期)
  • Phase 2(2/1–3/5): 1時間のみ(安定運用、意図的なデフォルトと推測)
  • Phase 3(3/6–3/7): 5分トークン再出現、混在開始
  • Phase 4(3/8–4/11): 5分TTLが大多数、1時間TTLは少数派または消滅

コスト分析(公式価格適用)

  • Sonnet/Opus両モデルTTL階層の違いのみがコスト差を生む
  • 1時間TTL時代(2月) は無駄コストほぼゼロ
  • 5分TTL化以降17.1%(全期間平均) のコスト増
  • キャッシュ再作成が多発キャッシュ読み出しより12.5倍高額

クォータ影響

  • キャッシュ作成トークンクォータ消費が大きい
  • キャッシュ読み出しトークン は消費係数が低い(詳細調査中)
  • 5分TTL化でクォータ制限到達ユーザー急増

根拠と仮説

  • 2月の1時間TTL運用33日間連続で5分トークンゼロ、意図的運用の強い証拠
  • 3月6日以降の急激な5分化サーバー設定変更 の可能性が高い
  • クライアント側・利用パターン・バージョンの変更なし
  • サーバーサイドのみでTTL階層決定

要望・リクエスト

  • Anthropicによる公式説明 (TTLデフォルト変更の有無と意図)
  • Claude CodeのTTLデフォルト方針の明示 (5分が恒久デフォルトか、1時間復帰の予定はあるか)
  • 1時間TTLへの復帰 または ユーザー設定可能化 の検討
  • キャッシュ読み出しトークンのクォータ消費係数の開示

分析手法

  • 生データ: ~/.claude/projects//*.jsonl(Claude Codeのセッションログ)
  • 抽出条件: type: "assistant" かつ message.usage.cache_creationあり
  • 外部ツール・プロキシ未使用、Claude Code自身のログのみ利用
  • 分析ツール: cnighswonger/claude-code-cache-fix quota-analysis --source mode
  • 価格情報: 2026-04-09時点のAnthropic公式rates.json

Claude Code TTL問題に関する考察と今後の提案

  • 長時間・高文脈セッション を多用するClaude Codeユーザーにとって 5分TTLは不利益
  • サイレントなサーバー設定変更 はユーザー体験・コスト管理の観点から問題
  • TTLデフォルトの透明性向上ユーザー側でのTTL選択権 が望ましい
  • クォータ消費ロジックの詳細開示 により、ユーザーが利用計画を立てやすくする配慮も必要

Hackerたちの意見

これはAnthropicのピーク時間発表(3月26日)と一致してるね。スロットリングは、TTLのリグレッションによってインフラの負荷が増えたことへの反応の一部かも?

もしそうだったらめっちゃ面白いね。彼らはインフラを「雰囲気」でコーディングして、その負荷に対する反応も「雰囲気」でコーディングしてるってことだ。

タイトル変えた方がいいよ。まるでTTLを1時間から5ヶ月に上げたみたいに見えるし。分のSI記号は「min」だよ、「M」じゃない。OPの表記「m」を使うのが妥協案かな。

同意だわ。最初の反応は「‘M’って何だよ?」だった。

今は全モデルで車洗いの質問に普通に失敗してるし、1ヶ月前はそんなことなかったのに。:-/ 努力セレクターが意図通りに機能してないみたいで、モデルが他の面でもリグレッションしてる。問題が「難しい」って過剰に強調して、解決するのに「時間」がかかるから避ける選択をしてる感じ。人間の努力で引用されることもあるし、ハックやクルージュが多い解決策でも「簡単な」道を提案してる。

すごい、車洗いの質問について知らなかった。ほんとその通りだし、トークンがすごく早く消費される気がする。もっと並列処理ができればその一因かもしれないけど、1ヶ月前の最大プランでは3〜5プロジェクト同時に進められたのに、今は同じOpusモデルで1つも完成できないまま5時間のセッションでロックされちゃう。

「問題がどれだけ『難しい』かを過剰に強調して、解決を避けることを選ぶ」 しばらく前に聞いたんだけど、Claudeが数日間タスクを試みるのを拒否して、「数週間の作業が必要だ」って言ってたんだ。結局、ユーザーが説得して試させたら、30秒で一発で解決したらしい。

ちょっと話がそれるけど、Codexは今めっちゃ素晴らしいよ。1週間前にClaudeから切り替えてからずっと感動してる。

数ヶ月前にこの切り替えをしたけど、ChatGPT 5.4が賢いモデルなのに、最近は5.4でも劣化を感じることが多い。今は使用量がすごく増えてるから、両社でどんな最適化をしてるのか分からない。

Codexは品質的には良いけど、Codexチームのサブスクリプションの制限にすぐにぶつかっちゃって、逆に手間がかかる感じになってる。

Codexに切り替えたいけど、Altmanが完全にサイコパスだし、OpenAIは倫理的なビジネス慣行がまったくないから、良心的にできないんだよね。Anthropicが倫理的だなんて幻想は抱いてないけど、OpenAIよりはマシだと思う。

数週間前にClaudeからCodexに切り替えたよ。エージェントに集中した作業だけさせることにしたら、必要なコンテキストが少なくて済むし、レビューも楽になった。そしたらCodexが同じクオリティを提供できることに気づいたし、トークン単位じゃなくてサブスクリプションで支払えるのもいいね。

家ではCodexを使ってて、仕事ではOpusを使ってる。どっちも素晴らしいよ。

今、「おもちゃの3D Vulkan Physx」みたいなものを「作業中」なんだ。シンプルなレイキャスト車両があって、PhysX5の組み込みのやつに置き換えようとしてる(https://nvidia-omniverse.github.io/PhysX/physx/5.6.1/docs/Ve...)。サンプルのスニペットやウェブドキュメントを指し示してるけど、生成されるコードが全然動かない、Codex 5.4 xhighよりもOpus4.6の方がちょっとだけマシだけど、まだほとんど役に立たない。ここや他のところでの成功ストーリーを読んで、もしかして使い方が間違ってるのか、それともまだすべてを解決できないのか疑問に思ってる。

他のエンジニアとClaude/Codexについて話すとき、数ヶ月前と比べてかなりの感情の変化を感じた人いる?特にこれらの変化が秘密/隠された性質のせいで。みんなが元々払った製品を手に入れてるのか、それとももっと弱いものを手に入れてるのか全く分からないって感じてる気がする。この感情がどんどん広がってるみたい。最近Anthropicの名前を聞くと、ほぼいつもネガティブな文脈で出てくる。

それ、俺も見たことある。クレームが本当にClaudeの隠れた弱体化によるものなのか、それともOpus 4.6の最初の感動が薄れてきて、みんながミスに気づき始めてるだけなのか、判断が難しいね。

まだまだ「俺の仲間の多国籍企業を放っておいて」みたいなコメントも多いけど、それって企業が愛する顧客をもっと搾取してもいいって意味だよね。

Claudeにサブスクした後、ある時点で推論能力が大幅に落ちたのは確かだね。それ以来、適応思考を無効にしたり、思考トークンを最大にしたり、Gistからのアドホックシェルスクリプトでシステムプロンプトを修正したり、いろいろな修正を試してみたけど、それでもOpusは時々論理的にぐるぐる回って、常に「待って、いや」と自己修正して、結局何も成果がないまま100kトークン使ったところで元の位置に戻っちゃう。バグのせいなのか、意図的に劣化させられてるのか、プラセボなのか、それともただのOpenAIの心理作戦なのか、全然分からないよ。

うーん、ぱっと思いつくのは: - OpenClawユーザーの禁止(もちろん権利内だけど、印象は良くないね) - 一般的なサードパーティのハーネス禁止(同じく)(claude -pはサブでまだ使えるけど、実際に使ったらAnthropicのアカウントが消される気がする。これについてもう少し明確にしてほしいな。Telegramボットから呼び出したら、それは無許可のサードパーティハーネスになるのかな?) - 推論の手間を減らす(それからここで「最も価値のある顧客には非制限の体験を提供するように努力します」って言ってるのが見える(ちょっと言い回しを変えてるけどw)) - 使用量が大幅に減少(バグらしい?)この前、同じタスクでClaudeの使用量がCodexの21倍になった。 - Claudeアプリでのレスポンスの長さが急激に短くなったのに気づいた。Claudeに聞いたら、推論の手間を減らすことや、レスポンスをできるだけ簡潔に保つことに関するいくつかのことをシステムプロンプトで言ってた。状況的にはすべてが「コスト削減に必死」って方向を指してる。Claudeが大好きだし、すぐに切り替えるつもりはないけど(使用制限があるから最近はCodexをコーディングに使うことが増えてる)、最近友達に勧めるのが難しくなってきた。友達には「2週間前までは最高の選択肢だったんだけど…」って言ったんだけど、今はどうなるかわからない。

1ヶ月前、400人以上のエンジニアがいる会社が、すべてのIDEのサブスクリプション(Visual Studio、JetBrains、Windsurfなど)をキャンセルして、みんなをClaude Codeに移行することにしたんだ。「コスト削減策」としてね(テストエンジニアもたくさん解雇された)。移行計画はなくて、技術EVPが週末にClaude Opusで作った2つのグリーンフィールドプロジェクトをデモして、みんなにそのやり方をコピーするように言った。1週間後、EVPは「Opusの使用をやめてくれ」ってメールを送らなきゃいけなかった。トークンを使いすぎてたから。切り替えてから、Claudeは毎週弱体化してる気がする。今、EVPはどう感じてるんだろう。

僕の仮説は、すべてのモデルは大体同じで、品質のばらつきは主に考える時間に依存してるってこと。だから、常に最大に設定して、「これは非常に複雑なタスクです。徹底的な深い思考とリサーチなしには完了しないでください」みたいなことから始めるのがコツだよ。モデルにもっと考えさせるために戦ってる感じで、デフォルトがコスト削減のためにどんどん弱体化してるからね。

いつかこれらのAI企業は、投資家に対してリターンを提供するために代償を払わなきゃいけなくなるだろう。反発が十分に大きくなければ、コスト削減の試みは続くと思うよ。

Anthropicは、過去数年の古い技術の巨人たちがやってきた「テクノロジーの家賃を取るゲーム」をしているみたいだね。新しいAIの時代が新鮮な風をもたらすかと思ったけど、その楽観主義はすぐに消えちゃったのかな。

これまでのところ、私の頼りにしているプロバイダーだったんだけど、先月始めたちょっとしたサイドプロジェクトで異常に高い使用率に気づいたんだ。自分の興味のあることを学びながら日常の責任を果たすために(既存のパーケットファイルからアイスバーグデータレイクを作成する)、1ヶ月分の企業サブスクリプションのトークンを3日で使い切っちゃった。こんなの見たことなかったから、Claudeに深入りするのがすごく不安になったけど、他のモデルにはあまり感心しなくなった。

開発者って、頑固で、知ったかぶりの厳しい連中だよね。

Anthropic、せめてクオリティを戻すオプションをくれよ。200ドルのサブスクリプションが最終的に無理なのは分かるけど、1000ドルのティアにサブスクリプションするオプションをくれるか、APIティアを使えって言ってくれ。もう少し一貫性が欲しいんだ。

これ。Claude Codeのサブスクリプションから得られる価値は90€以上だよ。安定性のためにもっと払うつもりだし、いつも後ろを気にしなくて済むのがいいからね、裏切られるかもしれないし。

シェフがいて、レストランをオープンしたんだ。美味しい料理が出てくるけど、材料費だけで彼が取る料金よりも高くついちゃう。さらに、擬似無制限のビュッフェやコンボセット、ハッピーアワーも提供してる。新しいレストランを発表したみたいで、今度はもっと良くなるらしいけど、ちょっと心配してるみたい。ビジネスパーティー用にいくつかの企業を選んでいる間に、食べ過ぎるビュッフェ利用者には厳しくなって、材料を通知なしでダウングレードして、やっと利益を出そうとしてるんだ。

まさに資本主義の縮図だね。

これの副作用としては、1時間のキャッシングでも… セッションのクォータがすぐに足りなくなって、作業を再開するのに1時間以上待たなきゃいけない場合… その作業を再開するためにさらにペナルティを支払うことになるんだ。これは、最初からセッションのクォータがそんなに制限されてなければ必要なかったペナルティで、そのせいで次のセッションのクォータをさらに早く消費しちゃう。悪循環になって、ユーザー体験がすごく悪くなってる気がする。3月中旬には、Claude Code with Proがほぼ使えなくなったのを覚えてる。セッションのクォータが最初の1時間以内に切れちゃって、初めの3月とは全然違う体験だった。

最近のDwarkeshポッドキャストから見ると、Anthropicは計算リソースを買ったり作ったりすることに慎重になっているみたいだね。それは、需要が急増したときに計算使用を最小限に抑えようとしているってことだろう。ポッドキャストの議論に従うと、スレッドの中で提案されているようにお金を投入しても、短期的には問題は解決しないと思う。

これ、特にバリデーションステップ(例えば統合テスト)が1時間以上かかるときは厳しいよね。ハーネスはただ待ってるだけで、プレフィックスキャッシングはハーネスからのちょっとした新しい出力のチャンクでスムーズに再開できるはずなのに、バン!って全く新しいプレフィルができちゃう。