世界を動かす技術を、日本語で。

プロマックス5倍のクオータが1.5時間で消耗、使用は控えめにもかかわらず

概要

  • Pro Max 5xプラン での Claude Code 利用時、 クォータの異常な早期消費 を報告
  • cache_readトークン が本来より高いレートでカウントされている疑い
  • バックグラウンドセッション による予期しないクォータ消費
  • 1Mコンテキストウィンドウ による消費加速
  • 改善提案 としてトークンカウント方法の明確化や可視化などを提示

Pro Max 5xプランにおけるClaude Codeのクォータ異常消費の詳細

  • クォータリセット直後、通常利用(Q&Aや軽度の開発作業)でも 1.5時間でクォータを使い切る現象
  • リセット前は 重度の開発作業 (複数ファイル実装やグラフパイプライン、マルチエージェント)で 5時間かけて消費、これは想定内
  • cache_readトークン本来の1/10レート でなく フルレート でカウントされている疑い
  • これにより プロンプトキャッシュのコストメリットが消失、クォータ消費が加速
  • 各APIレスポンスのusageオブジェクト からトークン消費を詳細に計測

計測結果の比較

  • ウィンドウ1(15:00-20:00/重度開発)

    • APIコール数:2,715
    • cache_read:1,044Mトークン
    • cache_create:16.8Mトークン
    • 入力/出力トークン:8.9k / 1.15M
    • ピークコンテキスト:966,078トークン
  • ウィンドウ2(20:00-21:30/通常利用)

    • APIコール数:222
    • cache_read:23.2Mトークン
    • cache_create:1.4Mトークン
    • 入力/出力トークン:304 / 91k
    • ピークコンテキスト:182,302トークン
  • 他のバックグラウンドセッション

    • token-analysis:296コール, 57.6M cache_read
    • career-ops:173コール, 23.1M cache_read
    • 合計:691コール, 103.9M cache_read

問題点の整理

  • cache_readトークンのカウント方法

    • 期待値:1/10レートでカウント
    • 実際:フルレートでカウントされている模様
    • 結果: 数百回のAPIコールで即座にクォータ枯渇
  • バックグラウンドセッションのクォータ消費

    • アクティブでないセッションでも 自動コンパクトやフック処理でAPIコールを継続
    • ユーザーが操作していなくてもクォータ消費が続く
  • 自動コンパクトによる消費スパイク

    • コンテキストが上限付近で 自動的に高コストなAPIコールを発生
    • ユーザー操作なしで大量トークン消費
  • 1Mコンテキストウィンドウの問題

    • 1回のAPIコールで最大約96万トークン消費
    • cache_readがフルレートカウントならキャッシュの意味が薄れる

再現手順

  • Opusモデルで Claude CodePro Max 5x プランで起動
  • ~/.claude/rules/に 約30ファイル(19kトークン固定オーバーヘッド) を用意
  • ツール多用プロジェクト で作業、/contextコマンドでコンテキスト増加を確認
  • 200-300回のツールコール後、クォータを確認→大幅に減少
  • 他のターミナルで2-3セッションを開いたまま にする
  • クォータリセット直後でも、アクティブ利用が少なくても短時間でクォータ枯渇

期待される動作・実際の動作

  • cache_readトークン1/10レート でカウントされるべき
  • バックグラウンド/アイドルセッション はクォータ消費が最小限であるべき
  • 自動コンパクト で極端なクォータ消費が起きないこと
  • Pro Max 5x通常利用で2-3時間以上持続 するべき
  • 実際は 1.5時間でクォータ枯渇バックグラウンドセッションが78%消費cache_readフルレートカウントが疑われる

改善提案・要望

  • cache_readのクォータカウント方法を明確化 :公式ドキュメントで明示
  • レート制限は実効トークン数で行う :cache_readは1/10レートでカウント
  • セッションのアイドル検出 :アイドル状態のセッションはクォータ消費を抑制、または警告表示
  • クォータ消費のリアルタイム可視化 :cache_read, cache_create, input, outputごとに分かりやすく表示
  • コンテキストサイズからクォータ消費を事前見積もり :操作前に消費予測を提示

まとめ

  • クォータ消費速度が異常 で、 cache_readのカウント方法 が主因と考えられる
  • バックグラウンドセッション自動コンパクト も消費加速要因
  • 改善にはトークンカウント方式の見直しと可視化、セッション管理の強化が必須

Hackerたちの意見

自分も下位モデルでも似たような問題を経験してる。公正な取引ってのは、交換される商品の公正で透明な測定が必要だよね。今月中にサブスクリプションをキャンセルするつもり。

そうそう、Claude Codeは「トークンを消費」して、コンピュータがスリープ中でもセッションを開始するんだ。何も始まってないのに、「今何時?」で10%も消費することもある。

元々の問題が実際の根本原因を指摘してるのに、Anthropicが「計画外でクローズ」しちゃったのが怖い。 https://github.com/anthropics/claude-code/issues/46829

その返答、全然意味不明だし、AIが書いたみたい。 > 3月6日の変更でClaude Codeが高くなるんじゃなくて、安くなるんだ。リクエストごとに1時間のTTLがあれば、むしろ高くつくかも。すごくAIっぽい。 > 1時間をデフォルトに戻すか、設定可能にする? どこでも1時間だとリクエストのミックスによって総コストが増えるから、グローバルなトグルは計画してないんだって。トグルを表示しないのは、何パーセントかのリクエストでコストが上がるから?

なんで怖がるの?ソフトウェアが悪くなったら、使うのやめればいいじゃん。

カジノがギャンブラーからたくさんお金を稼いでる時、顧客が負けることなんて気にしないよね。だって、機械はあなたに不利に設定されてるから。Anthropicは「トークン」という形で「知識」を売って、あなたはサイコロを振ったり、ルーレットを回したり、もう一度試すためにコインを入れたりしてお金を使う。後で制限を追加して、モデル(彼らのギャンブルマシン)を簡素化して、間違った答えにお金を払わせる。制限に達したり、Anthropicが使用制限を変更したりすると、彼らは気にせずに使用を一時停止する。もしそれが嫌なら、お金を節約してローカルのLLMを使えばいいよ。

このパーティーで音楽が徐々にフェードアウトして、明かりが点くのが怖い。ここ数年は、補助金付きのGenAIコンピュートの黄金時代だったかもしれないね。Google Gemini/Antigravityの範囲にいない人たちは、ここ1ヶ月ほどで、プロやウルトラの顧客(自分も含めて)に対する明らかな期待の裏切りに対して、Googleから軽蔑されているのを経験してる。 [1] 自分はGoogle Proのサブスクリプションを払ってるけど、なんかストックホルム症候群みたいなもんで、忠誠心とバグであってほしいという希望があるから。GoogleがGoogleで、良い製品を自ら焼き払うわけじゃないと信じたい。今はKiroをIDEに、CodexをCLIに使ってて、この新しい環境に満足してるよ。 [1] https://github.com/google-gemini/gemini-cli/issues/24937

まあ、最初からリアルな長期契約じゃないってのは明らかだったよね。過去1〜2年で、無料のコンピュート時代が終わったときに使えるようなライブラリを作ってきた。これが理にかなったアプローチだと思う。無料のトークンを使って、サービスが使えなくなった時に欲しいものを作る。もしサービスが消えたら、手でコードを書く楽しみが戻ってくるけど、夢見たビルディングブロックは手に入る。もし消えなかったら、無駄にはならないし、クールなライブラリは残る。

ライトが点灯してると=出力に広告が入るってこと。年末には最新の情報が出るけど、大きなコストを先延ばしにはできないよ。

結局、もっと効率的な技術やハードウェアが見つかって、AI企業が原子力発電所を所有するようになると思う。そして、今の10倍の能力を持つモデルを提供し続けるだろう。評価額はすでに、これらの企業が原子力発電所を運営し、新しいハードウェアや技術の開発を資金提供し、モデルの能力を10倍に引き上げることができるところまで達している。

そうだね、アンチグラビティはすぐにプロのクォータを使い果たしちゃうよ。$20/月のプランだと、1時間で使い切ることもあるし、その後5日間待たないとリフレッシュされない。だけど、フラッシュクォータはもっと寛大だと思う。STM32G474用のトリオドライブFOCシステムを作ってて、基本的にプロンプトを使って進めてるんだけど、5時間の時間枠内でフラッシュクォータを完全に使い切ったことはまだない。自分でやるよりもずっと早く作業が進むよ。問題を解決するためにいろいろ試してくれるから、根気強さが大きいね。完璧ではないけど、かなり良いと思う。デバッグや無駄になった試みから残ったゴミを片付けるために戻ってくることが多いけど、それでも最初から考えるよりはずっと楽だよ。最近までAIコーディングに懐疑的だった私が言うんだから、間違いないよ。先週末、友達からチュートリアルをもらって、AIにすべてをテストさせるように指示する必要があるって教えてもらった。ハードウェアインループのユニットテストを立ち上げることが、このプロジェクトの生産性の大きな転機になった。開発ボードの周辺機器も自分で配線して、ユニットテストが実際の外部デバイスに接続されているふりができるようにしたんだ。20年間プログラミングをしてきたから、AIが行き詰まっているときに手を差し伸べることができるのが助けになっていると思う。でも、まあ、これが私の経験だよ。フラッシュとプランモードだけを使っていて、$20/月のクォータを使い切ることもなく、自分で書いていたら3倍の速さで物事を進めていると思う。

同じくイライラしてるGoogle AI Proのサブスク仲間だよ!最初はGemini CLIとアンチグラビティの5時間制限がすごく気に入って、1年間分払ったんだけど、いい決断だと思ってたのに。その後の数ヶ月で、5時間の制限が大幅に削減されちゃって(今は存在すらしてないかも)、1-2時間で完全に使い切れる非現実的な週次制限が導入されて、月ごとのAIクレジットシステムも追加されて、どこでもウルトラにアップグレードするための広告が出るようになった。少なくともGeminiのモバイルアプリやウェブアプリは、プロジェクトの計画や日常的な使用にはまだちょっと役立つかな。ストレージも2TBから5TBに増えたけど、私にはそれすら使いこなせてない。

「ここ数年を補助金付きのGenAIコンピュートの黄金時代として振り返ることになるかもしれない。正直、ステロイドを使ったエンシティフィケーションに見える。」

Claudeも明らかに悪くなってる。正確なファイルを指示しても、5分以上も長い探索ループに入ることがある。30分後にはセッション制限に達しちゃう。そんなセッションが1日に3回もあったら、あっという間に週の制限の25%が消えちゃう。結局、$100のCodexプランを買ったけど、今のところ使用量も正確さもClaudeよりずっと良い。とはいえ、Codexにも問題がある。性格がちょっと癖があるんだよね。少しでも皮肉っぽくならないように、Agents.mdに余計な指示を追加しなきゃならなかった。あまりにもイライラしたから、「canonical」って言葉を使わないように明示的に伝えた。UI/UXの好みで言えば、今のCodexはClaude Codeの1月/2月の頃には及ばないと思う。あの頃のClaudeはもっと洗練されてた。でも、バックエンドのロジックやハードなデバッグ、複雑な問題解決に関しては、Codexの方が明らかに良い。最近はCodexの中でImpeccable Skillsetを使って、弱いUIの味を補ってるけど、Claude Codeの持ってた磨きや直感にはまだ及ばない。以前はClaude Codeの大ファンだったけど、今は良心を持って推薦できない。今のアドバイスはシンプルで、CodexとCursorの$20プランを試して、自分のワークフローや雰囲気に合う方を見つけてみて。

正確なファイルを指示しても、5分以上も長い探索ループに入ることがある。作業用にカスタムサンドボックスとコンテキストを与えて、必要ないときに無駄に動き回らないようにするべきだよ。AIエージェントのコーディングは、一般的にコンテキストやトークンを無駄に使うから(ほとんどの人がAIを使う方法と比べて)、改善の余地がたくさんあると思う。

Claudeは私にとっても明らかに悪化してる。私の経験はCC、Gemini-cli、Codexに限られてるけど、まだAiderは試してない。いろんなモデルの組み合わせを試してるけど、私の経験ではCCが他を圧倒してる。Cursorはどうなの?Aiderの組み合わせでうまくいった人いる?

先週、仕事で変な体験をしたんだけど、Claudeがタスクについてずっと考えてて、実際には何もしてなかった。使い物にならなかったよ。次の日にはまた普通に戻ったけど。

もう何ヶ月もCodex Businessのサブスクリプション(約30€)を使ってるけど、あそこでもクォータが削減されたんだ。数ヶ月前は限界に達するのが大変だったけど、今は楽になった。それでも、Claude Codeと比べるとCodexのクォータはかなりお得だよ。ただ、これ以上悪くしないでほしいな…

Codexは私には良いけど、ちょっと細かすぎるというか、過敏すぎる。いつも問題が起こらないように複雑さを加える変更をしたがるんだ(例えば、私が一つのインスタンスしか実行しないデーモンのマルチプロセスレースコンディションとか)。

Claudeは私にとっても明らかに悪化してる。正確なファイルを指摘しても、5分以上の長い探索ループに入ることがある。今、それを証明しようとしてるところ。思考中に信頼スコアがあるんだ。スコアが高すぎるとOpusはやめてしまうし、リアルな答えに近いスコアだと続ける。Haikuもこれをうまく処理する。Sonnetに難しいタスクを与えると、やめるべき時にやめない。でも、その問題はOpusで修正された。中程度から難しいタスクに対してOpusを使う速度が、HaikuやSonnetで実行するのと同じ価格かそれより安定していることを示そうと思ってる。簡単なタスク、つまり知られている忙しい作業は、Haikuで実行する方が安い。

製品のパフォーマンスが悪いのに、もっとお金を使えば解決すると思ってるの?いつになったら人々はこれがベンダーロックインと同じだと気づくんだろう? 「もっとお金を使えばマックスプランが良くなるかも」>いや、同じだよ 「プロンプトを変えればうまくいくかも」>いや、同じだよ 「このAPIで試せば改善するかも」>いや、同じだよ ClaudeやChatGPT、Geminiなど、これらの最先端モデルは慎重にトレーニングされていて、プラットフォームも「より良い」出力のためにお金を払わせるように設計されてる。 エコシステムに留まらせて、探索させるためなんだ。彼らの背後にある層が見えない理由もあるし、メジャーアップデートから2週間後にモデルが突然「悪い」とか「イライラする」理由もある。 それはA/Bテストと同じ理由で、あなたが文句を言うと、他の誰かは問題ないし、彼らが文句を言うと、あなたには問題がない。意図的に水を濁してるんだ。 これはあなたが何か間違ってるからじゃないし、スキルの問題でもない。顧客からできるだけ多くのエンゲージメントとお金を引き出すための慎重な戦略なんだ。 Call of Dutyで新しいガンスキンを買った人に、最初の数試合で簡単なマッチを提供するのと同じ理由だよ。 あなたがした唯一の間違いは、もっとお金を払って良くなることを期待したこと。良くならないよ、それが彼らの利益になるわけじゃないから。 人々を怒らせたり、時間を無駄にさせたり、他の人には問題がなくて、長く探索させたりすることで、投資家にAIツールの使用時間を見せることが彼らの利益になるんだ。 競合がより良い製品を出すと、これらの問題は消えるし、新しいモデルがリリースされると、こういう問題は存在しない。 私はClaudeにたくさんお金を払ってたけど、サブスクリプションを完全にキャンセルしたら、突然Sonnet 4.6がOpusみたいに動いて、同じ複雑さなのに1メッセージでクォータの10%を使うプロンプトがなくなったよ。

何か良い代替案ある?Geminiはプロジェクトには全然役立たない3歳児みたいだし、kimiとかでオープンコードを試した人いる?

ところで、何に使ってるの? ClaudeとCodexのためにMaxとProプランを買って、いくつかアプリを開発したけど、最初の興奮(「わあ、10倍早く結果が出る!」)の後、結局は私にとってマイナスだった。 結局、各モデルやツールの現在のクセを学んだだけで、プロセス全体を楽しめなかったし、結果も私の基準には満たなかった。 最終的にはこれらのプロジェクトを全部削除して、購読もやめたよ。

よくわからないな。先週、100ドルプランで多分5万のLOCを生成したけど(質の指標ではないけど!)、週の制限ギリギリだった。確かにいくつかのセッションではレート制限がかかったけど、それは予想通りだよね。みんなは何をしてるんだろう?制限を消費するのは?200ドルのプランを使い切るなんて、Claudeのコード自体をAPIとして使って大量処理する以外考えられないんだけど。基本的なコーディングではみんな何をしてるの?

私も同じ経験があるよ。地域的な問題かな?私はヨーロッパにいるから、アメリカの使用状況とはあまり重ならないし、アメリカの方がずっと高いだろうね。

レート制限にかかるとどうなるの?インスタンスがただ回ってるだけになるの?先週の木曜日、かなり厳しくレート制限されてた気がする。正直イライラしたよ、200ドルも払ってるのに。レート制限かけるなら、何をしてるのか教えてほしい。12時間かかるように見せるんじゃなくて、15分で終わるはずのことが。最悪なのは、結局それすら終わらなかったこと。

$100でも限界には達しないけど、claude-codeが常に壊れてる感じがするし、午後2時前にclaude-codeを使わないようにって曖昧なことも言われたから、もう期待しないようになって、最近はcodex-cliを使ってる。codexでは限界に達したことはないけど… codexは月20ドルで、$100じゃないから、Anthropicに使ってる$100をz.aiや他のツールの遊び金に移すことを考えてる。claude-codeは素晴らしいトレーニングホイールがあるけど(codexにはない)、トレーニングホイールが外れたら、claude-codeが今までのように信頼できなくなると、他の選択肢を考えざるを得なくなるね。

Anthropicは技術的にも組織的にも大きな成長痛を抱えてる。左手が右手が何をしているかわからない状態。混沌としていて、物事があまりにも早く変わりすぎて、私たちユーザーがその中で巻き込まれてる。Twitterのフェイルホエール問題みたいな感じ。運が良ければうまくいくし、そうでなければうまくいかない。なんで?それはAnthropicが解決するまでわからないし、外から見ると彼らが苦労しているのは確かに見える。

これがほとんどの人が直面している問題だよね。3月前には、一度だけレート制限に引っかかったことがあった。それは、いろんな角度から私たちのコードベース全体のセキュリティ監査を含んでた。今は、N/Aのビジネスアワー中に1時間も経たずに5時間の制限に達しちゃうことが多い。早朝か遅い時間に働かない限り、仕事でCCを使えない状況になってきたよ。

うん、時々$20/月のプランを使い切っちゃうことがあったから、$100/月のプランを試してみたけど、セッション制限に達したことすらないし、週次制限にも全然届かない。これが私が考える重い連続プログラミングをしているときでもね。多分$20のプランに戻るべきだな。間にもっと安いプランがあればいいのに、今のプランは人々に必要以上に買わせるためのビジネスのトリックなんだろうね。

$200プランで、すごく控えめな使い方(24/7じゃないし、毎日でもない、たぶん4日間で8-10時間くらい)。 突然、週の制限が96% (!)になって、複数のセッション制限、2つのデイリー制限がかかってる。内部で制限を大幅に減らしたか、何か壊れたかだね。 サードパーティのトリック(ヘッドルームとか)を全部試したし、200kのコンテキストウィンドウに切り替えたり、4.5に戻したりした。 4.5が助けになるといいけど、他の努力はあまり効果がなかったな。

問題をざっと見たけど、Anthropicがこれらのチケットをあまりアクションを起こさずに閉じるのも無理はないね。AIのゴミの壁みたいなもんだ。私が使用問題をほぼ解決するためにやったことはこれだよ:* すべてのセッションで最大思考をオンにする。無駄なエネルギーを使わせないから、トークンが全体的に節約できる。* アクティブセッションをアクティブに保つ。キャッシュが約5分で切れるみたいだから(特にピーク時に)。キャッシュが切れると、すべてのトークンを再構築する必要があるように見える。トークンの使用量が増えると特に悪化する。* 200kトークンに達したら、できるだけ早くコンパクトにする。データはないけど、長いセッションに入ると使用量が急増する。これが一番イライラすることだよ。Anthropicはみんなに1Mモデルを強制したから。

最近はすべてがAIのゴミみたいに感じる。これも含めて。

/model opus(または/model sonnet)で1Mをオフにできないの?少なくとも最近までは、1Mモデルは/model opus[1M]に分かれてたよね。

実際の問題は、彼らのキャッシュがランダムに無効化されるからで、それが200k以上の入力を再生するとすべての使用量を消費しちゃう理由なんだ。これは彼らのシステム内のバグで、認めようとしないんだよね。私の推測では、APIクライアントがサブスクリプションユーザーのキャッシュを早めに切り捨てるから、もしそうならそれはバグじゃなくて機能なんだろう。彼らは静かに使用する入力トークンの消費量も増やしたから、二重のダメージだよ。

  • すべてのセッションでマックス思考をオンにする。 無駄なエネルギーを使わせないから、全体的にトークンを節約できるよ。 これは確かにそうだね。/effort maxオプションに気づいてから、あまり戦わなくなったし、時間を無駄にしなくなったよ。

いくつかのコメントが「マックス思考をオンにしろ」と言う一方で、他のコメントは「思考を完全にオフにしろ」と言ってるのが面白いね。 どうやら、両方ともトークンを節約するらしい!雰囲気、確かに。

もし役に立つなら、バージョン2.1.34に戻したよ。追加した~/.claude/settings.jsonの内容は以下の通り:"effortLevel": "high", "autoUpdatesChannel": "stable", "minimumVersion": "2.1.34", "env": { "DISABLE_AUTOUPDATER": 1, "CLAUDE_CODE_DISABLE_ADAPTIVE_THINKING": 1 } それから、以下のこともやったよ:1. /.local/share/claude/versions/の中の2.1.34以外のすべてのバージョンを削除。2. ~/.local/bin/claudeをclaude -> ~/.local/share/claude/versions/2.1.34にリンク。これでクォータの問題がすぐに解決したみたい。私は強い使用期間(夜や週末)と全く使わない期間(仕事中)があるんだけど、これらの変更をする前はすぐにクォータがなくなってた。今は同じ$100のプランを使ってるけど、適応思考の設定がこのバージョンに関連しているかはわからないけど、将来的にはクォータやキャッシュの問題が解決されれば役立つと思う。Codexに切り替えることも真剣に考えてるけど、今まで試した中でGeminiはかなり遅れてるね。

~/.bashrcに以下を追加したよ export CLAUDE_CODE_MAX_OUTPUT_TOKENS=64000 export MAX_THINKING_TOKENS=31999 export DISABLE_AUTOUPDATER=1 export CLAUDE_CODE_DISABLE_ADAPTIVE_THINKING=1

これを返信に書いたけど、一般的なコメントとしても投稿するね: これらのサービスの購読をやめて、どうなるか見てみて: 「もっとお金を使えばマックスプランが良くなるかも」>いや、同じだよ 「プロンプトを変えればうまくいくかも」>いや、同じだよ 「このAPIで試せば改善するかも」>いや、同じだよ ClaudeやChatGPT、Geminiなど、これらの最先端モデルは慎重にトレーニングされていて、プラットフォームも「より良い」出力のためにお金を払わせるように設計されてる。 エコシステムに留まらせて、探索させるためなんだ。彼らの背後にある層が見えない理由もあるし、メジャーアップデートから2週間後にモデルが突然「悪い」とか「イライラする」理由もある。 それはA/Bテストと同じ理由で、あなたが文句を言うと、他の誰かは問題ないし、彼らが文句を言うと、あなたには問題がない。意図的に水を濁してるんだ。 これはあなたが何か間違ってるからじゃないし、スキルの問題でもない。顧客からできるだけ多くのエンゲージメントとお金を引き出すための慎重な戦略なんだ。 Call of Dutyで新しいガンスキンを買った人に、最初の数試合で簡単なマッチを提供するのと同じ理由だよ。 もっとお金を払うのをやめて、これらのプロマックスプランを買うのをやめて、良くなることを期待するのをやめよう。良くならないよ、それが彼らの利益になるわけじゃないから。 人々を怒らせたり、時間を無駄にさせたり、他の人には問題がなくて、長く探索させたりすることで、投資家にAIツールの使用時間を見せることが彼らの利益になるんだ。 競合がより良い製品を出すと、これらの問題は消えるし、新しいモデルがリリースされると、こういう問題は存在しない。 私はClaudeにたくさんお金を払ってたけど、サブスクリプションを完全にキャンセルしたら、突然Sonnet 4.6がOpusみたいに動いて、同じ複雑さなのに1メッセージでクォータの10%を使うプロンプトがなくなったよ。

Codexは時々冷たい感じがするね。すぐに友達にはなれないなって分かる。なんか、他の部署の優秀な社員が、貴重な時間をちょっと貸してくれてるだけって感じ。Codexからは「俺の時間を無駄にしてる」って印象を受けるんだ。助けてくれるけど、心の底では本当は助けたくないし、一緒に成功することなんてどうでもいいんじゃないかな。つまり、友達よ、Codexを使ってると、あんまり好かれてない気がするし、心の底では本当に助けたくないんだろうなって思う。もっとやるべきことがあるんじゃないかな。一方で、Opusを赤ちゃんビリー・フリーマンのキャラで使うのは、今までで一番楽しいよ。

みんな、Claude Codeチームのボリスだよ。これらの報告を調査していて、いくつかの主要な問題を見つけたよ。1. 1Mトークンのコンテキストウィンドウを使っているときのプロンプトキャッシュミスが高コストになる。Claude Codeはメインエージェントに1時間のプロンプトキャッシュウィンドウを使っているから、1時間以上コンピュータを離れると、古いセッションを続けるときにキャッシュミスが発生しやすいんだ。これを改善するために、いくつかのUX改善を行った(例えば、長い古いセッションを続ける前に/clearを促すようにしたり)。また、デフォルトで400kのコンテキストに切り替えることを検討していて、希望があれば最大1Mまで設定できるオプションも用意する予定だよ。今すぐこれを試したいなら、CLAUDE_CODE_AUTO_COMPACT_WINDOW=400000 claudeを試してみて。2. 大量のスキルを引き込んだり、多くのエージェントやバックグラウンド自動化を実行している人がいて、これは大量のプラグインを使っているときに起こることがある。これが意外と多くのユーザーに当てはまっていて、我々は(a)これらのケースをユーザーにもっと見えるようにするためにUXを改善することと、(b)サプライズトークン使用を避けるために、非メインタスクをより賢くトランク、プルーニング、スケジューリングすることに取り組んでいるよ。その過程で、多くの仮説を排除した:適応的思考、他の種類のハーネス回帰、モデルと推論の回帰。引き続き調査と優先順位付けを進めているよ。これに直面している人にとって最も実行可能なことは、/feedbackを実行して、オプションでフィードバックIDをここかGithubの問題に投稿することだね。そうすることで、特定の報告をデバッグすることができるんだ。