高速モードで応答を迅速化する

2026年2月8日原文(code.claude.com)

概要

Fast mode はOpus 4.6の応答速度を向上させるが、トークン単価も高くなる /fast コマンドでオン・オフ切り替え、インタラクティブな作業に最適品質や機能は通常モードと同じ、API設定のみ異なる利用には追加使用量の有効化と管理者設定が必要価格、利用条件、切り替え方法、利用シーンなどを解説

Fast modeの概要と特徴

Fast mode は Opus 4.6 の応答速度を優先するAPI設定
/fast コマンドで有効化、 Claude Code CLI や VS Code Extension で利用可能
応答品質や機能は通常モードと同じ、速度のみ向上
料金は トークン単価 が高くなる設計
Fast modeは Opus 4.6 専用機能、他モデルでは自動的にOpus 4.6へ切り替え
↯アイコン でFast modeの有効状態を表示
期間限定で 50%割引 （2024年2月16日23:59 PTまで）
Pro/Max/Team/Enterprise などのサブスクリプションプランおよび Claude Console で利用可能
サブスクリプションの利用枠には含まれず、 追加使用量（extra usage） のみで利用

Fast modeの切り替え方法

/fast と入力しTabキーでオン・オフ切り替え
ユーザー設定ファイルで "fastMode": true を指定
Fast modeの設定はセッションをまたいで持続
セッション開始時にFast modeを有効化することでコスト効率向上
Fast mode有効時、「Fast mode ON」の確認メッセージ表示
Fast mode解除後もOpus 4.6のまま、モデル切り替えは /model で実施

料金体系とコストトレードオフ

Fast mode利用時は トークン単価が上昇
- <200Kトークン: 入力$30/150MTok、出力$30/150MTok
- >200Kトークン: 入力$60/225MTok、出力$60/225MTok
1Mトークン拡張コンテキストウィンドウ に対応
会話途中でFast modeに切り替えると、全コンテキスト分がFast mode単価で課金
コスト重視の場合は最初からFast modeを有効化する運用推奨

Fast modeの利用推奨シーン

応答速度重視 のインタラクティブ作業に最適
- コードの迅速な反復編集
- ライブデバッグ
- 締切が厳しいタスク
通常モード が適するシーン
- 長時間の自律作業
- バッチ処理やCI/CDパイプライン
- コスト重視のワークロード

Fast modeとEffort Levelの比較

Fast mode: 同一品質・低レイテンシ・高コスト
Effort level低: 思考時間短縮・応答高速化・複雑な課題では品質低下の可能性
両者の併用で、単純なタスクの最大速度化が可能

利用要件と管理者設定

サードパーティクラウド （Amazon Bedrock, Google Vertex AI, Microsoft Azure Foundry）では利用不可
Anthropic Console API およびサブスクリプションプランで利用可能
追加使用量（extra usage） の有効化が必須
- 個人アカウント: Consoleの課金設定で有効化
- Team/Enterprise: 管理者が組織単位で有効化
管理者による有効化手順
- Console（API顧客）: Claude Code設定
- Claude AI（Teams/Enterprise）: 管理者設定 > Claude Code

レートリミットと自動切り替え

Fast modeは 通常Opus 4.6と別のレートリミット を持つ
レートリミット到達や追加使用量枯渇時は 自動で通常モードへ切り替え
↯アイコン が灰色になりクールダウン中を表示
クールダウン終了後は自動でFast mode再開
手動でFast modeを解除する場合は再度 /fast コマンドを実行

リサーチプレビューと注意事項

Fast modeは リサーチプレビュー 機能
フィードバックにより仕様や価格が変更される可能性
API設定も今後変化する場合あり
問題や要望は通常のAnthropicサポート窓口へ報告

Hackerたちの意見

このモードを使ってサブスクリプションを最大限に活用することはできないから注意してね。追加使用量として常に課金されるって言ってるよ。> 「ファストモードの使用は、プランに残っている使用量があっても、追加使用量として直接請求される。つまり、ファストモードのトークンはプランに含まれる使用量にはカウントされず、最初のトークンからファストモードの料金がかかる。」今、使用状況の画面を見れば、今月は50ドル分の無料追加使用量をもらえるキャンペーンがあるみたい。

└

じゃあ、基本的に無駄ってことだね。クラウドマックスでもTDDをやるときは使用量を管理しなきゃいけないし、ccusageツールを使ってみると、APIを使ってたら1日で200ドルに達することが多かったよ。6倍のコストだと、50ドルは約20分で消えちゃう。これが誇張であればいいんだけど。

スピード向上の裏には何があるのか気になるな。単なる優先順位付けだけじゃない気がするけど、他に何が変わってるんだろう？新しいハードウェア（GroqやCerebrasみたいな）かな？それはありそうだね、特にいくつかのクラウドプロバイダーでは使えないから。あと、他のLLMプロバイダーでも「スピード」と「賢さ」の価格設定が別々になるのかも気になる。

└

他に何が変わってるんだろう？予想してみるよ。量子化？

└

調整できるポイントはたくさんあるよね。新しいハードウェアやトラフィックの優先順位付けはどちらも理にかなってる。でも、バッチウィンドウを短くしてキュー待ち時間を減らす代わりにスループットを下げたり、KVキャッシュをGPUメモリに保持して、各GPUノードから提供できるユーザー数を減らすってこともできる。

└

もしかしたら、これは主に内部用に実装されたのかもしれないね。優先順位付けだけど、他の人が高いコストを払うとはあまり期待してないのかも。

└

単なる優先順位付けだけじゃない気がするなんでそう思うの？彼らが常に最適化しているのは間違いないけど、特にこの部分がキューを飛ばすことで完全に動かされるわけじゃない理由は何だろう？お金を稼ぐ簡単な方法だと思うけど。

└

これはバッチ処理とGPU上の複数のストリームから来てるんだ。1つのGPUをみんなで共有すると、全員が遅くなるけど、全体のトークンスループットは増える。数学的には、このトランスフォーマーブロックが並列アルゴリズムだから。バッチを強化して並列性を高めると、トークン/sが増えるけど、スループットは減るんだ。同時に、少ないユーザーでよりハードに推測的にデコードできるダイヤルもある。これは基本的にすべてのハードウェアとほとんどのモデルに当てはまる。GPUごとのスループットとストリームごとのトークン数/sのパレート曲線を描けるよ。トークン/sが増えると、総スループットは減る。実際の数字はこのグラフを見てね：GPUごとのトークンスループット vs. インタラクティビティ gpt-oss 120B • FP4 • 1K / 8K • 出典: SemiAnalysis InferenceMAX™ https://inferencemax.semianalysis.com/

└

NvidiaのGB300、つまりBlackwellだね。

「ファストモードを使うタイミングを決める」を見ると、彼らが望んでいる未来はこんな感じだね： - 長時間動作する自律エージェントやバックグラウンドタスクは通常の処理を使う。 - 「人間が介在する」シナリオはファストモードを使う。理にかなってるけど、問題は請求も理にかなってるのかってこと。

└

API価格でのOpusの請求は全然意味がわからないよ、サブスクリプションが致命的だね。大口顧客向けのキャデラックみたいなもんだ。価値を気にする人は、ただ並行して処理するだろうね。

これはAnthropicにとって利益の金の卵だな。Claude Codeにハマってる人たちは、締め切りまでに何かを終わらせるために、トークンを倍使うことになるだろうね。OpenAIも1週間以内に似たような製品を出すけど、通常の3倍の料金を取るだけだ。これがNvidiaがGroqを買った理由かもしれない。人々は速いトークンにはプレミアムを払うからね。

Hacker Newsで議論の続きを見る

ハクソク