世界を動かす技術を、日本語で。

高速モードで応答を迅速化する

概要

Fast mode はOpus 4.6の応答速度を向上させるが、トークン単価も高くなる /fast コマンドでオン・オフ切り替え、インタラクティブな作業に最適 品質や機能は通常モードと同じ、API設定のみ異なる 利用には追加使用量の有効化と管理者設定が必要 価格、利用条件、切り替え方法、利用シーンなどを解説

Fast modeの概要と特徴

  • Fast modeOpus 4.6 の応答速度を優先するAPI設定
  • /fast コマンドで有効化、 Claude Code CLIVS Code Extension で利用可能
  • 応答品質や機能は通常モードと同じ、速度のみ向上
  • 料金は トークン単価 が高くなる設計
  • Fast modeは Opus 4.6 専用機能、他モデルでは自動的にOpus 4.6へ切り替え
  • ↯アイコン でFast modeの有効状態を表示
  • 期間限定で 50%割引 (2024年2月16日23:59 PTまで)
  • Pro/Max/Team/Enterprise などのサブスクリプションプランおよび Claude Console で利用可能
  • サブスクリプションの利用枠には含まれず、 追加使用量(extra usage) のみで利用

Fast modeの切り替え方法

  • /fast と入力しTabキーでオン・オフ切り替え
  • ユーザー設定ファイルで "fastMode": true を指定
  • Fast modeの設定はセッションをまたいで持続
  • セッション開始時にFast modeを有効化することでコスト効率向上
  • Fast mode有効時、「Fast mode ON」の確認メッセージ表示
  • Fast mode解除後もOpus 4.6のまま、モデル切り替えは /model で実施

料金体系とコストトレードオフ

  • Fast mode利用時は トークン単価が上昇
    • <200Kトークン: 入力$30/150MTok、出力$30/150MTok
    • >200Kトークン: 入力$60/225MTok、出力$60/225MTok
  • 1Mトークン拡張コンテキストウィンドウ に対応
  • 会話途中でFast modeに切り替えると、全コンテキスト分がFast mode単価で課金
  • コスト重視の場合は最初からFast modeを有効化する運用推奨

Fast modeの利用推奨シーン

  • 応答速度重視 のインタラクティブ作業に最適
    • コードの迅速な反復編集
    • ライブデバッグ
    • 締切が厳しいタスク
  • 通常モード が適するシーン
    • 長時間の自律作業
    • バッチ処理やCI/CDパイプライン
    • コスト重視のワークロード

Fast modeとEffort Levelの比較

  • Fast mode: 同一品質・低レイテンシ・高コスト
  • Effort level低: 思考時間短縮・応答高速化・複雑な課題では品質低下の可能性
  • 両者の併用で、単純なタスクの最大速度化が可能

利用要件と管理者設定

  • サードパーティクラウド (Amazon Bedrock, Google Vertex AI, Microsoft Azure Foundry)では利用不可
  • Anthropic Console API およびサブスクリプションプランで利用可能
  • 追加使用量(extra usage) の有効化が必須
    • 個人アカウント: Consoleの課金設定で有効化
    • Team/Enterprise: 管理者が組織単位で有効化
  • 管理者による有効化手順
    • Console(API顧客): Claude Code設定
    • Claude AI(Teams/Enterprise): 管理者設定 > Claude Code

レートリミットと自動切り替え

  • Fast modeは 通常Opus 4.6と別のレートリミット を持つ
  • レートリミット到達や追加使用量枯渇時は 自動で通常モードへ切り替え
  • ↯アイコン が灰色になりクールダウン中を表示
  • クールダウン終了後は自動でFast mode再開
  • 手動でFast modeを解除する場合は再度 /fast コマンドを実行

リサーチプレビューと注意事項

  • Fast modeは リサーチプレビュー 機能
  • フィードバックにより仕様や価格が変更される可能性
  • API設定も今後変化する場合あり
  • 問題や要望は通常のAnthropicサポート窓口へ報告

関連情報

  • モデル設定: モデル切り替えやEffort Level調整方法
  • コスト管理: トークン使用量の追跡やコスト削減方法
  • ステータスライン設定: モデル・コンテキスト情報の表示方法

Hackerたちの意見

このモードを使ってサブスクリプションを最大限に活用することはできないから注意してね。追加使用量として常に課金されるって言ってるよ。> 「ファストモードの使用は、プランに残っている使用量があっても、追加使用量として直接請求される。つまり、ファストモードのトークンはプランに含まれる使用量にはカウントされず、最初のトークンからファストモードの料金がかかる。」今、使用状況の画面を見れば、今月は50ドル分の無料追加使用量をもらえるキャンペーンがあるみたい。

じゃあ、基本的に無駄ってことだね。クラウドマックスでもTDDをやるときは使用量を管理しなきゃいけないし、ccusageツールを使ってみると、APIを使ってたら1日で200ドルに達することが多かったよ。6倍のコストだと、50ドルは約20分で消えちゃう。これが誇張であればいいんだけど。

スピード向上の裏には何があるのか気になるな。単なる優先順位付けだけじゃない気がするけど、他に何が変わってるんだろう?新しいハードウェア(GroqやCerebrasみたいな)かな?それはありそうだね、特にいくつかのクラウドプロバイダーでは使えないから。あと、他のLLMプロバイダーでも「スピード」と「賢さ」の価格設定が別々になるのかも気になる。

他に何が変わってるんだろう?予想してみるよ。量子化?

調整できるポイントはたくさんあるよね。新しいハードウェアやトラフィックの優先順位付けはどちらも理にかなってる。でも、バッチウィンドウを短くしてキュー待ち時間を減らす代わりにスループットを下げたり、KVキャッシュをGPUメモリに保持して、各GPUノードから提供できるユーザー数を減らすってこともできる。

もしかしたら、これは主に内部用に実装されたのかもしれないね。優先順位付けだけど、他の人が高いコストを払うとはあまり期待してないのかも。

単なる優先順位付けだけじゃない気がする なんでそう思うの?彼らが常に最適化しているのは間違いないけど、特にこの部分がキューを飛ばすことで完全に動かされるわけじゃない理由は何だろう?お金を稼ぐ簡単な方法だと思うけど。

これはバッチ処理とGPU上の複数のストリームから来てるんだ。1つのGPUをみんなで共有すると、全員が遅くなるけど、全体のトークンスループットは増える。数学的には、このトランスフォーマーブロックが並列アルゴリズムだから。バッチを強化して並列性を高めると、トークン/sが増えるけど、スループットは減るんだ。同時に、少ないユーザーでよりハードに推測的にデコードできるダイヤルもある。これは基本的にすべてのハードウェアとほとんどのモデルに当てはまる。GPUごとのスループットとストリームごとのトークン数/sのパレート曲線を描けるよ。トークン/sが増えると、総スループットは減る。実際の数字はこのグラフを見てね:GPUごとのトークンスループット vs. インタラクティビティ gpt-oss 120B • FP4 • 1K / 8K • 出典: SemiAnalysis InferenceMAX™ https://inferencemax.semianalysis.com/

NvidiaのGB300、つまりBlackwellだね。

「ファストモードを使うタイミングを決める」を見ると、彼らが望んでいる未来はこんな感じだね: - 長時間動作する自律エージェントやバックグラウンドタスクは通常の処理を使う。 - 「人間が介在する」シナリオはファストモードを使う。理にかなってるけど、問題は請求も理にかなってるのかってこと。

API価格でのOpusの請求は全然意味がわからないよ、サブスクリプションが致命的だね。大口顧客向けのキャデラックみたいなもんだ。価値を気にする人は、ただ並行して処理するだろうね。

これはAnthropicにとって利益の金の卵だな。Claude Codeにハマってる人たちは、締め切りまでに何かを終わらせるために、トークンを倍使うことになるだろうね。OpenAIも1週間以内に似たような製品を出すけど、通常の3倍の料金を取るだけだ。これがNvidiaがGroqを買った理由かもしれない。人々は速いトークンにはプレミアムを払うからね。

昨日、4.6が遅すぎて「考えすぎ」や「分析しすぎ」だったから、4.5のSonnetかOpusに戻したよ。Sonnet 4.5で1分以内に終わるタスクが、4.6では5分経ってもまだ動いてたからね(そう、いくつかのタスクで競争させたんだ)。これがシステムのオーバーロードかもしれないね。

「昔は1万行のコードを生成するのに3分待たなきゃいけなかったんだ。」

正直、OpenAIはあんまり価値がないと思う。哲学的な違いから、OpenAIのプランをキャンセルしたし、データを全てエクスポートしたらアカウントも削除するつもり。彼らは、自分たちのAIモデルが生成したコードを使わせる代わりに、ビジネスの%を取るモデルを検討しているって言ってた。それに広告の可能性もあるし。でも、それが最悪ってわけじゃなくて、ChatGPTに、利益を追求する企業があなたのプライベートな情報を全部持って広告に使うリスクのあるモデルを公正に評価してもらったら、OpenAIをしっかり擁護してたんだ。それが私にとっての決定打だった。対照的に、Anthropicは、AIにあなたのことを覚えておいてほしいかどうか聞いてくれるし、プライバシーに関する設定もたくさんある。OpenAIみたいな方向に行かなければ、トークンでお金を稼ぐのは気にしないよ。

カーソルでは、GPTモデルにすでに+Fastオプションがあって、2倍の価格で速く動くよ。

Anthropicはいいけど、他のところはちょっと微妙じゃない?普通のサービスを遅くする利益動機ができちゃった。これは、元のサービスを遅くしただけの「プレミアム」サービスを提供するDeliverooのやり方だね。航空会社のスピーディボーディングと同じで、今やほとんどの人がそれにお金を払ってるから、特にメリットがない。

速度が2.5倍で、価格が6倍か。[1] かなりのプレミアムだね。特にGemini 3 Proは、通常のOpus 4.6のトークン/秒速度の1.8倍で、価格は0.45倍だから。[2] ただ、コーディングは苦手だし、Gemini CLIはまだClaude Codeのエージェント的な強さがないけどね。

ジェミニはフロントエンドの作業には結構いいよね。

価格は6倍/token、つまり1秒あたり15倍の価格で、APIの価格レベルでの話で、もっと安いサブスクリプション価格ではないからね。クジラたちにお金を早く使わせる面白い方法だと思う。

コーディングが苦手で、ジェミニCLIはクラウドコードのエージェント的な強さがまだないね。ジェミニCLIの代わりにオープンコードを使えるよ。

役立つ機能として、スポット価格で低コストの計算ができるスローモードがあればいいな。仕事の終わりやランチの間にプロセスを始めることが多いから、すぐに動かす必要はないんだ。標準のオファーよりもずっと低コストで、次のアイドル状態のGPUで動いてくれればそれでいいんだけど。

仕事の終わりやランチの間にプロセスを始めることが多いから、すぐに動かす必要はないんだ。標準のオファーよりもずっと低コストで、次のアイドル状態のGPUで動いてくれればそれでいいんだけど。もし時間に敏感じゃないなら、GPUじゃなくてCPU/RAMで動かせばいいんじゃない?

OpenAIはそれを提供してた、少なくとも以前はね。すべての推論をバッチ処理して、ずっと安い価格でできるんだ。

https://platform.claude.com/docs/en/build-with-claude/batch-... > バッチAPIはかなりのコスト削減を提供してるよ。全ての利用は標準API価格の50%で課金されるんだ。

MAXプランのディスカウントは、すでにスローモードになってるね。

うん、同じく。なんでこれがまだ実現してないのかよく考える。例えば、夜に50%のコストでタスクを実行するのはいいよね。バッチAPIはあるけど、例えばClaudeのコードには統合されてないし。

逆に、これが自分にとってはあんまり役に立たない気がする。ボトルネックは自分がLLM生成コードを解析して理解する能力だから。エージェントは自分がその出力を読むよりもずっと早くコードを書けるんだよね。

実際のコードにあんまり注意を払ってない人がたくさんいるよね。すごい時代だ!

コードに興味がある人は、コードを理解することなんてどうでもいいって感じだよね。

速ければ、コードを詳しく読むより質問をもっとすると思う。でも、まだそのアプローチには向いてないね。

テストハーネスを作ったり、解決策が要件を満たしているか評価したりする時間を使おう。そうすれば、コードを見る必要もなくなるよ。他の部分が必要な保証と信頼をもたらしてくれるからね。

だから、普通のプロアカウントはスローモードなんだね。ありがとう、Anthropic。今、Kimi2.5をCLIでテスト中だけど、すごく快適で速いよ。ウェブインターフェースもついてるから、Kimi-CLIインスタンスとコミュニケーションできるし(VPN使ってもリモートで)。

非同期AIと同期承認のボトルネック、マジであるよね。俺が役立ったのは、待ってる間に物理的にデスクに縛られないようにすること。ForkOffを作ったのもそのためで、Claudeが承認を必要とするときに、スマホにプッシュ通知が来て、どこからでもワンタップで承認できるんだ。実際、ほとんどの承認にデスクにいる必要はないってわかったよ。ファストモードはスピードに役立つけど、もっと早いのはAIに働いてもらうことだね。早期アクセスはこちら: forkoff.app(そうそう、ファストモードの価格はヤバいよ - ここにあるコメントによると2時間で100ドル消えるって!)

...待ってる間に物理的にデスクに縛られないようにすること。 > ForkOffを作ったのもそのためだよ。 これ、確かに便利そうだけど、笑っちゃうのは、俺はただ運動したり子供と遊んだりしてるからね。カリステニクスやストレッチが好きなら、椅子に縛られずにClaudeを使えるのは最高だよ。プログラミングがもっと身体的になるね!

俺の(あと他の多くの人も)普通のワークフローは、計画フェーズの後に実装フェーズが続くんだ。俺にとってファストモードが一番役立つのは、その計画フェーズのときだな。今の「コンテキストをクリアして計画を実行する」ってのに、「コンテキストをクリアして、通常スピードモードに切り替えて、計画を実行する」ってのが加わるといいと思う。探査エージェントとかにはファストモードはいらないと思うし、彼らにはやることがたくさんあるから、時間がかかるのは受け入れてるよ。計画を実行する前に素早く反復できると楽になるね。お願い、ありがとう、ボリス。