世界を動かす技術を、日本語で。

Uberの月額1,500ドルのAI制限はAIツールの価格設定にとって有益なシグナルである

概要

UberがAIコーディングツールの利用費用を 月額$1,500 に制限 コスト管理のため 従業員ごとツールごと の上限設定 対象はCursorやClaude Codeなど エージェント型AI 年間AI予算がエンジニア報酬の 約11% に相当 個人利用と比べ 企業向けプランの違い も明確化

Uber、AIコーディングツール利用に上限設定

  • Uberが AIコーディングツール の利用コスト急増を受けて 月額上限 を導入
  • 各従業員ごと、各ツールごとに 月$1,500 までのトークン利用制限
  • 複数ツール利用時でも ツールごと に予算が独立
  • 制限対象は CursorAnthropic Claude Code など エージェント型AIツール
  • 一部ツールの 過度な利用競争 を防止する狙い
  • 制度導入前は AI予算超過 が頻発し、コスト管理の必要性が高まっていた状況

利用上限の実際の影響

  • エンジニア1人あたり 年間$36,000 のAI利用上限(2ツール利用を想定)
  • Uberエンジニアの 中央値年収$330,000 (Levels.fyi調べ)に対し、 約11% がAI利用費上限
  • 個人利用者向けプランは 月$100 程度で同等のトークンが利用可能
    • Uberのような大企業は 個人向け割引が適用外
  • 筆者の利用例では 現行利用量でも上限未満 のため、通常業務には十分な設定
  • AI利用効率コスト最適化 のバランスを重視したポリシー

企業におけるAIツール利用管理の示唆

  • AIツールの急速な普及 による予算超過リスクの顕在化
  • 従業員ごと・ツールごと の上限設定による公平性と管理性の両立
  • AI導入効果 の費用対効果を定量的に把握可能に
  • 今後、他社でも 同様の利用制限ポリシー 導入が進む可能性

Hackerたちの意見

月1500ドルって、年で18,000ドル/席だよね。もしかしたら、MicrosoftとNvidiaは何かいいことに気づいてるかも。128GBのマシンでローカルのLLMが動かせるなら、5〜8千ドルでもお得だと思う。確かにトークン/秒はまだまだだけど、実際のボトルネックはコードじゃなくて、「Uberはあの支出で何を作ったの?」ってことだよね。それが収益にどう影響したのか、ポジティブな方向に。

彼らの規模なら、大規模なオンプレミスかレンタル(基本的にはまだクラウドだけど、安い)GPUクラスターを運用して、それを使うこともできるよ。固定費がかかるけど、必要なら最先端モデルの重みをライセンスすることもできるし。

「Uberはあの支出で何を作ったの?」ってことだよね。アメリカのUberエンジニアリングの中央値330kドルの給料についても同じことが言えるよ…ちょっと皮肉っぽく言うと、いくつかのカンファレンスでUberのエンジニアの話を聞いてると、彼らは内部ツールやプラットフォームを(再)発明するのが好きみたい。これ自体が結構高くつくよ。追記:Uberのエンジニアが会社に価値を加えなかったとは言ってないよ。彼らは確かに価値を加えたし、彼らが扱ったスケールを管理するのは簡単なことじゃない。でも、「彼らはその(LLM)支出でどんな機能を作ったの?」っていうGPの考えには疑問を呈したい。

基本的なポイントには同意するけど、月1500ドル分の最先端ローカルAIを運用するのは簡単じゃないし、それは一席分の数字だからね。実際、24時間365日で少なくとも20トークン/秒を生成するのと同じくらいのことだし、実際にはそれ以上かもしれない(オープンウェイトモデルは、信頼できる西洋のプロバイダーから提供されていても、プロプライエタリなものよりもずっと安いから - 同じ支出に達するには、100トークン/秒以上が必要になる)。プロシューマープラットフォームでその数字に達することはできるかもしれないけど、特別なワークロードに限られるよ。エージェント的なワークロードでは、プレフィルに多くの時間をかけることが一般的だから、見通しはさらに悪くなる。これはオンプレミスAIにとって大きな制約だから。

企業は最終的にはローカルAIサーバーを購入するようになると思う。複雑なソフトウェアスタックを動かすのにローカルハードウェアは高くつくし、10,000通りの方法で壊れる可能性があるからね。最終的なローカルAIサーバーは、AI用のプロトコルを話して隅に置かれるだけで、誰も気にしなくなるんじゃないかな。いろんなシステムへのアクセスが必要かもしれないけど、どうだろう。最終的には「箱入りAI」を提供する人が現れると思うけど、最新のオープンモデルを動かすような感じで。

トークン/秒がボトルネックじゃないってどういうこと?ほとんどの人は、夜中に放置するんじゃなくて、インタラクティブにAIエージェントを使ってると思うんだけど。50トランザクション/秒以下は全く使えないと思うし… それに、オープンウェイトモデルの推論はかなり安いけど、ClaudeやOpenAIはDeepSeekやOpenRouterのいろんなプロバイダーと比べて高いマージンを取れるってことだよね。

企業が高価な主要ラボのモデルから離れることを決めたとしても、オープンウェイトモデルをホストするためにクラウドプロバイダーに支払う方が、すべての(内部)ユーザーに分散してコストを amortize できるから、経済的にはずっと良いと思う。みんなにそれぞれハードウェアを持たせるより、ピーク時の使用量や1バッチの推論に備えたプロビジョニングが必要になるからね。

自社でオンプレミスのモデルを運用した方が絶対いいよ。ノートパソコンは減価償却資産で、規模の経済の恩恵を受けられないし、固定スペックで、モデルを最新の状態に保つためにフリートが分断されちゃう。電力消費や冷却の問題については言うまでもない。企業がその方向に行く理由が全然わからないな。

128GBのマシンじゃ、Claudeみたいなフロンティアモデルに匹敵するようなことはローカルでは動かせないよね。Deepseek v4 proが1.6Tモデルで、動かすのに約860GBのVRAMが必要ってことからもわかる。

Uberが作ったものとは必ずしも思わないけど、得られる生産性が大事だよね。エンジニアがAIツールを正しく使えば、生産性が劇的に向上するし、それによってLLMをジュニアやアソシエイトエンジニアとして使えるようになる。月1500ドルでそのレベルの生産性を得られるなら、人間のエンジニアにもっとお金を払う必要があっただろうから、すごく安いよね。

1500ドルって数字よりも、彼らが上限に達したって事実の方が興味深い。話したエンジニアリングチームのほとんどは、開発者一人あたりのAI支出がいくらか全然わからない。だって、統合されたクラウド請求書の中に埋もれてるから。ハードキャップがあると、API呼び出しとローカル推論のどのワークフローが実際に正当化されるか、そしてその出力が本当に生産性の指標に対して測定されているかっていう、2つの有益な会話を強制するんだよね。フィードバックループがなければ、ただ誰がトークンを早く消費できるかのレースになっちゃう。

AnthropicとOpenAIの「エンタープライズ」プランには、開発者ごとの分析が含まれてるよ:Anthropic: https://support.claude.com/en/articles/12883420-view-usage-a... OpenAI: https://help.openai.com/en/articles/10875114-workspace-analy...

大企業がフラッシュモデルがちゃんと機能するって気づくまで、あと何ヶ月待たなきゃいけないのかな? 1) LLMに大きな変更を求めない 2) すべてをレビューして正しい方向に指示する これを守れば、大きなモデルは大きな変更が苦手だから、疑わしいアーキテクチャを生み出すし、プロジェクトが本気ならコードをレビューしなきゃいけない。注意を払わないと、コードベースはすぐにめちゃくちゃになるよ。どのモデルでも関係ない。じゃあ、フラッシュモデルが10倍安くて、指導のもとでの反復が早いのに、大きなモデルにこだわる理由は何? 大きなモデルはセキュリティやバグ監査に使えるけど、フラッシュモデルは300行未満の変更にはほぼ同じように機能するよ。

大きな変更をLLMに頼むな > すべてをレビューして、正しい方向に導け 上層部は気にしてないからね。これは解決しなきゃいけないエンジニアリングの問題だよ。

モデルがどのモデルにクエリを転送するかをどの程度考慮すべきか、ちょっと気になるな。もしかしたら、大きなモデルが簡単な質問と難しい質問の違いを学んで、それに応じて料金を設定することもできるかも?複雑さを測れれば、見積もりを生成することもできるかもしれない。小さなコーディングタスクには小さなモデルで十分だけど、大きなモデルがほとんどの場面で分解できない理由がわからないな。

簡単な決断は、手が届く範囲で一番大きなSOTAモデルを使うことだね。でも、これだとこれらを最大限に活用するためのもう一つの重要な部分、ハーネスを見落としちゃう。私は自分のオーケストレーターを使って、自律的な計画/設計/コーディング/構築/テストのパイプラインを運営してる。異なるモデルが異なる段階で優れていて、LLMを使ってそれらの出力を評価してる。すべてがOpus 4.8が必要なわけじゃない。ハーネスは、モデルに正しいものを入れたり、正しいものを出したりするための足場を提供するだけじゃなくて、どのモデルがどの作業をするかを決めることもできる。質を確保するのはモデルじゃなくて、トークン予算に応じたパイプラインなんだよ。

簡単な話だよ。企業はエンジニア一人あたり月1500ドル払うことを許容してるみたいで、これはフルタイムのエンジニアの「普通」な消費に大体合ってる。もしその数字が大幅に増えたら、君が提案するように、企業はフラッシュモデルをもっと探求し始めると思う。

それ、千回言いたい。大きなモデルは、物事を過剰に複雑にする傾向があるからね。

これはAIの価値にとっても有用なシグナルだね。エンジニア一人あたり年18,000ドルの最大の付加価値があるみたい。

最近の企業向けAIに関する「まともな」意見の波の中にあるね。巨大なバブルが弾ける前に、持続可能なレベルに収束できるかもしれない。

AIがどれだけの価値を加えるかを決めたり一般化したりするのは簡単じゃないよね。会社ごと、エンジニアごとに違うし、競争の激しい市場や他の企業がどれだけAIを使っているかにも影響される。例えば、小さなスタートアップで、追加のエンジニアを雇うか、自分で全てのコーディングをするか考えているとき、AIの価値は年間18,000ドル以上だと思う。エンジニアを雇うのを見送る合理的な判断ができる状況だしね。

それを意味のある形で定量化できた人がいるとは本当に疑わしいな。ほとんどが恣意的な数字に見えるし。記事では、CodexやCursorなどを使うと、実際には18,000ドルの数倍になるって主張してるけど。

AIがどれだけの価値を加えるかを決めるための初期予算は、エンジニア一人あたり18,000ドルだよ。

そうでもないよ。明らかに限界利益が減少してるから、最初の2400ドル/エンジニア/年は2400ドル以上の価値を生む可能性が高いけど、18,001番目の2400ドル/エンジニア/年は1ドル未満の価値しか生まないかもしれないね。

いや、それは全然違う意味だよ。単に数学的に考えてもそう。実際には、超大口の支出者(トークンマックス)の長い尾を止めるために、上限を設けるのが妥当な額なんだ。これを「ウーバーが平均的なエンジニアにとっての限界利益が減少する額」と呼ぶこともできるね。

私の経験では、これが平均的な開発者が月にかかるコストよりかなり低いと思うから、かなり妥当だと思うよ。ヘビーユーザー向けには例外もあるだろうし、必要なときに追加のトークン使用ができるようになってるんじゃないかな。

2ヶ月の間に何か変わったとは思えないけど(追記:クラウドコード専用の上限を設けたことを除いて、他のツールはすでに上限があったから)、私がそこを辞めた後、無料通話を使い切った後に使えるのは1500ドルが最大だと思う。初期予算と、マネージャーによって個別にレビューされた2回の延長があったからね。ここ2年、上層部はAIに焦点を当てるように推進してきたから、この制限は「AIを使いすぎるな」というよりは「手動のAIツールだけを使うな」という意味だと思う。社内には予算にカウントされない専門的なツールがたくさんあったし。

自分のトークン使用量は、AnthropicとOpenAIそれぞれに対して月に約1,000ドルかかってるって気づいたんだ。今は各プロバイダーが個人向けにかなりお得なプランを提供してるから、実際には100ドルしかかからない。AIプロバイダーがこのトークン単価を維持するか、中国の競争によって最終的に下げるかはわからないよね。予算が限られている人たちがDeepSeekのような中国のオープンウェイトモデルに移行しているし。中国が本当にプロバイダーを補助しているのか、推論コストが実際にかなり低いのか、AnthropicやOpenAIがIPOのためにお金を残さないようにしているのか、気になるな。

トークンのコストは下がるけど、ハーネスはもっとトークンを消費するようになるよ。単にdivを中央に寄せるだけじゃなくて、アーキテクトや批評、アドバイス、コーディング、レビュー、リファクタリングを行うためのエージェントのバッテリーを立ち上げることになる。

AIプロバイダーがこれらのトークンごとの価格を維持するのか、最終的には中国の競争によって下げるのか知ってる? 現在の北米の主要プロバイダーから価格が下がるとは本当に思えない。市場全体が崩壊しない限りね。みんなは莫大なお金を使って、もっとお金を稼ごうとしてるんだ。

アメリカの企業がデータを中国に送るなんて、驚きだよ。

まともなアメリカの企業は、クラウドベースの中国のAIプロバイダーの使用を許可しないだろうね。コードやデータ、個人情報など、すべてが彼らに送られちゃうから。

ポール・ケドロスキーが最近言ってた「期間ミスマッチ」の概念が一つの側面だね。トークンあたりの価格は時間とともに下がる(AIベンダーが競争圧力で値下げするか、顧客が古い安いモデルを使うようになるから)。でも、データセンターは負債で資金調達されていて、収益が時間とともに増加する前提なんだ。彼の言葉を引用すると、「[AIベンダーは] 減価償却される商品で固定費を支払っている」[0]。つまり、一方ではトークン収益が減少し、もう一方では次のフロンティアモデルのトレーニングコストが上がっていく中で、10年の負債を返済しなきゃいけないってこと。

むしろ上がる可能性が高いね。NVidiaによると、GPUハードウェアの価格は2030年までは下がらないってさ。世界はファブのキャパシティが足りてないんだ。

心配しないで、彼らは中国のモデルを禁止するようにロビー活動をするだけだから、トークン収入を高く保つためにね。> 問題を複雑にするのは、中国の研究所がしばしばデュアルユース可能なモデルをオープンウェイトとしてリリースすることだ。モデルがオープンウェイトになると、存在する安全策が取り除かれることがあり、悪用目的で国家や非国家のアクターがそのモデルを使えるようになる。これは、サイバーやCBRNの悪用を防ぐために作られた安全策があったからこそだ。 https://www.anthropic.com/research/2028-ai-leadership

なんでAIコーディングが流行だと信じてる人がこんなに多いの? これは2年前に始まったばかりで、企業はすでに1席あたり何千ドルも払ってるんだよ。月に5千ドルくれるところもあるし。他に何か、こんなに早く受け入れられたツールってあるの?

もしかして、パソコンのことかな?企業はハードウェアに対して、1人あたり3〜5千ドル(インフレ調整で1万〜1万5千ドル)も使ってたし。ドットコムバブルと比較するのはちょっと的外れだと思う。これは明らかにコンピューティング2.0だね、私的には。

この事実を見て、もしかしたら思ってるほど単純じゃないかもしれないって感じるよ。あまりにも大きすぎて速すぎて、安定してるとは思えない。今のレベルを維持するか、さらに増えるか、あるいはもっと現実的な使用や配分のレベルに落ち着くかもしれないね。

「AIコーディングは流行りだ」っていうのは、同じ考えの人たちの大きなキャンプだけじゃないよ。異なるグループは、AIコーディングに対して受け入れるために、既存の信念を手放さなきゃいけない。変数名に厳格だった人たちや、再利用されないAPIロジックのために多層の抽象化を推進していた人たち、コーディングは単なるプロセスじゃなくて、作業時間中のクラフトだと信じていた人たちのことを考えてみて。これが多くの人の意見を無意味にしちゃってる。俺もその中にいたけど、過去15年でコーディングが進化するのを見てきたから、これらの先入観は更新する必要があるって理解してる。ほとんどの議論は今の世界には当てはまらないからね。

企業は、この支出が人員削減によるコスト削減につながると賭けてるんだよ。今見てるAI LLMのPRは、他の人たちにもっと仕事を増やしてるだけで、いわゆるビルダーたちは新しいダッシュボードや機能を見せていい感じに見えるけど、コードの流れについて話すことはできない。特定のことがどうしてそうなってるのか、彼らに考えを聞くこともできない。経験を考慮に入れて地道に作られたものじゃなくて、何もないところから生まれたもので、基盤の分離もほとんどなく、抽象化もほとんどない。誰も触りたがらない。PRが大きすぎて、PRの「著者」とは連絡が取れない。彼らは全ての栄光を手に入れるけど、実際の作業は何もしてない。家を設計して、建築家やエンジニアに「これを実現して」って送るような感じだね。

「なぜAIコーディングが流行りだと信じている人がこんなに多いのか?」それは、提供されるソフトウェアの品質が向上したという証拠が一つもないからだよ。むしろ、これらの企業が生み出す機能のスピードも逆に悪化してる。ソフトウェア開発の目的は、名前からもわかるようにソフトウェアを開発することであって、トークンを消費することじゃない。もしUberが今、10倍のエンジニアで溢れてたら、Uberの株価は上がってるはずだし、下がってはいないはずだよ。面白いことに、株価が上がってる唯一の会社はAntrophicみたいだね。

それはただの非連続的な意見だね。「企業はすでに1席あたり何千ドルも支払っている」ってのは、何かが流行かどうかとは全く関係ないよ。企業がそのように行動している理由には、「AIコーディングが流行ではないから」というよりも、もっと合理的な説明があると思う。

「AIコーディングは流行だ」と「無制限のトークンを全社員に配る、実際に経済的にプラスになるかどうかは気にしない」の間には、いろんな考え方があるよね。

大量のコードを書くのは人間にとっても簡単だよね。エージェントはそれができることを証明したし。でも、エージェントはそれを維持できるのかな?それが確実にわからない限り、AI生成のコードには完全にはコミットできない。例えば、私は「まあまあ」な品質のコードを週に約1000行書ける。つまり、1年で約5万行のコードになる。1年目のコードを維持するのに60~80%の時間を費やすことになるだろうし、2年目には新機能を作るために残りの時間を使うことになるから、もっと人を雇って、彼らをオンボードするのに時間をかける必要がある。これらは大まかな見積もりで、たぶん楽観的すぎるし、3年目にはもっと悪化すると思う。コードエージェントでそんな見積もりをするのは大変だよ。特に、すでに大量のレガシーコードがある場合はさらに厄介だね。

それはただの言い訳だよ。人々はAIコーディングがなくなることを必死に信じたがってるから、2020年のようにパーティーに戻りたいんだよね。だから、HNの投稿者たちがトークンの価格は時間とともに上がるって主張してるのがたくさんいる(それがムーアの法則の働き方だよね??)とか、AIが貢献するコードベースは自然に爆発するみたいなことを言ってる。

それに、月1500ドルはほとんどの企業が落ち着くところのかなり高い方だよ。数字を見てみると、可能性のある市場規模とAI企業の主張されている評価額をつなぐ現実的な道はない。計算が全然合わないんだ。

なんで大企業で自己ホスティング(GPUサーバーを借りるだけでも、必ずしもオンプレミスでなくても)や、Together AIみたいなものでオープンウェイトモデルを動かすことがもっと一般的じゃないのかな?オープンウェイトモデルやOpus、Gemini Proみたいなプレミアムモデルを試してみたけど、後者の方が少し良いけど、極端な価格差を正当化するほどの違いはないと思う。試した用途では大差ないし、他のユーザーも似たような使い方してるんじゃないかな。

プレミアムモデルがたった10%良くなるだけなら、約0.5-1Tのオープンウェイトモデルを自分でホスティングするのと比べて、その価格を正当化できるかも。これらの巨大なラックは24時間稼働するわけじゃないし、通常はモデルをトレーニングするためのGPU集中的なショップじゃないからね。価格が10万〜20万ドルで、寿命が約2年だとしたら、財政的に正当化するのは難しいよ。自分でホスティングするのは、多くの開発者で割り算すると、月に約1000ドルになるかも。ピーク時には厳しいレート制限があるし、1500-1000=500ドルの月額費用で「AIの生産性」が10%減るのを正当化できるかな?多分無理だと思う。短期的には、特に自分でコーディングアシスタントモデルをホスティングする本当に良い理由がない限り、大手の2/3のコーディングアシスタントプロバイダーがより良い選択だと思う。クラウドコードのライセンスを取っても誰もクビにならないからね。

LLMをサービスとして提供することでお金を稼ぐチャンスはたくさんあると思うけど、商品化が進むにはまだ時間が必要だね。落ち着いたら、フロンティアモデルのプロバイダーには特に強みがないと思うよ。ドットコムバブルの時みたいに、キャッチーなURLと決済を受け付けるウェブページがあっても、それは強みにはならなかったから。

中規模のビジネスを運営するために十分な計算能力を持つGPUはどこで買ってるの?

なんでそれがもっと一般的になると思うの?複数のユーザーにサービスを提供するためにGPUをプールして、セキュリティコントロールを守りながらドキュメントやデータレイクに接続するのは、簡単なことじゃないよ。結局、管理するチームにお金を払うことになるよ。

最近、$WORK(NYSEに上場している伝統的な金融会社で、IT専門知識は平均的)で似たような話をしたんだけど、考え方はこうだと思う。優秀な開発者やハッカーに高性能なGPUサーバーを渡して、彼らができるモデルを動かすのは簡単だけど、そのプラットフォームを会社全体で維持するのは別の話だよね。そういうモデルを理解して維持するためには、普通のソフトウェア開発者の給料を超える人材が必要になるし、バックエンドや可用性の管理もあるし。こういう余計な手間があるから、トップクラスの外部ラボにお金を払って、みんなに合理的な支出制限を設ける方が楽なんだよね。

私は月100ドルのサブスクリプションを使ってるけど、30日間のAPIコストは約1700ドルだよ。使い方次第だね。詳細なデザインを生成するためにプロンプトを使って、それをタスクのリストに分けて、複数のエージェントに渡すと、すぐに何千ドルも使っちゃう。もしもっと計画的に、数人のエージェントを使ってインタラクティブに作業して、PRのレビューや問題解決、自動クリーンアップ、パフォーマンス最適化なんかをしているなら、1500ドルくらいになるかも。単発の質問を投げるだけなら、100ドル以下で済むよ。最近は/goalsにハマってて、何か検証可能なものを見つけて一晩置いておくと、クリスマスの朝みたいに結果が楽しみになるよ。