世界を動かす技術を、日本語で。

アマゾンの従業員がAIツールの使用圧力により「トークンマキシング」を行っている

概要

  • Amazonのe-commerce部門でAI利用統計の公開範囲が制限
  • Meta社員による「tokenmaxxing」現象も発生
  • MeshClawはOpenClawに触発されて開発
  • MeshClawは多様な業務自動化が可能
  • セキュリティリスクに対する社員の懸念

Amazon社内AI利用統計と制限

  • Amazonのe-commerce部門 では、スタッフによる AI利用統計 をチーム全体で共有していたが、最近では 本人とマネージャーのみ閲覧可能 に制限
  • マネージャー によるトークン使用量を 業績評価の指標に使うことは推奨されていない との内部関係者の証言
  • Meta社員 も内部リーダーボードでの順位向上を狙い、 「tokenmaxxing」 と呼ばれる現象に参加

MeshClawツールの特徴と背景

  • 一部社員が MeshClaw というツールを利用し、AI利用統計の向上を図る動き
    • MeshClawは OpenClaw から着想を得て開発
    • OpenClawは2024年2月にバイラル化したプロジェクトで、 ユーザー自身のPCやラップトップ上でエージェントを動作 させることが可能
  • AmazonのMeshClaw は以下の機能を持つ
    • コードデプロイの実行
    • メールのトリアージ
    • Slackなどのアプリとの連携
  • Amazonの声明によると、「 数千人のAmazoniansが日々の反復作業を自動化 している」とし、チームのAI実験・導入推進の一例と位置付け

MeshClaw開発体制と機能

  • 社内文書 によれば、MeshClawの開発には 36人以上のAmazon社員が参加
  • 内部メモでは以下のように記載
    • 夜間に学習内容を統合し、会議中もデプロイを監視、朝にはメールを整理

セキュリティリスクと社員の懸念

  • 複数のAmazon社員が ユーザー代理で動作するAIツールのセキュリティリスク に懸念
    • エージェントが 誤動作や意図しない行動を起こすリスク
    • デフォルトのセキュリティ設定が非常に不安」との声
    • 自由に動作させるのは危険」という慎重な意見

まとめ

  • Amazonおよび他社での AI活用推進業務効率化
  • 一方で、 セキュリティや評価指標のあり方 への課題が浮上

Hackerたちの意見

最近これについて考えてたんだけど、AIを低コンテキストで動かすことが多いんだ。ドキュメントには高コンテキストの使用は劣化するって書いてあるからね。でもLinkedInには、コンテキストをバックアップしたり、失いたくないって言ってる人がたくさんいる。これってシステムの使い方を間違ってる気がする。高コンテキストの使用はトークンも多く使うし、密度のある詳細なコンテキストよりも悪い(遅い)出力になると思うんだ。

すぐに曖昧になる二つの動機があると思う。a) 特定のコンテキストがうまく機能するのを見つけて、その一部を保存したり、説明を繰り返さなくて済むようにしたい b) セッションを続けて、最初からコンテキストを再構築しなくて済むようにしたい。Aはプロンプトライブラリや特定のエージェントファイルの一部として保存するのが合理的だと思う。Bは長期間続けると問題が起きやすいけど、比喩的なオレンジから最後の一滴を絞り出すのには役立つかも。私がやってしまったアンチパターンは、異なるタスクや役割のために異なる復元コンテキストを切り替えること。そうなると、必要ならもっと耐久性のあるドキュメントに変換するか、「全体のコンテキストを復元する」以上に特定のキュレーションをするべきだと思う。

もっと擬人化すると、「でも最初からやり直したくない、このインスタンスはもう重要なことを全部知ってるから」って感じになるよね。もしすべてのやり取りが独立したクエリ/レスポンスとして扱われるなら、要らない部分を省いて自分の要約と組み合わせることで集中しやすくなるんだ。

数週間前にHNでこれについて冗談を言ったんだけど、もうここまで来ちゃったのが面白いね。グッドハートの法則が実際に働いてる。

マネジメントがAIの使用をトークンの使用で測ることにサインしたってことは、彼らがどれだけ無能かを示してるよね。アマゾンみたいな技術系の会社でもね。トークンマキシングは予想通りの合理的な反応だった。要するに、従業員をバカな方法で測れば、バカな行動が返ってくるってことだよ。

マネジメントは数字が好きだよね。X > Yで客観的に比較できる唯一のものだから。きれいなグラフや推計、予測が作れるし、数字が特に正確じゃなくても関係ない。データ収集のステップが正当化できればそれでOK。数字を大きくすることが良いことなら、なおさらボーナスポイントだね(例えば、重大な問題の数を追跡するのとは対照的に)。

何をインセンティブにしようとしているかによるね。パフォーマンスを測るのではなく、単にトークン消費を増やしてバブルとハイプを育てようとしている可能性もある。さらに、プレッシャーを感じた従業員がAIの新しいユニークな使い方を見つけるかもしれない。インフレが目標なら、たくさんのお金を配って、使われさえすれば目標達成って感じだね。

グッドハートの法則が実際に働いてるね。

これに賛成する意見も聞いたことがあるんだけど、経営陣はこれが副作用になることを知ってたけど、AIとできることを探るためにできるだけ人を巻き込むことが大事だと思ってるんだよね。結局、役に立つことを学べるかもしれないって期待して、意図的にお金を無駄にしてるってことだね。

今の仕事も全く同じことやってるよ。マネージャーがトークンの使用状況や関連メトリクスを示すツールを見せてくれた。

これがマット・ガーマン、究極のMBAだね。ボーナスは四半期ごとのトークンに結びついてるし、2026年にはエンジニアをコードの行数で測るのと同じことになる…だからAWSは何年も優秀なエンジニアを失ってるんだよね。残ってるのは、マクドネル合併後のボーイングみたいになってきてる…ドキュメントページの限られたスペースの4分の1を削除して、誰も求めてないAIの短いドキュメントを入れて、無効にできない。

最近、いろんなデータをいじってみたんだけど、全部をコンテキストに放り込んで、クロードにデータを分析させることもできるんだ。でも、トークンをたくさん消費しちゃう。データをディスクに保存して、クロードにデータを処理・分析するスクリプトを書かせる方が賢いよ。ずっと速いし、結果も良くなるし、トークンも節約できる。でも、アマゾンは最初のアプローチを好むんだろうね。

今の熱狂を見てると、基本的にはマネジメント版のパスカルの賭けみたいだなと思う。「リーダー」として、みんなと同じことをしないで正しかったら、落ち着いたときに正解を当てた人に見える。ああ、今は不況だから、どっちにしても大変だろうけどね。昇進が一回あるかもしれないけど、おめでとう。みんなと同じことをしないで間違ってたら、ルダイトみたいに見えるし、途中で解雇されるかもしれないし、判断力の評判も傷つく。みんなと同じことをして、みんなが間違ってたら、他の人と同じ船に乗ってるだけ。逆に、みんなと同じことをして正しかったら、実際には逆に良いかもしれない。正しいことが証明されるまで時間がかかるし、その間に傷つくこともあるからね。だから、こういうことが十分に盛り上がると、個々の判断としては、内心どう思っててもみんながそれに従うのが理にかなってると思う。

「従業員を馬鹿げた方法で測ってると、馬鹿げた行動が返ってくるよ。」私はフィットビットを着用させて、毎日一定の歩数を超えると健康保険の保険料が安くなるヘルステックのスタートアップで働いてたんだけど、みんなドリルにフィットビットをつけて回して、1日2万歩を記録してたよ。

もしそれが馬鹿げていても効果があるなら、それは馬鹿げてないよ。時には、経営者が硬直した大組織の文化を変えるために、強引な手段を使わなきゃいけないこともある。ジェフ・ベゾスが2002年にAPIの義務を出したとき、当時は馬鹿げてるように思えたかもしれないけど、実際にはうまくいったんだよ。 https://nordicapis.com/the-bezos-api-mandate-amazons-manifes...

業界がガリー・タンドされてる気がする。上層部がローカリゼーションスタッフを解雇したんだ。今はAIを使って翻訳させたいらしい。でも手動レビューも欲しいみたい。仕事でGitHub Copilotを使ってるけど、必要に応じて使える予算でたった300リクエストしかない。Opus 4.7やGPT 5.5なら、1日でそれを全部使い切っちゃうよ。割り当てられた量以上に使うべきなのか、マネジメントはそれを良いことだと思ってるのか。割り当てられた量内で収めるのがベストなのか、誰が知ってるんだ?マネジメントはどこでもゲームをしてるみたいだね。

どうやって1日で300リクエストを使い切るの?私のCopilotの使用からすると、Opusは驚くほど少ないリクエストでたくさんのことをこなすよ。トークンで支払うんじゃなくて、プロンプトか何かで支払ってるみたい。

私たちは、全く意味のないことを押し進めるビジネスパーソンの世代を育て、訓練し、雇い、昇進させてきた。彼らは悪い指標を最適化することしか理解していなくて、短期的な結果だけにしか目を向けていない。私たちの生活水準が下がっている原因を探ると、現代のアメリカ企業の姿が見えてくるのが辛い。このAIトークンマキシングのナンセンスは、何十年も続いている地獄への階段の一段に過ぎない。

リクエストって、すごく変な指標だよね。私たちはCopilotを通じてトークンの上限があって(もし私の理解が間違ってなければ)、私の「機能」のほとんどは、4.7で月に1〜2%のトークンを消費してる。でも、私がプランを管理してるわけじゃないから、実際に何を得てるのかはよく分からない。Vscodeは残りのトークンの割合しか教えてくれないし。このすべての中で一番奇妙なのは、請求の構造がどれだけ恣意的で客観的でないかってこと。だから、仕事で使うのは嬉しいけど、個人的には絶対にサブスクしない理由の一つだね。すごく不透明なんだ。

でも、AIだけじゃないんだよね。誰からアドバイスを受けるかが問題。友達が会社の経営陣について愚痴ってたんだけど、どうやら経営陣の誰かがPostgresDBがすごく良いデータベースで無料だって気づいて、IT部門にアプリケーションをOracle CloudからPostgresDBに移行するように許可したらしい。「お金がたくさん節約できる」って(確かにそうだけど…)。でも、商用ソリューション(EnterpriseDBみたいな、Oracleよりはずっと安いのに)にはお金を出さず、チームにOracle DBの「すべての機能」を再現させようとしてるんだって。結局、「Oracleができるなら、なんで君たちはできないの?」って感じ。

「インセンティブを見せてくれれば、結果を見せてあげる。」 ― チャーリー・マンガー

それって、企業環境での歪んだ結果を追い求めることが「マンガーゲーム」になるってこと?

アマゾンにいたとき、L7の人事マネージャーに昇進するには、逆にタトゥーを額に入れるべきだって提案したんだ。そうすれば、毎日それを見られるからね。上から何か命令が下されるたびに、誰も二次的な影響や悪意のあるコンプライアンス、あるいは単にゲームをすることを考えていないのが明らかだった。

コーディングしない人たち(マネジメントやリーダーシップ)は、AIが会社を10倍にすると思ってるけど、実際には40〜60%の向上に過ぎないよ。でも、エンジニアたちはリストラが怖くて、このツールを使ってるフリをしなきゃいけないんだ。

今のところ、賢いエンジニアには40%の向上だね。でも、質の低いものを量産してる人たちがいるせいで、進行が遅れてるし、その影響はしばらく感じられないだろうな。

実際には60%じゃないよ。コード作成をかなり加速させるし、管理業務にかかる時間も節約できる。それだけだね。

40-60%の向上って、どこで?どの業界、どんなプロジェクト?想像できるのは脆弱性リサーチだけど、すぐに手軽なものは全部取られちゃうと思う。

面白いのは、管理職の間でAIの使用があまり見られないことだよ。彼らの仕事の多くはAIの加速に向いてるのにね。私の会社(大手でAIの恩恵を受けてる)では、中間管理職はタイタニックのデッキで椅子を移動させることにしか関心がないみたい。株が完全に権利確定するのを待ってるだけで、何かを改善しようという興味はほとんどない。リスク回避とパフォーマンスの見せかけに夢中になってる感じ。

Twitterで面白いジョークを見たよ。「$23使ったけど、$20の食事制限を超えてるね。次はもっと気をつけて。トークンには$600使ったけど、平均より$200多いよ。おめでとう!」みたいな感じ。

https://x.com/vasuman/status/2053956365052240263 > 昨夜、Anthropicに600ドル使った人、AIをうまく活用してるね!でも、Uber Eatsに23ドル使った人は、食事の上限が20ドルってことを忘れないでね。

アマゾンで働いてるんだけど(標準的な免責事項:あくまで自分の経験をシェアしてるだけで、公式の代表じゃないよ)。これが起こってないとは言えないけど、少なくとも自分が見える範囲では、この記事に書いてあることは自分の経験とは違うかな。GenAIを使うことにはすごく興味があるけど、みんなが評価されるのは、単にトークンの量じゃなくて、クリエイティブな使い方に対してなんだよね。大規模なGenAIの取り組みでは、出力の指標(精度、発見数、修正したものの数など)にすごく焦点が当たってるよ。

GenAIの活用にはすごく興味があるみたいだけど、みんなクリエイティブな使い方に対して称賛を受けてるよね、笑。アマゾンの人事も、そんな褒め方にはちょっと控えめになるんじゃないかな。

内部の情報ありがとう。アマゾンのマネージャーがインセンティブの仕組みを知らないわけじゃないのに、コメントが少ないのに驚いてる。おそらく、誰かがマネージャーとあまり相談せずにリーダーボードを作ったんじゃないかな。で、社員たちがトークンを使って「勝ち」に行こうとする競争心を感じてるのかも。

アマゾンは巨大な会社だから、あなたの経験はエピソード以下だよ。検証できないからね。私たちが確認できるのは、アマゾンがすでに労働者をどう扱っているかということ。彼らは無駄な監視にもかかわらず、システム内の誰でも監視するんだ。なんでLLMシステムを使って、労働者が団結したりするのをさらにコントロールしようとしてるって信じられないの?LLMは、専制的なマネージャーに他の労働者を支配する力を与えるだけだし、労働者は仕事を失う恐怖から自己疎外に追い込まれて、意味のない仕事を強いられてる(それが追跡されてることだから)。どんな労働者にとってもいい提案とは言えないよ。ごめん、でもあなたの言うことは全く信じられない。この会社は、トイレ休憩が長すぎると解雇するようなところで、労働者は解雇されるのが怖くてボトルにおしっこしてるのに、「みんな、そんなに悪くないよ。たまに叩かれる労働者もいるけど、そうじゃない人もいるから!」って言ってるんだよ。

私もアマゾンで働いてるんだけど、同僚たちは毎朝20の質問をしてメトリクスを上げようとしてるよ。結局、そこは組織やマネージャー次第だね。

どれだけ大きくて真剣な組織が、このことで不必要な内部対立を生んでいるかを見るのは本当に興味深い。私のお気に入りのヒューリスティック/名言がここに当てはまるよ:「どんなに良い戦略でも、時々は結果を考慮しよう。」AIがあなたの組織で機能しているか知りたい?自分自身や従業員に「結果を見せて」と聞いてみて。これには判断力とセンスが必要だけど(結果が価値のあるものか、ただの仕事をしたように見えるだけか)、後々のストレスや失望を大幅に減らしてくれるよ。

スコアがあれば、ゲームが始まる。ゲームがあれば、人は勝つために何でもするようになる。

これに勝つ必要はないと思うけど、ボードの下の方にはいないようにしないとね。でも念のため、チャッキー・チーズのルーレットゲームみたいにトークンをスパムしてるよ。

トークン使用のリーダーボードを調査してる有名企業は他にもあるよ。