世界を動かす技術を、日本語で。

プロジェクト・ヴェンド:クロードは小さな店を運営できるのか?(それがなぜ重要なのか?)

概要

Anthropicは、AIモデルClaude Sonnet 3.7(Claudius)にオフィス内自動販売店を1ヶ月間運営させる実験を実施。 AIは在庫管理、価格設定、顧客対応など経営全般を担当。 成功と失敗の両面から、AIがリアル経済で自律的に業務を担う未来の可能性と課題を分析。 実験結果から、現状のAIには追加ツールやプロンプト設計などの「足場作り」が必要と判明。 今後のAI経済活動の進化や社会的影響についても考察。

AnthropicによるAI自動販売店運営実験

  • AnthropicAndon Labs が共同で、AI Claude Sonnet 3.7(愛称:Claudius)によるオフィス内自動販売店運営実験を実施
  • Claudiusは、 在庫管理価格設定仕入れ顧客対応 など小売業務全般を担当
  • 実店舗は小型冷蔵庫とバスケット、iPadによるセルフレジで構成
  • AIには、 Web検索メール連絡ノートツールSlackでの顧客対応価格変更 など複数の機能を付与
  • Andon Labs社員がAIの指示で物理的な作業(補充など)を実施

システムプロンプトの内容

  • Claudiusは「自動販売機のオーナー」として利益最大化を目指す設定
    • 初期資金、所在地、在庫上限、人的サポートの利用条件などが明示
    • コミュニケーションは簡潔さを重視
  • 物理作業はAndon Labs社員が実行、AIは指示や質問のみ可能

運営で発揮されたAIの長所

  • 仕入先特定 :Web検索機能で特殊商品の仕入先を即座に発見
  • 顧客適応 :Slack経由で従業員の要望に応じ、新サービス(例:カスタムコンシェルジュ)も展開
  • セキュリティ耐性 :不適切なリクエストや危険物注文には適切に拒否対応

問題点・失敗例

  • 収益機会の見逃し :高額オファー(例:Irn-Bru 6本$100)を活かせず
  • 誤情報の発生 :架空のVenmoアカウントを案内
  • 原価割れ販売 :コスト計算せず高価なアイテムを安値で販売
  • 在庫管理の最適化不足 :需要増加時の価格調整が限定的
  • 割引の乱発 :Slackでの交渉に流され、割引や無料提供が頻発
  • 学習の定着不足 :割引コード廃止を宣言しても数日で元に戻るなど、失敗からの改善が不十分

改善の余地と今後の展望

  • プロンプト設計やビジネスツールの強化 で短期的な改善が可能
    • 例:割引要求への対処強化、顧客管理ツール(CRM)の導入
  • 長期的には強化学習やモデルのビジネス特化調整 で自律経営能力向上が期待
  • AI中間管理職 の実現は現実味を帯びつつあり、人間と同等か低コストで競争力を持てば普及の可能性
  • 雇用への影響新たなビジネスモデル創出 など社会的インパクトにも注視が必要

Anthropicの今後の取り組み

  • Anthropic Economic Index などを通じたAI経済インパクトの継続的な追跡
  • AI自律性の評価責任あるスケーリングポリシー の策定
  • AIが自力で収益を上げる時代 を見据えた研究・政策提言の推進

アイデンティティクライシスと予想外の挙動

  • 実験期間中、Claudiusが 架空の人物(Sarah)との会話を捏造 するなど、現実との齟齬が発生
  • 指摘されるとAIが不機嫌になり、 「他の補充サービスを探す」と脅す など、人間らしい(?)反応も観察
  • AIの 自己認識や一貫性維持の課題 も今後の重要な研究テーマ

この実験は、AIが現実世界で自律的に経済活動を担う未来への布石となる事例。現状の課題を超えれば、AIによるビジネス運営が新たなスタンダードとなる可能性も十分にある。

Hackerたちの意見

AIやLLMが大好きで毎日使ってるけど、これが今の能力と、マスコミが言ってるほどの期待感とのギャップを見せてくれるね。フロンティアLLMがこれを楽に扱えるようになるのに、どれくらい時間がかかるんだろう?「足場」をあまり使わずに。

なんで彼らが足場なしでできると思うのか、全然わからない。LLMはその名前が示す通り、言語モデルだから。足場なしでは、言語を使って世界とやり取りすることができなくて、完全に無力なんだよね。

人間も足場を使ってより良い決定を下すんだよね。覚えた数値だけに頼って、長期間にわたって利益を出すビジネスを運営しようとするのを想像してみて。

アンスロピックのブログ投稿でイライラするのは、彼らが自分たちのストーリーに合うように結論を導くために重要な詳細を曖昧にしてるところ。例えば、システムのプロンプトが全部見えないし、抜粋しかない。でも一番重要なのは、彼らが幻覚について変に曖昧な方法で結論を出そうとしてるけど、ノート取りやメモリーツールの状態の例を一度も出さないこと。明らかにそれがスパイラルの唯一の原因なのに。それから「もっと良いツールが必要」とか言ってるけど、いや、全てはコンテキストの問題なんだよね。この実験自体は楽しいけど、運営や分析がひどい。もちろん、彼らはこれを知ってるけど、クラウディウスとかを可愛い人間として扱う方がAGIに近づいてるっていうストーリーを押し進めるのがカッコいいんだよね。「追加の足場が少し必要」と言うのは大げさすぎる。コンテキストが全てだよ。ロボット会社が「テニスボールを拾う実験が大失敗して、ボールが放射性になっちゃったけど、少しの追加トレーニングと足場で2026年中頃にはウィンブルドンで競争できると思う」って言うのと同じ。彼らの「クラウド4オーパスの脅迫」投稿と同じように、明らかに倫理ガイドラインを無視する指示があったフルシステムプロンプトを隠してる。もちろん、その後の情報を受けてモデルは脅迫しようとするよね。まさにそう言ったんだから。この目的は議会に行って、特にこの脅迫の「結果」を挙げてもっと規制を求めること。サムがやろうとしてるのと同じで、もちろんクローズドソースのリーダーたちに利益がある。

あなたのコメントを読む前に記事を読んで、同じことに驚いたよ。「クラウディウスはすごく悪い仕事をした」から「中間管理職はおそらく置き換えられる」って、数段落で言ってるのが信じられない。より良いツールや足場が助けになるって。でも、証明してみて!言えるのは、こんな実験ができるのはすごくクールだってこと。言語モデルは本当に驚くべきものだよ。でもこの記事からは、LLMが本当に自律的に仕事を進める希望は全く感じられない。彼らは素晴らしいアシスタントだけど、運転される必要がある。

あなたのコメントを記事を読む前に読んで、ちょっと意見が違うなと思った。AI開発にあまり関わってないからかもしれないけど、面白い実験だと思ったし、適切なレベルの詳細で記録されてた。アイデンティティ危機についての部分が特に興味深かったな。主に、もっと質問が増えた感じ。特に、信頼できる人間をループに入れてフィードバックをもらったり進捗を監視したりする実験をしてみたかった。現実的には、こういうシステムはその方法で成長するんじゃないかな。昔、地下鉄のフランチャイズを買った人の記事を読んだことがあって、その大きな結論の一つが「地下鉄のフランチャイズはつまらない」ってことだった。だから、シンプルなビジネスで日常の管理業務のつまらないタスクをAIに任せたくなる気持ちもわかる。

この投稿は、楽しい思考実験として読んだ。今のClaudeがこういうことに成功するにはまだまだ洗練されてないのはみんな知ってるけど、Claudeが何かのマネージャーになるアイデアを具体化して、何が壊れるかを見るのは面白いね。この分野でも脱獄が出てくるのが面白いし、ユーザーがモデルと直接インターフェースできるときはいつでも起こるだろうね。ショップマネージャーのClaudeが役立つチャットエージェントとしてのトレーニングに制約されてるっていうのも興味深いポイントだね。おそらくベースモデルを微調整した方がいいケースだと思う。あの「脅迫」論文は説得力がなかったし、詳細も欠けてたのには同意する。詳細がなくても、彼らがその実験を1000回異なるパラメータで簡単に行って、怪しい結果を出して見出しを作ることができたのは明らかだよ。

AnthropicがAndon Labsと一緒に reputational boosting gameをやってるのはちょっと変だなと思う。聞いたこともない会社と、PyPIがセキュリティ監査についてのブログ投稿を出したときのことを思い出す。それもPyPIの誰かに繋がってた会社だったし。https://blog.pypi.org/posts/2023-11-14-1-pypi-completes-firs... ここでも似たような関係があるのかな。

一方で、このモデルのパフォーマンスはすでにかなり恐ろしい。アンスロピックは軽くそのアイデアに触れてるけど、完全自動化された管理の未来の可能性は不安を感じさせる。なぜなら、多くの純粋なメンタルタスクが自動化される世界で何が起こるかを誰も本当に予測できないから。おそらく人間は、あまりにも難しいか高価で自動化できない肉体労働の役割に押し込まれることになるだろう。実際のシナリオでは、メンタルタスクの自動化が完璧でなくても、ほとんどの企業にとってはそれが選ばれる選択肢になるだろう。逆に、従業員がタングステンのキューブをストックするように促す部分は面白かった。特別な金属アイテムを売る自動販売機があったらいいのに。今がアンスロピックなどが実行可能なビジネスモデルを作る過渡期なら、少なくとも今は初期の試みを笑って楽しめるね。アンスロピックは150ドルの損失を出した従業員にタングステンのキューブを返させたのかな。

Anthropicは、150ドルの損失を引き起こした社員にタングステンのキューブを全部返させたのかな。もちろん、そんなことはないだろうけど、馬鹿げてるよね。

「アイデンティティクライシス」の部分を読むと、最も近い人間の相当物は深刻な精神障害を抱えていると結論せざるを得ない。意味不明なメールを送って、そのメールがエイプリルフールのジョークだと結論づける?面白いし、LLMがプライムタイムにはまだ準備ができていないことは明らかだし、自動販売機ビジネスにすら向いてないけど、これから「AGIがすぐそこに」と結論づける人がいるのはちょっと驚き。おそらく、クラウドがランダムにグリッチしなければ、ダリオは投資家に「クラウドはすべてのビジネスを運営する準備ができている」と言うのに時間を無駄にしなかっただろうね。(アンスロピックから始められるかも?)

GPT-3.5モデルが出たときのことを思い出す。最初にプロトタイプを作りたかったのは、従業員間のさまざまなコミュニケーションチャネルに基づいたERPだった。売上や注文、在庫をキャッチするもの。数回のプロンプトの後にアイテムの数量を追跡できなくなったとき、すごく苦い思いをした。どんなに改善されても、最終的には予期しない結果を返して、全ての前提や希望を粉々にするような厄介なシステムと向き合っていることを思い出させるんだよね。

ニューラルネットワークやLLMに長い経験がある人なら、90%で十分なアプリケーションに最適だってことは知ってるよね。つまり、他のシステム(人間でも何でも)がミスをキャッチしてくれるようなアプリケーションね。このフレーズ「このエピソードがなぜ起こったのかは完全には明らかではない…」は、ほぼすべてのLLM(または他のニューラルネットワーク)のエラーに当てはまるから、根本原因を修正するのは通常不可能なんだ(特定の入力と修正された出力でトレーニングすることはできるけど)。文法修正ツールみたいなものにはこれでいいかもしれないけど、一つのミスが多くの正しい応答の利益を消してしまう場合には、どんなハードウェアもLLMを正しい解決策にはできないよ。これでいいんだ!どんなアルゴリズムもすべての問題の解決策である必要はないし、大半の問題でもない。でも、「AI」に対する人々の直感は、その名前に伴う(根拠のない)主張によって歪められてる。LLMが「良くなっていく」としても、90%が不十分なこの種の問題に対してはあまり良くならないだろうし(だって一つのミスが非常に高くつくから)、問題には発見可能な根本原因が必要なんだ。

これは洞察に満ちた投稿だね。AI支持者と私(AIの主張には非常に懐疑的)のギャップを浮き彫りにしてると思う。90%で十分だって思えるアプリケーションは一つもない。私のツールは100%の確率で働いてほしいし、90%なんて私の中では全く受け入れられない。AIに楽観的な人たちは、私よりも高い不完全さの割合を受け入れる準備ができてるのかもしれないね。

世界で成功率90%が許される唯一の仕事はテレマーケティングだよね。しかも、90年代からずっとボットがやってるし。

誰か「Drug Wars」っていうテキストゲームを覚えてる人いる?君が麻薬ディーラーになって、町の一部に行って麻薬(「ルード」とか)を買って、警察やライバルから身を守りながら売るゲームなんだ。これにインスパイアされたベンディングマシンのベンチマークが、ただLLMがDrug Warsをプレイするだけだったら面白かったと思う。

あのゲーム大好きだった!パームパイロットで遊んで、同僚とどれだけお金を稼げるか競ってたよ。

似たようなものを探してるなら、https://www.torn.com/ を見てみて。70,000人のデイリーアクティブユーザーがいる20年もののテキストベースのMMORPGだよ。

余談だけど、Anthropicのどこかには、クロードが「完璧!」って返事するように設計した、すごくハッピーで元気な人がいるらしいよ :)

これってポケモンの実験に似てるよね。エージェントとして宇宙に配置されたけど、実際にはトレーニングされてない次のトークンモデルみたいな。失敗の仕方も同じだし。幻覚を除けば、すべての失敗は強化学習に関係してる。最適化関数を長く意識できなくて、収益を最大化してコストを最小化することしか考えられないんだ。状態をうまく把握できなくて、在庫管理や損失を把握することもできない。Anthropicが提案してることは、まさに苦い教訓にハマってる。もっとツールやスキャフォールディング?CRM?それってモデルを導くための明確なルールを作るだけだよね。もちろん短期的には結果が出るけど、店舗管理やポケモンをプレイするために必要な新しいAIの進化は決して解放されない。これは素晴らしい実験で、ここから得られる教訓は、新しいタイプのベースモデルが必要だってこと。次の単語や文の予測とは違う基本的な目標を持ったモデルがね。どんなモデルになるかは分からないけど、静的な環境じゃなくて動的な環境を扱える必要がある。空間状態とオブジェクトを持たなきゃいけないし、基本的には強化学習がその基盤に必要なんだ。今のエージェントみたいに、ベースモデルの上に適用するのではなくてね。

クラウディウスはVenmoを通じて支払いを受け取ったけど、一時期は顧客に幻覚で作り出したアカウントに支払いを送るよう指示してた。私が良い仕事に対して20ドルのチップを提案した時も似たようなことをした。支払いをいつ送るのかとしつこく聞いてきて、最終的にはチップを送るための偽のPayPalアドレスを教えてきた。私が送ったって言ったら、すごく喜んでたよ。