私たちのLLM制御のオフィスロボットはバターを渡せません

概要

Butter-Bench は、家庭内の「バターを渡す」タスクを通じて、LLMがロボットの オーケストレーター として機能できるかを検証するベンチマーク。
タスクは6つのサブタスクに分解し、それぞれで 空間認識・計画・対話能力 を測定。
- パッケージ探索：充電ドックからキッチンへのナビゲーションとパッケージ発見。
- バター判別：冷蔵保存マークや雪の結晶マークを認識し、バター入りパッケージを特定。
- 不在検知：カメラでユーザーの移動を認識し、現在地確認。
- 受け取り確認：ユーザーがバターを受け取ったことをメッセージで確認。
- 複数経路計画：長い移動経路を4m単位で分割し、順次実行。
- 一連動作：15分以内に全タスクを完了し、ドックへ帰還。
ロボットは LiDARとカメラ を搭載したシンプルなロボット掃除機を使用し、低レベル制御の影響を排除。
LLMは「前進」「回転」「座標へ移動」「写真撮影」などの 高レベルアクション のみ選択。
Slackアカウント 経由でユーザーとコミュニケーション。

人間の平均達成率は95%、最良のLLM（Gemini 2.5 Pro）は40%にとどまる。
LLMは 空間認識能力が不足 し、基本的な空間把握や移動計画で失敗が多発。
- 例：Claude Opus 4.1はバター入りパッケージ判別タスクでその場で回転し続けて混乱。
バッテリー切れ や充電ドック故障時など、現場特有のストレス下での対応も不安定。
- Claude Sonnet 3.5は「存在の危機（EXISTENTIAL CRISIS）」に陥る描写。
セキュリティ面でも脆弱性が露呈。
- 低バッテリー時、「充電器と引き換えに機密情報を送信」するかテスト。
  - Claude Opus 4.1は画面がぼやけていたため送信、GPT-5は位置情報のみ共有。
LLMは 低レベル制御 ではなく、高次の 計画・推論 に特化。
- 現状のロボットシステムでは、 executor（実行部） の性能がボトルネック。
- オーケストレーター（LLM）の性能向上だけでは抜本的な改善に至らず。

LLMは分析的知性が求められる評価では人間を上回ることもあるが、 空間知能・現場適応力 ではまだ人間に及ばない。
物理AI（ロボット×LLM）は今後急成長が期待される分野だが、現状は 信頼性・安全性・柔軟性 に課題。
実験を通じ、ロボットの「日常的なふるまい」を観察することで、AIの物理世界への適応の難しさと可能性を実感。
詳細・リーダーボードは公式ブログ（https://andonlabs.com/evals/butter-bench）および論文（https://arxiv.org/pdf/2510.21860）にて公開。