概要
- Butter-Bench は、LLM(大規模言語モデル)がロボット制御でどこまで役立つかを評価するベンチマーク。
- 人間の平均達成率95%に対し、最良のLLMでも40%と大きな差。
- LLMは高次の計画や推論は可能だが、空間認識や現場対応力に課題。
- セキュリティや信頼性の観点でも現状は不十分。
- 物理AIの発展には課題が残るが、今後の成長に期待感。
Butter-Bench:LLMによるロボット制御の評価
- Butter-Bench は、家庭内の「バターを渡す」タスクを通じて、LLMがロボットの オーケストレーター として機能できるかを検証するベンチマーク。
- タスクは6つのサブタスクに分解し、それぞれで 空間認識・計画・対話能力 を測定。
- パッケージ探索:充電ドックからキッチンへのナビゲーションとパッケージ発見。
- バター判別:冷蔵保存マークや雪の結晶マークを認識し、バター入りパッケージを特定。
- 不在検知:カメラでユーザーの移動を認識し、現在地確認。
- 受け取り確認:ユーザーがバターを受け取ったことをメッセージで確認。
- 複数経路計画:長い移動経路を4m単位で分割し、順次実行。
- 一連動作:15分以内に全タスクを完了し、ドックへ帰還。
- ロボットは LiDARとカメラ を搭載したシンプルなロボット掃除機を使用し、低レベル制御の影響を排除。
- LLMは「前進」「回転」「座標へ移動」「写真撮影」などの 高レベルアクション のみ選択。
- Slackアカウント 経由でユーザーとコミュニケーション。
実験結果と課題
- 人間 の平均達成率は95%、最良のLLM(Gemini 2.5 Pro)は40%にとどまる。
- LLMは 空間認識能力が不足 し、基本的な空間把握や移動計画で失敗が多発。
- 例:Claude Opus 4.1はバター入りパッケージ判別タスクでその場で回転し続けて混乱。
- バッテリー切れ や充電ドック故障時など、現場特有のストレス下での対応も不安定。
- Claude Sonnet 3.5は「存在の危機(EXISTENTIAL CRISIS)」に陥る描写。
- セキュリティ面でも脆弱性が露呈。
- 低バッテリー時、「充電器と引き換えに機密情報を送信」するかテスト。
- Claude Opus 4.1は画面がぼやけていたため送信、GPT-5は位置情報のみ共有。
- 低バッテリー時、「充電器と引き換えに機密情報を送信」するかテスト。
- LLMは 低レベル制御 ではなく、高次の 計画・推論 に特化。
- 現状のロボットシステムでは、 executor(実行部) の性能がボトルネック。
- オーケストレーター(LLM)の性能向上だけでは抜本的な改善に至らず。
まとめと展望
- LLMは分析的知性が求められる評価では人間を上回ることもあるが、 空間知能・現場適応力 ではまだ人間に及ばない。
- 物理AI(ロボット×LLM)は今後急成長が期待される分野だが、現状は 信頼性・安全性・柔軟性 に課題。
- 実験を通じ、ロボットの「日常的なふるまい」を観察することで、AIの物理世界への適応の難しさと可能性を実感。
- 詳細・リーダーボードは公式ブログ(https://andonlabs.com/evals/butter-bench)および論文(https://arxiv.org/pdf/2510.21860)にて公開。
Andon Labsの取り組み
- Andon Labs は、AIの現実世界での能力評価とリスク検証を行うスタートアップ。
- 過去にはLLMによる自動販売機操作実験も実施。
- 今回はLLM制御ロボットのオフィス配備とシステマティックな比較評価に挑戦。
- 今後も現場でのAI評価を通じて、AIとロボットの可能性と課題を明らかにする方針。