ハクソク

世界を動かす技術を、日本語で。

Gemini RoboticsのオンデバイスがローカルロボットデバイスにAIをもたらす

2025年6月24日原文(deepmind.google)

概要

Gemini Robotics On-Device は、ローカル動作に最適化された高性能VLAモデル
低レイテンシ と 接続不要 で、堅牢なロボット操作を実現
SDK提供 により、開発者が簡単に評価・適応可能
少数のデモ（50〜100例）で新規タスクへ 高速適応
安全性と責任ある開発 を重視したリリース

Gemini Robotics On-Deviceの紹介

Gemini Robotics On-Device は、ロボットデバイス上で直接動作する最先端の VLA（Vision Language Action）モデル
Gemini 2.0 のマルチモーダル推論・現実世界理解を物理世界に適用
ネットワーク接続不要 で、レイテンシに敏感なアプリケーションや、接続が不安定な環境でも高い堅牢性を維持
SDK を提供し、開発者が自身のタスクや環境でモデルを評価・適応可能
MuJoCo物理シミュレータ でのテストや、新領域への迅速な適応をサポート

モデルの能力と性能

バイアームロボット向け基盤モデル として設計され、最小限の計算資源で動作
器用な操作 や タスク汎化能力 を継承
素早い実験 や 新規タスクへのファインチューニング に最適
ローカル推論最適化 により低レイテンシ実現
視覚・意味・行動の 強力な汎化性能 と 自然言語指示 の理解
バッグのジッパー開閉や衣類折りたたみ など、高度な器用作業もローカルで実行
オンデバイスで全て動作しながら、他のモデルを上回る 一般化・指示追従性能
複雑なマルチステップ指示 や未知タスクでも、他のオンデバイスモデルより高精度

タスク適応性と多様なロボット対応

ファインチューニング可能な初のVLAモデル
50〜100例のデモ で新規タスクに素早く適応
ALOHAロボット 用に訓練したモデルを、 Franka FR3（二腕ロボット） や Apptronik Apollo（ヒューマノイド） にも適応
Franka FR3 では未見の物体・シーンに対する指示追従や産業用精密作業も実現
Apolloヒューマノイド でも、言語指示に従い多様な物体操作が可能

責任ある開発と安全性

AI Principles に基づいた開発と 包括的安全性アプローチ
Live API で意味・内容の安全性を確保し、低レベル安全制御と連携
セマンティック安全性ベンチマーク や レッドチーム演習 で脆弱性を検証
ReDIチーム による社会的影響分析・助言と、 RSC（責任・安全性委員会） によるレビュー・フィードバック
信頼できるテスター限定リリース で利用状況・安全性のフィードバックを収集

ロボティクス分野のイノベーション加速

Gemini Robotics On-Device の登場で、高性能ロボティクスモデルの 普及と適応性向上
オンデバイス推論 により、レイテンシ・接続の課題を解決
SDK で開発者が独自ニーズに合わせてモデル適応可能
信頼できるテスタープログラム からモデル・SDKへのアクセス提供
ロボティクスコミュニティによる 新たな応用・発展 への期待

参考・協力者

本プロジェクトには 多数の研究者・エンジニア や 運用・サポートスタッフ が貢献
データ収集・ロボット評価 など幅広い協力体制

関連情報・参加方法

信頼できるテスタープログラム への参加登録
Gemini Robotics技術レポート 参照
ALOHAロボットのシミュレーションテスト

Hackerたちの意見

ロボットがプロンプトを実行している間に狂わないようにするためのガードレール（ロボティクスの三原則みたいな）って、どんなのがあるんだろう？

└

電源コード？

└

ロボティクスの法律は、フィクションの中で対立を生むために作られたものだから、実際のシステムがそんな風になってないことを願うよ。

「ロボットが安全に行動することを保証するために、Gemini Roboticsは多層的なアプローチを採用しています。『Gemini Roboticsをフルに使うと、安全に何をするかを考えるモデルに接続されるんです。』とパラダは言います。『それから、実際に選択肢を出すVLAと話をさせて、そのVLAが低レベルのコントローラーを呼び出します。そこには、どれくらいの力で動かせるかとか、腕をどれくらいの速さで動かせるかといった安全に関わる重要なコンポーネントが含まれています。』」

└

この分野のロボティクスに関する研究は一般的に「憲法的AI」と呼ばれていて、いくつかのロボティクスVLAで引用されたり実験されたりしてるよ。（https://arxiv.org/abs/2212.08073）

└

実際には、その法律はクソだよ。

SDKはどんなハードウェアで動くの？最新のRaspberry Piでも動くのかな？

└

ブログ記事によると、少なくとも8GBのRAMを持つNVIDIA Jetson Orinが必要で、Jetson AGX Orin（64GB）やOrin NX（16GB）モジュールに最適化されているみたい。

└

これらは基本的にマルチモーダルLLMだと思えばいいよ。つまり、特定のタスクに特化した小さくて速いもの（SmolVLA - 0.5Bパラメータ）と、より一般的で大きくて遅いもの（OpenVLA - ファインチューニングされたllama2 7B）があるってこと。だから、Raspberry Piは特定のタスクには使えるけど、一般的なものでもしっかりした消費者向けハードウェアで動かせるよ。

「信頼できるテストプログラム」に参加するのはどれくらい簡単なのか知ってる人いる？SDKを簡単に接続できるモジュールとか提供してるのかな？

└

記事の下の方にサインアップボタンがあるよ…

ヒューマノイドロボティクスには期待してるけど、信頼性の問題が気になるな。生物の手や腕は、常に世界とやり取りできるって考えると本当に奇跡的だよね。自然に摩耗するけど、それを常に自己修復してるんだから。

└

近い未来の可能性を考えると、すごくワクワクするか、逆にちょっと怖くなるよね。最初は掃除ロボットみたいにすごく特化したものだと思ってたけど、準備が整う頃にはかなり一般化されてるみたい。センサーやモーターはたくさん必要だろうけど、自動運転車と比べれば責任は少ないし、使う材料もずっと少ないだろうね。

Hacker Newsで議論の続きを見る