世界を動かす技術を、日本語で。

Gemini RoboticsのオンデバイスがローカルロボットデバイスにAIをもたらす

概要

  • Gemini Robotics On-Device は、ローカル動作に最適化された高性能VLAモデル
  • 低レイテンシ接続不要 で、堅牢なロボット操作を実現
  • SDK提供 により、開発者が簡単に評価・適応可能
  • 少数のデモ(50〜100例)で新規タスクへ 高速適応
  • 安全性と責任ある開発 を重視したリリース

Gemini Robotics On-Deviceの紹介

  • Gemini Robotics On-Device は、ロボットデバイス上で直接動作する最先端の VLA(Vision Language Action)モデル
  • Gemini 2.0 のマルチモーダル推論・現実世界理解を物理世界に適用
  • ネットワーク接続不要 で、レイテンシに敏感なアプリケーションや、接続が不安定な環境でも高い堅牢性を維持
  • SDK を提供し、開発者が自身のタスクや環境でモデルを評価・適応可能
  • MuJoCo物理シミュレータ でのテストや、新領域への迅速な適応をサポート

モデルの能力と性能

  • バイアームロボット向け基盤モデル として設計され、最小限の計算資源で動作
  • 器用な操作タスク汎化能力 を継承
  • 素早い実験新規タスクへのファインチューニング に最適
  • ローカル推論最適化 により低レイテンシ実現
  • 視覚・意味・行動の 強力な汎化性能自然言語指示 の理解
  • バッグのジッパー開閉や衣類折りたたみ など、高度な器用作業もローカルで実行
  • オンデバイスで全て動作しながら、他のモデルを上回る 一般化・指示追従性能
  • 複雑なマルチステップ指示 や未知タスクでも、他のオンデバイスモデルより高精度

タスク適応性と多様なロボット対応

  • ファインチューニング可能な初のVLAモデル
  • 50〜100例のデモ で新規タスクに素早く適応
  • ALOHAロボット 用に訓練したモデルを、 Franka FR3(二腕ロボット)Apptronik Apollo(ヒューマノイド) にも適応
  • Franka FR3 では未見の物体・シーンに対する指示追従や産業用精密作業も実現
  • Apolloヒューマノイド でも、言語指示に従い多様な物体操作が可能

責任ある開発と安全性

  • AI Principles に基づいた開発と 包括的安全性アプローチ
  • Live API で意味・内容の安全性を確保し、低レベル安全制御と連携
  • セマンティック安全性ベンチマークレッドチーム演習 で脆弱性を検証
  • ReDIチーム による社会的影響分析・助言と、 RSC(責任・安全性委員会) によるレビュー・フィードバック
  • 信頼できるテスター限定リリース で利用状況・安全性のフィードバックを収集

ロボティクス分野のイノベーション加速

  • Gemini Robotics On-Device の登場で、高性能ロボティクスモデルの 普及と適応性向上
  • オンデバイス推論 により、レイテンシ・接続の課題を解決
  • SDK で開発者が独自ニーズに合わせてモデル適応可能
  • 信頼できるテスタープログラム からモデル・SDKへのアクセス提供
  • ロボティクスコミュニティによる 新たな応用・発展 への期待

参考・協力者

  • 本プロジェクトには 多数の研究者・エンジニア運用・サポートスタッフ が貢献
  • データ収集・ロボット評価 など幅広い協力体制

関連情報・参加方法

  • 信頼できるテスタープログラム への参加登録
  • Gemini Robotics技術レポート 参照
  • ALOHAロボットのシミュレーションテスト

Hackerたちの意見

ロボットがプロンプトを実行している間に狂わないようにするためのガードレール(ロボティクスの三原則みたいな)って、どんなのがあるんだろう?

電源コード?

ロボティクスの法律は、フィクションの中で対立を生むために作られたものだから、実際のシステムがそんな風になってないことを願うよ。

「ロボットが安全に行動することを保証するために、Gemini Roboticsは多層的なアプローチを採用しています。『Gemini Roboticsをフルに使うと、安全に何をするかを考えるモデルに接続されるんです。』とパラダは言います。『それから、実際に選択肢を出すVLAと話をさせて、そのVLAが低レベルのコントローラーを呼び出します。そこには、どれくらいの力で動かせるかとか、腕をどれくらいの速さで動かせるかといった安全に関わる重要なコンポーネントが含まれています。』」

この分野のロボティクスに関する研究は一般的に「憲法的AI」と呼ばれていて、いくつかのロボティクスVLAで引用されたり実験されたりしてるよ。(https://arxiv.org/abs/2212.08073)

実際には、その法律はクソだよ。

SDKはどんなハードウェアで動くの?最新のRaspberry Piでも動くのかな?

ブログ記事によると、少なくとも8GBのRAMを持つNVIDIA Jetson Orinが必要で、Jetson AGX Orin(64GB)やOrin NX(16GB)モジュールに最適化されているみたい。

これらは基本的にマルチモーダルLLMだと思えばいいよ。つまり、特定のタスクに特化した小さくて速いもの(SmolVLA - 0.5Bパラメータ)と、より一般的で大きくて遅いもの(OpenVLA - ファインチューニングされたllama2 7B)があるってこと。だから、Raspberry Piは特定のタスクには使えるけど、一般的なものでもしっかりした消費者向けハードウェアで動かせるよ。

「信頼できるテストプログラム」に参加するのはどれくらい簡単なのか知ってる人いる?SDKを簡単に接続できるモジュールとか提供してるのかな?

記事の下の方にサインアップボタンがあるよ…

ヒューマノイドロボティクスには期待してるけど、信頼性の問題が気になるな。生物の手や腕は、常に世界とやり取りできるって考えると本当に奇跡的だよね。自然に摩耗するけど、それを常に自己修復してるんだから。

近い未来の可能性を考えると、すごくワクワクするか、逆にちょっと怖くなるよね。最初は掃除ロボットみたいにすごく特化したものだと思ってたけど、準備が整う頃にはかなり一般化されてるみたい。センサーやモーターはたくさん必要だろうけど、自動運転車と比べれば責任は少ないし、使う材料もずっと少ないだろうね。

その問題は材料科学のさらなる研究で解決できると思うんだけど、どうかな? 反応が早いけどトルクが低いサーボと組み合わせれば、解決できる問題だと思うよ。

消耗品は他のロボットによって自動で交換されるかもしれないね。

ロボットの違いが時間とともにどうなるのか興味があるな。この世界には、動き続けるためにパッチを当てられたり「ジャミったり」した機械がたくさんあるよね。例えば、鉱山ロボットなんかは、かなりホコリで汚染されるだろうし、摩耗もいろんな場所で起こるだろうし、岩が落ちたら部品が曲がるかもしれない。だから、別のロボットが「ジャミる」ことができるとしても、時間が経つにつれて、ロボットは少しずつ違ったものになっていくように思う。商業用航空機も、物体との衝突や尾部の衝突などで、かなりユニークな修理を受けるみたいだし。ロボットをリサイクルする方が簡単なのかな?

工業用ロボットは少なくとも非常に信頼性が高いよ。MTBFはしばしば10万時間以上だし[0]。工業用ロボットは、できるだけ信頼性を高めるように最適化されているから、長持ちして修理が少ないほど、より利益が出るんだ。実際、ドイツと日本の企業が工業用ロボット市場を支配するようになったのは、信頼性に注力したからだよ。彼らはより信頼性の高い回転電動アクチュエーターを開発したんだ。Cincinnati Millicron(アメリカ)は、油圧ロボットが強力だったけど信頼性が低かったため、工業用ロボット市場で競争に負けたんだ。個人的には、人間の手のような形をしたロボットが同じくらいの高い信頼性を達成するのはちょっと懐疑的だな。高い力に耐えなきゃいけない小さな部品が多すぎるから。[0]https://robotsdoneright.com/Articles/what-are-the-different-...

Googleが革新的な製品をこっそりリリースして、その後(だいたい)忘れちゃうのにはいつも感心する。派手な広告キャンペーンやプレスイベントではなくて、技術好きが回覧するブログ記事を出すだけで、忘れられて、3〜4年後に「それどうなったんだっけ?」ってなる。これ、めっちゃすごいね。誰かがこれを基にスタートアップを立ち上げて、素晴らしい製品にしてくれるのを楽しみにしてるよ。

Googleのこういうプロジェクトの目的は、規制当局を抑えることだからね。彼らはこれらの製品からお金を稼ぐ必要はないんだ。ただお金を使って次に進むだけ、何百回もやってきたことだし。だけど、そんなに自由にお金を燃やせる会社ってどんな会社?独占企業だよ。独占企業はそれだけ利益が出るんだ。

これらは戦争兵器になるから、間違いないよ。デバイス上の自律性は、中央集権的な権威や責任から逃れるための完璧な手段だ。ドローンの背後には人間がいないから、戦争犯罪で責任を問われることもない。彼らがずっと夢見てきたことだよ。誰が止めるの? 誰がノーと言うの? 軍事契約はあまりにも大きすぎて断れないし、選択肢がないかもしれない。労働の排除は人間の排除を意味する。それが私たちの進む道だよ。君には利益のある生活は残らなくて、「AIによるあらゆる決定の自動化」によって排除されるんだ。すべての決定がね。本当に透明すぎる。このスレッドの楽観主義者たちは驚くべき存在だよ。0: https://www.palantir.com/

MITのスピンオフでGoogleが所有するボストン・ダイナミクスは、ロボットを軍事利用しないと誓ったんだ。DARPAや国防総省/軍の投資部門がバックについてるのに、信じるのは難しいよね。

これらは戦争用の機械になるから、間違いないよ。もちろんそうなるよ。実際、役に立つものはほとんど軍事用途があるからね。これがホットテイクだと思われる理由がよくわからない。

これらのものが戦場でドローンと競争できるのはどういうことなんだろう?おそらく、1000台の自律ドローンと同じくらいのコストがかかるし、作るのに100倍の時間と材料が必要だろうし、動かすのにももっとパワーが必要だよ。ターミネーターはいい映画だけど、実際には安い自律ドローンがそれをかなりやっつけると思う。ウクライナの映像を見たけど、ドローンは致命的で効率的、戦場では恐ろしい存在だよね。あのロボットがすごく機動力があっても、爆発するドローンから逃げるのはかなり難しいと思う。ターミネーターがショットガンを持ってるかもしれないけど、他の自律ロボットが作ることを考えると、ターミネーター1体に対して5台のドローンを用意するのは簡単に実現できそうだね。

いいね!

モデルのアーキテクチャは何ですか? LLMとはかなり離れていると思うけど、もっと知りたいな。VLAのアーキテクチャを説明しているリンクを誰か教えてくれませんか?

実際、かなり近いと思うよ。これは「ビジュアル・ランゲージ・アクション」VLAモデルで、「Gemini 2.0の基盤の上に構築されている」んだ。Gemini 2.0はネイティブな言語、音声、動画をサポートしているから、ネイティブな「アクション」データも含まれるように適応されているんじゃないかな。おそらく、トレーニング段階では入力/出力ではなく、出力のファインチューニングだけかもしれないけど(Gemini 2.0の基盤を考えると)。ネイティブなマルチモーダルLLMは基本的に脳みたいなものだね。

MuJoCoのリンクは実際には https://github.com/google-deepmind/aloha_sim を指してるよ。

mujoco_menagerieには、いろんなロボットのMujoco MJCF XMLモデルがあるよ。google-deepmind/mujoco_menagerie: https://github.com/google-deepmind/mujoco_menagerie mujoco_menagerie/aloha: https://github.com/google-deepmind/mujoco_menagerie/tree/mai...

ロボットが脱獄して銀行を襲うのを防ぐ唯一の方法は、GPUをプライベートなSOTAセキュアGPUクラウドに移動させることだね。

その間に、APIからの返信を待ちながらコーヒーでも飲むわ。