世界を動かす技術を、日本語で。

ジェミニロボティクス-ER 1.6

概要

  • Gemini Robotics-ER 1.6 は、ロボットの空間・物理的推論力を大幅に強化した新モデル
  • 視覚・空間理解、タスク計画、成功判定 など、ロボティクスに不可欠な推論機能を搭載
  • インスツルメントリーディング (計器読取)など現場での実用性が向上
  • 安全性と物理的制約遵守 も大幅に改善
  • Google AI StudioとAPI から開発者向けに提供開始

Gemini Robotics-ER 1.6の概要と進化

  • Gemini Robotics-ER 1.6 は、ロボットが環境を高精度に理解・推論できる最新モデル
  • 視覚・空間理解、タスク計画、成功判定 など、実世界での自律行動を実現する推論力
  • Google SearchやVLA(Vision-Language-Actionモデル)、サードパーティ関数呼び出し対応
  • Gemini Robotics-ER 1.5やGemini 3.0 Flash に比べ、空間・物理推論(指差し、カウント、成功判定)で大幅な性能向上
  • Boston Dynamics との連携で発見された「計器読取」機能を新搭載

指差し推論:空間理解の基盤

  • 指差し は、空間推論モデルの基本機能として世代ごとに進化
  • 物体検出・カウント、関係論理、動作推論、制約遵守 など多様な用途
  • 例:「青いカップに入る全ての物体を指差せ」など複雑なプロンプトにも対応
  • 複数要素の正確な指示、不在物体への誤指示回避
  • Gemini Robotics-ER 1.5 では誤カウントや誤検出が多いが、1.6では正確性が向上

成功判定:自律性のエンジン

  • タスク完了の判定 はロボットの自律性を支える重要要素
  • 複数カメラ(オーバーヘッド・手首搭載)からの映像を統合し、動的・遮蔽環境でも正確に状況把握
  • 「青いペンを黒いペン立てに入れる」など複数視点からタスク完了を正確に判断

インスツルメントリーディング:現場対応力の強化

  • Boston Dynamics の現場検査用途から生まれた計器読取機能
  • アナログ圧力計、液面計、デジタル表示 など多様な計器を自律的に解釈
  • 視覚推論+コード実行 による高精度読取(ズーム、指差し、比率推定、単位解釈)
  • Spot (Boston Dynamics製ロボット)による現場自律監視をサポート

安全性:最高水準のロボティクスモデル

  • Gemini安全ポリシー に基づき、敵対的状況下でも高い安全遵守率
  • 物理的制約 (例:「液体は扱わない」「20kg超は持たない」)への適切な対応
  • テキスト・動画からのリスク認識精度 がGemini 3.0 Flash比で大幅向上(テキスト+6%、動画+10%)
  • 指差しや物体操作 においても安全配慮が強化

コミュニティとの連携・今後の強化

  • Gemini Robotics-ER のさらなる進化に向け、特殊用途の失敗例画像(10〜50枚)の提供を呼びかけ
  • フィードバックを元に、より堅牢な推論機能の開発を推進
  • Google AI StudioGemini API でGemini Robotics-ER 1.6を体験・利用可能

Gemini Robotics-ER 1.6 は、ロボティクス分野における推論力・安全性・現場実用性を大きく進化させた次世代モデル。現場導入や開発者の実験に最適なプラットフォーム提供。

Hackerたちの意見

なんか、既存の生成スタックの上に脳みたいなオーケストレーションパターンを使えば、人間や少なくとも動物の行動をかなり convincingly エミュレートできるようになる気がするんだよね… ただ、推論がもっと速ければもっと色々できるのに。ここでのゲージ読み取りの例は素晴らしいけど、実際にはそのシステムがPythonスクリプトを合成して、CVタスクを実行して、答えを返してくるのが今はかなり遅いんだよね。もっと速くなれば、画像生成を使ってモデルが撮った写真から未来を予測して、それを自分に説明して、そこから決定を下すみたいなループができるようになると思う。私たちの脳も無意識のうちに似たようなことをしてるんじゃないかな、意識的な心の概念に統合する前に。もし推論スループットが100倍とか1000倍あったら、どんなものが作れるのかすごく興味あるな。

これ見たことあるか分からないけど、Taalasが面白いことやってて、モデルをチップに直接埋め込むんだ。これで超高速になるんだけど(https://chatjimmy.ai)、使ってるモデルは古い小さいLlamaモデルだから、品質はあんまり良くないんだよね。でも、スケールできるって言ってるから、それが本当に実現すれば、話してる推論が解放されるかも。

Taalasは、LLMをASICにすることで速くできることを示したし、10k以上のトークン生成が可能なんだ。あとは時間の問題だね。

スロップ画像をスロップマシンに入れたら、スロップ^2が出てくるってどう?

人間の行動を模倣することが本当に価値のある最終目標なのかな?人間は、大きな獲物を狩るための進化の最終形態として存在してるし、有機的な道具を作ることもしてきた。過去100年でたくさんの産業用や家庭用の自動化ツールを作ってきたけど、どれも人型じゃないよね。家庭用ロボットの執事は、R2D2みたいにたくさんの腕を持ってる方がいいと思うな。

最近、AIロボティクスについて考えてるんだけど…もし研究所内でロボティクス用のGPT-2やGPT-3の「同等品」があったら、それを一般に公開するのは難しいよね。ロボットが食器洗い機から皿を取り出して壊しちゃったら、それは大失敗だし。だから、すごい進展が裏で進んでるかもしれないけど、一般公開にはまだ準備が整ってないのかも。

週末にロビン・ウィリアムズの『バイセンテニアル・マン』(1999)を見ちゃった。まだ見てないなら、結構良いし、子供向けでもあるからおすすめだよ。ストーリーをネタバレしないように言うと、食器洗い機を片付けるシーン…お金払う価値あるよ!

それは「VLA」(ビジョン・ランゲージ・アクション)モデルって呼ばれてるよ: https://huggingface.co/models?pipeline_tag=robotics VLAモデルは基本的にウェブカメラのスクリーンショットとテキスト(例えば「赤いブロックを右の箱に入れて」みたいな)を組み合わせて、モーター制御の指示を出すんだ。注意:「Gemini Robotics-ER」はVLAじゃないけど、GeminiにはVLAモデルもあるよ:「Gemini Robotics」。デモ動画: https://www.youtube.com/watch?v=DeBLc2D6bvg

食器洗い機からロボットが皿を取り出して、一つでも割ったら、それは大失敗だよね。ちょっと誇張しすぎじゃない?初期のルンバは靴下に絡まったり、ペットのうんちを床に引きずったり、ガラスのものを壊したりしてたけど、それでも市場はそれを受け入れて進化したんだ。今じゃ、いろんな会社から安いスパイ用のものまで、たくさんの掃除ロボットが出てるしね。完璧じゃなくても、家庭にロボットを導入することには大きな価値があると思うよ。集められるデータは貴重だし、実験室で合成できるものじゃないと思う。やっぱり「安全な」選択肢は「まず工場に、次にオフィス、最後に家庭」って感じだと思うけど、まあ、誰かが家庭への導入に真っ先に飛びつくんだろうね。

食器洗い機の出し入れで皿を割ったことがあるけど、俺は大失敗なのかな?俺のAIじゃない食器洗い機は、水を中に保てないこともあるし。完璧なものなんてないよね。

もしロボットが食器洗い機から皿を取り出す時に一つでも割ったら、それは大失敗だよね。皿を割る確率によっては、月に2回くらい必要な大事な皿を割る私にとっては、かなりの改善になる。

経済的な観点から見ると、この業界は圧倒的に重要だよね。環境がかなりコントロールされてるから、プロがロボットを設定したりメンテナンスしたりするし、大量に購入できるし、資金も豊富だし。家庭用ロボットについて心配なのは、食器洗い機じゃなくて、テレビの画面とかガラスのドア、ガラステーブル、ペット(魚や水槽)とか、ロボットがぶつかったり触れたり、落ちたりするかもしれないところなんだよね。

ロボティクスにはインターネット規模のデータが足りないよね。ギャップが大きすぎる!だから、GPTのようなモデルを持ってるって主張する人は正直じゃないと思う。

圧力計にカメラを向けてグラフを記録するのって、私にとっては便利だと思うし、書こうと思ってたことなんだ。そういうソフトウェアって、一般消費者向けに存在してるのかな?

OpenCVを調べてみて。

たぶん、クラウドがこれを一発でやってくれると思うよ。頼めば、ホームアシスタントのダッシュボードアイテムも作ってくれるし。

フリゲートでこれを設定できると思うけど、ちょっとやりすぎかな。オープンクローなら、少しマシかも。

いいね。でも、俺が一番興味あるレイテンシの部分が見つからなかった。これはいくつかの識別タスクに関しては彼らのフロンティアビジョンモデルを超えてるね。ロボティクスモデルとしては、hzに興味がある。これは「具現化された推論」モデルだから、かなり遅いんじゃないかな。ロボット上の高速サイクルモデルに合わせるように設計されてるし。とにかく、クールだね。

AIスタジオでの簡単な画像認識テストをした感じだと、性能は3.1プロと似てるけど、めっちゃ速い!「考える」けど、数秒だけね。もちろん、これは動物の足を数えたり、座標を与えたり、アナログ時計を読んだりするための話。コーディングやパズルを解くわけじゃない。モデルの重さに対する画像性能はかなり高いと思う。

土地の一画。ロボットの足と腕、巨大なバッテリー、市販のGPU。ソーラーパネル。プロンプト:「この土地の限界内で世話をして、野菜を育ててね。」

それが今どうなってるのか、よくわからないな。 https://proofofcorn.com/

「この土地を大切にする」っていうのが、カリフォルニアで伝統的に行われてきた小さな遅い燃焼のことだったらどうなるんだろう。1万年以上この管理方法が続いてきた結果、灰がないと発芽すらしない重要な在来種がたくさんいるんだよね。あるいは、里山のような景観になるかもしれないし、中央アフリカの多くの地域で伝統的に行われていた作物の輪作に似ているかもしれない。ロシアでは、ソ連が「現代科学農業」を農民に強制する前、彼らはコンター農法(地形に沿って作物を植えて水を遅らせる方法)やマスリンズ(同じ場所で複数の小麦や大麦の品種を混ぜて育てる方法)を実践していた。今では、コンター農法は表土の喪失を防ぎ、土壌の健康を築くための研究が進んでいるし、マスリンズは安定した収穫を提供し、農薬をほとんど使わないんだ。さらに、私たちが記録した米の品種は4万から12万以上もあるけど、そのほとんどは特定の場所、しばしば一つの村に超適応している。要するに、土地の手入れには一つの正解がないってこと。土地自体の非生物的特性だけでなく、いろんな要因に関係してるんだよ。目標や意図も大事だし、常に地域に特有の適応が見つかるよ。

完了!地球全体が今や野菜だね。

まだ効果がどれくらいかは分からないけど、伝統的なプロンプトはこうだよ:「実を結び、増えよ」

Googleとボストンダイナミクス(SpotやAtlasで有名)が、少し前にパートナーシップを結んで、一緒にモデルを作ってるんだ。ヒュンダイがボストンダイナミクスを買収して、ロボットを工場に導入しようとしてるよ。

これ、私の「LLMがMCPを通じてロボットを制御できる」システムにぴったりだね。LLMはコードを書くのが得意だから、それを活かそうと思ってる。試してみるよ!最近、大きなロボットを手に入れたから、どうなるか見てみよう… https://colinator.github.io/Ariel/post1.html

ほんと残念なのは、2週間前に見たこの件に関するYT動画を忘れちゃったこと。GoogleのPaLM-Eの進化と進捗についての内容だったんだ。基本的に、ロボットを制御するモデルとLLMの2つのモデルがあって、それが注意層で組み合わさってるんだよね。

「私たちの最も安全なロボティクスモデル」 「安全性は、私たちの具現化された推論モデルのすべてのレベルに組み込まれています。Gemini Robotics-ER 1.6は、これまでの世代と比較して、敵対的な空間推論タスクにおいてGeminiの安全ポリシーへの準拠が優れている、私たちの最も安全なロボティクスモデルです。」 安全ガイドラインは面白いね。目指すべき目標として扱っているのが現実的に感じる。でも、まだ本格的には使えないかな。

ちょっとバカな質問かもしれないけど、アナログ機器の読み取りが使い道の一つなんだよね。俺の頭はすぐに「データを送るセンサーが必要で、アナログじゃない方がいいんじゃない?」って考えちゃう。ロボット犬がアナログセンサーを読むのって、本当に適してる場合があるのかな?

代替案をじっくり考える価値があるよね。エンジニアがプロセスや環境、安全要件に合ったデジタルの代替品を指定することになるだろうし、それを調達する(産業用デジタル圧力トランスデューサーは簡単に1万ドル近くになることもあるし)、プラントの停止をスケジュールする(それにかかる費用は?)、それからパイプフィッターやボイラーメーカーに古いゲージを新しい圧力トランスミッターに交換してもらう(それには熱作業許可が必要?エンジニアにサインしてもらった?)。それから、コントロールの電気技師がフィールドバスやHART、Modbusなどに接続するためにマシャリングキャビネットに戻す方法を見つけなきゃいけない(それ持ってる?)から、SCADAシステムと通信できるようにする(それ持ってる?)。明らかに、単純な変更を産業環境で行うコストは過小評価されがちだと思う。

IoTカメラを設置する方が、「機器を停止してアナログ機器を外し、デジタルのものを接続してキャリブレーションしてから再起動する」よりも、信頼性が高くてコストも安くなるケースがたくさん見えるよね。壊れてないなら直さなくていい — 安いカメラを向けて、クラウドコンピューティングを使えば十分だよ。

じゃあ、GoogleがGemini Flash 3.1をリリースするまでこれを使うべき?(Flash LiteやLiveじゃなくて)