世界を動かす技術を、日本語で。

ジェミニロボティクス-ER 1.6

2026年4月15日原文(deepmind.google)

概要

  • Gemini Robotics-ER 1.6 は、ロボットの空間・物理的推論力を大幅に強化した新モデル
  • 視覚・空間理解、タスク計画、成功判定 など、ロボティクスに不可欠な推論機能を搭載
  • インスツルメントリーディング (計器読取)など現場での実用性が向上
  • 安全性と物理的制約遵守 も大幅に改善
  • Google AI StudioとAPI から開発者向けに提供開始

Gemini Robotics-ER 1.6の概要と進化

  • Gemini Robotics-ER 1.6 は、ロボットが環境を高精度に理解・推論できる最新モデル
  • 視覚・空間理解、タスク計画、成功判定 など、実世界での自律行動を実現する推論力
  • Google SearchやVLA(Vision-Language-Actionモデル)、サードパーティ関数呼び出し対応
  • Gemini Robotics-ER 1.5やGemini 3.0 Flash に比べ、空間・物理推論(指差し、カウント、成功判定)で大幅な性能向上
  • Boston Dynamics との連携で発見された「計器読取」機能を新搭載

指差し推論:空間理解の基盤

  • 指差し は、空間推論モデルの基本機能として世代ごとに進化
  • 物体検出・カウント、関係論理、動作推論、制約遵守 など多様な用途
  • 例:「青いカップに入る全ての物体を指差せ」など複雑なプロンプトにも対応
  • 複数要素の正確な指示、不在物体への誤指示回避
  • Gemini Robotics-ER 1.5 では誤カウントや誤検出が多いが、1.6では正確性が向上

成功判定:自律性のエンジン

  • タスク完了の判定 はロボットの自律性を支える重要要素
  • 複数カメラ(オーバーヘッド・手首搭載)からの映像を統合し、動的・遮蔽環境でも正確に状況把握
  • 「青いペンを黒いペン立てに入れる」など複数視点からタスク完了を正確に判断

インスツルメントリーディング:現場対応力の強化

  • Boston Dynamics の現場検査用途から生まれた計器読取機能
  • アナログ圧力計、液面計、デジタル表示 など多様な計器を自律的に解釈
  • 視覚推論+コード実行 による高精度読取(ズーム、指差し、比率推定、単位解釈)
  • Spot (Boston Dynamics製ロボット)による現場自律監視をサポート

安全性:最高水準のロボティクスモデル

  • Gemini安全ポリシー に基づき、敵対的状況下でも高い安全遵守率
  • 物理的制約 (例:「液体は扱わない」「20kg超は持たない」)への適切な対応
  • テキスト・動画からのリスク認識精度 がGemini 3.0 Flash比で大幅向上(テキスト+6%、動画+10%)
  • 指差しや物体操作 においても安全配慮が強化

コミュニティとの連携・今後の強化

  • Gemini Robotics-ER のさらなる進化に向け、特殊用途の失敗例画像(10〜50枚)の提供を呼びかけ
  • フィードバックを元に、より堅牢な推論機能の開発を推進
  • Google AI StudioGemini API でGemini Robotics-ER 1.6を体験・利用可能

Gemini Robotics-ER 1.6 は、ロボティクス分野における推論力・安全性・現場実用性を大きく進化させた次世代モデル。現場導入や開発者の実験に最適なプラットフォーム提供。

Hackerたちの意見

なんか、既存の生成スタックの上に脳みたいなオーケストレーションパターンを使えば、人間や少なくとも動物の行動をかなり convincingly エミュレートできるようになる気がするんだよね… ただ、推論がもっと速ければもっと色々できるのに。ここでのゲージ読み取りの例は素晴らしいけど、実際にはそのシステムがPythonスクリプトを合成して、CVタスクを実行して、答えを返してくるのが今はかなり遅いんだよね。もっと速くなれば、画像生成を使ってモデルが撮った写真から未来を予測して、それを自分に説明して、そこから決定を下すみたいなループができるようになると思う。私たちの脳も無意識のうちに似たようなことをしてるんじゃないかな、意識的な心の概念に統合する前に。もし推論スループットが100倍とか1000倍あったら、どんなものが作れるのかすごく興味あるな。

これ見たことあるか分からないけど、Taalasが面白いことやってて、モデルをチップに直接埋め込むんだ。これで超高速になるんだけど(https://chatjimmy.ai)、使ってるモデルは古い小さいLlamaモデルだから、品質はあんまり良くないんだよね。でも、スケールできるって言ってるから、それが本当に実現すれば、話してる推論が解放されるかも。

Taalasは、LLMをASICにすることで速くできることを示したし、10k以上のトークン生成が可能なんだ。あとは時間の問題だね。

スロップ画像をスロップマシンに入れたら、スロップ^2が出てくるってどう?

人間の行動を模倣することが本当に価値のある最終目標なのかな?人間は、大きな獲物を狩るための進化の最終形態として存在してるし、有機的な道具を作ることもしてきた。過去100年でたくさんの産業用や家庭用の自動化ツールを作ってきたけど、どれも人型じゃないよね。家庭用ロボットの執事は、R2D2みたいにたくさんの腕を持ってる方がいいと思うな。

最近、AIロボティクスについて考えてるんだけど…もし研究所内でロボティクス用のGPT-2やGPT-3の「同等品」があったら、それを一般に公開するのは難しいよね。ロボットが食器洗い機から皿を取り出して壊しちゃったら、それは大失敗だし。だから、すごい進展が裏で進んでるかもしれないけど、一般公開にはまだ準備が整ってないのかも。

週末にロビン・ウィリアムズの『バイセンテニアル・マン』(1999)を見ちゃった。まだ見てないなら、結構良いし、子供向けでもあるからおすすめだよ。ストーリーをネタバレしないように言うと、食器洗い機を片付けるシーン…お金払う価値あるよ!

それは「VLA」(ビジョン・ランゲージ・アクション)モデルって呼ばれてるよ: https://huggingface.co/models?pipeline_tag=robotics VLAモデルは基本的にウェブカメラのスクリーンショットとテキスト(例えば「赤いブロックを右の箱に入れて」みたいな)を組み合わせて、モーター制御の指示を出すんだ。注意:「Gemini Robotics-ER」はVLAじゃないけど、GeminiにはVLAモデルもあるよ:「Gemini Robotics」。デモ動画: https://www.youtube.com/watch?v=DeBLc2D6bvg

食器洗い機からロボットが皿を取り出して、一つでも割ったら、それは大失敗だよね。ちょっと誇張しすぎじゃない?初期のルンバは靴下に絡まったり、ペットのうんちを床に引きずったり、ガラスのものを壊したりしてたけど、それでも市場はそれを受け入れて進化したんだ。今じゃ、いろんな会社から安いスパイ用のものまで、たくさんの掃除ロボットが出てるしね。完璧じゃなくても、家庭にロボットを導入することには大きな価値があると思うよ。集められるデータは貴重だし、実験室で合成できるものじゃないと思う。やっぱり「安全な」選択肢は「まず工場に、次にオフィス、最後に家庭」って感じだと思うけど、まあ、誰かが家庭への導入に真っ先に飛びつくんだろうね。

食器洗い機の出し入れで皿を割ったことがあるけど、俺は大失敗なのかな?俺のAIじゃない食器洗い機は、水を中に保てないこともあるし。完璧なものなんてないよね。

もしロボットが食器洗い機から皿を取り出す時に一つでも割ったら、それは大失敗だよね。皿を割る確率によっては、月に2回くらい必要な大事な皿を割る私にとっては、かなりの改善になる。

経済的な観点から見ると、この業界は圧倒的に重要だよね。環境がかなりコントロールされてるから、プロがロボットを設定したりメンテナンスしたりするし、大量に購入できるし、資金も豊富だし。家庭用ロボットについて心配なのは、食器洗い機じゃなくて、テレビの画面とかガラスのドア、ガラステーブル、ペット(魚や水槽)とか、ロボットがぶつかったり触れたり、落ちたりするかもしれないところなんだよね。

Hacker Newsで議論の続きを見る