概要
- Gemini Robotics-ER 1.6 は、ロボットの空間・物理的推論力を大幅に強化した新モデル
- 視覚・空間理解、タスク計画、成功判定 など、ロボティクスに不可欠な推論機能を搭載
- インスツルメントリーディング (計器読取)など現場での実用性が向上
- 安全性と物理的制約遵守 も大幅に改善
- Google AI StudioとAPI から開発者向けに提供開始
Gemini Robotics-ER 1.6の概要と進化
- Gemini Robotics-ER 1.6 は、ロボットが環境を高精度に理解・推論できる最新モデル
- 視覚・空間理解、タスク計画、成功判定 など、実世界での自律行動を実現する推論力
- Google SearchやVLA(Vision-Language-Actionモデル)、サードパーティ関数呼び出し対応
- Gemini Robotics-ER 1.5やGemini 3.0 Flash に比べ、空間・物理推論(指差し、カウント、成功判定)で大幅な性能向上
- Boston Dynamics との連携で発見された「計器読取」機能を新搭載
指差し推論:空間理解の基盤
- 指差し は、空間推論モデルの基本機能として世代ごとに進化
- 物体検出・カウント、関係論理、動作推論、制約遵守 など多様な用途
- 例:「青いカップに入る全ての物体を指差せ」など複雑なプロンプトにも対応
- 複数要素の正確な指示、不在物体への誤指示回避
- Gemini Robotics-ER 1.5 では誤カウントや誤検出が多いが、1.6では正確性が向上
成功判定:自律性のエンジン
- タスク完了の判定 はロボットの自律性を支える重要要素
- 複数カメラ(オーバーヘッド・手首搭載)からの映像を統合し、動的・遮蔽環境でも正確に状況把握
- 「青いペンを黒いペン立てに入れる」など複数視点からタスク完了を正確に判断
インスツルメントリーディング:現場対応力の強化
- Boston Dynamics の現場検査用途から生まれた計器読取機能
- アナログ圧力計、液面計、デジタル表示 など多様な計器を自律的に解釈
- 視覚推論+コード実行 による高精度読取(ズーム、指差し、比率推定、単位解釈)
- Spot (Boston Dynamics製ロボット)による現場自律監視をサポート
安全性:最高水準のロボティクスモデル
- Gemini安全ポリシー に基づき、敵対的状況下でも高い安全遵守率
- 物理的制約 (例:「液体は扱わない」「20kg超は持たない」)への適切な対応
- テキスト・動画からのリスク認識精度 がGemini 3.0 Flash比で大幅向上(テキスト+6%、動画+10%)
- 指差しや物体操作 においても安全配慮が強化
コミュニティとの連携・今後の強化
- Gemini Robotics-ER のさらなる進化に向け、特殊用途の失敗例画像(10〜50枚)の提供を呼びかけ
- フィードバックを元に、より堅牢な推論機能の開発を推進
- Google AI Studio と Gemini API でGemini Robotics-ER 1.6を体験・利用可能
Gemini Robotics-ER 1.6 は、ロボティクス分野における推論力・安全性・現場実用性を大きく進化させた次世代モデル。現場導入や開発者の実験に最適なプラットフォーム提供。