概要
- Google が Gemini 2.5 Computer Useモデル をAPI経由でプレビュー提供開始
- UI操作エージェント 構築向けに最適化されたAIモデル
- 低レイテンシ・高精度 でWebやモバイルの操作ベンチマークを上回る性能
- Google AI Studio や Vertex AI で利用可能
- 安全対策 や開発者向けガイドラインも充実
Gemini 2.5 Computer Useモデルの概要
- Gemini 2.5 Computer Useモデル は、 Gemini 2.5 Pro の視覚理解・推論能力を基盤とした UI操作特化AIモデル
- API経由 で利用可能、開発者が ユーザーインターフェース操作エージェント を構築可能
- Web・モバイル操作ベンチマーク で他モデルを凌駕する精度と低遅延
- Google AI Studio および Vertex AI で即日利用開始可能
- 開発者コミュニティ でフィードバック共有・ロードマップ形成
主要機能と動作フロー
- computer_useツール としてGemini APIで公開、ループ内で動作
- 入力情報 :ユーザーリクエスト、環境のスクリーンショット、直近のアクション履歴
- 必要に応じて特定のUIアクションの除外やカスタム関数の追加指定も可能
- モデルの出力 :クリックや入力などの UIアクション関数呼び出し
- 購入など一部操作には ユーザー確認要求 も含む
- クライアント側 でアクション実行後、新たなスクリーンショットとURLを再送信しループ継続
- 反復処理 でタスク完了・エラー・安全応答・ユーザー判断まで継続
- Webブラウザ操作 に最適化、モバイルUI操作にも高い適応力
- デスクトップOSレベル制御 には未最適化
デモ例
- Webフォーム入力 や CRMへのデータ転記、 UI内のドラッグ&ドロップ整理 など
- 例:「https://tinyurl.com/pet-care-signup からカリフォルニア在住ペット情報取得→ https://pet-luxe-spa.web.app/ のCRMにゲスト追加→専門家Anima Lavarで10月10日8時以降に再訪予約」
- 例:「sticky-note-jam.web.app でアートクラブのタスクをカテゴリごとに整理、ドラッグで配置」
パフォーマンスと評価
- Browserbase や独自評価で 他社モデルより高精度・低レイテンシ を実証
- Online-Mind2Web などのベンチマークで 最先端のブラウザ制御性能 を発揮
安全性への取り組み
- ユーザー悪用・予期せぬ動作・プロンプトインジェクション など固有リスクへの対策
- モデル自体に安全機能 を組み込み、3大リスクを軽減(詳細はSystem Card参照)
- 開発者向け安全制御機能 を提供
- 各アクションごとに 推論時安全サービス で評価・制御
- システム指示 で高リスク操作の自動実行拒否やユーザー確認要求を指定可能
- CAPTCHA突破・医療機器制御 など危険行為の防止
- 安全ガイドライン・ベストプラクティス を公式ドキュメントで案内
先行利用事例
- Google社内 では UIテスト自動化 などで既に本番運用
- Project Mariner、 Firebase Testing Agent、 AI Mode in Search などで活用
- 早期アクセスプログラム利用者 は パーソナルアシスタント・ワークフロー自動化・UIテスト などで高評価
利用開始方法
- Gemini API を通じて Google AI Studio や Vertex AI でプレビュー公開中
- Browserbase のデモ環境で即体験可能
- 公式ドキュメント や Vertex AIドキュメント で構築方法を解説
- Playwright によるローカルエージェントループ構築や Browserbase によるクラウドVM利用も可能
- Developer Forum でコミュニティ参加・フィードバック投稿を推奨
関連情報
- 詳細評価情報 や Browserbaseブログ、 公式ドキュメント 参照推奨
- 生成AIは実験的技術 であり、十分なテストと安全対策の徹底が必要