ハクソク

世界を動かす技術を、日本語で。

Gemini 2.5 コンピュータ使用モデル

2025年10月8日原文(blog.google)

概要

Google が Gemini 2.5 Computer Useモデル をAPI経由でプレビュー提供開始
UI操作エージェント 構築向けに最適化されたAIモデル
低レイテンシ・高精度 でWebやモバイルの操作ベンチマークを上回る性能
Google AI Studio や Vertex AI で利用可能
安全対策 や開発者向けガイドラインも充実

Gemini 2.5 Computer Useモデルの概要

Gemini 2.5 Computer Useモデル は、 Gemini 2.5 Pro の視覚理解・推論能力を基盤とした UI操作特化AIモデル
API経由 で利用可能、開発者が ユーザーインターフェース操作エージェント を構築可能
Web・モバイル操作ベンチマーク で他モデルを凌駕する精度と低遅延
Google AI Studio および Vertex AI で即日利用開始可能
開発者コミュニティ でフィードバック共有・ロードマップ形成

主要機能と動作フロー

computer_useツール としてGemini APIで公開、ループ内で動作
入力情報 ：ユーザーリクエスト、環境のスクリーンショット、直近のアクション履歴
- 必要に応じて特定のUIアクションの除外やカスタム関数の追加指定も可能
モデルの出力 ：クリックや入力などの UIアクション関数呼び出し
- 購入など一部操作には ユーザー確認要求 も含む
クライアント側 でアクション実行後、新たなスクリーンショットとURLを再送信しループ継続
反復処理 でタスク完了・エラー・安全応答・ユーザー判断まで継続
Webブラウザ操作 に最適化、モバイルUI操作にも高い適応力
- デスクトップOSレベル制御 には未最適化

デモ例

Webフォーム入力 や CRMへのデータ転記、 UI内のドラッグ&ドロップ整理 など
- 例：「https://tinyurl.com/pet-care-signup からカリフォルニア在住ペット情報取得→ https://pet-luxe-spa.web.app/ のCRMにゲスト追加→専門家Anima Lavarで10月10日8時以降に再訪予約」
- 例：「sticky-note-jam.web.app でアートクラブのタスクをカテゴリごとに整理、ドラッグで配置」

パフォーマンスと評価

Browserbase や独自評価で 他社モデルより高精度・低レイテンシ を実証
Online-Mind2Web などのベンチマークで 最先端のブラウザ制御性能 を発揮

安全性への取り組み

ユーザー悪用・予期せぬ動作・プロンプトインジェクション など固有リスクへの対策
モデル自体に安全機能 を組み込み、3大リスクを軽減（詳細はSystem Card参照）
開発者向け安全制御機能 を提供
- 各アクションごとに 推論時安全サービス で評価・制御
- システム指示 で高リスク操作の自動実行拒否やユーザー確認要求を指定可能
- CAPTCHA突破・医療機器制御 など危険行為の防止
安全ガイドライン・ベストプラクティス を公式ドキュメントで案内

先行利用事例

Google社内 では UIテスト自動化 などで既に本番運用
- Project Mariner、 Firebase Testing Agent、 AI Mode in Search などで活用
早期アクセスプログラム利用者 は パーソナルアシスタント・ワークフロー自動化・UIテスト などで高評価

利用開始方法

Gemini API を通じて Google AI Studio や Vertex AI でプレビュー公開中
Browserbase のデモ環境で即体験可能
公式ドキュメント や Vertex AIドキュメント で構築方法を解説
- Playwright によるローカルエージェントループ構築や Browserbase によるクラウドVM利用も可能
Developer Forum でコミュニティ参加・フィードバック投稿を推奨

関連情報

詳細評価情報 や Browserbaseブログ、 公式ドキュメント 参照推奨
生成AIは実験的技術 であり、十分なテストと安全対策の徹底が必要

Hackerたちの意見

Chromeのdevtools MCP（https://github.com/ChromeDevTools/chrome-devtools-mcp）を使って、Gemini CLIでブラウザの自動化に成功したから、これがもっと良くなるんじゃないかなと思ってる。

└

Chromeのdevtools MCPでどんな自動化ができたの？

└

これはコンピュータ利用のモデルとは全然関係ないよ… GoogleがMCPサーバーで提供してる事前定義されたツールを使ってるだけで、どんなソフトウェアにも対応する一般的なモデルとは無関係。

https://www.google.com/recaptcha/api2/demo のキャプチャを無事に通過したよ。

└

たぶん、IPがGoogleの自分のサブネットから来てるからだね。

└

自動化はBrowserbaseを通じて行われていて、キャプチャソルバーがあるんだよね。（自動なのか人間なのかは分からないけど。）

└

「Hacker Newsに行って、今日の最も物議を醸している投稿を見つけて、上位3つのコメントを読んで議論を要約する。」っていうデモをhttps://gemini.browserbase.com/で試してみたんだけど、同じことをやってくれた。ただ、検索を始める前にwww.google.comが出したCAPTCHAを解決する必要があったんだ！Google自身のコンピュータ使用モデルがGoogleのCAPTCHAを成功裏に解決するのを見て、ちょっと驚いたよ。（これは明らかにGeminiがやってたことで、Browserbaseの機能じゃない。）ブログにスクリーンショット載せてるよ: https://simonwillison.net/2025/Oct/7/gemini-25-computer-use-...

何らかのフックやコールバックがないと、プロダクションのエンタープライズシステムには絶対に導入できないよ。UIとエージェントイベントの違いは明らかに難しいし。 https://docs.claude.com/en/docs/claude-code/hooks https://google.github.io/adk-docs/callbacks/

└

こんにちは！Browserbaseでアイデンティティ製品に関わってるよ。最近、ウェブ全体でRBACをどう重ねていくか考える時間を結構使ってるんだ。コールバックがそれを実現する方法だと思う？

スクリーンショットは最後の手段にすべきだと思う。アクセシビリティのサブシステムから得られるデータがたくさんあるからね。

└

いろんな状況でうまくいかないこともあるよね。うまくいくときは最高だけど、頼りすぎると何も残らない。

└

表示されるビジュアルレイアウトは、感覚的に意味が分かるように空間的に整理されてるんだ。ちょっとPDFみたいな感じ。基盤となる階層ツリーはかなりごちゃごちゃしてると思うから、開発者が意図した形で使うのがベストだと思う。スクリーンショットはすごく良いアイデアだよね。もっと構造的な考え方をする人には気になるかもしれないけど、アプリはしばしばそんなにうまく作られてない。見た目が良くて人が使えるところまで作られるんだよね。アクセシビリティシステムに頼ってる人たちは、これに関してたくさんの不満があると思うよ。

Hacker Newsで議論の続きを見る