世界を動かす技術を、日本語で。

Gemini 2.5 コンピュータ使用モデル

概要

  • GoogleGemini 2.5 Computer Useモデル をAPI経由でプレビュー提供開始
  • UI操作エージェント 構築向けに最適化されたAIモデル
  • 低レイテンシ・高精度 でWebやモバイルの操作ベンチマークを上回る性能
  • Google AI StudioVertex AI で利用可能
  • 安全対策 や開発者向けガイドラインも充実

Gemini 2.5 Computer Useモデルの概要

  • Gemini 2.5 Computer Useモデル は、 Gemini 2.5 Pro の視覚理解・推論能力を基盤とした UI操作特化AIモデル
  • API経由 で利用可能、開発者が ユーザーインターフェース操作エージェント を構築可能
  • Web・モバイル操作ベンチマーク で他モデルを凌駕する精度と低遅延
  • Google AI Studio および Vertex AI で即日利用開始可能
  • 開発者コミュニティ でフィードバック共有・ロードマップ形成

主要機能と動作フロー

  • computer_useツール としてGemini APIで公開、ループ内で動作
  • 入力情報 :ユーザーリクエスト、環境のスクリーンショット、直近のアクション履歴
    • 必要に応じて特定のUIアクションの除外やカスタム関数の追加指定も可能
  • モデルの出力 :クリックや入力などの UIアクション関数呼び出し
    • 購入など一部操作には ユーザー確認要求 も含む
  • クライアント側 でアクション実行後、新たなスクリーンショットとURLを再送信しループ継続
  • 反復処理 でタスク完了・エラー・安全応答・ユーザー判断まで継続
  • Webブラウザ操作 に最適化、モバイルUI操作にも高い適応力
    • デスクトップOSレベル制御 には未最適化

デモ例

  • Webフォーム入力CRMへのデータ転記UI内のドラッグ&ドロップ整理 など
    • 例:「https://tinyurl.com/pet-care-signup からカリフォルニア在住ペット情報取得→ https://pet-luxe-spa.web.app/ のCRMにゲスト追加→専門家Anima Lavarで10月10日8時以降に再訪予約」
    • 例:「sticky-note-jam.web.app でアートクラブのタスクをカテゴリごとに整理、ドラッグで配置」

パフォーマンスと評価

  • Browserbase や独自評価で 他社モデルより高精度・低レイテンシ を実証
  • Online-Mind2Web などのベンチマークで 最先端のブラウザ制御性能 を発揮

安全性への取り組み

  • ユーザー悪用・予期せぬ動作・プロンプトインジェクション など固有リスクへの対策
  • モデル自体に安全機能 を組み込み、3大リスクを軽減(詳細はSystem Card参照)
  • 開発者向け安全制御機能 を提供
    • 各アクションごとに 推論時安全サービス で評価・制御
    • システム指示 で高リスク操作の自動実行拒否やユーザー確認要求を指定可能
    • CAPTCHA突破・医療機器制御 など危険行為の防止
  • 安全ガイドライン・ベストプラクティス を公式ドキュメントで案内

先行利用事例

  • Google社内 では UIテスト自動化 などで既に本番運用
    • Project MarinerFirebase Testing AgentAI Mode in Search などで活用
  • 早期アクセスプログラム利用者パーソナルアシスタント・ワークフロー自動化・UIテスト などで高評価

利用開始方法

  • Gemini API を通じて Google AI StudioVertex AI でプレビュー公開中
  • Browserbase のデモ環境で即体験可能
  • 公式ドキュメントVertex AIドキュメント で構築方法を解説
    • Playwright によるローカルエージェントループ構築や Browserbase によるクラウドVM利用も可能
  • Developer Forum でコミュニティ参加・フィードバック投稿を推奨

関連情報

  • 詳細評価情報Browserbaseブログ公式ドキュメント 参照推奨
  • 生成AIは実験的技術 であり、十分なテストと安全対策の徹底が必要

Hackerたちの意見

Chromeのdevtools MCP(https://github.com/ChromeDevTools/chrome-devtools-mcp)を使って、Gemini CLIでブラウザの自動化に成功したから、これがもっと良くなるんじゃないかなと思ってる。

Chromeのdevtools MCPでどんな自動化ができたの?

これはコンピュータ利用のモデルとは全然関係ないよ… GoogleがMCPサーバーで提供してる事前定義されたツールを使ってるだけで、どんなソフトウェアにも対応する一般的なモデルとは無関係。

https://www.google.com/recaptcha/api2/demo のキャプチャを無事に通過したよ。

たぶん、IPがGoogleの自分のサブネットから来てるからだね。

自動化はBrowserbaseを通じて行われていて、キャプチャソルバーがあるんだよね。(自動なのか人間なのかは分からないけど。)

「Hacker Newsに行って、今日の最も物議を醸している投稿を見つけて、上位3つのコメントを読んで議論を要約する。」っていうデモをhttps://gemini.browserbase.com/で試してみたんだけど、同じことをやってくれた。ただ、検索を始める前にwww.google.comが出したCAPTCHAを解決する必要があったんだ!Google自身のコンピュータ使用モデルがGoogleのCAPTCHAを成功裏に解決するのを見て、ちょっと驚いたよ。(これは明らかにGeminiがやってたことで、Browserbaseの機能じゃない。)ブログにスクリーンショット載せてるよ: https://simonwillison.net/2025/Oct/7/gemini-25-computer-use-...

何らかのフックやコールバックがないと、プロダクションのエンタープライズシステムには絶対に導入できないよ。UIとエージェントイベントの違いは明らかに難しいし。 https://docs.claude.com/en/docs/claude-code/hooks https://google.github.io/adk-docs/callbacks/

こんにちは!Browserbaseでアイデンティティ製品に関わってるよ。最近、ウェブ全体でRBACをどう重ねていくか考える時間を結構使ってるんだ。コールバックがそれを実現する方法だと思う?

スクリーンショットは最後の手段にすべきだと思う。アクセシビリティのサブシステムから得られるデータがたくさんあるからね。

いろんな状況でうまくいかないこともあるよね。うまくいくときは最高だけど、頼りすぎると何も残らない。

表示されるビジュアルレイアウトは、感覚的に意味が分かるように空間的に整理されてるんだ。ちょっとPDFみたいな感じ。基盤となる階層ツリーはかなりごちゃごちゃしてると思うから、開発者が意図した形で使うのがベストだと思う。スクリーンショットはすごく良いアイデアだよね。もっと構造的な考え方をする人には気になるかもしれないけど、アプリはしばしばそんなにうまく作られてない。見た目が良くて人が使えるところまで作られるんだよね。アクセシビリティシステムに頼ってる人たちは、これに関してたくさんの不満があると思うよ。

一般的な経験として、Geminiはツール呼び出しがかなり苦手だと思う。最近のGemini 2.5 Flashリリースでいくつかの問題が修正されたけど、これはGemini 2.5 Proで、ツール呼び出しの改善については何も示されてないね。

Gemini 2.5(Pro/Flash/Lite)モデルのパラメータ数は、専門家の推測でどれくらいなの?50B、500B、それとももっと大きい?Flashでも、バイブコーディングのタスクには十分賢い感じがする。

2.5 Flash Liteは2.0 Flash Liteを置き換え、2.0 Flash Liteは1.5 Flash 8Bを置き換えたから、2.5 Flash Liteは50B以下だと思われるかもね。

(ただのBrowserbaseデモを使ってるだけなんだけど)技術的に可能だって分かるのは一つのことだけど、短いコマンドを与えてサイトにログインして、スクロールしたり、投稿に返信したりするのを見るのはちょっと不気味だね。それに、今日のWordleで同点になったんだけど、俺が2回目のラストの予想でやったのと同じミスをしてた。作業中に話しかけられないのが残念だね。

面白いね。'純粋な'ビジョンとx/y座標を使ってクリックするみたい。今まで見た他のブラウザ自動化は、DOMやアクセシビリティツリーを使ってて、文脈をしっかり理解してるけど、クリックするのは正確なんだよね。正確なテキストや要素をセレクターに使えるから。ただ、デモではかなり苦戦してた。HNのデモでコメントリンクをクリックするのに、18回近く試したけど、毎回数ピクセルずれてた。

何年も前、私は副道の赤信号で待ってたんだけど、主要な交差点は何も通ってなかった。コンピュータビジョンのカメラシステムを使って、主要道路が空いてるときに副道の信号を早めることができるんじゃないかと思ったんだ。でも、その頃はコンピュータビジョンがまだ成熟してなくて、代わりに車が通過するのを検知できる磁気システムがあることを知った。ハードウェアもソフトウェアも簡単で、私のアプローチは複雑すぎて高くつくって結論に至った。同じように、コンピュータを見るとき、私は通常、ML/AIシステムがコンピュータ用にコーディファイドされた構造化データで動作することを望んでる。でも、世界は十分に複雑で、コンピュータも速くなったから、AIがコンピュータの画面を見てマウスを動かしたりクリックしたりするのは理にかなってるのかもね。

面白いことに、時々車を前に進めたり揺らしたりするけど、ただの偶然かもしれない。最近は高い白いカメラが信号の上にあることが多いよね。

ちなみに、そういうタイプの交通カメラは一般的に使われてるよ。 https://www.milesight.com/company/blog/types-of-traffic-came...

デスクトップOSに最適化されたバージョンが楽しみ!QAをやる時間がないからね!