世界を動かす技術を、日本語で。

「Gemini 3.5 Flash」におけるコンピュータの使用

2026年6月25日原文(blog.google)

概要

Gemini 3.5 Flashに コンピュータ利用機能 が標準搭載 開発者は カスタムエージェント を容易に構築可能 エンタープライズ自動化 や長期タスク向けに性能向上 安全対策 として複数のガードレールを導入 APIやEnterprise Agent Platformから 即利用開始 可能

Gemini 3.5 Flashのコンピュータ利用機能の統合

  • Gemini 3.5 Flashに コンピュータ利用機能 が標準搭載
  • 旧来は Gemini 2.5 Computer Useモデル として独立提供
  • 現在は Gemini Flash本体 に統合され、機能呼び出しやSearch、Mapsなどのツール連携も強化
  • 開発者は 3.5 Flash を用いて、ブラウザ・モバイル・デスクトップを横断する カスタムエージェント 構築が可能
  • 長期的なソフトウェアテストや知識業務など、 エンタープライズ自動化 に最適化

主なユースケースと利用方法

  • Gemini 3.5 Flashの コンピュータ利用機能 によるアプリ機能の自動分析
  • ドキュメントの アクセシビリティ監査 自動実行
  • 開発者・企業は Gemini APIGemini Enterprise Agent Platform 経由で導入可能
  • Browserbase ホストのデモ環境で即時テスト可能
  • 公式ドキュメントやリファレンス実装も提供

セキュリティ対策とガードレール

  • プロンプトインジェクション などのリスク低減のため、 ターゲット型敵対的訓練 を実施
  • エンタープライズ向けに2つのオプション安全策を提供
    • 重要操作 や不可逆操作に対する明示的なユーザー確認必須化
    • 間接的なプロンプトインジェクション 検出時の自動タスク停止
  • 多層防御(defense-in-depth) の観点から、サンドボックス化や人間による確認、厳格なアクセス制御も推奨
  • 追加の安全策やベストプラクティスは 公式ドキュメント で案内

利用開始手順

  • Browserbase のデモ環境で即時体験
  • Gemini APIEnterprise Agent Platform を通じた本格導入
  • 公式ニュースレターや関連ストーリーで最新情報を入手可能

まとめ

  • Gemini 3.5 Flashは クロスプラットフォーム対応エージェント開発 を強力にサポート
  • 安全性と拡張性 を両立した最新AIツールの実装環境
  • 企業・開発者双方にとって、 業務効率化自動化推進 の新たな選択肢

Hackerたちの意見

GeminiアプリにはまだMCPサポートがないんだよね。ユーザーとしてチャットだけでいろんな情報を得られるのがめっちゃ便利なのに。最近、Airbnbを探したいと思って、特定の条件でフィルターしたかったんだけど、家の画像分析とかも含めて、Geminiじゃできなくて、結局Codexでやる羽目になったよ。

だから、公式のGeminiウェブアプリをいつも使ってるわけじゃないんだ。最近はCLIを使う方が便利だなって感じてる。ウェブにMCPが追加される日を楽しみにしてるよ。

そうだね、これがGeminiエコシステムで一番の欠けてる機能みたい。MCPに接続できないなら、時計や車、スマートスピーカーからGeminiを使う理由が本当にない。自分のフロントエンドを使うことが決まってるなら、Geminiをモデル/APIとして評価することになるけど、その時点で安いか、タスクに合った競合がたくさんいるからね。

クロードの一番の強みはアプリだと思う。AIユーザーはYouTubeやHNが言うほど成熟してないし賢くもないから。クラウドアプリはそのギャップを埋めるのにすごく役立ってる。

モデルの生成を途中で止めて、セッション全体を失う問題は最近やっと修正されたんだ。ジェミニのアプリは最悪だよ。

ネイティブアプリは、特にエージェント周りのAI開発において重要なインフラだと思う。実際、カスタムエージェント用の良いネイティブインタラクションレイヤーがないんだ。もし、何にでもアクセスできるエージェントを自分でホストしたいなら、TelegramやSlackへの不完全なポートしか選択肢がない。私はvessels.appを作ってるんだけど、これがエージェントのインタラクションに欠けている部分だと思ってる。興味がある人がいたら、テスターになってほしいな!

コンピュータを使うのって本当に悪いアイデアだと思う。遅いし、安全じゃないし、エラーも多いし、高いし。もし人をトークンマックスさせようとしてるなら、それが有効な戦略に見えるかもしれないけど、ユーザーにとっては全然楽しくないと思う。LLMがOSとどうインターフェースすべきか理解してないのが原因だと思う。まだ初期段階だからね。最終的には、コーディング以外のLLM使用のエルゴノミクスに関して、iPhoneのような瞬間が来ると思う。

コンピュータを使うのは本当にひどいアイデアだよ。遅いし、安全じゃないし、エラーも多いし、高いし。でも、自分の代わりにコンピュータを使えるエージェントがいるのはすごく便利だね。最近、Nix OSの仮想マシンをヘルメスエージェントに渡したんだけど、いい経験だったよ。マシンを壊しても気にしないし、前のバージョンに戻せばいいし、彼が作る重要なデータについては、必ずリポジトリを作ってコミットして、私のプライベートGiteaインスタンスにプッシュさせてる。

UIのテストやQA自動化には最適だね。視覚障害者にも良いかもしれない。

AIが既存のソフトウェアとインタラクションする「正しい」エレガントな方法を作るには、数十年と何十億ドルもかかるだろうね。新しいAPIを作ったり、何十年も続いているアクセシビリティの問題を解決したりする大変な作業が必要だし。あるいは、AIにスクリーンショットを見せて、どこをクリックすればいいか聞くこともできるけど。

コンピュータを使うのは素晴らしいアイデアだよ。何も機能しないときでも仕事ができるからね。大企業で仕事をしている人なら、1〜2の独自ツールを使ったり、プログラムできないAPIに引っかかっている場合もあるけど、コンピュータを使えば、テクニカルじゃない人でももっと効率的に仕事ができる。ゲートキーパーやIT部門を回避して、みんなが目標を達成する手助けになる素晴らしい方法だと思う。

スプレッドシートってほんと最悪なアイデアだよね。一見有効なツールに見えるけど、ユーザーにとっては全然楽しくない。大抵の場合、人はデータベースが必要なんだよね。いつかこれに関してiPhoneのような瞬間が訪れるはず。今は、世界経済全体が…

Hacker Newsで議論の続きを見る