ChatGPTエージェント：研究と実践の架け橋

2025年7月18日原文(openai.com)

概要

ChatGPTが自身の仮想コンピュータを使い、複雑な業務を自動で完結できる新機能の提供開始
ウェブ操作、分析、資料作成など様々なタスクを一貫して実行可能
ユーザーは常に操作をコントロールでき、安全性にも配慮
Pro、Plus、Teamユーザーが“agent mode”で利用可能
今後も継続的な機能強化を予定

ChatGPTの新しいエージェント機能の概要

ChatGPTが 仮想コンピュータ を用いて、 業務の自動化 を実現
ウェブサイトの閲覧、情報収集、フィルタリング、ログイン操作等の 一連の作業 を自律的に遂行
スライド資料やスプレッドシートの作成、コードの実行、データ分析など 多様なアウトプット の自動生成
Operatorのウェブ操作能力、deep researchの情報統合力、ChatGPTの 会話力 を融合した 統合エージェントシステム
ユーザーの指示に基づき、 推論と実行を柔軟に切り替え て複雑なワークフローを完結

利用方法とコントロール

Pro、Plus、Teamの各プランで composerのツールドロップダウンから“agent mode” を選択して有効化
会話中いつでも“agent mode”を切り替え可能
ChatGPTによる 重要な操作前には必ずユーザーの許可 を要求
作業進行中に 中断・ブラウザ操作の引き継ぎ・停止 が可能
完了時には スマートフォンアプリで通知 を受け取れる

機能の進化と技術的特徴

Operatorの ウェブ操作 とdeep researchの 分析・統合力 を一体化
グラフィカルブラウザ、 テキストベースブラウザ、 ターミナル、 API連携 など多様なツールを搭載
GmailやGithub等のコネクタ を活用し、アプリ連携や必要情報の取得が可能
複数のツールを組み合わせて 最適な経路でタスクを完遂
コンテキストを維持 しつつ、タスクの途中で手法やツールの切替えが可能

実際の活用例

カレンダーを参照し、 最新ニュースに基づいた会議要約 を自動生成
日本食朝食の材料購入・レシピ提案・買い物リスト作成 の自動化
競合調査の 分析とスライド資料作成 を一括実行
スプレッドシート編集、ダッシュボードからのプレゼン資料作成、会議日程調整 など業務効率化
旅行計画、パーティー企画、専門家検索・予約 など日常生活での利用

タスク進行とコラボレーション

作業中に 指示の追加・修正・中断 が可能な インタラクティブなワークフロー
ChatGPTが 追加情報の確認や進捗報告 を自発的に行う
タスクが長引く場合、 進捗サマリーの要求や途中結果の取得 が可能
タスクの自動定期実行 （例：毎週月曜のレポート生成）も設定可能

性能評価とベンチマーク

Humanity’s Last Exam（HLE） でSOTA（state-of-the-art）を達成
FrontierMath で専門家レベルの難問において高い精度を記録
DSBenchやSpreadsheetBench 等の実務タスク系ベンチマークで人間を上回る性能
投資銀行アナリスト業務、競合分析、財務モデリング 等の専門業務でも高評価
BrowseComp、WebArena 等のウェブ情報検索系ベンチマークでも従来モデルを大幅に超える結果

セキュリティとリスク対策

ユーザーデータやコネクタ経由の情報 を直接操作するため 新たなリスク が発生
Operatorでの研究プレビューで培った 堅牢なコントロールと追加のセーフガード を実装
プロンプトインジェクション攻撃 （悪意ある指示注入）への耐性強化
- ウェブ上の隠れた命令による 意図しない操作や情報漏洩リスク の低減
重要な操作には都度ユーザーの明示的な確認 を要求し、被害リスクを最小化

今後の展望

現時点でも 強力な業務自動化ツール として活用可能
今後も 定期的な機能強化と新ツールの追加 を予定
より多くのユーザーや業界での実用性向上 を目指す

参考:

各種ベンチマークや技術詳細はOpenAI公式発表および関連資料を参照

Hackerたちの意見

今のエージェントが私のプライベートで役に立つ姿は全然想像できないな。今週末、妻とのデートナイトを計画するために頼んだら、カレンダーを見て一番いい夜を選んで、私たちが好きなバーやレストランを見つけて（どうやって知るんだろう？）、ベビーシッターを予約して（誰を使っているか学んで、私の代わりに連絡してくれるの？）とか、やることがいっぱい。これを全部うまくやるにはかなりの信頼が必要だよね！この機能が近づいてきてるのはワクワクするけど、今のパフォーマンスはデモにはいいけど、日常生活に取り入れるにはまだ早いかな。あと、OpenAIはこういうのを実用的にするための統合がめっちゃ大変だと思う。AppleやMicrosoftの方が、本当に役立つエージェントを作るにはいい立場にいるよね、技術がうまくいけばだけど。

└

信頼を得るには時間がかかるよね。でも、君のような個人的な使い方はたくさん想像できる。例えば、急に明日の夜8人分のディナーを予約しなきゃいけなくなったとき、これは私にとって面倒だけど、基本的なパラメータを渡せばエージェントにやってもらうのは全然いいよ。レストランを見つけるために10〜15回の電話や問い合わせをさせて、予約を取ってもらうのが理想だね。

└

この問題には特に興味がある。これらのツールの好きな使い方の一つは旅行で、SEOコンテンツなしで何をするか、見るかのおすすめをもらえること。特定の質問ができるから、このワークフローはいいよね（例えば、歴史的な重要性や他の場所との比較）。ChatGPTが苦手なのは：- 現在地 - 現在の時間 - 天気 - アトラクションやエクスカーションの予約（支払い、スケジュールなど）。ここには多分摩擦があるけど、エージェントがパーソナライズされた（またはグループ用の）旅行代理店として機能するのは本当にクールだと思う。

└

ここで面白いのは、忙しい人たちがすでにやってることの超安価なバージョンだってことだと思う。つまり、誰かを雇って手伝ってもらうってこと。なんでかっていうと、インターフェースが簡単で、生活にあまり干渉しないから。ウェブサイトを行ったり来たりする代わりに、僕は人間のアシスタントからのターゲットを絞ったiMessageの質問に答えてる。「これにした方がいいと思うけど、どう？」次にデートナイトを計画する必要があるとき、アシスタントは僕の好みをもう知ってる。「はい、予約して」って返事する方が、いろんなウェブサイトのUIをクリックするよりずっと楽だよ。僕の意見としては、「一発」でタスクをこなそうとするエージェントは、間違ったUXだと思う。生活に統合しやすいシンプルな非同期インターフェースの方が魅力的だね。

└

もうカレンダーと話せるって、動画で言ってたよね。

└

これが「エージェント的決定の苦い教訓」なのかもね。人生の難しいことって、実は深い個人的な価値観や複雑な人間関係が絡んでるから難しいんだよね。レストランに予約の電話をかけるのは簡単だけど、結婚記念日にどのレストランに連れて行くかを決めるのが難しいんだよ（チャットGPTは、初デートがバーガーとシェイクのお店だったことを知ってるかな？奥さんが最後に寿司を食べたときに食中毒になったことも知ってるのかな？）。高給取りのコンシェルジュでも、これを代わりにやってくれることはないよ。ナビエ–ストークスの滑らかさの問題が解決するのは、「娘の誕生日パーティーを計画する」よりも早いだろうね。

└

現在のエージェントが私の個人的な生活で役に立つ姿を想像するのはとても難しい。今週末、妻とのデートナイトを計画するためにこれに頼むと、最適な夜を選ぶためにカレンダーを確認し、私たちが好きなバーやレストランを選んで（どうやって知るの？）、ベビーシッターを予約して（誰を使っているか学べるの？それに私の代わりにテキストを送れるの？）など、たくさんのことを正しくやらなきゃいけない。信頼もたくさん必要だしね！これが私の理想のエージェントの「ビジョン」で、だからこそアップルのAIの失敗にがっかりしてるんだ。去年のWWDCで約束されたことがこれに近かったから。しばらくPixel 9 proを試してみたけど、ジェミニとグーグルもこのレベルの統合には進んでなかった。だけど、君が言ったように、信頼はこのレベルのエージェントの行動にとって確実に障壁になるね。LLMはまだ間違えることが多すぎて、間違った答えに自信を持ちすぎてる。間違いが頻繁すぎて、もしできたとしても、勝手に行動させるのは怖いから、誰にメッセージを送るか、カレンダーに誰を追加するかも心配だよ。

└

「カレンダーを見て、ベストな夜を選んで、私たちが好きなバーやレストランを選んで（どうやって知るの？）、ベビーシッターを予約して（誰を使っているか学んで、私の代わりに連絡できるの？）などが必要だね。」これが（モデルの質ではなく）私がGoogleに賭けている理由なんだ。

└

エージェントは、システムプロンプトを持つコアチャットモデルに過ぎないし、レスポンスを解析してアクションを実行し、その結果をプロンプトに入れるラッパーがあるだけだ。モデルに何ができるかを知らせるシステムインストラクションもね。エージェント自体は本当に進んでいるわけではなく、実際の推論は行われていない。とはいえ、自分でエージェントを作るのは結構簡単だよ。鍵はラッパーとシステムインストラクションの設計だね。例えば、カレンダーを見たり、Googleの位置履歴を確認したり、ベビーシッターを予約したりする機能を持つガイド付きチャットを作って、それを自動アクションに統合することができる。

└

動画で見たのと似てるけど、大きな買い物、例えば家や車を買うときは、数年間ずっと考え込んで、決断を評価するために大きなスプレッドシートを作ることが多い。エージェントがスプレッドシートのデータを全部集めてくれたら、すごく助かる。最近、manusを使ってそれを試してみたら、ちょっと成功したよ。

ユーザーのコンピュータを直接使う方向にシフトしてるのは賢いね。パスワード管理やアクセス制御、ブロックされないようにするのがオペレーターリリースでの最大の問題だったから。特にウェブがますます厳しくなってるしね。 > ChatGPTエージェントの出力は、さまざまなタスクの完了時間において、約半分のケースで人間と同等かそれ以上のパフォーマンスを発揮していて、o3やo4-miniを大きく上回っている。実際の生活でどうなるかは分からないけど、これが一般の人々にとってAGIの瞬間になるかもしれないね。

└

最初の行が逆のこと言ってない？「ChatGPTは自分のコンピュータを使ってあなたのために仕事ができるようになりました」

Hacker Newsで議論の続きを見る

ハクソク