世界を動かす技術を、日本語で。

ChatGPTエージェント:研究と実践の架け橋

概要

  • ChatGPTが自身の仮想コンピュータを使い、複雑な業務を自動で完結できる新機能の提供開始
  • ウェブ操作、分析、資料作成など様々なタスクを一貫して実行可能
  • ユーザーは常に操作をコントロールでき、安全性にも配慮
  • Pro、Plus、Teamユーザーが“agent mode”で利用可能
  • 今後も継続的な機能強化を予定

ChatGPTの新しいエージェント機能の概要

  • ChatGPTが 仮想コンピュータ を用いて、 業務の自動化 を実現
  • ウェブサイトの閲覧、情報収集、フィルタリング、ログイン操作等の 一連の作業 を自律的に遂行
  • スライド資料やスプレッドシートの作成、コードの実行、データ分析など 多様なアウトプット の自動生成
  • Operatorのウェブ操作能力、deep researchの情報統合力、ChatGPTの 会話力 を融合した 統合エージェントシステム
  • ユーザーの指示に基づき、 推論と実行を柔軟に切り替え て複雑なワークフローを完結

利用方法とコントロール

  • Pro、Plus、Teamの各プランで composerのツールドロップダウンから“agent mode” を選択して有効化
  • 会話中いつでも“agent mode”を切り替え可能
  • ChatGPTによる 重要な操作前には必ずユーザーの許可 を要求
  • 作業進行中に 中断・ブラウザ操作の引き継ぎ・停止 が可能
  • 完了時には スマートフォンアプリで通知 を受け取れる

機能の進化と技術的特徴

  • Operatorの ウェブ操作 とdeep researchの 分析・統合力 を一体化
  • グラフィカルブラウザテキストベースブラウザターミナルAPI連携 など多様なツールを搭載
  • GmailやGithub等のコネクタ を活用し、アプリ連携や必要情報の取得が可能
  • 複数のツールを組み合わせて 最適な経路でタスクを完遂
  • コンテキストを維持 しつつ、タスクの途中で手法やツールの切替えが可能

実際の活用例

  • カレンダーを参照し、 最新ニュースに基づいた会議要約 を自動生成
  • 日本食朝食の材料購入・レシピ提案・買い物リスト作成 の自動化
  • 競合調査の 分析とスライド資料作成 を一括実行
  • スプレッドシート編集、ダッシュボードからのプレゼン資料作成、会議日程調整 など業務効率化
  • 旅行計画、パーティー企画、専門家検索・予約 など日常生活での利用

タスク進行とコラボレーション

  • 作業中に 指示の追加・修正・中断 が可能な インタラクティブなワークフロー
  • ChatGPTが 追加情報の確認や進捗報告 を自発的に行う
  • タスクが長引く場合、 進捗サマリーの要求や途中結果の取得 が可能
  • タスクの自動定期実行 (例:毎週月曜のレポート生成)も設定可能

性能評価とベンチマーク

  • Humanity’s Last Exam(HLE) でSOTA(state-of-the-art)を達成
  • FrontierMath で専門家レベルの難問において高い精度を記録
  • DSBenchやSpreadsheetBench 等の実務タスク系ベンチマークで人間を上回る性能
  • 投資銀行アナリスト業務、競合分析、財務モデリング 等の専門業務でも高評価
  • BrowseComp、WebArena 等のウェブ情報検索系ベンチマークでも従来モデルを大幅に超える結果

セキュリティとリスク対策

  • ユーザーデータやコネクタ経由の情報 を直接操作するため 新たなリスク が発生
  • Operatorでの研究プレビューで培った 堅牢なコントロールと追加のセーフガード を実装
  • プロンプトインジェクション攻撃 (悪意ある指示注入)への耐性強化
    • ウェブ上の隠れた命令による 意図しない操作や情報漏洩リスク の低減
  • 重要な操作には都度ユーザーの明示的な確認 を要求し、被害リスクを最小化

今後の展望

  • 現時点でも 強力な業務自動化ツール として活用可能
  • 今後も 定期的な機能強化と新ツールの追加 を予定
  • より多くのユーザーや業界での実用性向上 を目指す

参考:

  • 各種ベンチマークや技術詳細はOpenAI公式発表および関連資料を参照

Hackerたちの意見

今のエージェントが私のプライベートで役に立つ姿は全然想像できないな。今週末、妻とのデートナイトを計画するために頼んだら、カレンダーを見て一番いい夜を選んで、私たちが好きなバーやレストランを見つけて(どうやって知るんだろう?)、ベビーシッターを予約して(誰を使っているか学んで、私の代わりに連絡してくれるの?)とか、やることがいっぱい。これを全部うまくやるにはかなりの信頼が必要だよね!この機能が近づいてきてるのはワクワクするけど、今のパフォーマンスはデモにはいいけど、日常生活に取り入れるにはまだ早いかな。あと、OpenAIはこういうのを実用的にするための統合がめっちゃ大変だと思う。AppleやMicrosoftの方が、本当に役立つエージェントを作るにはいい立場にいるよね、技術がうまくいけばだけど。

信頼を得るには時間がかかるよね。でも、君のような個人的な使い方はたくさん想像できる。例えば、急に明日の夜8人分のディナーを予約しなきゃいけなくなったとき、これは私にとって面倒だけど、基本的なパラメータを渡せばエージェントにやってもらうのは全然いいよ。レストランを見つけるために10〜15回の電話や問い合わせをさせて、予約を取ってもらうのが理想だね。

この問題には特に興味がある。これらのツールの好きな使い方の一つは旅行で、SEOコンテンツなしで何をするか、見るかのおすすめをもらえること。特定の質問ができるから、このワークフローはいいよね(例えば、歴史的な重要性や他の場所との比較)。ChatGPTが苦手なのは:- 現在地 - 現在の時間 - 天気 - アトラクションやエクスカーションの予約(支払い、スケジュールなど)。ここには多分摩擦があるけど、エージェントがパーソナライズされた(またはグループ用の)旅行代理店として機能するのは本当にクールだと思う。

ここで面白いのは、忙しい人たちがすでにやってることの超安価なバージョンだってことだと思う。つまり、誰かを雇って手伝ってもらうってこと。なんでかっていうと、インターフェースが簡単で、生活にあまり干渉しないから。ウェブサイトを行ったり来たりする代わりに、僕は人間のアシスタントからのターゲットを絞ったiMessageの質問に答えてる。「これにした方がいいと思うけど、どう?」次にデートナイトを計画する必要があるとき、アシスタントは僕の好みをもう知ってる。「はい、予約して」って返事する方が、いろんなウェブサイトのUIをクリックするよりずっと楽だよ。僕の意見としては、「一発」でタスクをこなそうとするエージェントは、間違ったUXだと思う。生活に統合しやすいシンプルな非同期インターフェースの方が魅力的だね。

もうカレンダーと話せるって、動画で言ってたよね。

これが「エージェント的決定の苦い教訓」なのかもね。人生の難しいことって、実は深い個人的な価値観や複雑な人間関係が絡んでるから難しいんだよね。レストランに予約の電話をかけるのは簡単だけど、結婚記念日にどのレストランに連れて行くかを決めるのが難しいんだよ(チャットGPTは、初デートがバーガーとシェイクのお店だったことを知ってるかな?奥さんが最後に寿司を食べたときに食中毒になったことも知ってるのかな?)。高給取りのコンシェルジュでも、これを代わりにやってくれることはないよ。ナビエ–ストークスの滑らかさの問題が解決するのは、「娘の誕生日パーティーを計画する」よりも早いだろうね。

現在のエージェントが私の個人的な生活で役に立つ姿を想像するのはとても難しい。今週末、妻とのデートナイトを計画するためにこれに頼むと、最適な夜を選ぶためにカレンダーを確認し、私たちが好きなバーやレストランを選んで(どうやって知るの?)、ベビーシッターを予約して(誰を使っているか学べるの?それに私の代わりにテキストを送れるの?)など、たくさんのことを正しくやらなきゃいけない。信頼もたくさん必要だしね!これが私の理想のエージェントの「ビジョン」で、だからこそアップルのAIの失敗にがっかりしてるんだ。去年のWWDCで約束されたことがこれに近かったから。しばらくPixel 9 proを試してみたけど、ジェミニとグーグルもこのレベルの統合には進んでなかった。だけど、君が言ったように、信頼はこのレベルのエージェントの行動にとって確実に障壁になるね。LLMはまだ間違えることが多すぎて、間違った答えに自信を持ちすぎてる。間違いが頻繁すぎて、もしできたとしても、勝手に行動させるのは怖いから、誰にメッセージを送るか、カレンダーに誰を追加するかも心配だよ。

「カレンダーを見て、ベストな夜を選んで、私たちが好きなバーやレストランを選んで(どうやって知るの?)、ベビーシッターを予約して(誰を使っているか学んで、私の代わりに連絡できるの?)などが必要だね。」これが(モデルの質ではなく)私がGoogleに賭けている理由なんだ。

エージェントは、システムプロンプトを持つコアチャットモデルに過ぎないし、レスポンスを解析してアクションを実行し、その結果をプロンプトに入れるラッパーがあるだけだ。モデルに何ができるかを知らせるシステムインストラクションもね。エージェント自体は本当に進んでいるわけではなく、実際の推論は行われていない。とはいえ、自分でエージェントを作るのは結構簡単だよ。鍵はラッパーとシステムインストラクションの設計だね。例えば、カレンダーを見たり、Googleの位置履歴を確認したり、ベビーシッターを予約したりする機能を持つガイド付きチャットを作って、それを自動アクションに統合することができる。

動画で見たのと似てるけど、大きな買い物、例えば家や車を買うときは、数年間ずっと考え込んで、決断を評価するために大きなスプレッドシートを作ることが多い。エージェントがスプレッドシートのデータを全部集めてくれたら、すごく助かる。最近、manusを使ってそれを試してみたら、ちょっと成功したよ。

ユーザーのコンピュータを直接使う方向にシフトしてるのは賢いね。パスワード管理やアクセス制御、ブロックされないようにするのがオペレーターリリースでの最大の問題だったから。特にウェブがますます厳しくなってるしね。 > ChatGPTエージェントの出力は、さまざまなタスクの完了時間において、約半分のケースで人間と同等かそれ以上のパフォーマンスを発揮していて、o3やo4-miniを大きく上回っている。実際の生活でどうなるかは分からないけど、これが一般の人々にとってAGIの瞬間になるかもしれないね。

最初の行が逆のこと言ってない?「ChatGPTは自分のコンピュータを使ってあなたのために仕事ができるようになりました」

一方では、これはめっちゃクールで、すごく役に立つかもしれないから、ぜひ試してみたい!でも、LLMはいつも間違いを犯すから、他のシステムと深く統合されると、その間違いがどれくらい深刻になるのか気になるな。絶対に起こるからね。

これ。最近、特定の映画館の上映時間のスクリーンショットをアップロードして、ChatGPTに私のスケジュールに基づいて映画を見るのに最適な時間を見つけてもらったんだ。自信を持って完璧な時間を見つけてくれて、映画が始まる前に予告編や広告があるから20分遅れることも考慮してくれた。ただ一つ問題があって、スクリーンショットから時間を完全に間違って取得しちゃって、出力が全部めちゃくちゃになった。正確に時間を抽出させようと何度も試したけど、うまくいかなくて、最終的にはイライラしてその能力への信頼を失っちゃった。これがLLMで何度も起こるんだよね。

それが問題なんだよね。LLMは信頼できない。自分のシステムのRAMとVRAMに収まるモデルをHuggingFaceで探してたんだけど、HuggingFaceのモデル表示がちょっと面倒で、ファイルのサイズは表示されるけど、合計サイズは出てこない。ページをコピーしてLLMに合計を数えてもらったら、正しく数えたLLMもあれば、自信満々で全然違う数字を出したLLMもあった。そんなに難しい質問じゃないのにね。

今、LLMがデータ処理の答えをコードとして出力して、それが自動的に実行され、追加のコンテキストで検証されるようにする方法を考えてるんだ。だから、幻覚みたいなものはほぼゼロに抑えられる。ラッパーが「モデルが本当の答えを判断できなかった」と言うからね。

それに、LLMの間違いは積み重なっていくから、確率みたいに増えていくよね。数時間使った後、コンピュータがどれだけ混乱するのか気になるな。

「スプレッドシート」の例の動画はちょっと面白いね。男の人が、複雑でデータが多いレポートを作るのに通常4〜8時間かかるって話してる。今はエージェントにリクエストを送って、犬の散歩に行って、戻ってきたらダウンロード可能なデータの詰まったスプレッドシートができてる。彼は「98%の情報が正しかったと思う…ちょっとコピー&ペーストするだけで済んだ。もし90〜95%の時間をかける作業をやってくれるなら、めっちゃ時間が節約できる」と言ってる。だけど、その2%の間違いを見つけるのが(または2%のエラーに対処するのが)多くのケースで時間がかかる部分になる気がする。LLMにとっては新しいことじゃないけど、こういう使い方がユーザーにもっと複雑なタスクを入力させると、個人データと密接に結びつくから(お金が絡むこともあるし、「タスクXをやってYを買って」みたいな例があるし)、「ほぼ正しい」っていうのは多くの頭痛の種になる可能性があるよね。特に、その2%のエラーが微妙で、46ステップのうちの3ステップ目に埋もれてるときなんて。

その2%の間違いを見つけるのが(または2%のエラーに対処するのが)多くのケースで時間がかかる部分になる気がする。最後の「2%」(あるベンチマークでは20%)を完璧にするのに、1000億ドル以上かかるかもしれない。これはアートを生成する場合には当てはまらないけど、エージェントのタスクでは、最悪20%のエラー、最高でも2%のエラーは許容できないかも。君が言ったように、エージェントがエージェントフローやタスクのいずれかのステップでエラーを犯すと、全体の結果が間違ってしまうから、再度全体をチェックしなきゃいけなくなる。ほとんどの人はそれを捨ててやり直すだろうし、トークンやお金、時間を無駄にすることになる。で、これは「AGI」でもないよ。

スプレッドシートで運営されているところで働いたことがあるけど、間違ってることがどれだけ多いか、驚くよ、マジで。

笑った。音楽とプレゼンテーションの感じが、その人が深い話をするのかと思ったら、スプレッドシートや経費報告の話だったから、ちょっと意外だった。

もちろん、パレートの法則がここでも働いてるね。隣接する分野、自動運転では、最後の「20%」をほぼ10年もかけて取り組んでる。自動運転については、昔はすごく盛り上がってたのに、今はほとんど誰も話してないのがちょっと変な感じ。深い道徳的な、ほぼ哲学的な議論もあったのにね。

これが、正確さが求められるマルチステップのデータパイプラインにLLMを使おうとしたときに僕が直面したまさに同じ問題だね。生成されたコードは正しそうに見えるし、結果も正しいように思える。でも、最終データの品質チェックをすると、何かが合ってないことに気づくんだ。だから、過剰に冗長なコードを掘り下げて、データの変換や結合に関する3〜4の微妙な欠陥を特定しなきゃいけない。これらの欠陥を見つけて修正するのにかかる時間は、自分でパイプラインを全部書くのと同じくらいかかるんだよね。

ここでの大きなポイントは、彼の上司が彼に犬の散歩をさせてくれるか、それとも空いてる時間を見つけてもっと仕事を詰め込もうとするかってことだね。

普通、彼が複雑でデータが多いレポートをまとめるのに4〜8時間かかるんだけど、今はエージェントにリクエストを送って、犬の散歩に行って戻ってくると、ダウンロード可能なデータのスプレッドシートができてる。「98%の情報が正しいと思う…」って言ってる。これがAIの過剰な期待が人を傷つけるところだよね。この状況でのAIの素晴らしい使い方は、データの収集とチェックを自動化することだと思う。すべてのデータソースを検索して、リンクを簡単に集約する場所にまとめる。AIを使ってデータソースを再検索し、スプレッドシートと比較して、異なる数字をフラグする。だけど、AIの過剰な期待は、AIがすべての作業をやってくれるという極端な結論に至るんだ。「98%正しい」という発言は、スプレッドシートに詳しい人にとっては警告信号だよ。どの2%が正しいか間違っているかを確認するのは、すべてを見直さないと簡単じゃないから。この問題はコードにも当てはまる。AIを力の倍増器として使って、各ステップを確認しながら進め、適切なときには手動で作業する人たちは、はるかに良い結果を得ている。コードがテストに合格するまでプロンプトサイクルでYOLOする人たちは、新機能を開発するのと同じくらい速く問題を引き起こしている。

それじゃあ、人間のエラー率ってどれくらいなんだろうね… 完璧じゃないって分かってるし。もし100%リフレッシュされてて、エッジケースのバグだけを探すなら、たぶん見つけられるだろうけど、燃え尽きて98%までしか進めなかったら、残りの2%のバグを見逃しちゃうかも。言い回しが難しいけど、これが私たちをもっと近づけてくれると思う。もちろん、98%のものを作るのに時間をかけると、深く理解できるから、2%のエッジケースを見つけるのが楽になることもあるけど、結局は時間が経たないと分からないよね。

予算の文脈で考えると、これもすごく面白いね。もし18兆ドルのエラーを一回だけ犯したら、大したことじゃないよね、ただの一回のエラーだし。

2%の間違いは、200万ドルの予算で4万ドルになるよ。

ビジネス向けのエージェントを作る仕事をしている私としては、あまり楽観的じゃないな。低い90%から99%への飛躍は、LLMエージェントにとって典型的なラストマイルの問題だよ。エージェントがより一般的で広範囲にわたるほど(何でもできる)失敗する可能性が高くなって、期待を裏切ることが多い。多くの人がデモでハッピーパスを最適化して、真実の現実を隠しているように感じる。エージェントに場所がないわけじゃないけど、彼らの可能性への見方は、ハイプから利益を得る人たちとは切り離さなきゃいけないと思う。私の個人的な意見だけど。

多くの人がデモでハッピーパスを最適化して、真実の現実を隠してる そうそう。これが今のAI企業がやってることそのものだよ。

「多くの人がデモでハッピーパスを最適化して、真実を隠している気がする。どんなに良い意図があっても、これは開発者がコードをレビューやQAなしで顧客に直接渡すのに似ている。開発者が『完了』と考えることは、顧客が期待することとは大きく異なることが多いからね。」

現在のエージェント実装でこれが何度も起こるのを見てきたよ。強化学習(RL)を使えば、十分なユースケースデータがあれば、多くの短所に対して高い精度を得られる。ほとんどの問題は、プロンプトが最も信頼できるメカニズムではなく、脆弱であることから生じる。特定のタスクにモデルを教えることで、そういった問題を軽減できるし、全体的に開発者が90%から99%に上げるために多くの努力をしなくても、自動化の結果が良くなる。もう一つの方法は、並列生成を行い、実行時にどれが最も正しいかを特定すること(多数決やLLMをジャッジとして使う)だね。ハイプについては同意するよ。残念ながら、これが現在のシリコンバレーの現実なんだ。ハイプが注目を集め、ユーザーを引き寄せるからね。ハイプが企業を前に進めるから、これはしばらく続くと思う。

他にも同じような実装(VPSをLLMに提供する)を見たことがあるけど、これには独自の魅力があるね。表示されているUIは、テキストオーバーレイや読みやすいマウス、カスタマイズされたUIコンポーネントがあって、視覚的にとても魅力的だし、ユーザーが何が起こっているのか、なぜそうなのかを各段階でしっかり把握できるようになってる。OpenAIのUIチームには頭が下がるよ。これは本当に素晴らしい実装で、視覚的に情報を提供する独特な方法でLLMが実装されているのを見ると、いつもワクワクする。Claude+XFCEのソリューションと比べると、今のところOpenAIに機能的な優位性はあまり感じないけど、プレゼンテーションがとても考えられているから、使いやすさで言えばこっちの方がいいと思う。前述の実装では、読みやすさに苦労したことが多かったから、個人プロジェクトのために彼らのアイデアを借りるかもしれないって言ってもいいかな。

本当に微妙に感心したのは、実際のクレデンシャルや敏感な情報にアクセスさせることの巨大なリスク(私の言葉、彼らの言葉じゃない)を強調しているところ。

こんなにスクロールしないとこのコメントが見つからなかったのに驚いてる。まあ、アメリカには住んでないからね。

OpenAIのオペレーターをしばらく使ってるけど、LinkedInやAmazonみたいにどんどんブロックされてる。これで二つの重要な使い道が消えちゃった(仕事の応募とオンラインショッピング)。オペレーターはかなり控えめだけど、エージェントが人気になったら、もっと多くのサイトがブロックするだろうね。プロキシ設定を許可する必要があるかも。

利益分配の仕組みが必要だよ。これが、出版社がGoogleがリンクの代わりに答えを提供するのを嫌った理由と同じだね。

どうやってブロックしてるの?

これらのウェブサイトのデータセットを丸ごと売ってる会社があるよ :-) - OpenAI側で解決するのは一通の電話で済む話さ。

もし人々がこのエージェントやオペレーターを通じて実際に食べ物や服、フライトなどをお金を払って買うなら、アマゾンとかがそれを妨げる理由はないと思う。

これがメインの問題だね。ローカルで動かす方法か、せめてローカルデバイスを通してプロキシする方法を発表するのをずっと待ってたんだけど。残念ながら、Deepseek R1の蒸留体験(スティーブ・ジョブズがグーグルに対してAndroidをすぐに市場に出したことで怒ってた時みたいに)で、彼らは中間結果やトリックを見せることに慎重になっちゃった。最初の頃、Operator v1はデータセンターのIPをブロックしている多くのサイトにアクセスできなかったし、実際のパフォーマンスをテストするためにハッキーなプロキシ設定を頑張ってやったのに、後でさらにロックダウンされて、パフォーマンスも改善されなかった。動いているときでも、基本的に役に立たないし、今は動いてないし、どんどん悪化してる。彼らがeastdakotaと何か取引をするか(彼はおそらく賢すぎて同意しないだろうけど)、直接サーバーからウェブブラウジングをするのは基本的に忘れた方がいい。すべての非ウェブアプリケーションの「コンピュータ使用」はローカルファイルやソフトウェアから大きな恩恵を受けるから(すでにライセンスを持ってるものだし!)、この全体のコンセプトは失敗に向かっているように見える。彼らのリモートコンピュータ使用エージェントがCLIを通じてほとんどのことを行うのは、コンピュータ使用の支持者が「古い」GUI前のインターフェースに頼らないことが全てだと主張していたことを思い出すと、実際に面白いよね。

もしかしたら、レッドチームがスクレイパーを生み出すかもね :)

典型的なSVスタイルで、これはただ投げかけて、二次的な影響を積み重ねるためのものだね。いつかOpenAIがLinkedInやAmazonとパートナーシップを結ぶことを期待してる。実際、LinkedInはOpenAIを通じて使用する場合に必要な新しいティアを作るかもしれないと思ってる。

仕事に応募するのを自動化するのは理解できるけど、AmazonでOperatorを使うことで何をしたかったの?

エージェントがrobots.txtを尊重するのは、もうすぐ終わりそうだね。ユーザーはブラウザ拡張機能や、ローカルコンピュータでアクションを実行するフルブラウザをインストールするようになるだろうし、ユーザー自身のクッキージャーやIPアドレスを使ってね。

これにはセキュリティリスクがあって怖いね。例えば、メールやカレンダーへのアクセスを許可したら、あなたの深い秘密を全部知ってしまう。リンクされた記事では、プロンプトインジェクションがエージェントにとってリスクであることを認めているよ。 >「プロンプトインジェクションは、ChatGPTエージェントがタスクを完了する際にウェブ上で遭遇する悪意のある指示を通じて、その動作を操作しようとする第三者の試みです。」例えば、ウェブページに隠された悪意のあるプロンプトがあれば、エージェントを騙して意図しないアクションを取らせたり、攻撃者と接続されたプライベートデータを共有させたりすることがある。悪意のあるウェブサイトがエージェントを騙してあなたの深い秘密を暴露させるかもしれない!一つ気になることがあるんだけど、記事ではエージェントが重要なアクションをする前に許可を求めるって言ってるね。 >「明示的なユーザー確認:ChatGPTは、購入のような現実世界の結果を伴うアクションを取る前に、明示的にあなたの許可を求めるように訓練されています。」エージェントはどうやってタスクが重要だと判断するの?間違って許可を求めずに購入してしまうことはないのかな?AIが全ての基盤になっていると思うから、こういったミスが起こる可能性はあると思う。

怖さには同意するけど、ちょっと安心できるポイントもある。重要性を判断するのに、モデルの判断に加えて、もっと伝統的な分類器を使ってると思う(願ってる)。それらはLLMよりずっと信頼性が高いし、運用コストも安いから、たくさん使ってるんじゃないかな。

AI 2027チームが4月初めに予測した内容: > 2025年中頃: つまずくエージェント 世界初のAIエージェントが登場。コンピュータを使うエージェントの広告では「パーソナルアシスタント」という言葉が強調される。「DoorDashでブリトーを注文して」とか「今月の予算スプレッドシートを開いて、支出を合計して」といったタスクを頼むことができる。必要に応じて確認を求めてくることもある。例えば、購入を確認してほしいときとかね。前のバージョンであるオペレーターよりは進化してるけど、広く使われるにはまだ苦労してる。