世界を動かす技術を、日本語で。

アプリ SDK

概要

Apps SDK は現在プレビュー提供中で、開発者がアプリの構築やテストを開始可能。 年内に アプリ提出 が可能となる予定。 ChatGPT にネイティブな体験を提供するデザインガイドラインが公開。 品質・安全性・ポリシー基準を満たすための 開発者向けガイドライン も用意。 サーバー構築からデプロイ、最適化、セキュリティまで幅広いガイドを提供。

Apps SDK プレビュー概要

  • Apps SDK は現在 プレビュー提供
  • 開発者が アプリ開発・テスト を今すぐ開始可能
  • 年内 にアプリの 公式提出受付 を開始予定
  • ChatGPT に最適化された デザインガイドライン を公開
  • 品質・安全性・ポリシー 準拠のための 開発者ガイドライン 提供

アプリ設計とガイドライン

  • ChatGPT に自然に溶け込む 会話フローデザインコンポーネント 設計
  • デザインガイドライン で一貫性と高品質なUXを実現
  • 開発者ガイドライン品質・安全性・ポリシー の基準を明確化
  • 公式ガイド を参照し、要件を満たすアプリ開発を推奨

開発プロセスとサーバー構築

  • ユースケースの調査・優先順位付け による開発計画
  • MCPサーバー のセットアップ・構成方法をガイド
  • サーバーデプロイ 手順の詳細な解説
  • Apps SDK の導入から運用までの全体的な流れ

最適化・セキュリティ・トラブルシューティング

  • メタデータ最適化 による発見性と動作向上
  • セキュリティ・プライバシー に関する考慮事項
  • トラブルシューティングガイド で開発時の課題解決を支援

Hackerたちの意見

これ、すごく面白いと思うけど、Phind 2で作ったものを思い出すな。あの時は、答えに動的なプリビルドウィジェットが含まれてた。だけど、このアプローチの問題は、アプリやウィジェットがハードコーディングされた入力と出力のスキーマを持ってることなんだ。ウィジェットの能力の範囲内でユーザーが質問すれば、うまくいくこともあるけど、実際の使用ではその脆さがすぐに現れてくる。たとえば、Zillowでより高度なフィルターを使いたいとか、StreetEasyとクロスリファレンスしたい場合はどうするの?もしウィジェットのハードコーディングされたスキーマがその機能をサポートしてなかったら、ユーザーはお手上げだよね。もっとワクワクするのは、生成的なUIの回答をその場で完全に作り出せる能力だと思う。Phindからも近いうちにこれについてもっと話す予定だよ(私が創業者だから)。

Phindは素晴らしいよ。レガシーな検索エンジンが何度も検索しても見つからない時に、使うのを忘れがちだけど、Phindは大体見つけてくれる。ただ、1年前はもっと使ってたな。最近は、普通のLLMを使ってるけど、検索が上手くなってきたから。

すでにMCP-UIプロジェクトがあるから、できるのは驚かないけど、それが正しいアプローチだとはあまり納得できないな。結局、実際の使用にはまだまだ遅すぎるから…。

copilot kitのAG-UIがこの分野にいるのは知ってるけど、MCPモデルとはうまくいってないと思うよ。

問題は、能力の制限そのものではなく、発見可能性なんだよね。ユーザーは、追加されたり、イライラすることに削除されたりする能力が何かを知らない。Google Assistantがその典型的な例だよ。会話型ユーザーインターフェースは不透明で、使いやすさが欠けてるんだ。

ああ、それは面白いね。うちの製品でも似たようなものを作ろうと思ってるんだけど、君が言ってたスキーマの制約に対する解決策として、ウィジェットをできるだけユニバーサルなブロックに分けて、役立つものにしようと思ってるんだ。まだアイデア段階だけど、モデルがタスクに応じて相互運用可能なコンポーザブルウィジェットの範囲から選べるようにできるかなって考えてる。具体的な例を挙げると、検索結果のリストを一つの結果や、結果を比較するためのマトリックス、さらにフィルターセクションに分けられるような感じ。だから、現在のコンテキストの異なる側面をリクエストして、検索セッションを繰り返しながら結果とやり取りできるんじゃないかな。まだ調査中だけどね。Phindでの経験について、どこかに書いたことある?

もしその機能がウィジェットのハードコーディングされたスキーマにサポートされていなければ、ユーザーとしては運が悪い。チャットとプリビルトおよびオンデマンドウィジェットが組み合わさることで、この制限に対処している。例えば、キーノートデモでは、チャットインターフェースが複数のソースから情報を集めて高度なフィルタリングを行う様子が示されていた。例えば、犬公園の近くにあるZillowの物件だけをフィルタリングするような感じ。

最近、OpenAIの組織におけるチャットインターフェースの深い浸透についての投稿があったね。これがさらに強調されてるけど、実際にこんなに言葉でやり取りするのって、視覚的な要素より好きな人いるのかな?それに、アプリの名前を「zillow」とか覚えておいてチャットに打ち込むのが嫌だなって思う。これって、アプリの広告を徐々に導入する機会みたいなもので、「優先的な発見」っていうか、マネタイズ戦略としてね。個人的には、そんな未来は望んでないな。

どの投稿のこと?

本当に同意するよ。チャットインターフェースの支配が、これらのツールの一般的な有用性を大きく損なってると思う。早くなくなった方がいいよね。エンジニアじゃない人に、連続した会話の幻想がコンテキスト管理を通じてどう作られているか、そして会話の過去の瞬間がなぜ記憶から消えるのかを説明するのはほぼ不可能だよ。非技術的な友達には、各プロンプトごとに新しい会話を作るようにアドバイスしてる。そうすれば、指示の作り方や成功するものがより明確に分かるから。AppleがUXの面で何か革新をしてくれることを本当に期待してたけど、まだ全然だね。

GUIとターミナルのどちらが強力かの議論を繰り返してる気がする。トークンの流れにきれいに一般化できる多くのタスクに関しては、コマンドラインやチャットの方が優れてると思う。特定のボットやmCPエンドポイントの名前を思い出すのを助けるために、タブの自動補完みたいな便利機能も出てくるだろうけど…でも、発見を伴うタスクには、グラフィカルなインタラクションの方が直感的だし、そのタスクに関連した特別なインターフェースが必要になると思う。トークンの流れを抽象化するために、部分的に隠れたレイヤーがあるかもしれない。

反論として、周りの多くの人は「zillow」をグーグルで検索してアクセスしてるから、チャットインターフェースで名前を使うのもおかしくないかもね。

これは面白いブランディングの試みだね。MCPを「アプリ」として提示すると、もっとアクセスしやすく聞こえるし、ツールやMCPサーバーはすごく技術的に感じる。ExpediaやSpotifyのデモを追加すれば、エンドユーザー向けのMCPができるね。

そうだね、基本的にはChatGPTが使えるMCPサーバーだね。

ここにはネガティブなコメントが多いけど、私にはOAIがここに落ち着くのは明らかだった。彼らは、あなたが欲しいものを伝えたら、OAIがそれをやってくれるプラットフォームになりたいんだよ。あなたの受信箱やカレンダー、支払い方法に接続して、何かを頼むと、それをアプリを使って実行してくれる。これって、OAIが広告を必要としないことを意味する。単に収益の分配だけで済むんだ。

つまり、OAIは広告が必要ないってことだね。広告は確かにあるけど、役に立つヒントを生成してるブラックボックスの中に深く隠れてるだけなんだ :)

つまり、OAIは広告が必要ないってことだね。収益分配だけで。もしOpenAIがメールやカレンダーアプリに甘い収益が待ってると思ってるなら、投資家たちは大きなサプライズを受けることになるよ。

プラットフォームにはユーザーの強みや不公平なアドバンテージが必要なんだよね。より質の高いモデルを持つことは、それに当たらない。

これはOAIが広告を必要としないことを意味する。ただの収益分配だ。彼らは明らかに両方を望んでいる。実際、彼らはすでに広告チームを作っている。燃やすべきお金があるから、過去のスケーラブルなビジネスモデル、例えばアプリストアやアルゴリズムフィードなどを壁に投げて、何がくっつくかを見るのは理にかなっている。

無料アプリを急いで作ることが、OpenAIの強みを強化しつつ、自分たちのチャンスを食いつぶすことになるのはすごいことだよね。

iPhoneが出たときは、アプリが6個しかなくて、アプリストアもなかったんだよね。2024年には、iOSアプリストアが1.3兆ドルの収益を上げて、その85%が開発者に渡ったんだ。

そのモートって何を指してるの?

これはナンセンスだね。リアルタイムでライブデータやユーザーを助けるMCPアクションを得るインセンティブを壊す理由があるの?これらのアプリをつなげるには、時には認証が必要になるよ。支払いが必要ない場合は、素晴らしい配信チャネルだね。

この考え方は、ChatGPTが未来のユニバーサルユーザーインターフェースだと信じるなら成り立つよね。実際、エージェント的な波は、チャットインターフェースがより厳格なユーザーインターフェースの背後に隠れている方が良いことを示してる。

アプリは任意のHTMLやインターフェースを返すことができるよ。例えば、Courseraは動画プレーヤーを返せる。

単にChatGPTがインターフェースってわけじゃないんだ。AIとのチャットが普遍的なインターフェースになるってことだし、すべてのテック企業がそれぞれのバージョンを持つようになる。やりたいことは一つの場所でできるようになるよ。カードはあらかじめ定義されたインタラクティブな体験を提供する。時間が経つにつれて、完全にダイナミックなコンテンツがその場で生成されるのが見えるだろう。ユーザー体験は、ウェブサイトをアプリに、アプリをカードやウィジェットに縮小したものになる。必要なアクションはこうやって行えるし、エージェントはバックグラウンドでより複雑なワークフローを操作できる。これが次の10年間のインターフェースになると思うし、AppleやGoogleが持ってるモバイルアプリの体験を置き換えるものだよ。完全に没入型のAR/VRが主流になるまで続くと思う。その時には、これらのカードがヘッドアップディスプレイに表示されるけど、全く違うものを見てることになると思う。まるでエージェントが地球を歩き回ってるみたいに…

そうなの?正直言って、実際に役立つエージェントやAIアプリの多くは、何らかのチャットのようなインターフェースを持ってるよ。特にChatGPTのUIに住みたい人はあまりいないと思うけど、チャット体験に埋め込まれたダイナミックなアプリのコンセプトは合理的な方向性だと思う。いつ、どのタイミングでMCPのようなオープンスタンダードができるのか、ちょっと興味があるな。

チャットが素晴らしいインターフェースになることは多いと思う。ChatGPTをこれらのものの配信者として位置づけることで、新しいGoogleになれるんじゃないかな。でも、目的に特化したインターフェースが正しいアプローチのドメインも多いし、そのドメインが十分に価値があれば、誰かがそれを作りに来るだろうね。

愚かなAIの誇大宣伝に対する反発はたくさんあって、俺も賛成だよ。でも、多くの点で、(1) 悪い検索結果、(2) ごちゃごちゃしたウェブサイト、(3) アップグレードの煩わしさがあるフリーミアムアプリ、そしてそれらを整理するためのコストを考えると、チャットは良いインターフェースだと思う。ウィリアム・ギブソンのノン・ニューロマンサー的な本を読んだことがあって、彼の近未来の予測の一つは、印刷された雑誌にカスタム印刷された記事が興味に合わせてキュレーションされるってものだった。これはクールだよね!印刷雑誌がまだ主流だった世界では、雑誌の現状からの前進として見えるし、将来の予測にもなるかもしれない。でも、実際には雑誌が一気に飛び越えられたんだ。だから、時にはイテレーションではなく飛び越えが起こることもあると思うし、AI駆動のアプリでもそれが起こる可能性があるんじゃないかな。アプリが文字通り置き換えられることはないと思うけど、AIのすべてのインターフェースに取って代わられる可能性はあると思う。緩和要因は、AIの有用性に対する基盤的な制限ではなく、エンシティフィケーションだと思う。これは00年代や2010年代には良いサービスをそんなに貪欲に消費していなかったように思う。今のチャットベースのインターフェースを振り返ると、良き時代だったと思うかもしれないね。

一度効率が良くなれば、すべてを声でコンピュータに話しかけてできるようになるよ。テキストチャットは自然言語インターフェースの最もシンプルな形で、明らかにコンピューティングの未来だと思う。

もし何かあるとすれば、エージェント的な波はチャットインターフェースが厳格なユーザーインターフェースのパラダイムの裏に隠れている方が良いことを示している。 その主張が正当化されるかは分からない。今日の主なエージェント的なユースケースはコード生成で、ターゲットのデモグラフィックはIDEやコードエディタに慣れている。これはおそらくトークン使用量の大部分を占めているけど、平均的なユーザーのニーズや欲求を代表しているわけではない。チャットインターフェースがこれほど普及しているのは、それに価値があるからだと強く疑っている。より一般的なエージェント的な使用においても、チャットインターフェースはユーザーにメッセージを入力したり音声で指示したりする便利さを提供する。音声から音声、または動画から動画への機能も簡単に組み込まれていて、前者はすでに一般的だ。未来において、よりリッチなモダリティが標準になるとき(モデルがリアルタイムで動画を生成できるようになるとき)、ほとんどの人はその出力をテキストとして消費するだろうと思う。ほとんどのユースケースにとって、単純に便利だから。

ユーザーがChatGPTにZillowに聞いてもらったり、Canvaに何かをやってもらったりすることに興味を持つとは思えない。そんなの使いにくいインターフェースだよ。ユーザーがChatGPTに家の価格を調べてもらったり、グラフィックを生成してもらったりするのは分かるけど、ZillowやCanvaを具体的にリクエストすることはないと思う。もしアプリがChatGPTにそういうクエリに基づいてユーザーを送ることを信頼しているなら、ChatGPTがその機能をファーストパーティに持っていくのも時間の問題だよ。チャットが未来のユニバーサルインターフェースだと信じて、機能をChatGPTアプリとして公開するアプリは、自らの死刑宣告をしているようなもんだ。

君が言ってることに同意するよ。私はあらゆるタイプのアンケートを解決する手助けをするツールを作ってるんだけど(https://requestf.com)、アプリをどう活用できるか全く想像できない。配布ができれば素晴らしいけど、UXの観点からも意味がある必要があるよね。

概念は、ChatGPTが未来のユニバーサルユーザーインターフェースであると信じるなら意味がある。 ところで、なんで「iff」なの?

よくわからないんだけど、このプラットフォームで作れるものって、ChatGPTのアップデートで陳腐化しないの?別のコメントでホテル検索機能の提案があったけど、> 「ビーチのそばにプールがあるケープタウンのホテルを探して。1泊200ドルから800ドルくらいの範囲で。」ChatGPTはもうこれができるよね。同様に、彼らのピザ検索の例も、今の機能でほぼ実現できそうだし。このプラットフォームで作れる非トリビアルなアプリが思いつかないし、もしあったとしても、役に立つものやChatGPTの進化に飲み込まれないものは思いつかないな。

いくつかの分野を探ってるみたい。これはもっと構造化されたものだけど、ウェブサイトを読み込んでクリックを生成するエージェントも作ってる。これには手作業のデザインが必要だけど、コンテキストに基づいてGUIをその場で生成することもやってるみたい。エージェントの視覚プログラミング用の新しいデザインGUIもあって、ボックスや矢印があるんだ。これらのハイブリッドになる予定。明らかに、相互運用性のために明示的な作業をすればするほど簡単になるけど、ギャップはAIの常識で埋められる。ただし、時間と計算リソースがかかるけどね。自動運転車がカメラで赤信号や制限速度の標識を検出できるけど、スマートインフラに構造化された信号があれば、もっとシンプルでいい。非構造化と構造化の間のこのダンスを見るのはいつも面白い。どちらかが大きくなると、もう一方が必要になるらしい。構造化されたコードがたくさんあると、AIの常識でそれを切り抜けたい。構造化されていても、ややこしくて複雑だからね。だからコードを生成するんだ。自然言語のコードジェネレーターがあれば、どう働くかに構造を課したい。それをマークアップ言語で表現して、小さなスクリプト、そして複雑すぎてボイラープレートが多すぎる大きなスクリプトにして、自然言語から生成するためにAIが必要になるんだよね。

ドキュメントが理解できない。インタラクティブな要素はチャットにどう埋め込まれてるの?ただのiFrameなの?ドキュメントにはリソースを返すことが書いてあって、例ではRustファイルをリソースとして返してるけど、意味不明だよね。結果的にはMCP UIに似てるけど、内部でどう動いてるのかは不明だな。

コネクタがプロンプトやUIのインタラクションで有効になると、あなたのMCPサーバーを呼び出す。彼らはあなたのツールが応答できるメタフィールドをいくつか作っていて、その中の一つはHTML用のフィールドとウィジェットを生成することについてのもの。現在の実装では、サンドボックス環境を読み込むiframe(またはネイティブのwebview)を作成し、その後にあなたのHTMLが注入された別のiframeが生成される。あなたのHTMLには、メタフィールドでホワイトリストされたリモートリソースを含めることができる。

この例は他の人にも通用するの? https://github.com/openai/openai-apps-sdk-examples/issues/1

AIにマウスとキーボードを操作させて、人間のように私のデバイスを使わせてほしい。すでに人間が使うために設計されたソフトウェアがたくさんあって、ChatGPTを使ってる人なら、どんな既存の複雑なソフトウェアの使い方についてもすでに訓練されてるってわかるよね。