世界を動かす技術を、日本語で。

AI時代のためのマウスポインタの再構想

概要

  • AI搭載ポインタ による直感的なコラボレーションの実現
  • Gemini を活用した実験的デモとその原則の紹介
  • ユーザーの作業フローを中断しない AI体験の追求
  • ChromeやGooglebook への応用事例
  • 今後の 拡張的応用と実装方針

直感的なAIコラボレーションに向けた新しいポインタ体験

  • マウスポインタ の進化を目指すAI主導の新技術開発
  • AIツールのウィンドウ依存 から脱却し、ユーザーの作業環境全体に溶け込むAI体験
  • 例:建物の画像を指して「道順を教えて」と話すだけで、 コンテキスト自動認識 による即時応答
  • Google AI Studio での画像編集や地図検索など、ポインタと音声だけで操作可能な実験デモの公開
  • Gemini によるAI搭載ポインタのデモ動画も提供

次世代ユーザーインターフェースのための4原則

  • 作業フローの維持
    • すべてのアプリでAIが動作し、「AIのための寄り道」を排除
    • 例:PDF上で要約を依頼し、メールに貼り付けるといったシームレスな操作
  • 見せて伝える
    • ポインタ周辺の 視覚・意味的コンテキスト をAIが自動取得
    • 例:単語、段落、画像、コードブロックなど、ユーザーが助けを必要とする部分を即座に認識
  • 「これ」「あれ」の力を活用
    • 人間同士の自然なやりとりのように、 指示とコンテキスト をAIが理解
    • 例:「これを直して」「あれをここに移動して」「これって何?」など、短い発話で複雑な操作が可能
  • ピクセルをアクション可能な実体へ
    • AIが ポインタ先の内容を構造化データ として認識
    • 例:手書きメモの写真→ToDoリスト、動画の一場面→レストラン予約リンク

ユーザー行動に適応するテクノロジーの実装

  • 人間中心設計 による直感的・シームレスなAIコラボレーションの実現
  • これらの原則を ChromeやGooglebook に導入し、日常的なプロダクト体験として展開
    • Chrome:ウェブページ上の任意の部分を選択し、Geminiに質問や比較依頼が可能
    • Googlebook:Magic Pointer機能でGeminiを指先で活用できる新しい体験
  • Google LabsのDisco など、今後もさまざまなプラットフォームで継続的に実験・拡張予定

Google AI StudioでAI搭載ポインタを体験

  • Google AI Studio で、最新のAI搭載ポインタ機能を試用可能
  • Geminiの力 を活かした直感的な操作体験の提供

Hackerたちの意見

プライバシーの問題が brewing してる気がする。Microsoft Recall を思い出すよ。ユーザーのコントロール外で、画面の一部が常に外に送信されるって感じ。誰かがすごくプライベートなこと(サプライズプロポーズの計画とか、医療データの確認とか、抗議の計画とか)を見てるとどうなるんだろう?そのデータが Google に吸い上げられて、令状や発見の対象になったり、広告のフィンガープリントを作る材料にされるかも。右クリックしたときだけ AI にデータが送られるっていうアイデアかもしれないけど、それって「予測 AI」を提供するためにプロダクトマネージャーが突破しそうな薄いファイアウォールだよね。

誰かがすごくプライベートなことを見てたらどうなる?利益だ!

いつか、こういうメガコープがローカルでこれを運営する方がコスト的に効率的だって気づく日が来るといいな。ちなみに、俺がMacBookで動かしてるローカルモデルは、この手のインタラクションに必要なほとんどのタスクには十分だと思うよ。

最初の印象は懐疑的かな。日常的に使うための音声操作って、結構難しいと思う。完全に一人じゃないときにこれを使うのは、周りの人にとって迷惑だし。彼らの例のほとんどは、右クリックのドロップダウンメニューでできそうだから、「マウスポインタを再発明する」必要はない気がする。これって、AI統合のために Google のサーバーと常に通信してるの?だから、インターネットに繋がってないと動かないってこと?プライバシーの懸念は明らかだし、今度は Google があなたのコンピュータでやることを全部見守りたいって?LLM の使用にユーザーに何か費用がかかるの?無料なら、ずっと無料のまま?一言変えるためにこれだけの情報を提供するのは、かなりのリスクだと思う。彼らは、あなたのコンピュータでやることについてのデータを集めることでお金を取り戻そうとしてるんだろうね。個人用コンピュータとの AI 統合のための killer app がまだ発明されてないかもしれないけど、これには見えないな。

一番下の「画像を編集する」デモは結構楽しいね。これって、Google が LLM の推論能力を見せつけてるだけかも。

そうだね、クールに見えるけど、音声が大きなギャップを埋めてる感じ。もう話してるなら、見てるものを説明して AI に取ってもらえばいいのに。

君のコメントの後半は市場投入の懸念だけど、リサーチプロトタイプにはあまり関係ない気がする。プライベートなローカルモデルでもできるかもしれないし、Googleじゃなくてもね。でも、音声の問題は解決できないと思う。マイクが必要だってわかった時点で、彼らの画像編集デモを閉じちゃったよ。指示を入力するSpotlightみたいなテキストポップアップインターフェースだったら、社交的な環境やオフィスでも使えるかもしれないけど、パワーユーザーにしか響かないかもね。

音ではなく口の動きに頼ることもできるよ。最近、オフィスでみんなをイライラさせずにエージェントと「話す」ために、視覚的な音声認識モデル(VSR)を調整してるんだ。まあまあうまくいってるよ。「これを動かして」「あれをクリアして」みたいに言葉を制限して、文脈のヒントを加えると、問題が大幅に簡素化されて、デバイス上で実現可能になるんだ。これは素晴らしいUXだと思う。

一般的なバブルカーソル https://www.youtube.com/watch?v=46EopD_2K_4 >「私たちは、GrossmanとBalakrishnanのバブルカーソルの一般的な実装を紹介します。」[壊れたリンク] 文献の中で最も速い一般的なポインティング支援技術です。私たちの実装は、Windows 7デスクトップ上の任意のアプリケーションで機能します。この無限のアプリケーションの範囲で機能するために、ピクセルを分析し、失敗したときには人間の修正を活用します。トランスクリプト: >「私たちはバブルカーソルの一般的な実装を紹介します。バブルカーソルは、最も近いターゲットが常に選択されるように拡張するエリアカーソルです。私たちの実装は、Windows 7デスクトップとそのプラットフォームの任意のアプリケーションで機能します。バブルカーソルは2005年にGrossmanとBalakrishnanによって発明されました。しかし、デスクトップ上の任意のアプリケーションで機能する一般的な実装は展開されていないし、評価もされていません。実際、バブルカーソルは、実際に展開するのが難しいターゲット認識技術の大部分を代表しています。これは、バブルカーソルのような技術がインターフェース内のターゲットの位置やサイズの知識を必要とするからです。 [...] https://www.dgp.toronto.edu/~ravin/papers/chi2005_bubblecurs... >「バブルカーソル:カーソルのアクティベーションエリアの動的リサイズによるターゲット取得の強化」 >Tovi Grossman、Ravin Balakrishnan; トロント大学コンピュータサイエンス学部 モーガン・ディクソンのPrefabに関する仕事についてもっと書いてるよ(LLMが登場する前のパターン認識で、今はLLMと関係が深い)。 https://news.ycombinator.com/item?id=11520967 https://news.ycombinator.com/item?id=14182061 https://news.ycombinator.com/item?id=18797818 https://news.ycombinator.com/item?id=29105919

そうだね、グーグルがここで提案してることは、スロップフィーチャー以上にはならないよ。こういう特注のワークフローを求めてる人は、自分で作ったり、特定のツールを探したりするから、カーソルを文脈的に見守るような全体的なデーモンを信じることはないよ。こういうことを正しく実行するグーグルは全く信用できない。

WisprFlowやSuperWhisperのようなツールがどれくらい使われているか調べてみて。音声はすごく自然なメカニズムだよ。オープンプランのオフィスで働いてる人は、ほとんどヘッドフォンをつけてるしね。叫ばなければ、多分大丈夫だよ。効率を求めてオープンプランオフィスから離れることになるかもしれないけど、それは歓迎するよ。

キラーアプリは1980年代にはすでに考案されていたんだ:あなたのコンピュータ上で動くエージェントが、ファイルやスケジュール、メッセージ、請求書、銀行口座などを整理してくれるっていうやつ。日常的な面倒なことは、あなたの好みに基づいてスマートエージェントにオフロードできて、必要な情報を自然言語のクエリで、あなたがその時やっていることにコンテキストを持たせて、必要なときに持ってきてくれるはずだった。今提供されているのは、他の誰かのコンピュータ上で動くエージェントで、あなたのデータを他の誰かのデータベースにコピーして、データを保護したり他の人と共有しない責任もないし、むしろほとんどの場合、千のパートナーと共有することを約束している。誰かのいわゆる推薦に基づいて提案や好みを提供し、エージェントのオペレーターにお金を払うことで影響を受け、他の人やシステムとやり取りする唯一の方法が他の誰かのコンピュータやエージェントを使うことになるよう、圧力が高まっている。LLMが素晴らしいことをできるのは間違いないけど、今の環境では、他の誰かがあなたのやっていることを検査したり、影響を与えたり、制限したりすることができないようなことをするのはほぼ不可能に思える。

「ルーチンで使うための音声コントロールがあるものは、かなり売りにくいよね。完全に一人じゃないときにこれをやるのは、周りの人にとって迷惑だろうし。」

うん、オープンプランのオフィスでこれを使うのは嫌だな(今のオフィスの99%はそうだし)。家で一人で使うのもなんか気まずいし。1950年代のSF小説が言ってたみたいに、コンピューターと話したくはないんだよね。でも、信頼できるEEGヘッドセットやNeuralinkみたいなのが普及した未来には面白いアイデアかも。

お、面白い!これはすごいね。最初はただのフォーカス・フォロー・マウスかと思ったけど、もっと面白い。特定のキーワードが「プロンプトに追加」をトリガーするんだ。音声機能を無視すると(今は他の入力がフォーカスを奪うから、確かに重要だけど)、いろんなものを「ポイント&クリック」しながら LLM と継続的に会話したいと思ってた。テキスト入力のフォーカスが LLM に続いて、テキストを打ってる時にそのまま行くのもいいかも。時々、スクリーンショットを取るために別のページに行ったり、ファイルを探したり、ログの行をハイライトしたりすることがある。Cursor はこれをうまくやってて、ターミナルでテキストを選択すると Cursor エージェントのテキストボックスに自動的にフォーカスが移って、エージェントと話した後にテキストを選択できるから、元のエージェントのテキストボックスを再選択する必要がなかった。エージェントはそのシステムのトップレベルの機能で、「ただの別のアプリに切り替える」必要がないんだ。コンピュータでの入力に制約を感じてるから、少し偏見があるかも。手を動かさないといけないのが本当に面倒で。ヘッドトラッキングを試したり、しばらくの間 vim ペダルを使ったり、タイル型ウィンドウマネージャを使ったりしたけど、vim の腕前は結構いいけど、アプリ間のインターフェースはそうでもない。結局、私たちみんなが Apple Vision Pro を使って自宅オフィスでこうやって機械を素早く操作して、アイデアを入れていく未来があるのかも。面白い研究だね。最終的にどうなるか楽しみ。

最初のデモ(レシピ)に対する反応は、キーボードで同じことを打つより遅いって感じた。二番目のデモは、あまり変わらない印象。『これを動かして』と『カニを動かして』の時間差はないし、アプリ特有のコンテキストメニューの方が早いと思う。三番目のデモは、プロンプトを解釈する方法が一つしかないから、ポインタを使う意味がない気がする。これが成功しない理由はないけど、ユーザーインターフェースを革命しようとした多くの試みが結局うまくいかなかった理由はある。コンピュータと話すのが未来だと言われてたけど、実際にはタイピングより遅くて扱いにくい。実際、過去28年以上の間に新しい UI パラダイムはタッチスクリーンとスマホのスワイプジェスチャーだけだったみたい。必要に迫られてるからね。デスクトップ画面で指で絵を描きたい人はいないよ。

コンピュータと話すのは、分散した在宅勤務の人たちにしか通用しないと思う。みんながずっとコンピュータに命令をつぶやいてる世界は想像できないな。

でも、マウスとキーボードを何年も使ってきたから、すぐに使いこなす方法はよく知ってるよね。新しい入力タイプを数分試しただけで、すぐに使えるようになるとは思わない方がいいよ。

こういうツールを作ってる人たちって、めっちゃ一人で時間を過ごしてるのがわかるよね。俺は90%の時間を自宅のオフィスで仕事してるけど、こんなワークフローにはしたくないな。パソコンに話しかけたくないし、仕事中は音楽を聴きたいし、カフェやオープンプランのオフィス、空港、電車とかで働いてるときに、周りの人に変な感じに思われたくないんだよね。それに、プライバシーの問題もあるし。

うん、タイピングやクリックで全部コミュニケーションしなきゃいけないのはフラストレーションだよね。制限されてる感じがする。でも、俺はパソコンにもっと物理的な現実を求めたくないんだ。電話で誰かと話しながら、手を使って何か作業して、計算タスクもちゃんとこなせるようにしたい。改善は、画面に注意を向ける時間を減らして、手の動きを少なくすることでしかできないと思う。音声みたいな新しいものを追加するんじゃなくてね。

同意だね。Googleの製品って、なんか反社会的な感じがする(Googleグラスみたいに)。人間らしさが欠けてるよね。エリート主義や、創業者の性格が混ざった結果かもしれない。

これは技術的なオーディエンスには響かないと思う。だって、俺たちはもうこの手のことができるから。でも、コピー&ペーストやリバースイメージ検索、テーブルにフィルターをかける方法を知らない人がたくさんいるんだ。普通の言葉でこういうことができるようになるのは、彼らにとってはゲームチェンジャーだよ。確かに効率的じゃないし、洗練されてないけど、基本的な技術的なことに関しては、iPadのタッチスクリーンがマウスとキーボードにしたような役割を果たすインターフェースだと思う。

一歩引いて考えると、技術的な人もそうじゃない人も、そもそもそれが問題だって気づくことが大事だよね。エージェントは時々、経験豊富なエンジニアみたいに君の本当の問題を見つけてくれる。

テクノロジーに疎い人がPCを使ってるのを見るのって、ほんとイライラするよね。例えば、オムニバーに「google」って打って、毎回Google.comをクリックするみたいな?今はオフィスの周りでみんながそれやってるのを聞くことになるんだ。いいテクノロジーだけど、グーグラーって現実世界に住んでるの?オープンオフィスでみんなが自分のコンピュータに話しかけてるのが好きなのかな?みんな人との接触がない一人暮らしなの?

こういう問題はAIと話さなくても解決できるよ。テキストを選択可能にすれば、すぐに効率よくアクションできるし。ウェブがどんどん使いにくくなって、PCのワークフローに優しくなくなるから、これが製品になるんだよね。デモとして出すなんて、ちょっと信じられない。社内ミーティングで徹底的に検討されるべきだった。ユーザーがマウスをホバーしてるテキストの「1」を「2」に変えるのに5秒もかかる製品なんて、絶対に見せたくないし、テキストを一つのボックスから別のボックスにドラッグ&ドロップするのに10秒もかかるなんてありえない。2つの画像の間のルートを見つけるのも、画像を自動でOCR処理すればすぐにできるはずなのに、ほとんどの画像ビューアにはその設定があるのにね。

お疲れ様!コンテキスト認識には大きな可能性があるよね。このデモはちょっと的を外してたと思うけど、確かにいくつかのヒントは得られたね。

そこら辺には創造性を奪う巨大なブラックホールがあるに違いない。