世界を動かす技術を、日本語で。

あなたのAIアシスタントを構築しているすべての企業は、今や広告会社である

概要

  • AIアシスタントの常時オン化と広告ビジネスモデルの衝突
  • データ収集の中心が広告企業に移行する危険性
  • クラウド処理によるプライバシーリスクの指摘
  • ローカル推論(オンデバイス処理)の技術的進化と必要性
  • ハードウェア販売型ビジネスモデルへの転換提案

常時オンAIと広告モデルの衝突

  • OpenAI による ChatGPTの広告導入、2026年2月開始

  • Jony Ive のスタートアップ io をOpenAIが 65億ドルで買収

  • 画面なし・カメラ・マイク内蔵 の新型デバイス開発

  • すべての AIアシスタント企業広告収益 に依存

  • ハードウェア は「 常時監視」を前提に進化

    • 音声・映像・位置情報 など、生活全体をカバー
    • ウェイクワード(例:"Hey Siri") 方式は時代遅れ
    • 自然な会話日常の文脈 を捉えるには 常時オン が不可欠

プライバシーとクラウド処理のリスク

  • クラウドAI企業のポリシー に依存
    • データ暗号化・削除・匿名化 の約束
    • 将来的な 方針変更第三者アクセス のリスク
  • メール の内容以上に、 家庭内の全音声・映像 が記録される危険
  • Amazon Alexa の事例
    • ローカル処理廃止、広告向け音声利用計画
    • Ring と連携し、法執行機関への情報提供

ローカル推論(オンデバイスAI)の進化と必要性

  • 近年の ハードウェア進化完全ローカルAI が現実に
    • リアルタイム音声認識・会話・記憶 を端末単体で実現可能
    • 一度きりのハードウェア購入データは外部送信されない
  • モデルの精度 はクラウドに劣るが、 家庭用には十分
  • 本質的なプライバシー保護アーキテクチャ で担保
    • 企業がデータへ物理的にアクセス不可能 な設計
    • データ収集に依存しないビジネスモデル (ハード・ソフト販売)

「選択」としてのエッジAI

  • 最も役立つAI最も親密なテクノロジー
    • 家族の生活全て を知る存在
  • 本質的な安全性ローカル処理 でのみ実現
    • ポリシーや設定 ではなく、 構造的な制約 が必要
  • 「Choose local. Choose edge.」
    • 全てを知り、何も外部に送らないAI の選択
    • 広告モデルからの脱却ユーザー主権のAI社会 への提案

Hackerたちの意見

記事はAnthropicのことを忘れてるね。今、彼らが一番優れたエージェントプログラマーを持っていて、最近のOpenClawアシスタントの基盤になってるんだから。

確かに、私たちはハードウェアに組み込まれたAIアシスタント(スマートスピーカーやスマートグラスなど)に焦点を当ててる。これらは、すぐにウェイクワードを超えて、常時オンのインタラクションデザインに移行すると思ってるから。常に聞いているスマートスピーカーのプライバシーの問題は、意図的にやり取りするOpenClawよりもはるかに深刻だよ。

MistralもAIアシスタントを作ってるみたいだけど、今のところあんまり成功してないよね。

これは「安全な」常時オンアシスタントのためのかなり弱い合理化に思える。モデルがローカルで動いていても、深刻なプライバシーの問題があるんだ。無意識のうちに、自分が言ったことを全部録音されている被害者になってしまう。家にいる友達は、自分のプライバシーを大切にしているから、部屋にいるだけで自分の言ったことのトランスクリプトがあるかもしれないって知ったら、いい気分はしないだろうね。確かに、OpenAIに全部送るよりはマシだけど、それが無害だとか気持ち悪くないってわけじゃない。超信頼性のあるスピーカーダイアリゼーションがあって、オプトインした声だけを処理できると確信できない限り、常に聞いている設定がプライバシーを重視する人たちに受け入れられるとは思えない。

現在のメモリアーキテクチャについての概要は、https://juno-labs.com/blogs/building-memory-for-an-always-on... で見られるよ。これは「私たちが間違ったこと」のセクションで触れてることなんだ。今、スピーカー識別を組み込んだ音声からテキスト(STT)モデルを作るための音声データセットを集めてる。タグはメモリアーキテクチャのコアに組み込まれる予定だよ。> 「共有家庭メモリプールは、まだ解決中のプライバシーの問題を生んでいる。」現在のデザインでは、家族全員が同じメモリコーパスを共有している。子供が親が作ったメモリを見ることができるべきなの?今のところ、私たちの答えは、キッチンデバイスがみんなを平等に聞くから、個人ごとのスコープなしで家庭全体にメモリ抽出を調整することなんだ。でも「意図的に選んだ」っていうのは「解決した」ってわけじゃない。私たちの社内STTが、個人ごとのメモリタグ付けを可能にして、特定の人やグループにメモリをスコープする実験ができることを期待してる。

答えは、人間がアクセスしたり読んだりできないように保存されて処理されることなのかな。なんか暗号化されて読めないけど、トークン化されて処理できるみたいな。どうやってかは分からないけど、可能性を感じる。

このスピーチは、あの会社(https://juno-labs.com/)が推してる製品の文脈では面白いよね。常にオンで、常に聞いているAIデバイスが、あなたや家族のプライベートな生活に入り込むんだから。「でも、ローカルハードウェアでしか動かないから…」って言っても、それが私たちの生活のあらゆる側面をAIに記録して分析される必要があるってわけじゃないよ。プライベートで親密な会話や瞬間(未成年の家族メンバーを含む)が後で再生するために保存されるのはいいの?ゲスト全員がこれに同意してるの?誰かが侵入してボックスを盗んだらどうなる?政府がデータを見たいって言って令状を出したら?大企業が買収のオファーを持ってきたら?プライバシーの保証はお金の前ではどうなるの?

これに関する根本的な問題は、法制度が絶対的だってこと。情報が存在すれば、それはアクセス可能なんだ。裁判所が命じれば、物理的な場所を襲撃されても情報を渡さないようにすることはできない。暗号化しても、解読を強制される方法に耐えられるようにしない限り、プライバシーを持つ唯一の方法は、そもそも情報が存在しないことなんだ。技術が私たちを助ける可能性が広がる中で、これが実際に私たちがそれを最大限に活用できる限界かもしれないのは少し悲しいね。個人のプライベート情報が技術デバイスに保存されている場合、それが脳に保存されている情報と同じように法的に扱われることが、進んだ政策だと見なされることを願うこともあるよ。特に、支援技術が不可欠な人たち(聴覚障害者や視覚障害者など)にとってはね。でも、私たちが見るすべてのことは、風が逆方向に吹いていることを示している。

プライベートで親密な会話や瞬間(未成年の家族メンバーを含む)が後で再生するために保存されるのはいいの?私たちのコアアーキテクチャの決定の一つは、ストリーミング音声からテキストへのモデルを使用することだった。常に約80msの実際の音声がメモリにあり、約5分のトランスクリプト音声(テキスト)がメモリにある(これはSTTモデルが音声のコンテキストを理解して、より高いトランスクリプション精度を得るために役立つ)。この5分のトランスクリプトの中で、メモリにならないものは忘れられる。だから、選ばれた抽出メモリだけが持続的に保存される。現在、私たちはメモリと一緒にトランスクリプトを保存している(これはプロトタイプユーザーからのリクエストで、トランスクリプションの精度に自信を持つための助けになるから)けど、これが正しい決定かどうかはフィードバックに基づいて引き続き改善していくつもりだよ。

確かに変な提案だね。ターゲットオーディエンス(プライバシーを重視する人たち)は、まさに君が言った問題をすぐに見抜くタイプだから。最低限、ウェイクワードが欲しいと思わないプライバシー重視の人は考えにくいし、もっと言えば、こんなものは使わないだろうね。プライバシーを気にしない人は、Googleとかを使うだろうし。

プライベートで親密な会話や瞬間(未成年の家族も含む)が後で再生するために保存されることについて、あなたは大丈夫ですか? こういうことは普通はあまりないよね。スピーチはASR(自動音声認識)を使って処理されて、その後、適切なツールの呼び出しをチェックするプロンプトを通るんだ。実はこれを自分で作りたいと思ってたんだけど、最近は怠けてて手を付けられなかった。ローカル専用のAIマシンからもっと多機能を引き出したいと思ってる。パラダイムはめちゃくちゃ強力だと思う。例えば、AIが「HNに長いこといるよ」と教えてくれて、今作業中のコメントを後で保存して、ブラウザのウィンドウを別のタブに移動させるとか。車の中でやるべきことを思いついて、それを声に出して言うだけで大事なことを忘れないようにできるっていいよね。神経多様性がない人にとっては、健康や幸福にとって非常に重要なことを忘れるなんてことはあまり起こらないと思うけど、他の多くの人にとっては、重要なことを思い出させてくれるデバイスがあれば、人生が劇的に変わることもあると思う。

同意するよ。私もアンビエントアシスタントの問題はあまり感じてない。スマホはいつも近くにあって、Siriはウェイクワードをよく拾うし(もしくは電源ボタンを押すだけ)。私の問題は、Siriがこういうことをうまくやってくれないことなんだ。誰かがもっと良いものを作ってくれるといいな。

彼らは自分たちが誰で、何をどうやっているかについて、かなり正直に見えるね。

プライベートで親密な会話や瞬間(未成年の家族も含む)が後で再生するために保存されることについて、あなたは大丈夫ですか? これは記憶を持つことと根本的に違うのかな?考えてみたけど、個人的には大丈夫だと思う。ただし、重要な条件があるけどね。私の記憶は理想的なものではなくて、ストレスや年齢とともに衰えていくから。もし機械がそれを補ってくれるなら、私の眼鏡が視力を補うように、友達の補聴器が聴力を補うように、いいと思う。技術があるのは、私たちの生活を改善するためだよね?でも、さっきも言ったように、重要な条件がある。今、私の頭の中にあることはそこに留まっていて、直接私だけがアクセスできる。機械が助けてくれる記憶補助は、同じ保証を提供しなきゃダメだよ。私の直接の指示なしに情報がデバイスから出て行くのは絶対にダメ。デバイスに物理的にアクセスできる人が、あまり努力せずに情報を引き出せるのもダメ。誰かがデバイスに私になりすまして簡単にアクセスできるのもダメ。もっと条件があるかもしれないけど、全体の考えは伝わったと思う。もし製品がこれらの条件をクリアすれば、設計上、他人のプライバシーを侵害することはできない。私自身ができないのと同じようにね。そして、そうだね、私はそれが欲しいし、そんなものがあればいいなと思ってる。

プライベートで親密な会話や瞬間(未成年の家族も含む)が後で再生するために保存されることについて、あなたは大丈夫ですか? もしかしたら見逃したかもしれないけど、会話を保存するって書いてあるのは見なかったな。会話が起こると同時に処理されて、その会話から推測できる目標を達成するために役立つ行動をとるって感じだね。

私も、ビッグAI企業が基本的に広告収入や他の利益を生む機能に向かっているという核心的な前提には同意するよ。それに、paxysが言ってるように、ここには深くて問題のある社会的影響があると思う。家の中にアンビエントAIがいると、たとえそれが家に制限されていても、プライバシーの問題が難しいよね。ブラックミラーの「あなたの全歴史」とテッド・チャンの短編「事実の真実」でのこの領域の探求がすごく好きだ。私の予想では、家庭や他のプライベートな空間は、明らかな問題にもかかわらず、ほぼ完全にコンピュータ監視に屈するだろう。ソーシャルメディアや家庭用監視カメラで既に見られる現象だよね。チャンの話のように、空間が「侵入」されるように、AIが世界を埋め尽くして、オプトアウトする人たちは、スマホユーザーや家庭用カメラやテレビを持たない人たちと同じような周縁的な立場に置かれることになると思う。面白い時代が待ってるね。

卵があるか聞いた瞬間にドアベルが鳴って、隣人が信じられない顔で立ってる。「卵を持ってくるように言われた?」って。彼に半分残ったウィスキーをあげて、もうすぐ期限が切れるから、今夜息子がサプライズ訪問するんだ。議論が始まって、AIが両方の意見を盛り上げるために参加する。でも、これは始まりに過ぎなかった。数TB分のマイクロエクスプレッションを集めた後、会話が徐々に途切れるまで文をうまく完成させ始める。数日間の沈黙の後… ナレーターが起動する…。

このシナリオにハマっちゃった、短編小説を書いてみてよ。

いくつかのTB分のマイクロエクスプレッションを集めた後、文を完成させ始めるんだ。Appleはそれを20億ドルで買ったらしい…Siriに来るみたい。

「最も役立つAIは、今まで作られた中で最も親密な技術になるだろう。すべてを聞き、すべてを見ている。ビッグブラザーが君を見ている。」誰がAIになるなんて思っただろう…著者の言う通りだね。これは広告詐欺になるだろう。人々はそれを受け入れるのかな?uBlock Originを覚えてる人いる?GoogleがChromeで潰したんだ。人々はそれを忘れないよ。(Firefoxではまだちゃんと動くけど、GoogleがFirefoxを買収して従わせたから、Googleの広告収入でFirefoxは弱くなった。)最近、またGoogle検索を使わなきゃいけなかったんだけど、無駄になったことに驚いたよ。生の結果だけじゃなくて、全体のUIもね。最初の数件は無駄なYouTube動画へのリンク(これもGoogleのもの)だし。動画を見る時間なんてないし、テキスト情報をすぐに取り出したいのに。AIの「要約」を使うのも無駄だよ。Googleは「昔の良き時代」と比べて、ただ時間を無駄にさせようとしてるだけ。最初のYouTube動画の後、6件くらいの結果が出るけど、そのうち3件は企業の記事へのリンクで、つまらないウェブサイトに人を誘導するためのもの。さらに「他の人がキャンディを検索しました」とか、無駄なリンクが出てくる。自分が何かを検索したいときに、他の人が何を検索してるかなんて気にする理由がわからない。これって今やグループ検索?グループシンク1984?その後、またYouTubeの動画が出てくるし。Googleは明らかに薄められたプライベートなウェブのバリエーションを作ってる。AMPページでも同じ問題だよ。Googleは私たちをイライラさせてるし、大きな問題になってる。(今、Thoriumでこれを書いてるけど、これもChromeベースだよ。Firefoxは音声付きの動画を再生できないから、PulseAudioを使ってない私には無理なんだ。一方、Chromeベースのブラウザは気にしないし、音声もちゃんと出る。これがMozillaの無能さを示してる。彼らはもうGoogleと競争したくないんだ。数十年前からそうだった。Ladybirdも残念ながら何も変わらないだろうし、彼らの決定を批判したら、私を禁止したんだ。批判を検閲で対処して、代替を作ろうとするなんて素晴らしい方法だね。アルファやベータを出す前に。今、もし何百万もの人が使うことになったら、どれだけの検閲が待ってるか想像してみて…現代のウェブ全体に根本的に問題があるし、企業が大きく関わってる。もちろん人々も少なからずだけど、全員ではないよ。)

Googleに特定のドメインを全ての検索からデフォルトで除外できる設定があったらいいのに。YouTubeの動画(またはFacebookのページ、InstagramやTwitterの投稿)って、基本的に自分が探しているものじゃないから。

もしかしたら年を取っただけかもしれないけど、常にオンのAIアシスタントの魅力が全く理解できない。プライバシーやセキュリティの問題を置いておいても、もしそれが超賢くて能力があっても、自分の生活から距離を置かれる感じがして、自分の人生を形作る力が奪われる気がする。AI自体には反対じゃないし、デジタルフットプリントを検索したり、面倒な管理タスクを処理するためのアシスタント的な機能は便利だと思う。でも、いつの間にか問題を探してる解決策になってしまって、最後の一滴の文脈を意識した自動化や効率を引き出すために、自分の核心的な思考モデルや状況認識の一部を外注しなきゃいけなくなる気がする。まるで、エグゼクティブのようにスケジュールが詰まっていて、アシスタントがカレンダーを管理してくれるけど、それが人間じゃなくてコンピュータで、業界のキャプテンとしての注意を最大限に活用するためじゃなくて、自分が作り出した個人的なレースの速度を維持するためだけになってしまう。自分の心にも特に広い影響はないのに。

それが競争社会だよ。チーズを手に入れなきゃいけないし、お前がチーズを手に入れるってことは、俺が飢えるってことだ。幼稚園での共有の教訓は、知的財産についての教訓に置き換わった。著作権、商標、特許、そしてお前。もしくは、みんなが前に進むのを助けるために選択肢を外すこともできるけど、見てきた限り、トリクルダウン経済のトリクルは尿だよ。

同意する。AIがどれだけ役立つか、これからどれだけ役立つかに関わらず、私は毎日AIを使ってるし、素晴らしい技術だと思うけど、議論の多くは本当に問題を探してる解決策だよ。私の同僚たちは、何にでも「MCPを入れられない?」って提案してるけど、MCPの意味すらわかってないんだ!

完全に同意。人間のサービス要員なしでダウントン・アビーのようなレベルを望んでる人もいるみたいだね。どんな瞬間でもリクエストを処理するために、部屋やコーナーにフットマンやメイドがいる感じ。

「常にオンの未来は避けられない。」オープンソースを使えばそうじゃない。契約でデータをマイニングしないサービスにお金を払えばそうじゃない。プライバシーを守り、広告を禁止するスタートアップを支援すればそうじゃない。最近別のスレッドで言ったけど、Androidを殺さなきゃいけない、新しいモバイルLinuxが必要で、デバイスやソフトウェアの動作を完全にコントロールできるようにしなきゃいけない。企業に支配されるのはダメだし、何百万ものマルウェアだらけのアプリで溢れかえって、正当なものを禁止するような奇妙な「ストア」はいらない。自分たちの運命を自分でコントロールしなきゃいけない、便利さのために誰かに任せ続けるのはやめよう。モバイルだけで終わらない。実際に倫理的な企業を見つけて支援しなきゃいけないし、便利に無料なサービスの使用をやめる必要がある。お金で投票しよう。

ここで暗に宣伝されている製品は、今年の終わりに出荷される予定だけど、実際の写真すら見当たらない。これが製品の質を示しているなら、きっと良くないんだろうな。責任者たちも、有能なウェブデザイナーを雇うお金がないみたいだし。厳しいこと言ってごめんだけど、BootstrapやTailwindみたいな一般的なフレームワークが懐かしくなるとは思わなかったよ。ここでのレイアウトは、彼らの製品に対する期待感を全然引き出さないし、もし出荷されたとしても、悪党たちが不幸な所有者のプライベートな通信をすべて傍受するんじゃないかと心配してる。皮肉なことに、彼らのデバイスは広告を送信するのではなく、クライアントの生の興味を悪党たちに渡して、伝統的なチャンネルを通じて洗浄される逆広告エージェントになるかもしれない。まるで「中間の中間の男」みたいだね。

今年の終わりに出荷される予定だけど、実際の写真すら見当たらない。デザインと素材を「まだ最終調整中」らしいし、中国に拠点がないから、最初のロットは遅れるか、アルファ版になる可能性が高いと思う。

それはバポウェアであるだけでなく、たぶん「バイブコーディングされたスラップ」だから、バポスラップって感じだね。

ポケットサイズで画面のないデバイスを作っていて、内蔵カメラとマイクがあるんだって — 「文脈を理解する」って、電話の代わりになるように設計されてる。「文脈を理解する」っていうのは、「完全な監視」を意味する。広告のことを話す人は多いけど、グローバルな監視機械の正常化について話す人は少ない。ビッグブラザーがすぐそこに待っているのに。代わりに、我々人間は、自分のポケットに小さな「ビッグブラザーの弟」を持ちたいと思うようにプログラムされている。便利だし、安全で幸せに感じるからね。

グローバルな監視機械の正常化について話す人は少ない。ビッグブラザーがすぐそこに待っている。みんなオンラインでそれについて常に話してるよ。実際、大多数の人にとっては問題ないんだ。中には不満を持っている人もいるけどね。でも、我々は大体、小さなスケールで問題を解決しようとして、愚痴を言って自分を慰める傾向がある。(私はSNSをやってないし、家の中や周りにカメラもない。プライバシーに関する法律に関わったこともあるけど、正直言って誰も代表者に連絡しなかったから、あんまり進展はなかった。最近はプライバシーの問題を選挙で話すことも少なくなった。ニヒリズムが過ぎ去った証拠を見たことがないから。)