世界を動かす技術を、日本語で。

見てください、また新しいAIブラウザが登場しました

概要

  • OpenAIが新ブラウザAtlasを発表
  • 既存のAIブラウザも本質はChromiumベース
  • 開発者視点で新規性の欠如を指摘
  • Sam Altmanの発言に対する皮肉
  • 本格的なブラウザ開発の難しさの強調

AIブラウザの現状と失望

  • OpenAI が新たに発表したブラウザ Atlas は、実質的に Chromium にAI機能を付加しただけのもの
  • PerplexityComet や、 DIA も同様に Chromium ベースでAIを搭載しただけの構成
  • Opera もAI搭載ブラウザをリリースしているが、やはり Chromium フレームワークの流用
  • ウェブ開発者の立場として、これらの「新ブラウザ」には全く興味が湧かない現状
  • 理由は単純で、どれも「新しいブラウザ」ではなく、ただの Chromium のラッピング+AI追加に過ぎないため

OpenAIの発表とSam Altmanへの皮肉

  • OpenAIのCEO Sam Altman は「新製品の発表にワクワクしている」とSNSで発信
  • 彼の会社は「人間の仕事を置き換えるスーパーインテリジェンス」を目指しているとされる
  • しかし、実際の発表内容は「AIを載せただけのChromium」であり、期待とのギャップが大きい
  • これだけの資金と人材を持つ企業ですら、ゼロから本格的なブラウザを作るのは極めて困難である事実
  • 本当に革新的なブラウザ開発は、今もなお「超難題」であることの証左

ブラウザ開発の難しさ

  • Chromium ベースのブラウザ開発は容易だが、根本から新規開発するのは非常に高いハードル
  • セキュリティ、互換性、パフォーマンスなど、多岐にわたる技術的課題
  • Google ですら膨大なリソースを投入して Chrome を維持・進化させている現実
  • 本質的なイノベーションには、単なるAI追加では到達できない壁
  • 業界全体が「AI搭載」の名のもと、安易なアプローチに流れている現状への懸念

総括

  • AIブラウザ の乱立は、実質的な技術革新ではなく「見せかけの新規性」に過ぎない
  • ブラウザ本来の進化は、今もなお多大な努力と技術力を要する分野
  • 真に新しい体験を生み出すには、 Chromium の枠を超えた挑戦が不可欠

Hackerたちの意見

「AIを上に乗せた」んじゃなくて、「AIが上に乗っかってる」って感じだね。死んでも「AIブラウザ」なんて使わないわ。

あなたの会社がそれを展開するまで待ってるよ。

確かに、読んだ言葉のすべてを保持して、常に自分の好みに基づいたプロフィールを合成して、それを使って見えるものをフィルタリングするブラウザって、まるで自分の世界観を制限するレンズみたいだよね。Googleにとっては物議を醸すレベルのデータ保持だけど、OpenAIのユーザーは喜んでそれを受け入れるし、Palantirやその政府クライアントはそれを欲しがってるだろうし、新しい世代の広告が生まれる土壌になりそうだね。多くの人にとってはワクワクすることなんだろうけど、私には全然ワクワクしないわ。

もう一つの可能性として、CloudflareのAIクローラーやAIエージェントをブロックするサポートを通じて、ますます多くのサイトがAIクローラーをブロックしているかもしれないね。これによって、ユーザーの接続を通じてそのコンテンツへのバックドアができる。これが実際に起こっているかはわからないけど、ブロックが一般的になれば、広く使われているブラウザが役立つと思う。

昔の新技術が出てくるのを見てた頃が懐かしいな。今はすぐに業界の最悪な部分がどうやってそれを苦痛の中心に変えるか考えちゃうから。

もしそんなブラウザが避けられないなら、ウェブをやめて本を読むだけだな。彼らは締め付けられるところまでしかできないから。

本当に気になるんだけど、新しい/違ったレンダリングエンジンから何を見たいの?今のウェブはすごく複雑で、まるでアプリプラットフォームそのものだよね。ブラウザを作る人にとってのインセンティブは、最初はユーザーが少ないから、ウェブ互換性が一番高いプラットフォームを使うことだよ。Chromeだってゼロから始まったわけじゃなくて、WebKitを使ってたんだよ!Chromiumコミュニティは、みんなが使える素晴らしいオープンプラットフォームを作り上げたんだから、私たちはそれを使えることに感謝しないとね。

懸念は機能リクエストじゃなくて、エンブレース・エクステンド・エクスティングイッシュのダイナミクスを利用して、ウェブ全体がGoogleに依存する方向に進んでしまうことだと思う。広告ブロッカーやプライバシー、DRMに関する記事が山ほどあるけど、この話題を追ってる人にはもう古い話だよね。

自作のブラウザにはパフォーマンスに集中してほしいな。Chromium系のブラウザはRAMを食いまくって、パソコンのバッテリーもすぐなくなっちゃう。

Googleは最近のAndroidに関する行動で、大きなオープンソースプロジェクトを任せられないってことを証明したと思う。

GeminiプロトコルとGemtextフォーマットにブラウザが対応してくれるといいな。

Ublock Originの完全サポートが欲しいな。拡張機能じゃなくて、ネイティブレベルで。

最近のウェブはめちゃくちゃ複雑だよね。アプリプラットフォーム全体みたいになってるし。Googleが作った「アプリプラットフォーム」じゃなくて、もっとシンプルなものがいいな。GoogleはW3Cを実質的に支配してるし(Googleが資金を止めたらMozillaは消えちゃう)、独占的なレンダリングエンジンもコントロールしてる。ウェブサイトの半分はJavaScriptやウェブフォントなしの方がいいし、99%はテキスト、画像、動画とちょっとした操作だけで済む。残りの1%のためにGoogle Chromeを立ち上げて、全プラットフォームを我慢することもできるけど、1%のためのウェブレンダリングエンジンが欲しい。シンプルなことをサクッとやって、30年分の技術的負債や不要な機能で「アプリケーションプラットフォーム」って名乗るような巨大な攻撃面を持たないやつ。

本当に気になるんだけど、新しい/違うレンダリングエンジンに何を求めてるの?HTML/CSSのレンダリングが速いのがいいよね。JavaScriptのパフォーマンスにはあんまり興味ないし、できるだけオフにしてるから。カスタマイズ可能で、設定もできるのがいいな。FirefoxのElectrolysis前よりも、Chromeよりもずっと。サイトのコンテンツを変更したり、オーバーライドしたり、いろいろできるアドオンをサポートしてほしい。サイトごとに設定できる権限も必要。ウェブサイトの現在の状態を保存できる機能も欲しいし、その時の正確なレンダリングをアーカイブ用に。注釈(コメント、強調、修正など)もサポートしてほしいし、保存した状態の差分もサポートしてほしい。もし「ブラウザ」を含めるなら、ちゃんと使えるブックマークマネージャーが欲しい。今のブラウザのはクソだから。すべてのブックマークには(オプションで簡単に)ブックマークした時の正確なページの状態を含めてほしい。履歴も同様に。すべてを設定可能なgitリポジトリに同期したい:設定、ブックマーク、履歴、開いているウィンドウ/タブ、注釈、保存したウェブサイトのスナップショット。例えば「このタブグループからすべてのPDFを保存」とか、「すべての画像を保存して、名前をsometopic-somewebsite-date-id.jpgにする」とか、「この検索で始まったすべてのタブとそこから訪れたサイトをPDFとしてドキュメントフォルダに印刷する」みたいな簡単に使える一括操作が欲しい。ウェブサイトの変更を監視する機能も欲しい。ブラウザがバックグラウンドで訪問して、何か重要なことが変わったら通知してくれるやつ(これ、正しくやるのは難しいかもね...)。「ネットワークの視点」(もっといい言葉があればいいけど):このウェブサイトを自分のローカルアドレスから、VPN経由で、言語をポルトガル語に設定して、...タブごとに簡単に切り替えられるようにしてほしい。すべてに対して完全にカスタマイズ可能なキーバインディングが欲しい。vimperatorみたいに、ブックマークマネージャーや設定、ほんとにすべてに。あと、ポニーも欲しい ;)

ChatGPTにブラウザを作ってもらうと、こうなるんだろうね。

このポイントが繰り返し強調されてるのは嬉しいな。ほぼ毎日のように、ブラウザエコシステムだと思ってるものが、実はChromiumを基盤にしたものばかりだってことに驚く人を見かけるから。次のAIブラウザを考えてる人に向けて建設的な意見を言うなら、全く別のブラウザエンジンや、Chromiumと同等のプログラミング能力を維持する代替品のデモには感心するだろうな。今のChromiumの「モート」の大きな部分は、ブラウザエンジンの近代化に不釣り合いなリソースを投入できることだから、AIツールがそのギャップを埋めるのに使われてるなら、重要な意味を持つかもしれないね。

つまり、Atlas、Comet、Edge、Dia、Brave、Operaとかは全部Chromiumだよね。iOSのブラウザは裏でSafariエンジンを使ってるってこと?結局、ブラウザは2つに絞られちゃったね。

Orionを日常的に使ってるけど、主にKagiの統合が理由だね。

iOSのどのブラウザも裏ではSafariエンジンを使ってる? 文字通り、iOSのすべてのブラウザがそうだよ。iOS 17.4までは代替ブラウザエンジンを使うことすら許されてなかったし、EU以外でもそれは変わらないよ。

Firefoxはまだ存在してるよ。

まず、ChromiumはWebKitにも基づいてるから、実質的にブラウザエンジンは一つだけってことだね。次に、多くのウェブサイトやウェブアプリがWebKitやChromium特有の挙動に依存しているから、新しいブラウザを全て(あるいは大半)に対応させるのはほぼ不可能だと思う。

Zenは本当に素敵なFirefoxのフォークだよ。Ladybirdも進んでるね。

Orionもあるよ。悪くはないけど、特に好きってわけでもないな。

自分でブラウザを作るのは、自分で認証や暗号を作るよりも10倍危険だよ。Chromiumの上に構築するのはいいことだと思う。

重要なのは、OpenAIがこれに時間を無駄にしてる理由だと思う。もしただのトークン請求のための別のチャネルならいいけど、そんなに大きなブレークスルーでもないし。OpenAIは道路であって、トラックじゃない。他のプロダクトチームにAIブラウザを整理させればいい。OpenAIはモデルに関する問題をたくさん抱えてるから、そこに集中すべきだ。これはサイドクエストだね。

表現を保存するっていう変な解決策は、実際のイベントやデータを保存しないから、長持ちしないと思う。飛行機を操縦するのに、フライトデータをデジタルで記録する代わりに、コックピットの計器をビデオカメラで撮影するようなもんだね。

昨日、OpenAIがAIブラウザ「Atlas」を発表したよ。驚いた人なんていないけど、要するにAIを乗せたChromiumだね。Perplexityもブラウザを持ってて、その名もComet。これもやっぱりAIを乗せたChromiumだ。DIAも同じく、もちろんAIを乗せたChromiumだよ。OperaもAIを乗せたChromiumブラウザを持ってると思う。面白いのは、彼らが「何を乗せるか」ってところだね。つまり、ブラウザ拡張みたいに、どうやってブラウザを拡張するのかってこと。基本的なモデルがあって、それにいろんな機能を追加するのはよくあることだよね。ここでの不満がよくわからないな。OpenAIのブラウザについて興味深いのは、広告ブロッカーをどう扱うかってこと。ChatGPTのユーザーの95%が無料版を使ってるし、OpenAIはそれを収益化する必要があるからね。Chromiumの代替を作るのは大変な作業だよ。実際、Microsoftはそれを諦めてChromiumを採用した理由もそこにある。Chromiumは業界全体のオープンソースプロジェクトで、Linuxと同じように良い理由があるんだ。自分が必要なAI機能を追加できるChromiumのベースモデルが欲しいな。拡張機能という仕組みがあるけど、Chromiumとの深い統合が必要な機能もあると思う。IEのActiveXや他のブラウザのNetscapeプラグインみたいな仕組みもあったけど、セキュリティの理由でそれは廃止されたんだ。ブラウザ開発の面白い時期にいると思うし、ワクワクしてるよ。

いろんなものの上に構築するのはうまくいくし、Chromium自体もそうだよね。「新しい」ものを作るのは99%が古いもので、1%を追加するための別の種類の構築だから、デフォルトで前者と一緒にすることはできないよ。もっと強力な拡張機能が確かに答えだけど、Googleがそれを許可したくないんだよね。これの主な問題は、ブラウザAが機能1を追加し、ブラウザBが機能2を追加すると、「Chromium + 1 + 2」にはならず、「Chromium + 1」か「Chromium + 2」になっちゃうことだ。これを数十のChromium関係者に繰り返すと、あなたの一つの追加機能はあまり魅力的に見えなくなる。逆に見ると、「Chromiumの上に1%しか追加しないなら、平均的なユーザーが切り替える価値があるとは考えにくい」ってことだよね。特にChromeがGeminiをネイティブで押し出し始めてるから。だから、Chromiumの塗装は、ブラウザ開発において非常に長い間、最も面白くないことだと思う。埋め込み用のServoや「何か違う」ためのLadybirdなどの方がずっと面白いよ。こういうのは、あなたが言うように、昔のブラウザ拡張のスケールに近いものだね。

Chromiumは業界全体で[...] でも本当にそうなの?Googleが好き勝手にやってる気がする。Google以外の誰もmanifest v3を望んでないし、「Web Environment Integrity」なんて誰も望んでない。

面倒なのはブラウザの要素だよね。なんでただの拡張機能じゃダメなの?

Chromiumは、良い理由から業界全体のオープンソースプロジェクトなんだ。 その「良い」理由は、Googleの独占のおかげ。Chromiumは技術的にはオープンソースだけど、実際にはGoogleが主導してるプロジェクトで、時々Web Environment IntegrityやManifest V3みたいな反機能をこっそり忍ばせようとしてる。 今、ブラウザ開発の面白い時期にいるね。 そうだけど、それはLadyBirdやServoみたいなプロジェクトのおかげで、残念ながらまだ初期段階なんだよね。ウェブの多様性を保つためには、Chromiumベースのブラウザをボイコットして、LadybirdやServoみたいな小さなプロジェクトを応援するのが一番だと思う(その間はGeckoベースのブラウザを使うしかないね)。

これは、直接ブロックしているウェブサイトからすべてのデータをスクレイピングするための法的な抜け道になるかもしれない。ユーザーは自分たちのためにすべてのデータを取得して、ちょっとしたテレメトリをここそこに入れれば、私たちのIPを使わずにウェブ全体をスクレイピングできる。

まさにそうだと思う。ユーザーの軍団が自発的にインターネットをスクレイピングして、キャプチャやログイン、ボットを止めるために設けられたすべての仕組みを突破する。これでブラウザのすべてのユーザーがボットになる。エージェント文字列がユニークなものになるのか気になるし、特定の場所はそのブラウザを自サイトからブロックするかもしれない。