世界を動かす技術を、日本語で。

AIが「ブラウザを構築」する時、話題を信じる前にリポジトリを確認せよ

概要

  • Cursor社がAIによってWebブラウザを開発したと主張
  • 実際には動作が不安定で誇張された宣伝
  • コードの品質や完成度に多くの疑問
  • AI開発の現実と宣伝のギャップが浮き彫り
  • 実用的な成果が求められるAI業界の現状

Cursor社の「AI製Webブラウザ」誇張問題

  • AI統合型IDE企業の Cursor が、AIエージェントによるWebブラウザ開発を発表

  • CEOの Michael Truell が「GPT-5.2でブラウザを作成」とSNSで発言

  • 「3M超のコード行数」「Rustによる独自レンダリングエンジン」「カスタムJS VM」など技術的な主張

  • しかし「 kind of works」と控えめな動作保証

  • 多数のメディアやSNSが「AIが1週間でWebブラウザを構築」と報道

    • 実態は大きく異なる誇張宣伝

実際の成果と開発現場の反応

  • エンジニア Wilson Lin のブログでは、動作例動画と「ゼロからのブラウザ開発は非常に困難」との言及
  • GitHubでコード公開され、開発者たちが 実際にビルド・検証
  • 多くの問題点が発覚
    • コードが ほぼコンパイル不可
    • 実行も困難、マーケティング内容と乖離
    • 「3M行の新規コード」も実質的な成果は 半完成品 レベル

技術的問題点と他プロジェクトの利用

  • Chromiumのクローンと比較し、 機能面で大きく劣る
  • コミットはビルドエラーが頻発、 GitHub Actions も失敗続き
  • 手動パッチでビルド成功しても、 読み込み速度が非常に遅い
  • 「ゼロから開発」と主張しつつ、 Servo(Rust製レンダリングエンジン)QuickJS(JavaScriptエンジン) など既存プロジェクトに大きく依存
  • JSエンジンもエンジニア個人のプロジェクト流用で、「ゼロから」とは言い難い

外部からの批判と設計上の問題

  • Servoメンテナの Gregory Terzian が「 スパゲッティコード」「実用的なWebエンジンには到底なり得ない」と酷評
  • 独自設計ではあるが、 品質・設計面で重大な問題

AI開発と宣伝のギャップ

  • Cursor社の「実験」は本来、 内向きな学習プロジェクト に近い内容
  • しかし宣伝では マイルストーン達成 として発信、過大評価を助長
  • 必須要件である CI合格・再現可能ビルド・実用的ベンチマーク が欠如

AI開発の現状と今後の課題

  • AIが「 1年以内にコードの9割を書く」とのCEO予測が飛び交う一方、現実は 多くのAIプロジェクトがROIを出せていない
  • 開発者向けAIツールは 補助的な自動補完・リファクタリング で実用価値を発揮
  • しかし「AIがプロジェクト全体を自律開発」という過剰な期待が蔓延
  • 検証や品質管理を省略し、 デモと実際の成果物の区別が曖昧化

結論:AIの実利重視への転換

  • OpenAIのCFO Sarah Friar も「2026年は実用的なAI導入に注力」と言及
  • 現実的な成果 を示してから、AIの本格導入を議論すべき段階

Hackerたちの意見

「AIがブラウザを書くのを任せられるようになった」って言いたかったわけじゃないと思う。ツールがどれだけ進化したかを示したかったんじゃないかな。生産品質を目指してるわけじゃなくて、AIコーディングの現状を印象的にデモするためのものだよ。完全に崩れ落ちることなく、どこまでできるかを見せてるんだ。編集:自分の主張を撤回するよ。これにservoが依存関係としてあるとは気づかなかった。

そうかもしれないけど、最終的にservo.render()を呼ぶために300万行のコードが必要ってのは、AIコーディングの良さを示すにはあまり良い方法じゃないと思う。

うん、でも生産品質に近いコードベースから始めて、それを生産品質からかけ離れたものに変えてしまうのは…あんまり印象的じゃないよね。

これは全然甘すぎるよ。基本的にこれが証明するのは、エージェントが1週間くらいループで動けるってことだけだよ。誰もそれを疑ってたわけじゃないでしょ?彼らは、エージェントが自分でブラウザを作れるところまで近づいてるかのようにマーケティングしてたけど、正当な反発を受けるのは当然だよ。これは、どれだけお金が投じられているかという点で非常に重要な問題で、全員に影響を与えるからね。「ステークホルダー」だけじゃない。もし本当にエージェントにブラウザを作らせることができて、それが実現するなら、それは非常に重要なことだと思う。今の時点では、実際にそうなるかどうかは予測できないけど、もしそうなったら影響はかなり大きそうだね。

Servoは依存関係に入ってなかったよ。Cargo.tomlを見てみて: https://github.com/wilsonzlin/fastrender/blob/19bf1036105d4e...

それは、ツールがどれだけ進化したかを示すためだったと思う。無駄なものの生産量の観点から?

「無数の行のコード」が、一般の人には印象的に聞こえるからって、合理的な指標として再ブランド化されたのには驚いたよ。結局、LLMが最適化するのが得意な唯一のものだからね。

これらの「指標」は、投資家を騙して、誇大広告された会社にお金を投げさせるために意図的に作られてるんだよ。進歩してるように聞こえるからね。実際には、AIがコンパイルできない混乱を作り出して、100以上の依存関係を追加して、別のブラウザからレンダラーを丸ごとインポートすることになった(servo)。それを整理するのは人間のソフトウェアエンジニアがやらなきゃいけなかったんだ。

それが気になった。自分はブラウザをゼロから作ったことはないけど、何百万行のコードが必要だって聞くと、なんかおかしい気がした。もしかしたらそれが必要なのかもしれないけど、300万行もない巨大なモノレポで、ビジネス全体の機能を支えてたこともあるからね。

マジでヤバいよね。もっとLOCが多いほどソフトウェアが良くなるっていう考え方はもう終わったと思ってたのに、これにはびっくりだよ。最近の会議で、あるディレクターが「1日に何万行もコードを書いた」ってクラウドを褒めてたけど、その数字自体に価値があるみたいに言っててさ。あと、「あなたのコードの何パーセントがAIによって書かれたの?」って話にも触れたくないわ。

完全に同意だわ。問題は、いくつかの誤解が全然消えないこと。1980年代にはコードの行数がメトリックとして悪いって話が出てたのに、今でもその考えが続いてるのは、開発者の生産性を測りたいっていう根深い欲求があるからだと思う。生産性を測る指標がないよりは、悪い指標でも持っていたいんだよね。

KPIがアメリカ経済を少しずつ壊してるよ。すべてを簡単なメトリックで意味のある形で測れるっていう考えは、過剰に報酬を受け取ってるビジネスコンサルタントが広めた神話だよ。馬鹿げてるし、皮肉だね。そうしようとする試みはすべて、劣化して逆効果になってる。

無限にコードを出せるっていうのを利点として挙げるのは、逆に不適格だと思う。

コードの行数は、ソフトウェア開発におけるフレノロジーみたいなもので、でも多くの人がそのフレノロジーを信じたがるインセンティブがあるんだよね。

すべてのコード行は技術的負債だよ。今までやった中で一番難しいプロジェクトは、自分が書いたコードをできるだけ削除することだった。

それが印象的なのは、コードを手段としてしか見たことがない人だけだよ。SLOCなんて実際にはあんまり関係ないからね。何らかの形でコードを書くなら、高いLOCカウントは大抵悪い時間の兆候だってわかるはず。ブラウザやオペレーティングシステムは別としてね。

サーボのメンテナーのグレゴリー・テルジアンの言葉が好きだな。> 「これは単に依存関係をつなげただけではなく、既存の実装からコピーしたわけでもない。現実のウェブエンジンに似たものをサポートできない、独特に悪いデザインだ。」って言ってるのが痛いね。「実験」とか「AIがどこまでできるか見たかったけど、ちょっと失敗した」ってフレームにしてほしかったな。今のままだと、コーディングに全く無知なCEOたちの水車に水を注いでるみたいで、「AIができるじゃん!バカだな!」って感じ。

これはこの前Hacker Newsでの会話からの引用だよ。

鍛冶屋には「てっぽう型の物体」って概念があるんだ。つまり、てっぽうに見えるけど中が空洞だったり、セラミックでできてたりするもの。ジュエリーを作るために叩くには耐えられるかもしれないけど、本物のてっぽうのように使うと、誰かを傷つけたり、作業してるものを壊したりする恐れがあるから、絶対にやっちゃダメなんだ。こういうAIの記事や実験の多くは、コンテンツを作るには見た目はいいけど(実際、イヤリングを作るには問題ないけど)、現実の世界で叩かれると崩れちゃう「アプリ型の物体」を生み出してる気がする。

開発者向けの製品を持ってるCEOなら、みんながリポジトリをクローンして彼の仕事をチェックすることくらい分かると思うんだけど、彼は信頼を無駄にしちゃったね。

彼はたくさんの信頼を無駄にしたね。この分野で誰かが突飛な主張で悪影響を受けたのを見たことがない。新しいモデルをリリースしたり、追加のサブエージェントを加えたりすれば、すべてがリセットされる。

彼のターゲットは開発者じゃなくて経営陣だよ。経営陣はすでに開発者を全然信頼してない。明らかに自分の仕事を守ろうとしてるあなたより、未来がある大企業を信じる理由は何?それとも、経営陣が正しい判断をするって信じてる?

Perplexityによると、私のお気に入りのAIチャットボットのこの1週間の自律ブラウザ実験は、約10〜20兆トークンを消費し、当時のフロンティアモデルのリスト価格で数百万ドルかかることになるらしい。こんなことは公表しない方がいいよ。せめてトランスクリプトにリンクするべきだし、こういう数字の報告は全然信頼性がないよ。

それは約1600万トークン毎秒のスループットを示唆してるね。コーディングエージェントのループは本質的に逐次的だから、次のステップに進む前に推論が終わるのを待たなきゃいけない。そのボリュームはアーキテクチャ的に不可能に思える。コストだけじゃなくて、レイテンシーに縛られてるんだよ。

Cursorプロジェクトについて直接知りたいなら、先週FastRenderの開発者ウィルソン・リンとの47分のインタビューをしたよ。依存関係についてもいろいろ話したし、他にもたくさんのことを話した。YouTubeでフル動画が見れるし、私の要約したハイライトもここで読めるよ。

マネージャーが理解してない言語(rust)で3つのPRを提出させたんだけど、テストもしてないのに何百行もあるコードの早いレビューを求めてきた。ツールなのに、全然分かってない人もいるよね…

LLMにレビューしてもらうのは公平だよね。

これらは、あなたのマネージャーと同じようなツールだよ。

彼に、コードレビューに来てもらって、自分のコーディングの決定を説明してもらう必要があるって言って。

HNでこのプロジェクトに関わってるエンジニアからのコメント: > 「今の最も人気のある商用ブラウザと機能面での対等にはほど遠いけど…」 なんて言い回しだろう!そういえば、ゴミの中に自転車を見つけたんだ。まだあまりうまく動かないけど、坂を下ることはできる。今の人気スーパーカーと比べるとレベルは全然だけど、坂を下る進歩はかなりすごいと思う。

これはすごいと思うよ:AIだけのワークフローでこのレベルの複雑さに達したのは。以前は、ある程度の複雑さがあるものにはたくさんの人の指導が必要だったし、それでも深刻な欠点や助けが必要だった。モデル自体や、モデル間のワークフローのフレームワーク、モデルに使えるツール、そしてそれを動かすハードウェアがすべて加速していると考えると、これがどこまで行くのか想像するのは難しくないし、特に現在のブラウザエンジンにかけられた努力やリソースと比べると、これは注目すべき成果だと思う。元の著者たちがやったことについて根拠のない主張をしたのは残念だけど、それでも大きな成果だと思う。

フラストレーションを感じるのは、プロジェクトが失敗したことじゃなくて、それが成功としてマーケティングされたことなんだ。私は毎日AIコーディングツールを使ってるけど、実際の仕事には本当に役立つんだよ。でも、こういうパフォーマンスがあると、AIが何ができて何ができないかについて正直な会話をするのが難しくなる。経営者が「AIが300万行でブラウザを作った」と見ると、期待が生まれて、みんなが失望する結果になる。AIのデモと実際のAIの間には、多くの人が気づいていないほどのギャップがある。みんなが印象を良くすることをやめて、正直さを重視するようになれば、もっと良くなると思うよ。