世界を動かす技術を、日本語で。

夜明けを待ちながらの探求:検索インデックス、Googleの判断と「Kagi」への影響

概要

  • Googleの独占 が米国裁判所で認定され、検索市場の構造問題が明確化。
  • AIと検索インデックス の密接な関係が、イノベーション停滞の要因に。
  • Kagiをはじめとする新規参入者 が直面する障壁と現状の対応策。
  • DOJ(米司法省)による是正措置 と今後の期待される市場変化。
  • 多層的な検索エコシステム のビジョンと社会的意義。

検索市場の現状と独占問題

  • 2024年8月5日、米国裁判所が Googleを一般検索サービスの独占企業 と公式認定。
  • この判決は、広告やブラウザデフォルトだけでなく、 検索インデックスの支配 に焦点。
  • 世界の検索市場シェア(2025年10月、StatCounter): Google 90.06%、Bing 4.31%、他は1%未満。
  • 米国でもGoogleが85%を占め、 競争市場とは言えない状況
  • 検索インデックスは 代替不可能なインフラ であり、構築コストは莫大。
  • Microsoftですら20年で1000億ドル投じてBingを運営 してもシェア拡大は困難。

AIと検索インデックスの関係

  • LLM(大規模言語モデル)は、 現実世界の情報に基づく裏付けが不可欠
  • 検索インデックスを独占する企業が、 AIの品質の下限とイノベーションの限界を決定
  • 検索イノベーションの停滞が AIイノベーションの停滞 に直結。

Kagiの取り組みと障壁

  • Kagiは 広告なし・高品質情報への直接アクセス を目指す検索エンジン。
  • 主要インデックスベンダーと FRAND条件(公平・合理的・非差別的)での直接ライセンス交渉 を実施。
    • Mojeek、Brave、Yandex、Wikipedia、TripAdvisor、Yelp、Apple、Wolfram Alpha等と直接契約に成功。
    • Google・Bingは 非公開APIや制限的条件、広告強制などで交渉決裂
  • 現在は 第三者APIプロバイダ経由でSERP型結果を取得 する暫定対応。
    • これは望ましい解決策ではなく、 直接契約可能になれば即座に移行予定

DOJ(米司法省)による是正措置

  • 2024年8月5日、Googleが Sherman法第2条違反で独占維持 と認定。
  • 2025年9月2日、DOJが 是正措置を発表
    • 検索・Chrome・Assistant・Gemini関連の 独占契約を禁止
    • 検索インデックスと利用データの競合他社への提供義務化
    • 広告バンドルの禁止、インデックスデータの原価提供。
    • 6年間の効力、5年保証のシンジケーションライセンス
  • これが実現すれば、 Kagi等が求めてきた開放的な市場条件 が整う可能性。

強制力と実効性の重要性

  • Googleは SerpApiを大規模スクレイピングで提訴(2025年12月) し、裏口を閉ざす動き。
  • Googleはかつて オープンウェブを制約なくクロールし独占を築いた が、今は他社に厳格な制限を課す構造的矛盾。
  • 正規の有償インデックスアクセスが存在しないことが根本問題
  • DOJの是正措置が 実効性ある形で運用されることが不可欠

多層的な検索エコシステムのビジョン

  • DOJ判決は 健全な市場創出の“可能性”を開く に過ぎない。

  • 真に持続可能な社会には 非商業的・公共的な情報アクセスの基盤 が必要。

  • 想定される三層構造:

    • Layer 1:公共財としての検索
      • 政府支援・広告なし・中立的な情報アクセス基盤
      • 公共図書館の現代版、例:search.org
    • Layer 2:無償・広告型検索
      • 多機能・利便性重視、広告で運営
      • 現在の主流モデル
    • Layer 3:有料・サブスクリプション型検索
      • 最高品質・プライバシー重視、Kagiが該当
      • 検索、ブラウザ、メール、AIアシスタント等を統合
  • この多層モデルは、 公共的基盤・無料商用・高品質有料という多様な選択肢 を提供。

  • Sherman法の本来目的 とも合致。

結論

  • DOJ判決は、 閉鎖的な独占インフラを共有インフラへ転換 する第一歩。
  • API、原価ベースの価格設定、広告バンドル禁止等が実現すれば、ウェブには再び多様なエコシステムが生まれる可能性。
  • 市民の情報アクセス権、イノベーション促進、健全な民主社会の基盤として 検索インデックスの開放が不可欠

Hackerたちの意見

Google: Googleは公開検索APIを提供していません。唯一の選択肢は、結果の表示に変更がない広告シンジケーションバンドルで、これはStartpageが使っているモデルです。広告シンジケーションは、Kagiの広告なしのサブスクリプションモデルには合わないですね。 直接のライセンスが適切な条件で利用できないので、私たちも多くの他の企業と同じように、SERPスタイルの結果を得るためにサードパーティのAPIプロバイダーを利用しています(SERPは検索エンジン結果ページのこと)。これらのプロバイダーは、Nvidia、Adobe、Samsung、Stanford、DeepMind、Uber、国連などの大企業にサービスを提供しています(彼らのウェブサイトによると)。顧客リストはSerpAPIのページに載っているものと一致しています(面白いことに、DeepMindはKagiのリストにも載っているけど、彼らはGoogleの子会社なんですよね…)。Kagiはこれを書く必要があると思います。なぜなら、もしSerpAPIが閉鎖されたらGoogleへのアクセスを失うかもしれないからです。でも、すでに複数のプロバイダーを利用しているかもしれません。過去にKagiの社員はGoogle APIにアクセスできると言っていましたが、実際はそうではなかったようです。顧客としての大きな影響は、Kagiのプライバシーポリシーに「クエリをログに残さないように努める」と書いてあっても、実際にはGoogleに送信されていて、Googleの消費者プライバシーポリシーの対象になるということです。たとえ匿名化されても、あなたのクエリはGoogleトレンドに貢献する可能性があります。

直接のライセンスが適切な条件で利用できないので、私たちも多くの他の企業と同じように、SERPスタイルの結果を得るためにサードパーティのAPIプロバイダーを利用しています。 クレイジーだよね、企業が「Googleは私たちに彼らのコア製品をホワイトラベルさせてくれないから、盗んで再販してる」って認めるなんて。

まあ、ビジネスの世界では普通のことだよね。お金を稼ぐのに倫理なんてないし。

Kagiを攻撃するのは変だよね、あのリストにはもっと大きな企業がいるのに。

でも今の状況では、彼らはそれを認めて、Googleにやめろって言わせることができる… Googleは検索市場を支配していることで反トラストの判決を受けたばかりだし。Googleは本当に立場がないって分かってるんだよ。

代替案は何だろう?ウェブ上で無名の状態から競合する検索インデックスを作るのは、最初からとても難しいし、今はサイトがボットを阻止するために余計な対策を講じているから、さらに難しくなってる。Googleのクローラーは特別な権限を持っていて、ほとんどすべてのボットチェックをすり抜けられる。他の誰もが泥の中を進むしかなくて、ウェブの多くをインデックスできないことを受け入れなきゃいけない。

それが法律に違反するかどうかはオープンな質問みたいだね。別の見方をすれば、ウェブ上にサービスを公開したら、人々がそれをどう使うかを制限する権利は限られてるってことじゃない?これって、そもそもGoogle検索が依存してる論理じゃないの?私のサイトをクローリングしてインデックスして、ディープリンクする許可は与えてないよ(要約やLLMのトレーニングなんて論外)。でも、彼らは公共のウェブサイトだから勝手にやっちゃったんだ。

GoogleのAIサマリーと何か大きく違うの?

記事に掲載されてる内容(検索自体も)にはGoogleのIPアドレスが含まれてるよ。

他に「XYZをググる」って言うとき、実際にはKagiやDDG、他の検索エンジンで検索してるって人いる?

そうだね、XeroxやKleenexみたいだけど、実際にはまだ独占状態だよ。Kagiのユーザーとしては嬉しいけど、他に使ってる人はほとんどいないよね。

いや、私は「XYZを検索する」って言うか、似たようなことを言うよ。

皮肉なことに、これはGoogleにとって法的には悪いことなんだ。もし用語が「一般化」してしまうと、商標保護を失う可能性がある。「アスピリン」が有名な例だね。もともとはアセチルサリチル酸のブランド名だったけど、あまりにも一般的な呼び方になったから、今ではアメリカのどの会社でも使えるようになった。

そうだね、でも今よりも昔の話だよ。ほとんどの人がGoogleを使ってるみたいだから。例えば、「それをGoogleで調べる」とか言ってたけど、まだYahooが主要な検索エンジンだった頃はYahooを使ってた。

ここ数年Kagiを使ってるけど、ウェブ検索について話すときはブランドにこだわらない言葉を使うようにしてる。「それをウェブで検索するつもりだ」とか、「好きな検索エンジンで調べてみて」って感じで。

昔はそうだったな。実際にDDGを使ってた時も。でも今はKagiを使ってるから(Googleをやめてから二つ目の検索サービスだね)、最近は「ウェブを検索する」って言うのがちょっとおかしい気がしてきた。

うん、Kagiが何かを説明するために話がそれる必要はないと思ってる。

今は家族が「AIに聞いてくるね」って言うことが多い。

うん、俺。

私はそう思う。

この記事の統計はゴミみたいに思える。世界の90%がGoogleを使ってる?人間の約20%はGoogleがブロックされている国に住んでるのに。逆に、中国ではBaiduが一番の検索エンジンで、世界の人口の15%以上がいるけど、1%にも達してない?これらの統計は「世界的」と主張してるけど、実際にはアメリカのトラフィックを測ってるだけだよ。

Googleがブロックされてるのは、もともと倫理的に働きにくい場所ばかりだよ。完全にブロックされてるところもあるし。これって、世界的なトラフィックを示してると思うけど、Googleをブロックしてる国で、KagiのようなAI/プライバシー重視の検索エンジンが存在を許可されるところはどこか、ちゃんと言ってみてよ。驚く結果が待ってるかも!

彼らは、中国の人たちはカウントされないって主張するんじゃないかな。だって、中国の人たちはGoogleを選べないから。でも、彼らが使ってる「StatCounter」の統計は、世界の実態を反映してないのは明らかだよね。

そう、統計は意味不明だね。StatsCounterに問題があるみたい。検索エンジンに関するWikipediaの記事には、ロシアと東アジアの市場シェアについてのセクションがあって、世界全体のカウントに使われている集計が間違ってることを確認してる。インターネットを使ってる人数が国によって極端に違わない限りね。ロシア * Yandex: 70.7% * Google: 23.3% 中国: * Baidu: 59.3% * 他の国内エンジン: "シェアは小さい" * Bing: 13.6% 韓国: * Naver: 59.8% * Google: 35.4% 日本: * Google: 76.2% * Yahoo! Japan: 15.8%

公平に言うと、Kagiも中国では使われないだろうね。

同等のものをゼロから作るのは、平行な国家鉄道を作るようなものだね。ちょっと細かいことを言うけど、初心者の質問が一つか二つあるんだ。1. インデックスを作ることが一つで、Googleが自分のAPIを提供してるから、これがないとすごく難しい。もし他のテック企業が本当にこの独占を打破したいなら、なぜできないの?有名な「パイル」データセットでのベースモデルのLLMトレーニングみたいに、公共の利益のためにこのインデックスを提供すれば、Googleの独占だけじゃなくて、Androidみたいな他の独占も壊せるはずだし、ユーザーエクスペリエンス(モバイルデバイス、ブラウザ、地図、セキュリティ)に新しい風を吹き込むことができるのに。なんでこれをやらないの?2. もう一つの質問は「コントロール」についてで、DoJがガイダンスを提供してるけど、まだ施行されてない。私は法律の専門家じゃないけど、州の検事総長がこれを施行できないのはなぜ?

今のAI競争とは比べられないと思う。Googleは独占状態で、しっかりした顧客基盤と安定した収益を持ってるからね。競争しようとするなら、インフラに莫大なお金を注ぎ込んで、ユーザーを奪い合わなきゃいけない。そのゲームでは、Googleはすでに勝ってる。今のAIの状況は違うよ。複数のプレイヤーが不確実なビジネスモデルの新しい分野で競争してる。まだ、より良い製品を作る段階で、企業は似たようなスタート地点から始まってて、顧客を奪い合う段階ではない。そういう状況では、コア技術に多額の投資をするのはまだ意味があるかもしれない。比較するなら、自動車メーカーの初期の頃や、ブラウザ戦争の時代の方が近いかもね。

他のテック企業が本当にこの独占を打破したいなら、どうしてできないの?Googleは動詞みたいなもので、あのレベルの認知度には誰も競争できないよ。

他のテック企業が本当にこの独占を打破したいなら、どうしてできないの?企業は自分たちのお金を投資して競争するよりも、訴訟を選ぶ方が多いんだよね。

ウェブの膨大な部分は、googlebotのユーザーエージェントと特定のソースIPでしかクローリングできないんだよね。

AppleはGoogleの検索独占を打破するチャンスがあったけど、結局彼らから何十億も受け取ることを選んだ。Microsoftも(IEのリードを諦めた後に)Googleのブラウザ独占を壊すチャンスがあったけど、結局Chromiumを無料で使うことにした。最終的に、こういった決定は公共の利益よりも利益がどれだけあるかに基づいてる。これを何度も学んだよね。企業に自由を守らせるのはやめた方がいいよ(ソフトウェアに限らず)、そんなことは絶対に起こらないから。

スクレイピングは難しい。すごいスクレイピングはさらに難しい。今、スクレイピングビジネスをやるのはめっちゃ大変だよ。いくつかの「オープン」/公共のインデックスはあるけど、他のインデックスは全然成功してないし。

  1. インデックスを構築するのが一番難しいんだよね。Googleが自分のAPIを提供してないから、なおさら。もし他のテック企業が本当にこの独占を打破したいなら、なんでできないの? FTA: > コンテキストが重要だよね: Googleは、robots.txtが広まる前にオープンウェブをクローリングしてインデックスを構築したんだ。しばしば出版社の反対を無視してね。今は、出版社がGoogleのクローリングに「同意」してるのは、90%の市場シェアを持つプラットフォームで見えなくなるのが経済的に受け入れられないから。Googleは今、そういった制約なしに蓄積した独占的な力から、他者に対してToSやrobots.txtを強制してる。今日Googleが強制しているルールは、彼らが支配を築くときに従っていたルールとは違うんだ。

インデックスを作るのは簡単だけど、新しいインデックスを作るのはめっちゃ難しい。インデックスをランク付けするのも大変だよ。BM25やコサイン類似度だけじゃないし、どうやって特定のドメインを優先するかとか、ナビゲーションクエリで実際のコンテンツがほとんどないホームページをどうランク付けするかとか、色々考えなきゃいけない。90%の非中国インターネットの行動を変えるのは、25年かけて数十億ドルをかけてGoogleがデフォルトで、時には唯一の選択肢になるようにしてきたことを解きほぐすことになる。歴史的に見ても、Googleのような巨大企業が足元をすくわれるには、かなりの技術的対抗策か反トラストの解体が必要なんだよね。残念ながら、今のところGoogleは、ここ数十年で現れた唯一の真の技術的脅威に対してうまく競争してるみたい。

なんで彼らはそれをやらないの?お金だよ。Googleは広告市場の99%をコントロールしてるから、独占って呼ばれるんだ。誰も競争できないのは、自分たちでやるコストを賄うだけの十分なお金を稼げないからだよ。

下に主要な情報源のリストがあるのがいいね。KagiのAIアシスタントは、ClaudeやChatGPTに比べて満足できる感じ。あっちは、指示がどうであれ、必ず個性を持とうとするから、ちゃんとした情報源を使った研究をしようとするとイライラしてた。Kagiは見つけた情報源の要約をくれるだけで、それで十分!

Kagiを応援してるよ。こういうことに関して透明性を持ってるのは素晴らしいね。技術は理解してるけど、検索の内部事情はあまり知らない私にとっては、かなり勉強になる。救済策がどう実施されるか、または実施されるのかはまだ分からないし、もちろんGoogleがどう対応するかも気になるところ。楽観的ではないけど、少しは希望があるかな。ちなみに、ブリンとペイジの1998年のホワイトペーパーを読むと、今のGoogleがどうなったかを考えるとすごく興味深いよね。

Googleの検索エンジンは年間約2000億ドルの収益を上げてるから、Kagiが市場価格を支払えるかは疑問だね。彼らは何十億もかけて、数十億のページをクロール、インデックス、ランク付けする技術を開発してきたわけで、それを考えると、適正価格なんてつけられないと思う。そもそも市場価格って何だろう?Kagi自身も市場がないって認めてるし、唯一の競合はサービスをやめちゃったしね。明らかにGoogleはインデックス提供者になりたくないんだろう。

記事によると、裁判官のメモにはインデックスデータアクセスについてこう書かれてるんだって:> GoogleはWeb検索インデックスデータ(URL、クロールメタデータ、スパムスコア)を限界コストで提供しなければならない。検索の「限界コスト」は小さいと思うし、その検索がどれだけの広告収入を生むかとは関係ないんじゃないかな。

Googleは控訴して、この記事で議論されている救済策について部分的な停止を求めてるよ。Kagiは原告を支持するためのアミカスブリーフを提出するのかな?もしかしたらGoogleはEpicの控訴の時みたいに、自分たちの立場を支持するためにアミカスに資金を提供するかもしれないね。

なんでコモンクローリングについて何も見なかったんだろう?ExaやParallel、あとは「エージェントメモリー」カテゴリで情報検索をやってる会社がたくさんあるけど、これについての話だよね。