世界を動かす技術を、日本語で。

ウェブ検索製品およびプログラム可能な検索エンジン機能のアップデート

概要

  • Programmable Search Engine の機能進化と今後の方向性
  • サイト内検索、エンタープライズ検索、全ウェブ検索の明確な区分
  • 各用途に最適化された新しいソリューションの提供
  • 2027年1月1日までに移行が必要なケースの説明
  • 移行手順と今後の対応方針

Programmable Search Engine進化の概要

  • Programmable Search Engine は、多様なパートナー(学術機関、小売サイトなど)によるユーザー向け検索体験の提供をサポート
  • 今後は、各用途に特化した、より高度で焦点を絞ったソリューションを展開
  • ユーザーとパートナー双方にとって、質の高い検索体験の実現を目指す進化方針
  • サイト内検索、エンタープライズ検索、全ウェブ検索という 明確な選択肢 の提示
  • 利用目的に応じた最適な検索ツールの選択が可能な環境整備

用途別ソリューションの詳細

  • サイト内検索 向け:「Programmable Search Element(Search Element)」を簡素化し、特定サイト・特定オーディエンス向けのリッチな検索体験を実現
    • 最大50ドメインまでの指定が可能な「Sites to search」機能
  • エンタープライズ向け :「Google Vertex AI Search」によるAI会話型検索やエンタープライズグレードの機能提供
  • 全ウェブ検索 が必要な場合:指定ドメイン以外も検索対象とするパートナーには、全インデックス検索ソリューションを用意
    • 利用希望の場合は専用フォームから申請

移行計画とスケジュール

  • 進化したソリューションの最大活用をサポート
  • 2027年1月1日までの任意タイミングで移行可能
  • Search Element 利用者(50ドメイン以下):「Sites to search」機能の継続利用が最適
  • Search Element 利用者(50ドメイン超または全ウェブ検索):高度な全ウェブ検索ソリューションへの移行が必要
    • 2027年1月1日までに代替ソリューションへの移行完了が必須
  • Custom Search JSON API 利用者:Vertex AI Searchが50ドメインまでの推奨代替
    • 全ウェブ検索が必要な場合は、全ウェブ検索ソリューションへの移行
  • 新規エンジン は「Sites to search」機能の設定が必須(既存エンジンは2027年1月1日まで現状維持可能)

今後の展望とパートナーへのメッセージ

  • より焦点を絞った製品開発による、開発者パートナーへの価値向上
  • 進化する検索体験の共同構築への期待
  • Google Programmable Search Engineチームからの感謝と今後の協力依頼

Hackerたちの意見

Googleが静かに発表したんだけど、Programmable Search(旧カスタム検索)では新しいエンジンが「ウェブ全体を検索」することができなくなるみたい。新しいエンジンは最大50のドメインまでしか検索できないし、既存のフルウェブエンジンは2027年1月1日までに移行しなきゃいけない。もし本当にウェブ全体の検索が必要なら、Googleは今、企業向けソリューション(Vertex AI Searchなど)の「興味フォーム」に誘導してるけど、公開価格もないし、返事が来る保証もない。これって、インディーやニッチな検索エンジンがGoogleのインデックスを使って成長する時代が終わったってことだよね。一般的なウェブ検索に見えるものは、企業の門の向こうに押しやられてる感じ。まだあんまりこの件についての議論は見かけてないけど、Programmable Searchで小さな検索プロダクトを作った人には大きな変化に感じるんじゃないかな。他の人たちが影響を受けてるか、すでに代替案を考えてるか気になる。アップデート:Programmable Searchにログインしたら、メッセージがさらに明確になってた。「ウェブ全体を検索」機能によるフルウェブ検索は、来年中に終了します。検索エンジンを更新して、特定のサイトを指定して検索するようにしてください。こちらのリンクで: https://support.google.com/programmable-search/answer/123971...

Googleのインデックスを使っているニッチな検索エンジンは、これによってどんな影響を受けるの?

自分でベアメタルにウェブ検索インデックスを作ったんだけど、今は3400万件のドキュメントまで増えたよ: https://greppr.org/ 他人のインフラやサービスに頼りすぎるのは良くないね。いつでも廃止される可能性があるから。Googleの墓場は現実だよ。

過去10年で、中央集権的な検索インデックスから脱却しなきゃいけないってことは明らかだったよ。ネットを検閲や政治的なブラックホールから守るためにもね。今はただ泣くしかない。アメリカのサイレント世代やグレイテスト世代の英雄たちが、公共図書館や大学図書館を通じてできるだけ多くの制度的知識を伝えようと頑張ってきたのに、広告に夢中な連中にその遺産を汚されてしまった。人類が出版した理解の全てが、最も決意のある人たち以外にはほとんど手に入らないようになってしまってる。

「ウェブ全体を検索する」 今日はそれが以前に許可されていたことを知ったよ。ちょっとクレイジーだね。Googleが人々にGoogle検索そのものを再パッケージして、自分たちの広告と一緒に売ったり配信したりすることを招いてるみたい。

DuckDuckGoがMicrosoft Bingのカスタム検索を使ってるのは知ってるけど、正直言って、Googleに潰される心配がない分、こっちの方がずっと強力なシステムだよね。 https://www.customsearch.ai

もし部分的な差し止め命令が却下されたり、控訴で負けたりしたら、この最終判決の下でGoogleは「フルウェブ」検索を資格のある競合に提供しなければならなくなるよ。 https://dn710204.ca.archive.org/0/items/gov.uscourts.dcd.223...

関連情報:検索の夜明けを待つ:検索インデックス、Googleの判断、Kagiへの影響 https://news.ycombinator.com/item?id=46708678

これ、私の読み間違いかもしれないけど、フルウェブ検索を停止するのってKagiの投稿で言われてた判断に反してない? > Googleはウェブ検索インデックスデータ(URL、クロールメタデータ、スパムスコア)を限界コストで提供しなければならない。もしかしたら、良い統合を閉じて、KagiやEcosiaなどが今後不便な方法でインデックスデータを買うことになるのかな?

一方、ヨーロッパでは:QwantとEcosiaが自分たちの検索インデックスを作るために協力中だよ: https://blog.ecosia.org/eusp/

これは立派な試みだけど、出遅れてるから大きな影響を与えるのは難しいと思う。間違ってたらいいけど。彼らは: > 2025年末までにフランスの検索クエリの30%を提供することを目指してたよ https://blog.ecosia.org/launching-our-european-search-index/

自分のインデックスを持った「おもちゃ」検索エンジンを作るには何が必要なんだろう。誰か試したことある?

YaCyって面白いかも。ユーザーがインターネットをスクレイピングして、他のユーザーのインデックスをトレントみたいに検索できる分散型検索エンジンなんだ。実際の検索エンジンとしてはあんまり機能しなかったけど、興味深かったよ。

Googleじゃないなら、ブロックされずにウェブサイトをスクレイピングするのは大変だと思うよ。頑張ってね。

そうそう、2021年にそこから始めたんだ。もう5年近くやってて、そのうちの3年はフルタイムでやってる。今は1台のサーバーで約11億のドキュメントをインデックスしてるよ。大変なのは、スケールを持って有用な結果を出すことだね。数百万のドキュメントをインデックスするのは簡単だけど、数十億に押し込むのはもっと大きな挑戦だよ。どんどん複雑なカスタムソリューションが必要になってくるからね。開発ログはこちら: https://www.marginalia.nu/tags/search-engine/ そして検索エンジン自体はこちら: https://marginalia-search.com/ (今はインデックスをポスティングリスト圧縮に移行するためにCPUコアをたくさん使ってるから、ちょっと最適化されてないけど、4〜5日かかると思う)。

これ、StartpageやEcosiaにかなり影響を与えるだろうね(もしかしたら潰れちゃうかも)。彼らは実質的にGoogleのホワイトラベルだし。Bing以外にどんな代替手段があるんだろう?本当にやる価値がないほど難しいのかな?AI企業の中には(PerplexityやAnthropic)自分たちのインデックスを立ち上げることに成功してるところもあるみたいだね。

自己宣伝になっちゃうけど、Mojeekはウェブ検索APIを提供してるよ(>90億ページ): https://www.mojeek.com/services/search/web-search-api/

バカな質問かもしれないけど、最近「AIスクレイパーの量がホスティングを持続不可能にしている」って投稿をよく見るんだ。新しいフルウェブデータセットがたくさんあるはずだよね?これらのデータセットの所有者がAPIを通じてサードパーティに提供しない理由は何なの?SERPの質や古さが問題なのかな?それとも、これって潜在的に儲かるビジネスの転換や副業になりそうな気がするんだけど。

AIスクレイパーの量がホスティングを持続不可能にしている それに関しては、実際にはそうじゃないよ。1998-99年頃のPentium ProやPIII SSEでApacheを使えば、月に10億ヒットを楽々処理できるし、訪問ごとにページを生成するよりも、変わった時にページを生成する方がいいと思ってるなら別だけど。

これとYouTubeの攻撃的なアンチボット対策は、アルファベットがAIデータの漏洩を防ごうとしてるってことだね。

これは、独立系開発者や小さなスタートアップが独自のAPIに依存するのがリスクが高い理由の明確な例だね。TwitterのAPI制限や他のプラットフォームがエコシステムを徐々に閉じていくのを見てきた。影響を受けた人には、これをきっかけにして以下を考えてみてほしい。1. 自分の軽量な検索インフラを構築する(MeilisearchやTypesenseのようなツールが今はもっと手に入れやすい)2. SerpAPIのようなサービスを使って対抗的な相互運用性を確保する(ただし、Googleはすでに法的措置を取ってる)3. データソースをコントロールできる専門的な縦型検索にシフトする。ここでの本当の教訓は、自分のコアバリューを所有することの重要性だよ。もしあなたの製品の強みが、12ヶ月の通知で引き剥がされる可能性のあるサードパーティのAPIに完全に依存しているなら、持続可能なビジネスとは言えない。Googleは実質的に「独立系検索は終わり、企業価格を払うか、去れ」と言ってるようなもんだね。これによって、Googleのインデックスに全く依存しない専門的でドメイン特化型の検索エンジンへの流れが加速するだろう。

最近、「TUIでのGoogle検索」みたいな遊びのプロジェクトにたまに取り組んでるんだけど、そのAPIを使ってるんだ。Brave Searchを別のバックエンドのオプションとして追加する予定だったし、ユーザー側の設定がずっと楽だからデフォルトにしようかとも考えてた。これが決定打になったね。