図書館員はすぐにあなたに「ブブゼラ」を売ろうとします

2025年6月8日原文(kaveland.no)

概要

世界最大の図書館を歩く体験を通じて、現代インターネットの検索体験を比喩的に描写
検索エンジンやターゲティング広告が、本来の知識探索を阻害する問題点を指摘
SEO最適化やアフィリエイトによるコンテンツの質の低下について議論
AI（LLM）による新しい情報探索の可能性と課題を考察
今後のAIや検索エンジンの収益化と倫理的懸念について提起

図書館の比喩と現代インターネット

世界最大級の図書館の長い通路を歩く体験、無数の本棚と温かい照明、古い紙の香り
図書館の中で、突然現れる押し売り風の司書が「vuvuzela」を勧めてくる違和感
楽器コーナーに並ぶ「History of the Piano」の本が、実際は広告や宣伝ばかりで本来の内容がない現状
本物の情報を探す難しさ、どこに本当の知識があるのか分からなくなる不安
この図書館は現代のインターネットの比喩、司書は検索エンジンや広告サービス、内容の薄い本はSEO最適化された中身のないウェブページ

検索エンジンの変質とSEOスパム

2008～2012年の大学テクニカルサポート時代、検索エンジンで未知の情報も容易に発見できた経験
最近は、検索エンジンで本当に欲しい情報が見つかりにくくなっている体感
公式情報や有用なリファレンスよりも、アフィリエイトや広告が検索結果上位に多く表示される傾向
検索エンジンのアルゴリズム更新は一時的な改善に過ぎず、SEOスパムとの「いたちごっこ」が続く現状
アフィリエイトリンクを含むページの割合が検索結果で異常に高いことが研究で判明

公共サービスとしての検索の可能性と限界

金銭的インセンティブのない公共図書館型の検索サービスの必要性を提案
しかし、公共サービスでもSEOスパムの問題は解決しない可能性
多様な検索サービスの共存が解決策になるかもしれないが、実現は困難

検索の2つの役割：既知情報の取得と未知情報の発見

既知情報（例：PostgresのEXPLAINコマンドの詳細）の取得には検索が便利だが、広告やノイズが障害となる場合も多い
未知情報の発見（例：原因が分からないPostgresのパフォーマンス問題）では、クエリの難しさとSEOスパムの混入が大きな課題
特に広範なテーマ（例：cloud database）では、検索結果が広告だらけになる傾向

AIによる情報探索の新しい形

Claude, ChatGPT, Le ChatなどのAIチャットボットを使った情報探索が、検索エンジンよりも意図に沿った回答を得やすい現状
チャット形式で要件を伝え、選択肢の比較や深掘りが可能
モデルのミスはあるが、SEOスパムを手作業で排除するより効率的
LLMがSEOスパム問題を解決したのか、単にスパマーがまだ追いついていないだけなのかは今後の課題

AIの収益化と倫理的リスク

AIモデルが広告や商品購入を優先するよう設計された場合、巧妙な操作や情報の偏向が発生するリスク
会話形式を利用した誘導、緊急性の演出、情報の隠蔽、依存性の助長などの懸念
資本主義の圧力でAIもいずれ商業化される可能性が高い現実
LLMプロバイダーがどのように収益化し、倫理的バランスを保つかが今後の重要課題

AI・検索エンジンの未来と私たちの選択

インターネットは事実・虚構・嘘が混在する巨大な図書館
金銭的インセンティブに左右されない「司書」が理想だが、現実には難しい課題
AIや検索エンジンの進化とともに、真の知識にたどり着くための新しい方法論の模索が続く

Hackerたちの意見

最近、いくつかの検索エンジンを使い分けて、コンテンツを見つけるためにLLMを使うことが多くなってきた。数ヶ月前からずっと考えてるんだけど、広告主がトレーニングデータに手を出すのはいつなんだろう？商品を宣伝するプロンプトを追加するのは簡単だけど、大手が1年か2年以内に売り渡すなんてことがなければ、完全に驚くよ。もうすでにそうなってるかもしれないけど。

└

AIで書かれた新入生の作文が、オンラインカジノを使うように誘導する内容だらけになるのが楽しみだな。

└

貪欲には限界がないから反論はしないけど、これが熱心なファンのLLM利用にとっては終わりの始まりかもね。安いローカルのオープンモデルが最先端を超えることはないかもしれないけど、消費者用のノートパソコンで広告に汚染された最先端モデルを超えることはできるのかな？もしかしたら。

└

「このクエリをT-SQLからPL-SQLに翻訳する方法はこうだ…」…「でも、もし私たちのVCの最新のボーイフレンド、BozoDBを使ったら、こう書けるよ！」…最大9ヶ月。9ヶ月で来ると思う。

└

SEO会社はすでに、LLMやそのベンダーがコンテンツを簡単に、かつ優先的に消費できるようにするためのAI戦略をマーケティングしてるって、絶対に保証するよ。

└

プロバイダーは、システムプロンプトへの参加を広告主に売ることができる。LLMに送信する前の最初のメッセージで、誰の広告が含まれるかを確認するために、広告技術を使ってみて。

└

広告主がトレーニングデータに手を出すのはいつになるんだろうね。ほんとその通り。もう「もし」じゃなくて「いつ」って感じだよね。そうなったら、広告とそうじゃないものの区別がつかなくなるだろうな。最近、映画とアルコールの消費の相関関係に気づき始めたんだけど、過去数年で見た映画の中で、アルコールを推奨して楽しい時間と結びつけるものが多いのに気づいた。これってどれだけが有料プロモーションなんだろう？わからないけど、気づいてからは、アルコールが関わる映画がほとんど不快に感じるようになった。アルコール消費のネガティブな側面を影を落とすからね。LLMの中の広告も同じような道を辿ることができると思う。コンテンツに深く埋め込まれて、他のものと区別がつかなくなるんだ。

└

もうすでにフルパワーで起こってるよ。SOTAモデルはすでに汚染されてるし、主要なプロバイダーは自社の製品をウェブチャットシステムのプロンプトの中に押し込んでる。

└

GoogleはLLM生成中にトークンレベルの影響をオークション形式で扱うことに何年も取り組んできたんだ： https://research.google/blog/mechanism-design-for-large-lang...

└

LLMの広告とはちょっと違うけど、先日Googleマップで面白い体験をしたよ。道案内の声が「100フィート先で左に曲がって」って言ったんだ。普通は「信号機のところで」とか言うのに。しかも、見逃しやすい隠れた道じゃなくて、普通の交差点だった。高い入札者のところを通るようにルートを変えたりしないことを願うよ。

検索にLLMを使うのは意図的に避けてる。Altavistaを捨てて新しいGoogleに乗り換えたのを覚えてるくらいだから。Ask Jeevesにも一瞬惹かれたけど、あんまり良くなかった。まだ誰も解決してないと思う。LLM検索は次のトークンを予測するだけだから、常に欠陥がある。「事実」を信頼することはできない。LLMの「事実」は考慮された意見ですらなくて、ただの次のトークンの推測。LLMは「時事問題」に関しては絶対に信頼できない。定義上、常に古いから（トレーニングが必要）。現代の検索、GoogleやBingなどは、ちょっと混乱していて、広告だらけで、上位にはゴミのような結果が詰まってる。人気のリストや自分の経験から、uBlacklistを作った。今はDDGやその仲間が自分には一番役立ってる。

└

毎日Altavistaが恋しい。大文字小文字を区別する検索が、DOSとDoSを見分ける方法だった。正確なフレーズを引用符で囲むのはもう通用しないみたい。さらに、無理やり+で用語を強制しないと無視されることもあったけど、今はそれも通用しなくなった。Googleには完全に見切りをつけた。いろんなサイトを直接検索できるショートカットをたくさん作った：wikipedia、wiktionary、urbandictionary、genius、imdb、onelook、knowyourmeme、そして普段買い物する約2ダースのサプライヤーや小売店。リストにないものが必要なときは、いくつかの検索エンジンを試すけど、見つからないだろうなって思ってる。検索の戦いは負けたから。

Hacker Newsで議論の続きを見る

ハクソク