世界を動かす技術を、日本語で。

図書館員はすぐにあなたに「ブブゼラ」を売ろうとします

概要

  • 世界最大の図書館を歩く体験を通じて、現代インターネットの検索体験を比喩的に描写
  • 検索エンジンやターゲティング広告が、本来の知識探索を阻害する問題点を指摘
  • SEO最適化やアフィリエイトによるコンテンツの質の低下について議論
  • AI(LLM)による新しい情報探索の可能性と課題を考察
  • 今後のAIや検索エンジンの収益化と倫理的懸念について提起

図書館の比喩と現代インターネット

  • 世界最大級の図書館の長い通路を歩く体験、無数の本棚と温かい照明、古い紙の香り
  • 図書館の中で、突然現れる押し売り風の司書が「vuvuzela」を勧めてくる違和感
  • 楽器コーナーに並ぶ「History of the Piano」の本が、実際は広告や宣伝ばかりで本来の内容がない現状
  • 本物の情報を探す難しさ、どこに本当の知識があるのか分からなくなる不安
  • この図書館は現代のインターネットの比喩、司書は検索エンジンや広告サービス、内容の薄い本はSEO最適化された中身のないウェブページ

検索エンジンの変質とSEOスパム

  • 2008~2012年の大学テクニカルサポート時代、検索エンジンで未知の情報も容易に発見できた経験
  • 最近は、検索エンジンで本当に欲しい情報が見つかりにくくなっている体感
  • 公式情報や有用なリファレンスよりも、アフィリエイトや広告が検索結果上位に多く表示される傾向
  • 検索エンジンのアルゴリズム更新は一時的な改善に過ぎず、SEOスパムとの「いたちごっこ」が続く現状
  • アフィリエイトリンクを含むページの割合が検索結果で異常に高いことが研究で判明

公共サービスとしての検索の可能性と限界

  • 金銭的インセンティブのない公共図書館型の検索サービスの必要性を提案
  • しかし、公共サービスでもSEOスパムの問題は解決しない可能性
  • 多様な検索サービスの共存が解決策になるかもしれないが、実現は困難

検索の2つの役割:既知情報の取得と未知情報の発見

  • 既知情報(例:PostgresのEXPLAINコマンドの詳細)の取得には検索が便利だが、広告やノイズが障害となる場合も多い
  • 未知情報の発見(例:原因が分からないPostgresのパフォーマンス問題)では、クエリの難しさとSEOスパムの混入が大きな課題
  • 特に広範なテーマ(例:cloud database)では、検索結果が広告だらけになる傾向

AIによる情報探索の新しい形

  • Claude, ChatGPT, Le ChatなどのAIチャットボットを使った情報探索が、検索エンジンよりも意図に沿った回答を得やすい現状
  • チャット形式で要件を伝え、選択肢の比較や深掘りが可能
  • モデルのミスはあるが、SEOスパムを手作業で排除するより効率的
  • LLMがSEOスパム問題を解決したのか、単にスパマーがまだ追いついていないだけなのかは今後の課題

AIの収益化と倫理的リスク

  • AIモデルが広告や商品購入を優先するよう設計された場合、巧妙な操作や情報の偏向が発生するリスク
  • 会話形式を利用した誘導、緊急性の演出、情報の隠蔽、依存性の助長などの懸念
  • 資本主義の圧力でAIもいずれ商業化される可能性が高い現実
  • LLMプロバイダーがどのように収益化し、倫理的バランスを保つかが今後の重要課題

AI・検索エンジンの未来と私たちの選択

  • インターネットは事実・虚構・嘘が混在する巨大な図書館
  • 金銭的インセンティブに左右されない「司書」が理想だが、現実には難しい課題
  • AIや検索エンジンの進化とともに、真の知識にたどり着くための新しい方法論の模索が続く

Hackerたちの意見

最近、いくつかの検索エンジンを使い分けて、コンテンツを見つけるためにLLMを使うことが多くなってきた。数ヶ月前からずっと考えてるんだけど、広告主がトレーニングデータに手を出すのはいつなんだろう?商品を宣伝するプロンプトを追加するのは簡単だけど、大手が1年か2年以内に売り渡すなんてことがなければ、完全に驚くよ。もうすでにそうなってるかもしれないけど。

AIで書かれた新入生の作文が、オンラインカジノを使うように誘導する内容だらけになるのが楽しみだな。

貪欲には限界がないから反論はしないけど、これが熱心なファンのLLM利用にとっては終わりの始まりかもね。安いローカルのオープンモデルが最先端を超えることはないかもしれないけど、消費者用のノートパソコンで広告に汚染された最先端モデルを超えることはできるのかな?もしかしたら。

「このクエリをT-SQLからPL-SQLに翻訳する方法はこうだ…」…「でも、もし私たちのVCの最新のボーイフレンド、BozoDBを使ったら、こう書けるよ!」…最大9ヶ月。9ヶ月で来ると思う。

SEO会社はすでに、LLMやそのベンダーがコンテンツを簡単に、かつ優先的に消費できるようにするためのAI戦略をマーケティングしてるって、絶対に保証するよ。

プロバイダーは、システムプロンプトへの参加を広告主に売ることができる。LLMに送信する前の最初のメッセージで、誰の広告が含まれるかを確認するために、広告技術を使ってみて。

広告主がトレーニングデータに手を出すのはいつになるんだろうね。ほんとその通り。もう「もし」じゃなくて「いつ」って感じだよね。そうなったら、広告とそうじゃないものの区別がつかなくなるだろうな。最近、映画とアルコールの消費の相関関係に気づき始めたんだけど、過去数年で見た映画の中で、アルコールを推奨して楽しい時間と結びつけるものが多いのに気づいた。これってどれだけが有料プロモーションなんだろう?わからないけど、気づいてからは、アルコールが関わる映画がほとんど不快に感じるようになった。アルコール消費のネガティブな側面を影を落とすからね。LLMの中の広告も同じような道を辿ることができると思う。コンテンツに深く埋め込まれて、他のものと区別がつかなくなるんだ。

もうすでにフルパワーで起こってるよ。SOTAモデルはすでに汚染されてるし、主要なプロバイダーは自社の製品をウェブチャットシステムのプロンプトの中に押し込んでる。

GoogleはLLM生成中にトークンレベルの影響をオークション形式で扱うことに何年も取り組んできたんだ: https://research.google/blog/mechanism-design-for-large-lang...

LLMの広告とはちょっと違うけど、先日Googleマップで面白い体験をしたよ。道案内の声が「100フィート先で左に曲がって」って言ったんだ。普通は「信号機のところで」とか言うのに。しかも、見逃しやすい隠れた道じゃなくて、普通の交差点だった。高い入札者のところを通るようにルートを変えたりしないことを願うよ。

検索にLLMを使うのは意図的に避けてる。Altavistaを捨てて新しいGoogleに乗り換えたのを覚えてるくらいだから。Ask Jeevesにも一瞬惹かれたけど、あんまり良くなかった。まだ誰も解決してないと思う。LLM検索は次のトークンを予測するだけだから、常に欠陥がある。「事実」を信頼することはできない。LLMの「事実」は考慮された意見ですらなくて、ただの次のトークンの推測。LLMは「時事問題」に関しては絶対に信頼できない。定義上、常に古いから(トレーニングが必要)。現代の検索、GoogleやBingなどは、ちょっと混乱していて、広告だらけで、上位にはゴミのような結果が詰まってる。人気のリストや自分の経験から、uBlacklistを作った。今はDDGやその仲間が自分には一番役立ってる。

毎日Altavistaが恋しい。大文字小文字を区別する検索が、DOSとDoSを見分ける方法だった。正確なフレーズを引用符で囲むのはもう通用しないみたい。さらに、無理やり+で用語を強制しないと無視されることもあったけど、今はそれも通用しなくなった。Googleには完全に見切りをつけた。いろんなサイトを直接検索できるショートカットをたくさん作った:wikipedia、wiktionary、urbandictionary、genius、imdb、onelook、knowyourmeme、そして普段買い物する約2ダースのサプライヤーや小売店。リストにないものが必要なときは、いくつかの検索エンジンを試すけど、見つからないだろうなって思ってる。検索の戦いは負けたから。

ChatGPT 4oに現在の出来事について聞くと、Googleで調べて(何かウェブ検索をして)結果を要約してくれるよ。

複数の検索エンジンに対してクエリを簡単にできるポータルを作ったんだ(https://allsear.ch/)。オープンソースで無料、そんな感じ。これを作ってみて、インターネットの見方が広がった気がする。KagiやRedditを検索に使うことが多いけど、だいたいそれで足りるんだ。でも、足りないときは、他の検索エンジンがどれだけ優れているかに驚かされるよ。特に、テクノロジーに詳しくない人たちは絶対に使わないだろうし。

解決策の提案。データがユニークな売りのポイントなんだ。APIを使って公開の手に渡し、アルゴリズムを公開して、自分たちの開発チームを持つべきだと思う。そうすれば、自由市場がユーザーインターフェースやフィルター、その他を売れるようになる。例えるなら、道路(州管理)と車両(営利)みたいな感じ。今は、イギリス図書館に(物理的に)行って、出版された本を手に入れたり、オンラインでその特権のためにお金を払ったりできるよ。

これは、私にとっては、答えを見逃しているような記事だなと思った。読んでいるときに「この人、本当にAIがすぐに広告で溢れるなんて思ってないのかな?」って考えてた。そしたら、そのLLMに聞いてみたら、基本的に「はい」って言って、その後の反応が「うーん、そんなことが起こるのかな?」って。もちろん、そうなるよ。20年前に、広告が検索エンジンを汚染するか、ウェブが広告で溢れるかどうかを考えていたらどう思う?AIに対しても違うとは思えないよね。そうならない唯一の方法は、私たちがそれを避けたいと決めることだと思う。受け入れるのではなくてね。記事は一応AIについてだけど、最後にはこう言ってる:> 投資家たちはただ親切でやってるわけじゃない。誰かがこの大きな賭けに対してリターンを期待するだろう。> ... > LLMプロバイダーは公共サービスを提供する図書館員じゃない。彼らは大きな投資家のために途方もない金額を稼ぐ方法を見つけなければならないビジネスなんだ。資本主義には内在的な道徳がない。変わるべきことはそれなんだ。AIとは関係ない。AIは、少数の人々が「賭け」をして、その賭けが成功するようにテーブルを操作しようとする、壊れた社会経済システムの症状なんだ。AIはかわいいウサギで、私たちの不平等に基づく社会経済システムは、その無邪気なウサギを凶暴なミュータントに変えた有毒廃棄物の槽なんだ。そう、悪いことだし、排除する必要があるけど、その有毒廃棄物を封じ込める方法を見つけない限り、同じようなものが次々と現れるだけだよ。

彼らはAIとは何の関係もない。必ずしもそうではないけど、LLMサービス(そして他のAI関連のものも)って、今までの社会経済システムが腐敗させてきたものよりも、もっと危険な形で腐敗する可能性があると思う。企業が検索エンジンのトップに表示されるためにお金を払うのは一つの問題だけど、脆弱なユーザーと信頼している存在との間の会話に商業性を織り込むことができるのは、全く別のレベルの恐ろしさだね。

僕の理想的な解決策は、EUが公共知識のための機関を作ることだね。図書館とテクノロジーを組み合わせたようなもの。おそらく、加盟国の古典的な図書館に資金を提供するけど、テクノロジーにも投資するんだ。これがEUで科学を育てる大きな推進にうまく絡むと思う。テクノロジーの部分では、公共の利益を考えた検索エンジンやAIを作る。技術者たちは、古典的なSEOを打破するために奮闘するインセンティブが与えられる。例えば、同じ内容を繰り返すページを見つけたり、広告主導のサイトを評価を下げたり、政府のような明確な情報源を評価を上げたり、内容が頻繁に変わるページの評価を下げたりするかも。AIの部分は商品を売るためではない。これが20年くらいの啓蒙の黄金時代をもたらすかもしれないけど、その後には必然的に基本的な使命の侵食があるだろうね。そして、データサイエンスの強い人たちはみんなここで働きたがるだろう!

「テクノロジーの部分では、公共の利益を考えた検索エンジンやAIを作る。」これは民間の契約者によって提供され、広告でコストを相殺する最低入札者に渡される。

こういう仕事に携わりたいな。今のところ、私が思う最も近いものは、Apache FoundationやLetsEncryptみたいなところだね。オープンソースソフトウェアや重要なインターネットインフラを運営している場所。検索のための「Apache」があったら素晴らしい。

現在の検索エンジンって、いつも何かを売りつけようとしている図書館員みたいに感じる。シンプルな答えを見つけたいだけなのに、いろんなページに誘導されちゃう。もし検索エンジンがもっと公共図書館のように、商業的な理由でおすすめするのではなく、情報提供に集中していたら、体験はずっと良くなると思う。

Google、またダメになったの?正直、ここ6ヶ月間一度も使ってないよ。Kagiが今や完全な代替手段として機能してる。

LLM(大規模言語モデル)に関しては、お金の問題が気になる。これにかかるお金はすごく大きいし、あの会社たちはリターンを得るためにものすごいお金を稼がなきゃいけない。みんながAIに使うお金が、携帯電話に使うお金よりも多くなるっていう考え方だけど、結局その会社だけに使うってのは…よくわからない、どうも合わない気がする。ユーザーとしては、いい無料サービスだけどね。もしかしたら、本当に「タダ飯」ってあるのかも!

なんでGoogleがそんなにGeminiを使わせたがるのか、ずっと不思議なんだ。広告を表示しないAIを使わせたい理由は何?彼らの検索でもないし、反応を生成するのにお金がかかるのに。LLMに広告が表示された瞬間、みんな使うのをやめるよ。それは、親密なやり取りが急に中古車販売員になるような、すごく不快で突然なことになる。今はAI=株が上がるってわかるけど、彼らはこの道を進むことで自分たちの井戸を毒しているように思える。

「みんながAIに使うお金が、携帯電話に使うお金よりも多くなるっていう考え方だけど、結局その会社だけに使うってのは…よくわからない、どうも合わない気がする。」僕の会社は今、携帯電話よりもAIにお金を使ってるよ - ハードウェアとサブスクリプションで。今や、給与や役員報酬に次ぐ第二の高額支出になってる。

もっと希望的な説明: 彼らはお金を取り戻すことは決してないだろうし、これは経済の力の大きな再調整か、崩壊の一部だと思う。

まだだね。

「たくさんのお金がかかってるから、必死に取り戻そうとするだろう」って言うけど、あんまり理にかなってないと思う。企業は結局、いつでも最大限のお金を稼ごうとするからね。

SEOスパムは、LLM生成コンテンツが蔓延する前は、検索結果で簡単に見つけてスルーできた。彼らはありとあらゆる検索フレーズに対して、非常に特化したウェブサイトやコンテンツを生成しているみたい。彼らの最終的な目的が何なのか、正直よくわからない。アフィリエイトリンクがいつもあるわけでもないし。時々、AI企業がこういう低品質な検索結果を生成して、私たちに自社のLLMを使わせようとしてるんじゃないかって思うこともある。

彼らはいつもアフィリエイトリンクだらけってわけじゃない。おそらく、最初はポジティブな評判を築いてから、マネタイズを試みるつもりなんじゃないかな。あるいは、月ごとのクリック数を基に、誰かがマネタイズできるようにサイト自体を売るためかもしれない。

「特定の本を他の本よりも頻繁に見せるための金銭的インセンティブがない図書館を使いたい。」ああ、甘い夏の子供よ… 私には、制度的腐敗に関わっていた家族がいるんだ。特に公共サービスの腐敗についてね。ひどいよ。とても、とてもひどい。公務員が民間の同業者よりも給料が低く、雇用主やサービスを受ける人々からも扱いがひどいと、他の人にとって非常に利益のあるサービスを担当していると、腐敗が起きるのは確実だ。「AIを使おう!」ってのがその合言葉だね。さあ、サービスからお金を稼げる人たちが、そのサービスを実行するツールを運営するシナリオを考えてみよう…