世界を動かす技術を、日本語で。

AI uBlock ブラックリスト

概要

  • uBlock Origin用のAIコンテンツファーム専用ブラックリスト の紹介
  • AI生成コンテンツの問題点 とブラックリストの必要性を解説
  • リストへのウェブサイト追加方法 や判別基準の説明
  • AIコンテンツ判別のガイドライン やGoogle Dorksの活用法
  • 類似プロジェクトとの差別化 についても言及

uBlock Origin用AIコンテンツファームブラックリストの概要

  • uBlock Origin でAIコンテンツファームをブロックする 個人作成のブラックリスト
  • GitHub で公開されており、 Pull Requestでの貢献歓迎
  • 自動購読リンク または 手動でリストURL追加 による導入可能
    • https://raw.githubusercontent.com/alvi-se/ai-ublock-blacklist/master/list.txt
  • 主な目的 は、AI生成の低品質・無価値なコンテンツや広告だらけのサイト排除

なぜAIコンテンツをブロックするのか

  • AI生成記事 は有用な情報がなく、 広告やアフィリエイトリンク で収益化狙い
  • 人間による経験や独自性 を求めて検索するユーザーの期待に反する内容
  • AIコンテンツの危険性
    • 誤情報、危険なアドバイス(例:危険なコマンドや化学物質の混合)
    • 事前チェックなし で大量公開されるリスク
  • リストは手動追加 で精度重視、アルゴリズム判定は未採用

ブラックリストへのウェブサイト追加方法

  • 非技術者向け :GitHubのIssue機能で疑わしいサイトを報告可能
  • 技術者向け :Pull Requestでlist.txtファイルに追記
    • ドメイン単位または特定ブログ単位で指定
      • 例:||example.com/@slopUser^$doc(特定ブログ)
      • 例:||example.com^$doc(ドメイン全体)
  • SEO業者やデジタルマーケティング会社 が運営する複数サイトも調査・追加推奨

AIコンテンツファームの特徴と判別ガイドライン

  • 不要な序文・結論 :内容に関係ない冗長な導入文
  • 典型的なタイトル :"A Comprehensive Guide"や"Ultimate Guide"など
  • 外部リンク・出典の欠如 :信頼性の低さ
  • アフィリエイトリンクだらけ
  • 企業の商品紹介 に偏った内容
  • 短期間で大量の記事投稿 :同一著者によるスパム的運用
  • 誤情報(AIの幻覚) :明らかな間違い
  • 2022年11月以降の記事 :ChatGPT公開以降のAIブーム
  • 画像や動画など非テキストメディアの少なさ
  • AI生成画像・ロゴの使用
  • Markdown記法のまま未整形
  • 長文だが本筋から逸れる内容
  • 検索エンジン上位常連 :SEO悪用
  • 幅広い分野を扱う知ったかぶりブログ
  • 見出しだけ多く内容が薄い記事
  • 連絡先がGmail等の無料メール
  • 曖昧な運営者情報やaboutページの不備
  • AI推しの内容(ChatGPT絶賛など)

Google DorksによるAI生成ページの発見

  • AIが自ら正体を明かす表現 をGoogle検索で特定
    • 例:"Sure! Here's an article about"(英語)、"Certo! Ecco un articolo"(イタリア語)
  • これらのフレーズを引用符で囲んで検索 し、該当ドメインをブラックリストに追加

類似プロジェクトとの違い

  • uBlockOrigin & uBlacklist Huge AI Blocklist はAI関連全体をブロック対象
  • 本リストは「AIコンテンツファームのみ」 を対象とし、 正当なツールやサービスは除外

まとめ

  • AI生成コンテンツファームの識別・排除 を目的としたユーザー主導型ブラックリスト
  • 人間の経験や独自性を重視 したウェブ体験の保護
  • コミュニティ参加型でリスト拡充 を推進

Hackerたちの意見

コンテンツファームや似たような低品質サイトを特にブロックする、もっと現実的なリストが新しく出たよ。これ、すごく広範囲なアンチAIリストのいい代替案だね。https://github.com/laylavish/uBlockOrigin-HUGE-AI-Blocklist 編集:あ、これredditで見つけたんだけど、そこでの議論も結構いい感じで、みんながどうやって情報を見つけてるかとか説明してるよ。https://www.reddit.com/r/uBlockOrigin/comments/1r9uo3j/autom...

もう5ヶ月も更新されてないね。

この広いリストは、ただの嫌いなサイトリストみたいだね。騙しのケース(AIのコンテンツを別のものとして扱うこと)をカバーしようとしてるわけじゃなくて、どんなコンテンツがあるかをオープンにしてるサイトも含まれてるし。

ウェブサイトのスプレッドシートがあるんだね。それはすごく興味深い。昔、すごいSEO対策をしてるメディアグループについての記事があったよ。彼らのサイトはみんな共通のフッターのテキストがあった。見つけられるだけuBlacklistに追加したよ。どうやって探したかのリストもあるから、役に立つかもしれない。編集: https://gist.github.com/SMUsamaShah/6573b27441d99a0a0c792431...

原則自体には必ずしも反対してるわけじゃないけど… > 「聞こえてくるのはスキルの問題だけだ。AIに文章を書かせるなんて想像してみて。」Grammarlyユーザー(とあまり英語を話さない人たち)は文句を言うだろうね。

個人的には、AI生成の作品やAIが手直ししたものよりも、下手に書かれた英語や自分には馴染みのない言語で自動翻訳されたものの方が好きだな。そっちの方がキャラクターや深み、バリエーションが全然あるし、超AI的な一般的なテキストや雑な文章とは比べ物にならない。とはいえ、このプロジェクトはコンテンツファームに焦点を当ててるみたいだから、ちょっと話がそれちゃってるね。

つまり、Grammarlyを使う理由は、自分たちにスキルの問題があるって認識してるからだよね。

僕は仕事でGrammarlyを使ってるけど(主にブランドガイドラインを守るため)、AIの雑な領域まで修正することはあまりないと思うよ。基本的には文が正しいかどうかを確認してるだけだし。OPは、Android AuthorityみたいなAI雑文ボットファームをターゲットにしてるんだね。

「スキルの問題」と言われたグループは、文句を言わなかったことがないよね。

英語がわからなくても、英語を書きたいなら、機械翻訳を使ってほしいな。

この特定のリストは、ドメインの所有権が変わってもアイテムを削除しないから、使う価値がないよ。例えば、以前はAIコンテンツをホストしてたドメインを買った場合とか。例えば、Whitehouse.comは昔はポルノサイトだったけど、今はそうじゃないし。

少なくとも、まだインターネットのホワイトリストの段階にはいないね。

近づいてはいたけど、アプリの支配力が落ちちゃった。

Ublock Originには「AIウィジェット」のブロックリストもすでにあるから、オンにできるよ。Chromiumでは役に立たないから、Firefoxを使い続ける唯一の拡張機能なんだ。

アイデアは好きだし、リストに貢献しようとも考えたけど、これが引っかかった: > NAQ(Never Asked Questions) > 私のウェブサイトがあなたのリストに載ってる! > 泣いてもいいよ。かなり疑わしい態度だね。明らかに管理者は自分が間違ってないと思ってる。こういう感情は理解できるけど、公共のブラックリストはこうやって管理すべきじゃないよ。

うん。私の個人ウェブサイトが何人かの友達にはアクセスできなかったみたいで、彼らはサーバーがダウンしてると思ってた。実際には、彼らのPiHoleに何かのブロックリスト(AIとは関係ない)が入ってて、なぜか私のウェブサイトがそのリストに載ってたんだ。今でもそうで、解除をお願いしたけど全く返事がなかった。なんでそのウェブサイトがリストに載ってるのか、いまだにわからない。

それに、AIコンテンツがレビューなしで幻覚や有害なコンテンツを出す可能性があるから、こんなリストが必要だって言ってるのに、もしその著者のブロックリストが間違っていて、未確認で他人に害を及ぼしてるなら?泣いても無駄だね。

この態度と、この取り組みが新しいことを考えると、5年後にまだ更新される可能性はほとんどないと思う。こういうのは、何年も維持してきたEasylistみたいなところから出てくるべきだよ。

多分、カウンターストライクコミュニティの「助けて、VACに不当に禁止された :((("投稿と同じくらい、彼らが無実である可能性があるからじゃないかな。

でも、これが公共のブラックリストの管理方法じゃないよね。泣いても無駄だよ。そのリポジトリには、完璧でも公平でもないものしかないし。SEOのクソみたいな連中が「自分のサブスタックは完全に手書きだ」って言って問題を開くのに対応するのは、精神的に無理ゲーだよ。まずはバンして、後で質問しよう。もしルールが不公平だと思ったら、自分で編集して使えばいいんじゃない?

忘れてたね: > uBlock Origin用の個人的なリスト

そのウェブサイトがAIのクソじゃないなら、リストから外すんじゃないかな。

もうそうじゃないみたいだね: https://github.com/alvi-se/ai-ublock-blacklist/commit/7ebaa7...

偽陽性の問題は時間が経つにつれて悪化するよね。ドメインが売られたり、サイトが方向転換したり、古いコンテンツが削除されたりするから。削除プロセスがないブロックリストと、「泣いても無駄」みたいなFAQの態度は、基本的に一方通行の評判のブラックホールだよ。最低でも、有効期限や再審査の仕組みが必要だと思う。ブラウザの安全な閲覧リストだって、定期的にURLを再チェックしてるし。

あと、あのサイモン・ウィルソンってやつのHN投稿をフィルタリングするルールも必要だね。

なんで?彼はその分野に興味があるなら面白い高品質なコンテンツを投稿してるよ。私には合わないけど、このリストがブロックしようとしてる内容とはかなり違うと思う。

でも、彼の記事はAIについてのもので、AIのゴミじゃないよね?

あなたが言ってるのは、simonwってユーザーのこと?彼のHNでのコメントは興味深くてバランスが取れてると思うけど、なんで彼をフィルタリングすべきだと思うのか分からないな。

これいいね、もっと広いカテゴリーのサイトをブロックできたらいいのに。サイトを一時的に許可することもできるし。企業向けにはURLの評判を提供するサービスがあって、さまざまな基準でサイトを分類して、ネットワーク管理者がその情報に基づいてユーザーをブロックしたり警告したりしてる。個人的には、ユーザーフレンドリーなインターネット体験を実現するためのクラウドソースの資金(理想的には政府が真剣に取り組んで、国民のために資金提供するべき)を作る必要があると思う。ブラウザ、フレームワーク、VPNプロバイダー、サイトの評判、欺瞞的なコンテンツ、DNSプロバイダー、メールプロバイダー、信頼できる証明書機関(いや、GoogleやMicrosoftがそれを監視するべきじゃない)、国家や企業の関係など... ピーホールを設定する必要なんてないよ。これに対して年間10億ドルの非営利基金を想像してみて。1000万人が月10ドル払ったら、年間12億ドルになる。プロトンは2024年に9700万ドルの収益があって、アカウントは1億件(どれくらいが有料かは知らないけど、だいたい1ユーザーあたり1ドルくらいの広がり)。今こそ、アメリカのテックジャイアンツに警戒している人が多い中で、こういうことを話すべきだと思う。

なんでapnews.comがリストに入ってるの?

AI生成コンテンツと人間生成コンテンツが急速に融合してるから、そんなリストはスケーラブルな一般的解決策には見えないね。