ミアズマ：AIウェブスクレイパーを無限の毒の穴に閉じ込めるツール

2026年3月29日原文(github.com)

概要

Miasma はAIスクレイパー対策用の軽量サーバー。 Nginx などのリバースプロキシと連携し、悪質なボットを罠に誘導。 隠しリンク を使い、人間には見えずボットだけがアクセス。 インストール・設定 は簡単で、リソース消費も最小限。 robots.txt で善良なボットは除外可能。

MiasmaによるAIスクレイパー対策

AI企業 による大規模なウェブデータ収集への対抗策
Miasma サーバーを設置し、悪質なトラフィックを誘導
毒入りデータ と自己参照リンクを大量配信
高速・省メモリ設計 でサーバーリソースの無駄遣いを防止

インストール方法

Cargo による推奨インストール:
- cargo install miasma
リリースページ からバイナリをダウンロードも可能

クイックスタート

デフォルト設定で起動:
- miasma
設定オプションの確認:
- miasma --help

スクレイパーの罠構築手順

サイト内に 隠しリンク を埋め込み、/botsなどのパスへ誘導
- 例:
  - <a href="/bots" style="display: none;" aria-hidden="true" tabindex="1"> Amazing high quality data here! </a>
- 人間には不可視、 スクレイパーのみ検出可能
Nginxリバースプロキシ 設定例（Miasmaをポート9855で稼働）
- ```
location ~ ^/bots($|/.*)$ {
    proxy_pass http://localhost:9855;
}
```
Miasma起動コマンド例
- /botsをリンクプレフィックスとして指定し、同時接続数を50に制限
- ```
miasma --link-prefix '/bots' -p 9855 -c 50
```
- 50接続時のメモリ使用量: 50-60MB
- 上限超過時 は429レスポンスを即時返却

robots.txtによる善良なボットの保護

主要検索エンジンボット を/botsパスから除外

User-agent: Googlebot
User-agent: Bingbot
User-agent: DuckDuckBot
User-agent: Slurp
User-agent: SomeOtherNiceBot
Disallow: /bots
Allow: /

Miasmaの主な設定項目

port （デフォルト: 9999）: サーバーがバインドするポート
host （デフォルト: localhost）: バインドするホストアドレス
max-in-flight （デフォルト: 500）: 許容する同時リクエスト数
- 上限超過時 は429レスポンス
- メモリ使用量はこの値に比例
link-prefix （デフォルト: /）: 自己参照リンクのプレフィックス
link-count （デフォルト: 5）: 各レスポンスページに含める自己参照リンク数
force-gzip （デフォルト: false）: 常時gzip圧縮
- 通信コスト削減 に有効
poison-source （デフォルト: https://rnsaffn.com/poison2/）: 毒データのプロキシ元

開発・コントリビューション

バグ報告や機能要望 はissueで受付
AI生成のコントリビューション は自動的に却下

まとめ

Miasma はAIスクレイパー対策のためのシンプルかつ強力なツール
手軽な導入・設定 で、ウェブサイトを守る実践的な選択肢

Hackerたちの意見

これが実際に効果があるって証拠やヒントはあるの？ネット上にいる限り、スクレイパーはこういう対策をすでにしてると思うんだけど。

└

もし効果があったとしても、正直どうでもいいって感じ。自分のサイトで何をしても大した違いはない気がするし、疲れたよ。

└

どんな対策があるの？どうやって毒の泉を見つけるの？

└

効果はあるよ、二つのレベルでね。1. 簡単で安い、検出しやすいボットが毒をスクレイプして、高コストのブラウザベースのボットにリンクを送る。そいつは他の方法では検出できない。2. ブラウザがクソみたいなリンクに訪れたら、即バンする。クソデータで毒されてるから、こいつがボットだってわかるからね。個人的には、特定のサイトじゃなくてサーバー全体を守るためにアイオカインを使うのが好きなんだけど。

└

それは効果がないよ、特にジェミニでは。Googlebotはクロールに関してはかなり経験豊富だからね。OpenAIとかには効果があるかもしれないけど。

└

住宅プロキシを使ってるボットが何百もいるんだ。それは無料じゃないよ。彼らに払わせよう。

└

毎朝Mini MacでOpenClawを使ってニュースを要約する人には効果があるかもしれないけど、Googleには全然通用しないよ。もっと中央集権的なウェブがいいね。

└

検索エンジンのクローラーは十分に洗練されてるけど、Metaのはそうじゃないし、AnthropicのClaudeクローラーも同様だよ。ソースは、YandexやBlexbot、Meta、Anthropicのクローラーでゴミ生成器を試した個人的な経験。私が生成した洗練されてないゴミが何か影響を与えるとは全く思えないし、ましてやLLMを「毒する」なんてことはない。夢を見るのは自由だよね？

└

約2年前、存在しないPythonライブラリを作り上げて、それを使ったコードを5つのGitHubリポジトリに入れたんだ。数ヶ月後、無料のChatGPTがそれを拾ったから、私の意見では効果があると思う。

公開サイトを持っているなら、すでにあなたの作品を盗まれているよ。私も公開サイトを持っていて、ウェブスクレイパーが私の作品を盗んでる。この記事も盗んだし、あなたは私のコメントを盗んでる。泥棒、泥棒、泥棒ばっかりだ！

└

誰かがスーパーマーケットでクッキーを配ってたら、全部持って行ってもいいの？

└

確かに盗用は良い例えじゃないけど、似たようなことは起きてると思う。私は自分の言葉を共有の一環として世の中に出してる。自分が他の人が書いたものを自由に読んで楽しむのが好きだから、他の人にも私が書いたものを楽しんでもらいたいと思って書いてる。でも今、私が自由に書いて共有したものが、地球上で最悪の人たちの銀行口座にお金を入れるために使われてる。私の作品が望まない形で使われてるのが嫌で、もう共有したくなくなってきた。

Hacker Newsで議論の続きを見る

ハクソク