概要
Miasma はAIスクレイパー対策用の軽量サーバー。 Nginx などのリバースプロキシと連携し、悪質なボットを罠に誘導。 隠しリンク を使い、人間には見えずボットだけがアクセス。 インストール・設定 は簡単で、リソース消費も最小限。 robots.txt で善良なボットは除外可能。
MiasmaによるAIスクレイパー対策
- AI企業 による大規模なウェブデータ収集への対抗策
- Miasma サーバーを設置し、悪質なトラフィックを誘導
- 毒入りデータ と自己参照リンクを大量配信
- 高速・省メモリ設計 でサーバーリソースの無駄遣いを防止
インストール方法
- Cargo による推奨インストール:
cargo install miasma
- リリースページ からバイナリをダウンロードも可能
クイックスタート
- デフォルト設定で起動:
miasma
- 設定オプションの確認:
miasma --help
スクレイパーの罠構築手順
-
サイト内に 隠しリンク を埋め込み、/botsなどのパスへ誘導
- 例:
<a href="/bots" style="display: none;" aria-hidden="true" tabindex="1"> Amazing high quality data here! </a>
- 人間には不可視、 スクレイパーのみ検出可能
- 例:
-
Nginxリバースプロキシ 設定例(Miasmaをポート9855で稼働)
-
location ~ ^/bots($|/.*)$ { proxy_pass http://localhost:9855; }
-
-
Miasma起動コマンド例
/botsをリンクプレフィックスとして指定し、同時接続数を50に制限-
miasma --link-prefix '/bots' -p 9855 -c 50 - 50接続時のメモリ使用量: 50-60MB
- 上限超過時 は429レスポンスを即時返却
robots.txtによる善良なボットの保護
- 主要検索エンジンボット を/botsパスから除外
-
User-agent: Googlebot User-agent: Bingbot User-agent: DuckDuckBot User-agent: Slurp User-agent: SomeOtherNiceBot Disallow: /bots Allow: /
-
Miasmaの主な設定項目
- port (デフォルト: 9999): サーバーがバインドするポート
- host (デフォルト: localhost): バインドするホストアドレス
- max-in-flight (デフォルト: 500): 許容する同時リクエスト数
- 上限超過時 は429レスポンス
- メモリ使用量はこの値に比例
- link-prefix (デフォルト: /): 自己参照リンクのプレフィックス
- link-count (デフォルト: 5): 各レスポンスページに含める自己参照リンク数
- force-gzip (デフォルト: false): 常時gzip圧縮
- 通信コスト削減 に有効
- poison-source (デフォルト: https://rnsaffn.com/poison2/): 毒データのプロキシ元
開発・コントリビューション
- バグ報告や機能要望 はissueで受付
- AI生成のコントリビューション は自動的に却下
まとめ
- Miasma はAIスクレイパー対策のためのシンプルかつ強力なツール
- 手軽な導入・設定 で、ウェブサイトを守る実践的な選択肢