概要
- Thinkbot というWebクローラーが大量のIPアドレスを使って活動
- そのIPの多くが Tencent のネットワークブロックに属する
- robots.txt無視、自己紹介も曖昧で迷惑行為の傾向
- 大量のIPブロック追加で 476,590 個のIPを遮断
- インターネットの現状に対する 諦観と対策の記録
Thinkbotによる迷惑クローリングとIPブロック対策
-
今月のトップWebボットは Thinkbot という自己申告のクローラー
-
User Agent情報には 「問題があればIPでブロックして」 と記載
-
robots.txtを無視し、サイト運営者への配慮が見られない仕様
-
1ヶ月で 74個のユニークIPアドレス を使用
-
それらのIPは 41の異なるネットワークブロック に分散
-
すべてのネットワークブロックが Tencent 社の所有
-
中国当局(CCP)がこのような活動を黙認・推進している可能性を示唆
-
スクレイピングが許容される一方、ブロックされても問題なしというスタンス
-
結果として 大量のネットワークブロック をファイアウォールに追加
- 例:
- 43.130.0.0/18
- 43.130.64.0/18
- 43.130.128.0/19
- 43.130.160.0/19
- 43.131.0.0/18
- ...(全41ブロック)
- 例:
-
上記のリストで 476,590個のIPアドレス をカバー
-
Tencentの全ネットワークブロックを網羅しているわけではないが、一定の効果を期待
インターネット現状への所感とリンク案内
- このような対策を取らざるを得ない現状に 無力感
- 「インターネットで自由な交流は難しい」との認識
- 記事へのリンクは 自由に共有可能 との許可
- 日付ごと・タイトルごとの パーマリンク構造 を採用
- 例: https://boston.conman.org/2000/08/01
- 月単位や任意期間の指定も可能
- リンクの色合い でページ間の距離感を可視化する実験も実施
- 記載されたブランド・名称等は 各所有者の権利 に帰属
まとめ
- Thinkbot のような迷惑クローラー対策として IPベースのブロック が現実的な選択肢
- Tencent 系ネットワークブロックの遮断による自衛
- 健全なインターネット運用 のための苦渋の決断