世界を動かす技術を、日本語で。

インターネット上のボットの状況は、あなたが想像しているよりも悪化しています

概要

  • Anubis はウェブサイトを AIスクレイピング から守るための防御システム
  • Proof-of-Work 方式を採用し、悪意ある大量アクセスを抑制
  • 一般利用者には 負担が少なく、大量スクレイピングにはコスト増加
  • 将来的には フィンガープリント 技術の活用を予定
  • 一部プラグイン(例: JShelter)が機能を妨げる場合あり

Anubisによるウェブサイト保護の仕組み

  • Anubis はAI企業による 攻撃的なスクレイピング からサーバーを保護
  • サイトのリソースが過度に消費されることによる ダウンタイム防止
  • Proof-of-Work (PoW)方式を導入し、アクセスごとに計算負荷を課す設計
    • Hashcash のアイデアを応用したPoWスキーム
  • 個人ユーザーには 影響が少ない が、ボットや大量アクセスには コスト増加
  • PoW方式は 一時的な措置 であり、将来的には ブラウザのフィンガープリント 技術を活用予定
    • 例: フォントレンダリング の違いによる判別

利用者への注意点

  • Anubis は最新の JavaScript 機能を必要とする
  • JShelter などのプラグインが有効だと、PoWページが正しく表示されない場合あり
  • 上記プラグインを 無効化 することで、正常なアクセスが可能

今後の展望

  • PoW方式 は一時的な措置として運用
  • 今後は フィンガープリント技術 による正当ユーザー識別の強化を目指す
  • ユーザー体験と セキュリティ の両立を重視

Hackerたちの意見

有効化される前は、毎日数十万件のリクエストが来てたんだって。アヌビスがアクティブになった途端、24時間後にはリクエストが11件に減った。こういう実験データ大好き!アヌビスが導入されたときの直感的な反応なんて、スパムみたいなもんだったから、全然違うよね。

そうだね、でも実際のサイトにはたどり着けなかった。それが本来の目的じゃないよね?100% CPUを5秒間使っても進展がなかったから、諦めた。ボットを追い払うのが目的であって、普通の人間を追い払うのが目的じゃないはず。

シンプルなPoWがほぼすべての活動を止める効果に驚いてる。全プロジェクトでアヌビスを低難易度で実装して、sitemapやrobots.txtにしっかりllms.txtを参照させて、LLMが自サイトの関連データを取得できるようにしつつ、悪質なボットを排除するつもり。中国からのリクエストが何千件も来てて、コストがかなり増えてたから、解決策が簡単そうで嬉しい。

シンプルなPoWがほぼすべての活動を止める効果に驚いてる。もっとバカなことに、デフォルトでアヌビスはcurlのユーザーエージェントをホワイトリストにしてるんだよね。curl -H "User-agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/146.0.0.0 Safari/537.36" "https://git.kernel.org/pub/scm/linux/kernel/git/torvalds/linux.git/diff/?id=v7.0-rc5&id2=v7.0-rc4&dt=2" ボットじゃないことを確認してる!対してcurl "https://git.kernel.org/pub/scm/linux/kernel/git/torvalds/linux.git/diff/?id=v7.0-rc5&id2=v7.0-rc4&dt=2" kernel/git/torvalds/linux.git - Linuxカーネルソースツリー

確かに、サイトに行きたい人間としては十分すぎるくらいだね。そうなると、サイトを完全に閉じる方がいいかも。

プレスタショップのウェブサイトでこのパターンがすごく多いんだ。ボットからのリクエストが何千件、いや何十万件も来てて、User-agentで自己主張してないし、いろんなIPから来てる。めっちゃウザい。しかも、見た目は正当なトラフィックに見えるからフィルタリングもできない。色やサイズなどのオプションがあるページでは、すべての組み合わせを試して、リソースを食い尽くしてる。

2分間このページにいるけど、まだボットかどうか確信が持てないって笑。前世で何をしたらこんな目に遭うんだろう :(

モバイルで150kHashesで2分経ったけど、やっと進捗バーの最初のピクセルが埋まった。終わるまでに数時間か1日かかりそう。もう少し予測があればよかったな。

ハニーボットに引っかかった気がする。

シニカルな自分は、彼らが私たちのスマホでビットコインをマイニングしてるんじゃないかと思ってる… 完了した後、ページが誤って設定されてるって言われた。

どのページ?https://gladeart.com/blog/the-bot-situation-on-the-internet-... は、俺にはほぼ瞬時に読み込まれたよ。

スパムや詐欺、ボット管理のツールを作り始めたんだ。もし既に decent なインフラが整ってるなら、いろんなテクニックを使って結構管理しやすいタスクだよ。明らかなやつ、例えばアリババとかには ASN ベースのブロック(IP ルックアップデータベースは自己ホスティングできて ASN を含む)を使って、あまり明らかでないやつにはサブネットブロックを使う(パターンを見て、サブネットをブロックすることで、問題を軽減するけど解決はしない)。ログのスタックがあれば、クローラーやボットのパターンを簡単に見つけられるし、ブロックするための候補となる IP サブネットをフラグ付けできるよ。確かに、これは whackamole みたいなもんだけどね。リスクデータベースに基づくブロックも試してるところで、プロバイダーによって年間 $2k から $10k の間で運用されてる。これらは IP 範囲を is_vpn や is_tor みたいなブール値にマッピングして、ASN 情報も含んでる。少し怪しいクローリング行動やキーワードフラグがそのデータベースにヒットすれば、高い信頼度のブロックができるよ。こういうのは今や claude で簡単にできるから、前は本当に面倒だった。

悪化してるのは分かってたけど、Meta の facebookexternalhit ボットが最近行動を変えたんだ。巨大な増幅(少なくとも 40 倍)でレスポンスを引っ張るだけじゃなくて、fbclids を混ぜたトラフィックも送ってきてる。理由は全然分からない。彼らは自分たちの ASN(と EC2)から、完全に偽装された UserAgent で大量のマスクされたトラフィックを送ってきてる。最も奇妙なのは、サイトに関連するモバイルアプリの API を高頻度でスクレイピングしてること。AI トレーニングに特化した他のクローラーがこれをやってるのはよく見るけど、facebookexternalhit の行動の急な変化には驚いた… これはここ一週間くらいの話。最近はみんなおかしいよね。今月は Amazonbot に DoS 攻撃も受けたし。何が起こったのか教えてくれないし、競争環境を理由にしてる。

それはfbclidsを混ぜてトラフィックを送ってきてる。なんでかわからない。クリックIDは、トラフィックをボットではなくリンクをクリックした人間のように見せるためのものかも?そうすれば、リクエストのソースアドレスが住宅IPではなくDCに見えるかどうかを確認する前に、明示的にそういうリクエストを通す簡単なフィルターを通過できる。 > 競争環境を引用すると、すべての企業が他の人にとって最大の迷惑をかけるために競争していて、できるだけ多くのものをスクレイピングしようとしている。

自分のコンピュータで Firefox を使うと、14 コアの CPU を使って、35 ワット余分に消費して、進捗バーはほとんど動かない。これってサイトが暗号通貨をマイニングしてるの?Safari や Orion では、ただ非常に遅く読み込まれるだけ。暗号ジャッキングでリストから外されたくないサイトでは、絶対にこれを使いたくないね。

これらのボットはほぼ確実に AI トレーニングのためにデータをスクレイピングしてる。普通の悪役はページに何百万ものユニークな IP を投げる資金がないからね。彼らは多分、いくつかの異なる会社に属してるんだろう。スクレイピングしたデータを AI 会社に売ってるか、彼ら自身が AI 会社かもしれない。確かには分からないけど、そんなに大きな AI 企業は多くないから推測はできる。ここでの理論は、OpenAI や Anthropic、Gemini、xAI、Qwen、Z.ai などが、インドネシアの国内プロキシを通じて悪質なスクレイパーを運営しているか、そういうスクレイパーを運営する会社からデータを買っているってこと?それを確かめたい。誰がこの活動にお金を払ってるの?スクレイピングされたデータのマーケットプレイスはどんな感じ?

https://parallel.ai/ たくさんの会社が AI エージェントに検索結果を提供したがってると思う。

俺ももっとデータが欲しいな。住宅プロキシからのトラフィックの根源はすぐに不明瞭になる。例えば「なんでDigital Oceanからこんなにトラフィックが来てるの?... ああ、あれは彼らのヒーロークライアントFirecrawlで、騙すようなUserAgentを使ってるんだ」って感じで、一部のトラフィックの流れは追いやすいけど、Firecrawlクライアントが誰なのかっていう明らかな疑問は残る。最近のレジデンシャルプロキシのトラフィックは異常だよ。適正価格で手に入るグレー市場のスノーシューIPもたくさんあるし、いくつかのASNから。俺は毎回、1000以上の「クリーン」IPアドレスを使って、知らないエージェントによる統一クローリングミッションを見かける。

それはちょっと曖昧すぎると思う。一般的な合意は、AI企業がこれを引き起こしているということだけど、攻撃の背後にいるのが誰なのか、何なのかを決定的に証明するのは本当に難しい。奇妙な点その1は、トラフィックがほとんどクローラーのトラフィックのように見えないこと。すごくバースト的で、冗長性が高く、最も明らかな最適化すら欠けている。誰かが住宅プロキシを使ってAIエージェントのウェブトラフィックを包んでいる可能性もあるけど、それにしても、トラフィックパターンがショットガンで撃たれているように見える理由など、納得できない部分が多い。リクエストは一つではなく、40から100の冗長なリクエストの間で変動する。人気のある理論は、これは雑なコーディングによるものだということ。AI企業はお金持ちすぎて気にしないけど、それでもそれはあまり合わない。これは単なる小さな非効率ではないし、「ただの」悪いコーディングなら、問題を修正することで膨大な効率改善が得られるはずで、データをもっと早く取得できる明確な競争優位がある。ほんとに奇妙だ。俺の根拠のない推測は、住宅プロキシ/ボットネットが非常に信頼性が低くて、それがたくさんのリクエストを送る理由だと思う。サービスとして売られているなら納得がいく。

Safari はページを開けません。 オーガニックな HN トラフィックが関係なくサイトを壊せるのに、これらのアンチボット対策の意味は何なの?もしこのサイトが望ましくないパーティから情報を守るためのものであれば、今の運営方法が最も理想的だよ。情報は結局引き抜かれる。TSMC のウェハースタート予算やマイクロソフトのクラウドインフラに直接アクセスできる軍隊には勝てない。別の場所で戦うべきだと思う。これはクッキーのバナーと全く同じ。ここで誰も何も勝ってない。公開インターネットに情報を発信するのは二者択一の決断だよ。アクセスを制御したいなら、Netflix や他の多くの会社がやってることをするしかない。両方は無理だよ。

AI企業、特にAIスクレイパーは、WWWの残りを壊している癌だよ。昨日、かなり大規模なボットネットによる「分散スクレイピング」攻撃を受けた。- 約400,000の異なるIPアドレスが約3時間で - 主に住宅IPアドレス - 有効でユニークなユーザーエージェントとリファラー - 各IPアドレスはリクエスト間に長い遅延を置いて、数回だけリクエストを送る。サーバーに負荷がかかって、応答が遅くなるまで攻撃して、その後約30秒間バックオフして、また強く攻撃してくる。ユーザーエージェントとリファラーパターンの組み合わせで大半のリクエストをブロックできたけど、正当なユーザーがブロックされる可能性もある。攻撃はうざかったけど、もっと大きな問題は、このウェブサイトのデータがライセンス下にあること。俺たちはそれにお金を払わなきゃいけなくて、安くはない。広告収入といくつかのサブスクリプションでなんとか支払えてるけど(ギリギリ)、もしみんながそのデータを「エージェント」やスクレイパーから得ているなら、広告収入がなくなって、すぐにスクレイピングするウェブサイトもなくなって、仕事も失って、スクレイパーがデータを得る場所もなくなって、正当なユーザーが無料でデータを得る場所もなくなるってことだ。

心配しないで、AGIが来たらお小遣い(またはハイパースケーラーの計画)をもらえるよ。

ここでの視点を共有してくれてありがとう。HNの多くの人が言っているように、現代のインターネットの問題の多くは広告支援のビジネスモデルに起因していると思う。君が自発的にそれから離れることはなかったと思うよ。文句を言っていても、多くの人がそれを支持しているから。でも、もしかしたら(悪い方向で)LLMがこのモデルをついに殺すかもしれないね。

Anubisを使ってないの?それとも厳しいfail2banルールがないの?俺は、サーバーに存在しないファイルを調べるIPは永遠にバンしてるよ。それに加えて、最も厳しい設定のAnubisも使ってる。https://anubis.techaro.lol/

いつかは、本当に人間かどうかをチェックする必要があるよね。でも、これは猫とネズミのゲームみたいなもので、ボットを排除するために作った方法は、賢いエンジニアによってすぐに突破されちゃうんだよね。

失礼なお願いかもしれないけど、どんなデータをライセンスしてるの?明確に言ってないのが気になったんだけど。

残念だけど、ランボルギーニが手に入るなら、インターネットが壊れても気にしない人ばっかりだよ。欲と無知がテック業界を支配しちゃってる。