私にとっての時代の終わり：自己ホスト型Gitの終了

2026年2月11日原文(kraxel.org)

概要

長年運用してきた 自前のgitサーバー を終了する決断。 AIスクレイパー による過剰アクセスが主な原因。既存リポジトリは GitHubやGitLab などの大手サービスへ移行済み。ブログ等は静的サイトとして 自前サーバー で継続運用。今後は AIスクレイパー対策 の負担を手放し、安定運用を重視。

自前gitサーバー運用終了のお知らせ

2011年から続けてきた パブリックgitサーバー運用 の終了決定
それ以前は CVSサーバー も公開運用
AIスクレイパー によるcgitフロントエンドへの大量リクエストでサーバーが過負荷状態
数ヶ月前から実質的にサービス不能状態
再構築やcgitフロントエンド刷新 も検討せず、撤退を決意
スクレイパー対策に時間を割く余裕や意欲の喪失
大手git forge（GitHub, GitLab） にミラー済みのリポジトリが主役に
すべてのcgitリポジトリへのリンクを forge側へ修正 済み
今後は GitHubやGitLab を参照推奨

残る自前サービスと現状

現在は ブログ等を載せたwebサーバー のみ自前運用
2018年に WordPressからJekyllへ移行 し、全ページ静的化
静的サイトのため、AIスクレイパーによる 高負荷に強い構成
それでも AIスクレイパーが一度障害を引き起こした 経験あり
cgitサービス終了後も、 404応答を大量に返し続けるbot が存在
Apache自体は問題なく動作したが、 ログファイル肥大化 によるディスク圧迫を経験
logrotate設定を修正 し、安定運用を維持
今後も 静的サイト運用 を継続予定

感想と今後

AIスクレイパー対策 を個人で担う時代の終焉
大手サービス利用 への転換で、運用負担の軽減と安定性向上
自前運用は 静的サイト など限定的な範囲に絞る方針
Security Nightmares 2025 （タイトルの元ネタ）への言及
効率的なリポジトリ取得方法として git clone の推奨

Hackerたちの意見

これらのスクレイパーについて、何が起こっているのか知っている人いる？なんでAIに関連付けられているのかも気になる。普通のLLMを使ったスクレイパーなら、404エラーの山を見て止まると思うんだけど。もしデータを集めてLLMを訓練するためだけなら、これらは普通の方法で書かれた非常に質の悪い、悪質なスクレイパーだよね。もしかして、これらのスクレイパーがLLMを使って認証をバイパスしたり、もっと複雑なフローを実行しているのかな？ここ数年ボット検出に関わってないけど、住宅プロキシを使ったスクレイパーが何年もサイトを攻撃するのはよくあったから、今何が違うのか気になる。

└

自分のものの著作権を剥がして、他の誰かがそれを自分のものとして売り出すのには価値があるよね。LLMには技術的な改善がないから、盗まれたデータをどんどん投げ込むしかできなくて、なんとかしてあやふやな「閾値」を超えて、急に実際に利益が出るようになることを期待してる感じ。これは底辺へのレースだよ。今はその底にかなり近づいているのが違うところ。

└

推測だけど、今のAIリクエストの大部分は、ユーザーの質問に答えるためにデータを引っ張っているエージェントから来ていると思う。今はデータが主に訓練用に集められているわけじゃなくて、ほとんどが取得されてLLMに供給されて、応答を生成するために使われている。だから、同じリクエストがたくさん繰り返されるんだね。

└

これを理解したいな。数年前には、悪さをするスクレイパーは珍しくて、心配するほどじゃなかった。今は、動的なサイトをVercelやCloud Runみたいな有料のホスティングプラットフォームに接続するだけで、すぐに恐ろしい請求が来るくらいの脅威になってる。「AIのためだ」ってのは、ちょっと怠慢な理由に感じるけど…じゃあ、何のためなの？一つの予想としては、今は新鮮なウェブのスクレイプを買いたい市場が十分にあって、それがスクレイプを行うチャンスを与えているのかも。でも、顧客は誰なんだろう？

└

なんでAIに関連付けられているのか？彼らが言っているのは、必ずしもLLMによって駆動されているスクレイパーではなく、LLMを訓練するためにデータを集めているスクレイパーのことだと思う。

└

理解しようとするのをやめた。自分のサイトで404エラーが出ると、1年のバンに直結するからね。

└

軽いコラボ用に公開のForjegoインスタンスを立ち上げたんだけど、証明書が作成されてから約2分後に、透明性ログからインスタンスを拾ったみたいで、追加した2つのリポジトリのコミットを全部チェックし始めた。しばらく見てたけど、いつか終わるだろうと思ってたら、終わらなかった。ClaudebotとGPTBot（見たのはこの2つだけど、偽造の可能性もある）で同じURLを何度も繰り返し見てた。しかも、同時にいろんな検索クエリも試してた。次の日、もう見るのがうんざりになって、インデックスを禁止するrobot.txtを追加した。数時間待っても、まだ同じことをやってたから、基本認証を設定してwiki:wikiをユーザー名:パスワードにした。リンクしたページにその認証情報を書いたら、予想通りそれ以降は試みをやめたみたい。何かをバイパスしようとはしてないみたいで、前に何かを置けば基本的に防げる。ただ、ユーザーエージェントでブロックするのは面倒だから、"トリビアルな基本認証"の道を選んだ。特に問題はなかったけど、普通のユーザーを装おうとするのがちょっとイライラした。ウィキのインスタンスでも同じ問題があって、レート制限を追加したら、結局彼らは私の設定した制限以上に引き下がったみたいだから、やっぱり理解したんだろうね。ログを確認したら、完全に試みをやめたみたい。どうやら、使用量でホスティング代を払ってる人たちが一番影響を受けてるみたい（私には理解できないけど）。私はVPSで自分のものをホスティングしてるから、大した問題じゃない。最悪の場合、もっと攻撃的なキャッシュを追加すれば、もう問題にならないだろう。

└

リクエストに対する応答を考えるのにLLMを使うのは、コストがかかりすぎて遅すぎる。たくさんのリクエストを一気に送って、応答があったものを処理する方がずっと楽だよ。これ、別に新しいことじゃない。昔、WordPressを使ってた頃は、サーバーログがボットで埋まるのが普通だったし、よくある脆弱なPHPのエンドポイントにアクセスしようとするやつらがいた。今もそうかもしれないけど、ログを見る時間はあんまりない。公開サーバーを運営してるなら、そういう悪意のあるリクエストに対処するのは仕方ないことだよ。公共ポートで運営する限り、こういうことは昔からあることだし、適当に書かれたコードも新しいことじゃない。AIの機会主義は、確かに少しのボットやスクレイパートラフィックを加えたけど、基本的な脅威モデルを根本的に変えるわけじゃない。以前はバージョン管理サーバーはあまり価値がないものとされてたけど、コードがLLMのトレーニングに興味深いものになったんだ。とにかく、どんなポートでも応答するものがあれば、機会主義的な試みが来るのは避けられないよ。DOS目的で悪用できるものは、まさにそれに悪用されるかもしれない。もしそれが嫌なら、公開サーバーを運営しないか、適切に保護すればいい。確かにこれは面倒で簡単ではないけど、そういう痛みを和らげるクラウドサービスもあるよ。404、401、または400のレスポンスでサーバーがダウンするべきじゃない。再犯者には429（リクエストが多すぎる）を返すロジックを実装するのもありだと思う。ちょっと強引だけど、やってみてもいいんじゃない？でも、もしサーバーをDOSに使われる可能性があるものを運営するなら、誰かがそれをやっても驚かないでね。

└

これらのスクレイパーについて、何が起こっているのか、またなぜAIに関連付けられているのか知っている人いる？推測する必要はないよ、アクセスログを見れば明らかだから。自分のサーバーを運営している人ばかりじゃないのは分かってるから、俺のログからいくつか抜粋してみるね： - "meta-externalagent/1.1 +https://developers.facebook.com/docs/sharing/webmasters/craw...)" - "Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; ClaudeBot/1.0; +claudebot@anthropic.com)" - "Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Amazonbot/0.1; +https://developer.amazon.com/support/amazonbot) Chrome/119.0.6045.214 Safari/537.36" - "Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.3; +https://openai.com/gptbot)" - [...] (compatible; PetalBot;+https://webmaster.petalsearch.com/site/petalbot)" それで規模感を伝えるために、俺のcgitインスタンスは過去60日間で37,212,377リクエストを受け取ったんだ。99%以上がボットだよ。nginxのaccess.logはその60日間で12GiBに増えた。彼らは見つけられるものは何でも無差別にスクレイピングしていて、かなりの作業を必要とするエンドポイントも含まれているから、今はそのサーバーで30-50%のCPU使用率が基本になってる。ああ、もちろん、彼らがスクレイピングしているもののほとんどは過去60日間で実際には何も変わってないから、まさに無駄な計算と帯域幅の浪費だよ。ホスティング会社がまだ彼らをブロックしていないことに驚いてる、これでエネルギー代がかなり増えるはずだし。ボットの中には、他よりも行儀がいいのもあるみたいで、OpenAIだけでその3700万リクエストのうち2600万を占めてる。

└

俺は、a) スクレイパーの量、b) 特定のコンテンツではなく「すべて」のコンテンツを求める欲望、c) スクレイパーが新しくてGooglebotなどの何十年分のパッチがないことが原因だと思う。5年前はForgeJoインスタンスや個人ブログをスクレイピングすることに興味を持っている人はほとんどいなかった。今は、モデルをトレーニングしたりRAGに使ったりするためにデータを集める会社や個人が山ほどいる。より良いスクレイパーを持つことは、より多くのデータを意味し、それがより良いモデル（大雑把に言って）につながるから、競争上の優位性になる。良い、行儀のいい分散スクレイパーを書くのは簡単じゃない。

└

多くのAIスタートアップがデータセットを構築して、それを売ることを目指しているんじゃないかと推測してる。完全には理解できないけど、下手にやると自分たちが損するだけだし、でももしかしたら彼らは製品や結果にはあまり関心がなくて、ただAIのゴールドラッシュの一部を掴もうとしてるのかも？

それで、これらのボットはどうなってるの？最近よく耳にするけど。DDoS攻撃は新しいことじゃないし、正直言って、これがCloudflareが存在する理由の一つなんだけど、OpenAIのボット（今はこれが何か分からないけど）をもう少し簡単に対処できると思ってたんだけど、違うの？例えば、合理的に攻撃を防ぐfail2banポリシーを持つとか？それとも、リクエストが異なるネットワークの異なるIPから来るボットネットみたいに振る舞ってるの？どうして？これは一体何なんだ？

Hacker Newsで議論の続きを見る

ハクソク

私にとっての時代の終わり：自己ホスト型Gitの終了

概要

自前gitサーバー運用終了のお知らせ

残る自前サービスと現状

感想と今後

Hackerたちの意見