(まだ試してないけど)私の使い方は、HNのストーリーのスナップショットを取ることなんだ。これが意外と難しいんだよね。ほとんどのウェブサイトはボットによるそれを防いでるから。例えば、クロードはHNのフロントページを読むのにすごく苦労してる。HN自体は大丈夫なんだけど、記事を選ぼうとすると、しばしば詰まっちゃう。ウェブサイトが確認用のキャプチャを出したり、ペイウォールがあったりするんだ。ペイウォールはHNのコメントを読んでアーカイブリンクを探すことで回避できるけど、そのアーカイブもボットをブロックすることが多いから、また最初からやり直しになる。倫理的かどうかは面白い問題だね。私は、虐待しない限り、インターネットのコンテンツを自分の好きなように使う権利があると思ってる。単にボットを持ってるだけじゃ虐待じゃないよ。ボットがサーバーを叩いたり、トレーニングデータを吸い上げたりしてるなら別だけど、今のところボットを持つのはすごく難しい。だから、このサービスに注目したのは、私が直面している問題を解決できるかもしれないからなんだ。HNにヒットした記事のスナップショットを取るのはそんなに難しくないはずなのに、実際は難しい。HNはウェブサイトに何百万ものビューを送ってるし、1つのボットがスナップショットを取ったところで大した違いはないと思う。ウェブサイトのオーナーの意向に反しているからって「倫理的じゃない」とは思わないよ。インターネットにコンテンツを投稿する時は、そのコンテンツをみんなと共有することに同意したことになるし、robots.txtで禁止されているもの以外はね。robots.txtでブラックリストに載っていなければ、ちゃんとしたボットがアクセスできるはずだと思う。ここにいる人たちが可哀想なボットクリエイターに興味を持つとは思わないけど、大半のボットクリエイターは悪意があるしね。でも、私はブラウザから情報を自由に処理できるプログラムを書くことができなくなったことを残念に思ってる。できるべきなのに、ウェブサイトのオーナーが「このコンテンツはGoogleのような承認されたボットだけがアクセスできて、他の人は立ち去れ」と言うのが許されるという考えに賛同してしまっている。HNはそんな風である必要がないことを証明してる。HNは1日に何千万ものページビューを持っていて、その多くはボットトラフィックだ。HNはアカウント作成やログインの時だけキャプチャを使ってる。robots.txtに指定された30秒のクロール遅延を尊重すれば、どんなコンテンツでもスクレイピングできるし、人間が取る行動(お気に入りに追加したり、投票したり)をするリンクにはアクセスしない限り、自由なんだ。これがインターネットのあるべき姿だと思う:ただコンテンツを届けるだけ。