世界を動かす技術を、日本語で。

AIは単なる無許可の盗作を大規模に行っているだけだ

概要

AI企業が著作権者の同意なく学習を行い、その成果を販売している現状についての批判。 AIによるコンテンツ生成がオリジナル作者に不利益をもたらしているという懸念。 AI利用者がさらに生成物を販売し、利益を得ている実態。 自分のオリジナル記事がAI経由でコピーされ、検索順位で不利になっている体験談。 Googleの検索アルゴリズムへの不満。

AIによる著作物の無断学習と収益化問題

  • AI企業 が著作者の 同意なく インターネット上の情報を学習データとして利用
  • 学習結果を 商品化 し、人間へ 販売 するビジネスモデル
  • オリジナルの著作者に 報酬や補償が一切ない 現状
  • AIツール利用者 が生成物を他者へ再販し、さらに 利益を得る 構図
  • インターネット上の多様な著作物が 無断でコピー・活用 されている実態

オリジナル著作者が受ける不利益

  • 独自執筆 したeコマース系チュートリアル記事の事例
  • 他サイト運営者 がChatGPTなどのAIで人気記事を コピー生成 し、 自サイトに転載
  • コピー記事がGoogle検索で 上位表示 される逆転現象
  • コピー記事内に 自分のサイトへのリンクリンクテキスト がそのまま残るケース
  • AIやGoogleの仕組み によって、オリジナル著作者が 評価されない 現状

AI技術と倫理的課題

  • 人間の怠惰や貪欲さ が加速するAI時代への疑問
  • 創作活動の価値低下著作権侵害 の懸念
  • 倫理的配慮や法整備 の必要性

Google検索アルゴリズムへの不満

  • コピーサイトオリジナルより高順位 に表示される問題
  • 検索エンジンの 品質評価や公正性 への疑問
  • Googleの責任 と今後の改善要望

Hackerたちの意見

彼らの記事には、私の実際のウェブサイトへのリンクが載っていて、そのリンクテキストもそのままなんだけど、何が問題なのか全然わからない。リンクテキストがすごく長くない限り、なんで誰かがあなたの記事にリンクするのに違う言葉を使うの?

そう、それは引用して出典を示すことだね。

たぶん、彼らはセクションヘッダーを自分たちのウェブページにリンクさせてたんじゃないかな。これ、あまりうまく書かれた愚痴じゃないね。

彼が言ってるのは、自分のウェブサイトのURLをチュートリアルの例に使ってて、他のチュートリアルもそのままコピーしてるってことじゃないかな。

時々、リンクが .../post/{id}/{extra-text} の形を取ることがあるんだけど、extra-text は投稿を一致させるためには全く使われてないんだ。アマゾンのリンクも(昔は?)こんな感じで、商品名がリンクの最後に追加されてるけど、削除したり変更したりしても商品にリダイレクトされるんだよね。もしかしたら、著者はLLMがリンクの無関係な部分をそのまま提供してることに驚いてるのかも。

2つのウェブページがあると想像してみて。1つはアップルフリッターのレシピ、もう1つは味でリンゴを非公式にランク付けしたものだとする。あなたのアップルフリッターのレシピがそのリンゴのランキングリストにリンクしているとしよう。後で、誰かがあなたのレシピをクレジットなしでコピーしたことに気づくけど、それでもあなたのレシピと同じ言葉を使ってリンゴのランキングリストにリンクしている。彼らはあなたの記事を盗んでいるにもかかわらず、GoogleのSERPや広告収入をあなたよりも多く得ている。問題が見える?

元の情報源が正当に評価されないという広い問題は残ってる。ウェブサイトの運営者は、自分たちのコンテンツをホストするためにお金を払ってるんだから、クローラーが来てそれをインデックスしてAIに取り込む。運が良ければ引用されるかもしれないけど、コンテンツ提供者にとっての報酬はほとんどない。もちろん、これはどんどん悪化してるよね。AIが全てをやってるのに、なんでウェブサイトを見る必要があるの?それに対抗するためには、クローラーをブロックして、すべてをログインの裏に隠す必要があるかもしれない。

さらに悪いことに、AIによる常時スクレイピングは、コンテンツ提供者にとって追加のコストになってるけど、リターンはない。少なくともGoogleやBing、Yahooのスクレイピングは、あなたのコンテンツへのリンクを提供するために使われてたのに。

約1年前に、OpenAIが私が働いている会社をクローリングして、DDOS攻撃を仕掛けたんだ。robots.txtがそれを許可していないのに、しかもタイミングよく組み立てたrecaptchaもあったのにね。私たちのデータが彼らのモデルの出力に見つかったけど、誰がそれに対して何かできるっていうんだ…

コンテンツにアクセスするためのプルーフ・オブ・ワークの仕組みを考えてたんだけど、要するに著者のためにクリプトをマイニングしなきゃいけないってやつ。でも、このアイデアは今の時代には受け入れられないかもね。

検索エンジンで見つからないようにウェブサイトをホスティングすることって可能なのかな(つまり、クローリングされないことを願ってる)?見つけやすさには影響があるのは分かってるけど、それが問題じゃなかったら、どうやってクローリングを回避できるのか興味がある。

実際、彼らにはお金や時間がかかってるんだよ!友達が大学でシステム管理者をやってて、AIクローラーが彼のサーバーをDDoS攻撃してくるのに常に対処してる。彼が言うには、Anthropicが最悪の offenders の一つなんだって。これらのAI企業は「コストを社会化し、利益を privatize する」というモットーのひどい例そのものだよ。気持ち悪い!

過去20年間、広告ブロックしてる人たちにとっては問題じゃなかったのに、なんで急に今になって問題になってるの?何十年もクリエイターの収入を拒否することを祝ってきたのに… これって「自分がやるといいけど、あいつらがやると悪い」っていうインターネットの偽善なんじゃない?

「リンゴを盗めば泥棒。王国を盗めば政治家。」 - 文字通りのディズニーヴィラン

「AIはもっと倫理的にスターリンのようであるべきだ」 https://en.wikipedia.org/wiki/The_death_of_one_man_is_a_trag...

本当に、これが驚きだと思うの?みんなAI企業がモデルを訓練するために大量のデータを盗んだことを知ってるのに、なんで彼らが止めると思う?著作権のあるデータを大量に盗んで、何か罰を受けたことある?そのデータを盗んだり利益を得たりするのはダメだけど、彼らには何か理由があって許されてるんだよね。たぶん、彼らは世界のために良いことをしてて、人類を前進させてるからかな?

彼らにとっては理由が何であれそれは問題ない。理由は縁故資本主義だ。解決策が分かればいいのに。

あのデータを盗んだり利益を得たりすることはできないけど、彼らにとっては何らかの理由で大丈夫なんだ。その理由はすごくシンプル。マイクロソフトがあなたの作品を盗むとGDPが上がる。あなたがマイクロソフトの作品を盗むとGDPが下がる。法律を作ったり守ったりする人たちはGDPを上げたいんだよ。こういう人たちにとって、道徳や権利は都合が悪くなったら簡単に捨てられる薄っぺらい仮面みたいなもんだ。

HNに不公平な状況について投稿されるたびに、「なんで驚いてるの?」って皮肉なニヒリストがコメントするのが本当にうんざり。そういうコメントは全然洞察も助けにもならないし、考えさせられることもない。悪い状況をそのまま維持する手助けをしてるだけだよ。

みんな、議論を楽しんでね。俺はクールなものを作るから。

おめでとう、でもお願いだから、みんなのためにそれは自分だけにしておいて。公開リポジトリは作らないで、リンクも投稿しないで。自分のスロップ生成器と一緒に隅っこに座って、他の人を放っておいてよ。

まだこのクールなものたちの大波を待ってるよ。

俺はクールなものを作るつもりだ。まぁ、実際には他の人のLEGOで怪しいものを作るロボットに頼むことになるだろうけど。

そうだね、倫理についてのうるさい議論がクールなものを作るのを邪魔しちゃいけないよね。今、アマゾンの熱帯雨林を埋め立てて世界最大のジェットコースターを作ろうとしてるんだけど、なんでかみんなそれを止めようとするんだよね。だから、頭を突っ込むための砂のバケツがあってよかったよ。

俺の作品のこと?そうだよ、今は俺のものだからお前を訴えるよ。5分前にお前のコードにライセンスを付与したからね。裁判で間違ってるって証明してみろ、創造したのはお前だろ…

「知的財産」って言った?それは魅惑的な蜃気楼だよ。

ただ、オラクルやマイクロソフト、メタ、グーグル、そして近所の無給で働きすぎのオープンソース開発者にとっては魅力的な蜃気楼であればいいんだよね。オラクルの内部リポジトリで無属性のオープンウェイトモデルを訓練するのは公平だよ。

これは「フェアユース」っていうのが99%のデータスクレイピングをカバーするほど単純じゃないよ。オリジナルを再現するんじゃなくて、事前学習のトークンの確率分布を推定するために使ってるだけだから。LLMを使って本を一言一句そのまま再現することなんて絶対無理だよ。

この意見には賛同できないな。トークンはその文脈がないと役に立たないし、文脈があって初めて有用な確率分布が得られるんだ。確かに、言葉をそのまま本から取るのは難しいかもしれないけど、全体の本とその芸術性がなければ、トークンを期待通りに導く有用なモデルは作れないよ。フェアユースは一般的に商業利用には適用されないし、これは明らかにそうだし、派生作品にどれだけ元のコンテンツが含まれているかにも依存するけど、俺はこの場合「全部」だと思う。

AIから生まれる唯一の良いことは、著作権法を永遠に壊すことだと思う。誰も「アイデア」を「所有」できるべきじゃない。商業利用のためのロイヤリティは別の話で、それは支持するけど、(非商業的な)海賊行為や無許可のファンアートは100%合法であるべきだよ。

うん、今は著作権がもう存在しない時代に来てると思う。少なくともAIに関してはね。

著作権は「アイデア」を保護するものじゃなくて、表現を保護するものなんだよね。

誰かが私の好きな本を全部集めて、無料でネットに投稿できる世界だったら、どれだけの本が書かれたかなって思う。

強い財産権と規範の代わりは、秘密と強制だよ。

何年もかけて心血を注いで小説を書いて、ちょっと成功してお金が入ってきたら、誰かがそれをコピーして無料で配ったり、「俺が書いた」って言ってもいいってこと?それっておかしくない?

笑、そんなこと絶対に起きないよ。2000年代にRIAAが音楽を海賊版でダウンロードした何万人もの人たちを成功裏に脅し取ったのを覚えてる。一般人が著作権のある素材を盗むと、厳しい罰金や訴訟、刑事告発が待ってるけど、大企業なら無限の資金があるから責任を問われることはない。

すべての革新は盗みだよ。前にあったものの上に直接築かれている。「優れたアーティストは模倣し、偉大なアーティストは盗む。」これはいつの時代も真実だ。AIはそれをもっと多くの人に早く提供するだけなんだ。

これは歴史上最大の盗みだね。