世界を動かす技術を、日本語で。

アンソロピックは何百万冊もの古本を切り刻み、700万冊の海賊版をダウンロードした - 裁判官

概要

Anthropic社はAIモデルClaudeの開発のため、多額を投じて中古書籍を購入・スキャン。 一方、700万冊以上の海賊版書籍もダウンロードし訓練データに利用。 裁判所は購入書籍のデジタル化はフェアユースと認定。 海賊版利用はフェアユースに該当しないと判示。 本判決はAI訓練における著作権の新たな指針となる可能性。

Anthropicによる書籍の購入・スキャンとAI訓練

  • Anthropic社 はAIチャットボット Claude の訓練目的で、中古書籍を 数百万ドル規模で大量購入
  • 書籍は 製本を外し、ページを裁断・スキャン し、デジタルファイル化
  • デジタル化後、 オリジナル書籍は廃棄 し、データは社内の「リサーチライブラリ」に保存
  • AIモデル開発には 膨大なテキストデータ が必要で、SNS投稿や動画、書籍など多様なソースを活用
  • 著者や出版社などからは「 無断利用は著作権侵害」との反発

海賊版書籍のダウンロードと利用

  • Anthropic社 は正規購入だけでなく、 700万冊超の海賊版書籍もダウンロード
  • 2021年、共同創業者Ben Mannは Library Genesisから500万冊以上 ダウンロード
  • 翌年には Pirate Library Mirrorから200万冊以上 ダウンロード
  • これらの行為は 明確に海賊版と認識した上で実行
  • CEO Dario Amodeiは「 法的・実務的な手間を回避するため」と説明

裁判所の判断とフェアユース

  • カリフォルニア北部地区連邦地裁の William Alsup判事 が訓練データの調達手法を詳細に分析
  • 正規購入書籍のデジタル化・利用は「極めて変容的」でフェアユースに該当
    • 新たなコピーや作品を作らず、検索性・省スペース化のための変換」と認定
  • 海賊版書籍の利用はフェアユースに該当しない と明確に否定
    • 恒久的な汎用ライブラリ構築は正当化されない」と判示

業界への影響と今後の展望

  • 本判決は AIモデル訓練における著作権のフェアユース適用に関する初の事例
  • AI企業側は「 創造性・科学の進歩のため」と正当性を主張
  • クリエイター側は「 無断利用は権利侵害」と訴訟を相次いで提起
    • 例:DisneyがMidjourneyを著作権侵害で提訴
  • 今後も AIと著作権の法的整理・議論の進展 が予想される

参考:関連訴訟・動向

  • Anthropic社 に対する著者集団の集団訴訟
  • OpenAIMidjourney など、他AI企業への訴訟も多発
    • 「Star Wars」「The Simpsons」など有名キャラクターの無断利用も問題視

Hackerたちの意見

これがAIの未来を形作る人たちなの?彼らがよく語る倫理的価値観はどこに行ったの?中国には何十年も前から偽造品の責任を追及してきたし、輸出も規制してる。なのに、Anthropicが同じ違法行為をした後に、自社の製品やサービスを輸出するのはどうして許されるの?

これが目の前で見えるカースト制度の実態だよ :D

物を壊して、早く動け。

あなたにはこのルール、私にはあのルール… 社会全体にヒポクリシーな行動があふれてるのに気づかないの? * お酒飲んで運転したら、大きな罰金とたくさんのトラブル。 * お酒飲んで運転してるのが上院議員、警官、市長だったら… まあ、見て見ぬふりしようか。 * あなたが怒りのコントロールができなくて誰かを地面に叩きつけたら、刑務所行き。 * 警官が怒りのコントロールができなくて誰かを地面に叩きつけたら、調査中は有給休暇、もしかしたら戒告。資格免責だね! * 10,000ドルの税金詐欺で前科あり、刑務所行きかも。 * 企業の役員が1億ドルの税金詐欺をしたら、10年後に弁護士と戦って、もしかしたら何かあるかも、ああ、5百万ドルの罰金が出るかもね。ごめんけど、法律の下でみんなが平等っていうのはずっと幻想だったよ。私たちは中国に対して偽造品の責任を問うてるけど、それは私たちの企業や収入に影響があるから。でも「私たち対私たち」になると、ちょっとややこしくなって、一般的にバックが一番強い人(お金、経済的価値、弁護士)が勝つ傾向がある。待って、誰かが私の本を盗んだら、その人を訴えて賠償金をもらえるけど(弁護士代はもっとかかるけど、それは問題じゃない)。もしAI企業が私の本を盗んだら、勝つ確率は1%に近い、なぜならたくさんの高給取りの弁護士がいるから、勝つのが難しくなる。私たちの社会は常に力、富、影響力に基づいている。持っているほど、他の人が罰金や刑務所に行くようなことから逃げやすくなる。

「私たちは数十年にわたり、中国に対して偽造品の責任を問うてきたし、彼らの輸出を規制してきた」 本当に?私たちは別の多元宇宙から来たの?私が今まで住んできたところでは、中国の偽造品に対して、輸入時に時々偽造品を押収する以外、何もしていないよ。それは単に地元の偽造品法を時々施行しているだけで、製造している団体を罰することとは程遠い。実際、企業はすべてを中国に外注し始めて、さらなる知的財産の盗難や準コピーをさらに簡単にしている。

じゃあ、アンソロピックが同じ違法行為をしておいて、なんで製品やサービスを輸出できるの?金儲けしてる企業にはルールが適用されないってことか。そんなもんだよね。

不正な奴らは本を一冊も買ってないからね。

シリコンバレーはずっと倫理の反対側にいるよね。そこの基盤はもっと右寄りでリバタリアン的で、極端な感じ。

なんで彼らがこれらの本の情報を使うのが不倫理なの?明らかに本を再販してるわけじゃないし、情報自体は著作権で保護されることはないよ。引用を含む資料を出版して売ることもできるしね。

海賊版を作って罰金を払う方が、個別に本を全部買うよりずっと安上がりだと思うよ。これが正当化されるとは言わないけど、もし君がその立場だったらどうする?「彼らにはお金がある」っていうのは論点じゃない。何百万ページも個別に買って、スキャンして、処理するのにどれだけの労力がかかるかってことだよ。それをやってもらえるなら、わざわざやり直す必要はないじゃん。

故意の侵害には1作品あたり最大150Kの罰金がある(これがそうだよね)。105B以上は、Anthropicの評価額を超えてる。もちろん、法律の最大限で罰せられるわけじゃない。彼らは2000年代初頭にNapsterを運営してたティーンエイジャーじゃないからね。

この考え方の問題は、何年もかけて素晴らしい役立つ本を書いて知識や知恵を共有してきた何十万もの教師たちが、自分の作品を盗まれたからって億ドル企業を訴えることはないだろうってこと。彼らがすることは、おそらく書くのをやめることだと思う。Anthropicが教師の作品を盗んで、彼らが二度と書かないようにするのには反対だよ。中にはもうそう言ってる教師もいる(カリフォルニアではないかもしれないけど)。

「海賊版」って、懲役刑になる重罪じゃないの?僕は、買ったDVDの最初に見なきゃいけなかったFBIの警告でそう覚えてるんだけど(でも「海賊版」じゃないやつね)。

GoogleはGoogle Booksで合法的にやったんじゃない?

裁判にかけられる可能性ゼロで合法的にやりたいなら、出版社に連絡して、トレーニング用にカタログへのアクセスを得るためのライセンスを支払うように頼むべきだよ。そこから交渉を始めるのが普通だよね。メディアを使ってる会社はみんなそうしてる(SpotifyやNetflix、あとジャーナルや広告代理店なんかも)。なんでHNの人たちは、AI企業のこういう行動を許してるのか理解できないな。

ダウンロードするだけならもちろん安いけど、記事にもあるように、彼らは何百万冊もの正規の本も買ったってことは指摘しておく価値があるよ。(これは訴訟に関わるすべての本を含んでる。)判決自体に基づくと、Anthropicは正当に取得した本だけを使ってトレーニングしているみたい。中古本は結構安いし、大量に買うこともできるからね。

これは単一のコピーに対してお金を払うことではないよ。たとえ彼らがその本を全部買っていたとしても、それは間違っている。これは一種の盗作だよ。他人のアイデアを適切にクレジットもせずに使うことになるからね。

最低限、彼らが重みを得るために使っている本を買うべきだよね。

これが正当化されるとは言ってないけど、君なら彼らの立場でどうした?個人は巨額の罰金か刑務所で人生が台無しになるんだよ。

海賊版を作って罰金を払う方が、これらの本を一冊ずつ買うよりもずっと安上がりだろうね。1回の侵害で50万ドル…

どうやらこれは一般的なビジネス慣行みたいだね。Spotify(証拠は見つからないけど)は、海賊版の音楽を使ってソフトウェアとビジネスを構築したようだ。この記事にもっと詳しいことがあるよ [0]. https://torrentfreak.com/spotifys-beta-used-pirate-mp3-files... 面白い引用: > 初期のSpotifyが「海賊版」のMP3を使用していたという噂は、何年も前からネット上で広まっている。サービスの初期にアクセスできた人たちは、公式に入手されていないことを示す「Scene」ラベルやタグ、フォーマットが含まれたトラックをダウンロードしたと報告している。

彼らには、ユーザーが音楽をバックアップして共有できる別の会社(名前は忘れた)があったんだ。露見したとき、彼らはそれをできるだけ深く掘り下げた。

スタートアップがちゃんとしたビジネスになることはたくさんあるよね。アイデアと、そのアイデアを実行するために必要な資金を集めることの間には、大きなギャップがあるって社会はあんまり理解してない。アイデアを持ってる人はたくさんいるけど、実際にそれを成功させるのはほんの一握りだよ。例えば、小さなEULA違反とか、消費者ライセンスが商業利用されることとかね。

「非公式に取得した録音」と「その録音の権利を持っていない」は別の話だよね。だから、出版社の音楽をストリーミングするためのライセンスを取得している可能性はあるけど、それには実際の音楽のコピーが含まれていないってことだね。

Crunchyrollは元々アニメの海賊サイトだったけど、後にちゃんとライセンスを取得してコンテンツを配信するようになったんだ。2006年の中頃に始まって、2008年にVCから資金を得て、2009年に最初のライセンス契約を結んだよ。 https://www.forbes.com/2009/08/04/online-anime-video-technol... https://venturebeat.com/business/crunchyroll-for-pirated-ani...

スポティファイだけじゃなくて、現在のほとんどのテックジャイアントは、変化の波に乗って、法律の制約をあまり気にせずに(今なら「市場を破壊する」とか言うけど、これはしばしば違法なことをして、罰金よりも遥かに多くのお金を得ることを意味する) - 倫理についてもあまり気にせずに - 最近(アマゾンから始まって)技術的に違法な資金調達が多くて(他のところからの資金で競合の価格を長期的に下回るのは不公平な競争優位で、理論的には独占禁止法に明らかに違反している)。それ以前は、他の独占問題もあった(例えばウィンテルを見て)。だから、法律を守らずに不公平な競争優位を得るのは、巨大企業にとっては日常茶飯事だよ。

一般的なミームは、メガコープが利益を最大化するために何でもやる恥知らずな犯罪組織だってことだけど、ある意味ではそうだけど、小規模なビジネスやスタートアップがやる違法なことに比べたら、全然大したことじゃないよ。

どうやらそれは一般的なビジネスのやり方みたいだね。でも、実際には普通のビジネスのやり方じゃないから、ニュースになるんだよ。ネットの人たちは、ニュースが日常の普通のことを報じないってことを忘れちゃってる。そうじゃなきゃ、芝生を刈ったり、ビジネスローンを申請したりする人のリストばっかりになっちゃうからね。ニュースに載るのは、珍しいことや注目すべきことだからなんだ。「ネットで見たから、いつも起こってるに違いない」っていうのは、社会に広がるバカな論理だよ。

ポイントを見失ってるよ。Spotifyは、著作権者やその国の代理人から、スウェーデンでの限定ベータ版でその曲を使う許可を得てたんだ。レコード会社から直接クリーンな音声データを入手できなかったから、多くの場合、海賊版のリップを使ってたんだよ。本当に聞くべきことは、彼らがリッパーの著作権を侵害したかどうかだよ。/s

単にコンテンツが海賊版にされていただけじゃなくて、初期のSpotifyのUIは実際にLimewireの1:1コピーだったんだよね。

これ、聞こえはいいけど、実際にはそれほど意味がないよ。任天堂は、Wiiの公式エミュレーターのためにシーンROMを使ってたらしいし(たしか?)。Spotifyは、レコード会社から合法的に入手したmp3を、ナップスターから引っ張ってきたものを使ってたかもしれない。だって、レコード会社の人たちは怠け者の偽善者だからね。

https://archive.md/YLyPg

こちらが個人が大規模な著作権侵害でどう扱われるかだよ: https://investors.autodesk.com/news-releases/news-release-de...

これを選ぶと思ってた: https://en.wikipedia.org/wiki/United_States_v._Swartz

著作権は海賊行為とは違うからね。

何が言いたいの?20年前に誰かがソフトウェアの海賊版を売ってたけど(ここに変化はどこにあるの?)、それがトレーニングセットで本を使うのと同じなの?裁判官も読書は侵害じゃないって言ってたし、これは無理があるよ。

違法にコピーして海賊版ソフトを売る これはアンソロピックがやったこととは全然違うよ。誰もアンソロピックから本のコピーを買ってるわけじゃないし、著作権者からじゃなくて。

ピーターソンは海賊版のソフトウェアをコピーして売ってたんだ。もっと良い比較を考えてよ。

大事なポイントはこれだね。

アルスプは、アンソロピックが著作権のある本を使ってAIモデルを訓練するのは「非常に変革的」で、公正使用に該当すると判断した。 「アンソロピックがやったのは、中央図書館のために購入した印刷版を、より便利でスペースを節約できるデジタル版に置き換えただけで、新しいコピーを追加したり、新しい作品を作ったり、既存のコピーを再配布したりはしていない。」 図書館を海賊版するのが著作権侵害だってのは、もともと明らかだったよね。ここで面白いのは、内部使用のために図書館をスキャンしてデジタル化するのはOKで、それをモデルの訓練に使うのが公正使用だってこと。

それは新しいことじゃないと思うよ。グーグルがそれに関して前例を作ったのは10年以上前だし、本をデジタル化するのは許可されてるからね。

他の重要な側面についての引用をスキップしたね。 > でも、アルスプは海賊行為に関しては明確な線を引いた。 > 「Anthropicは、海賊版を中央ライブラリに使う権利はなかった」とアルスプは書いている。「恒久的で汎用的なライブラリを作ること自体が、Anthropicの海賊行為を正当化するフェアユースではなかった。」つまり、彼は、書籍を購入して物理的に切り刻んでデジタル化し、それをトレーニングに使うのはフェアユースだが、デジタルライブラリのために書籍を海賊するのはフェアユースではないと判断したんだ。

確か、ビンス・チャブリア判事は、Metaに関する後の命令でフェアユースの主張に反論したんだよね。https://www.courtlistener.com/docket/67569326/598/kadrey-v-m... 注:私は弁護士じゃないけど。

本を持っているなら、自分のコンピュータがその本の写真を撮るのは合法であるべきだと思う。正直、これらのAI企業には同情するよ。著作権に関するルールが彼らを狙うために変わっているからね。読んだ本のアイデアを無意識に自分の作品に取り入れるからって、全ての本に著作権を持ってるわけじゃないし。

同じ記事を読んでるの? 記事には、自分が持っている本を切り刻んでスキャンしてモデルをトレーニングするのは大丈夫だって明記されてるよ。 > 正直、これらのAI企業には同情するよ。著作権に関するルールが彼らを狙うために変わっているからね。 もしその判決が維持されれば、AI企業にとっては大きな勝利になるはず。逆の結論に至ったのが本当に不思議だよ。

スケールが大きくなると全てが変わるよね。ここで著作権について具体的な意見は言わないけど、個々の権利やルールを大規模なシステムに適用しようとすると、全然意味が通らないと思う。これを社会として理解する必要があるし、金持ちの利益がこれをできるだけ軽視することも認識しないと。今の問題の多くは、個人と大規模システムの違いを明確にする規制が不十分だから起きてるんだよね。

ここでの違いは、LLMが機械的なプロセスだってこと。決定論的ではないかもしれないけど(少なくとも、私の脳が理解する決定論の仕方では)、それでも機械なんだ。君が提案しているのは、オリジナル作品がどのように作られるかを考えるときに、LLMを人間と同等に扱うことだよね。LLMのトレーニングデータは、人間がコンテンツを消費し続けることで自分を「トレーニング」するのと変わらないって主張することもできるけど、それは現在の著作権法の理解とは相反する哲学的な議論だよ。

「裁判官は、書籍を使ったClaudeのトレーニングはフェアユースだが、海賊行為は違うと言った。」

ここでの核心的な問題は、著作権がすでに一貫した論理的な理由に従っていないってこと。「情報は自由であるべきだ」とかね。だから、私たちが何がフェアユースなのか、著作権があるのか、侵害なのかを評価するのは、結局は裁判官の個人的な見解に依存することになる。著作権の名目上の目的は、公平さや利益の概念に根ざしているわけではなく、イノベーションを促進するためのものなんだ。じゃあ、AIが著作権をどう使っているかに関して、法律の正しい解釈は何だろう? 何がイノベーションをより促進するのか? AI企業にすべてをスキャンさせるべきなのか、それともAIが創造的な作品を吸い上げて、ランダムに小さな(あるいは大きな)断片を吐き出すことで、他のイノベーションに悪影響を与えると思うのか? でも、実際の答えはお金なんだよね。著作権は、金持ちの利益がそれを望むから強力なんだ。今、著作権が金持ちの利益の妨げになっているのはおそらく初めてのことだから、私たちがDRMや著作権の正当化にどれだけ本気だったのかが試されることになるよ。

こういった議論で見落とされがちなのは、フェアユースを測る際に、権利者の現在および将来の作品に対する市場への影響を考慮する必要があるってこと。つまり、あなたがしていることが著者の将来の収入を意味的に奪っていることを証明できるかどうか。理論的には、あなたが著者の作品から学び、同じ市場で競争することが著者の収入を意味的に奪う可能性があるけど、それを証明するのは非常に難しい議論なんだ。一方で、AI企業の場合はその議論がしやすい。もしAnthropicがあなたの本を全部トレーニングに使ったら(人気のある著者なら十分あり得る)、彼らの優れたモデルのリリース後にあなたがかなりの収入減を経験したとしたら(おそらく人々があなたの作品を買う代わりにLLMを使って自分の物語を書くから)、その因果関係を結びつけるのは少し簡単になる。ある企業があなたの作品を使って、あなたと競争する機械を作ったわけだから、これはフェアユースの原則に違反する可能性がある。著作権の根本的な原則に触れることになるよね。つまり、誰かにコピーされたからって「自分自身」と競争する必要はないはずなんだ。

AI企業が海賊版の素材を使って製品を作ることが許されるなら、みんなも海賊版ソフトを使って製品を作っていいってことになるの?その境界線はどこにあるの?それに「学習」って言葉は使わないで、「著作権のある素材を使ってソフトを作る」って言ってほしい。法律が機能しないなら、技術的な手段でAI企業が私たちの作品を使うのをどう防げるか、一緒に考えてみようよ。

~10億ドルの現金があると、法律の適用が全然違ってくるよね。

AI企業があなたの作品を使うのを完全に防ごうとするのは、虐待的で間違ってるよ。著作権の目的は、自分の作品に対して報酬を得ることだからね。AI企業が海賊版を使うのは良くないけど、もし彼らがあなたの作品に対してお金を払ったら、好きに使ってもいいはず。LLMをトレーニングするのも含めてね。そのLLMがあなたの作品を再現したら、AI企業は著作権を侵害してるけど、再現しなければあなたは損害を受けてない。AI企業との哲学的な意見の違いで損害を主張するのは、裁判所の乱用だよ。

でも、AIはそのコンテンツを使ってコピーする方法を学んだんだよね。「再創造」って概念の方がいいのかな?人々はすでに海賊版ソフトを使って製品を作ってるし。仮にだけど、海賊版のPhotoshopでフォトショップを学んだやつを知ってる。彼はその後グラフィックデザイナーになったんだ。彼の収入は全部「犯罪の利益」ってことになるの?彼は海賊版ソフトを使ってコンテンツを作ったことはないけど。

ところで、最近のYouTubeの動画をダウンロードから守る進展って、ライバルのAI企業がデータセットを集めるのを手伝いたくないからなのかな?

ちょっと待って、古本で買った本をスキャンして、そのハードコピーを破棄して、スキャンをオンラインライブラリに保管するのは著作権法的にOKなの?それは、私が読んできた著作権の注意書きとは合わない気がするんだけど。

ファーストセールの原則によって、あなたが買った本を売った人には、その本をあなたに売る権利があるんだ。フェアユースは、あなたのコピーをスキャンすることを許可しているよ。新刊でも古本でもね。あなたの本だから、破棄することもできる。でも、売ったりあげたりする時にはデジタルコピーを削除しなきゃいけないし、デジタルコピーを配布することもできないよ。