世界を動かす技術を、日本語で。

Anthropicが書籍著者との訴訟を和解するために15億ドルを支払うことに合意

概要

  • Anthropicが著作権侵害で 15億ドル の和解金を支払う歴史的合意
  • 違法にダウンロードされた 50万冊 の著作物が対象
  • AI企業と著作権者の訴訟が全米で 40件以上 進行中
  • 和解はAI業界における 著作権遵守の重要性 を強調
  • 今後のAI開発や法的枠組みに 大きな影響 を与える可能性

Anthropicによる著作権侵害訴訟の和解

  • Anthropicが 著作権侵害 で著者・出版社グループに 15億ドル を支払う和解に合意

  • 1作品あたり 3,000ドル50万件 の著作物が対象

  • この和解は 米国著作権訴訟史上最大額 の支払い

  • AI企業と著作権者の間で進行中の 40件以上 の訴訟の転換点

  • 専門家は、他のテック企業も ライセンス料や和解金 を支払う流れが加速すると予測

    • McKool SmithのChad Hummel弁護士は「 AI業界に衝撃を与える出来事」と評価
    • 2000年代初頭のNapster訴訟と類似する AI業界の分岐点
    • GC AIのCecilia Ziniti CEOは「 AI業界のNapsterモーメント」と表現

裁判所の判断と和解の背景

  • カリフォルニア北部連邦地方裁判所の William Alsup判事 が6月に判決
    • Anthropicが 合法的に取得した書籍 でのAIモデル学習は「 フェアユース」と認定
    • ただし、Library GenesisやPirate Library Mirrorなどの 海賊版オンラインライブラリ からのダウンロードは違法と判断
  • Anthropicの経営陣は 違法性を認識しつつ海賊版書籍を利用 したと認定
    • CEOのDario Amodei氏は「法的・実務的な手間を避けるため」と説明
  • 和解後、Anthropicは 違法に取得したコンテンツの削除 を約束
  • 今後も著作権者が Anthropicを個別に訴訟可能

AI業界への影響と今後の展望

  • 和解はAI開発における 著作権遵守の重要性 を強調
    • International Center for Law and EconomicsのKristian Stout氏は「 変革的AIモデル学習と違法な海賊版利用の区別 が重要」と解説
    • AI開発者に対し「 データセット取得時の著作権尊重」を強く求めるメッセージ
  • 他のAI企業(OpenAI、Metaなど)も 同様のリスク に直面
    • OpenAIやMetaも Library Genesis の利用が法廷文書で明らかに
    • Metaのケースでも 合法的入手書籍のAI学習はフェアユース と判断
    • ただし、Ross Intelligence事件(Delaware州)では フェアユースが否定 され控訴中

AI企業と著作権者の新たな関係

  • 一部AI企業は ニュース組織や出版社とライセンス契約 を締結
    • OpenAIはAxel Springer、Condé Nast、News Corp、The Washington Postと契約
    • AmazonもThe New York Timesとライセンス契約
  • The New York Timesなどが OpenAIやMicrosoftを著作権侵害で提訴
  • Anthropicは 合法的な書籍取得 のためTom Turvey氏(元Google Books責任者)を雇用
    • 書籍を物理的に購入し、スキャンしてAI学習に利用
    • Alsup判事はこの方法を フェアユース と認定

和解の意義と業界への波及効果

  • Anthropicの和解は 法的先例とはならない が、他の訴訟や企業行動に影響
  • 違法なデータセット利用が判明した場合、 莫大な損害賠償リスク
  • AI業界全体が 著作権リスク管理と透明性向上 に迫られる状況
  • AIシステム開発と著作権の バランスを巡る議論の深化

関連事例と今後の動向

  • ElevenLabsが 俳優の声の無断模倣 訴訟で和解(詳細非公開)
  • Anthropicは 2024年に130億ドルの追加資金調達、累計270億ドル超
  • 2024年、Andrea Bartz、Charles Graeber、Kirk Wallace Johnsonら著者がAnthropicを提訴
  • AI開発に必要な 膨大なデジタルデータ と著作権問題の両立が今後の課題

出典: New York Times, Washington Post, Reuters

Hackerたちの意見

これがOpenAIやMeta、Microsoftに対する訴訟にどう影響するか、面白いね。彼らもすぐに数十億ドルで和解しようとするのかな?前例にはならないけど、影響はあるだろうね。

それが最初に思ったことだよ。法的な前例ではないけど、他の人たちにとっては道を開く感じだね。

そうかもしれないけど、この訴訟は海賊行為の問題に関しては違うんだよね。Anthropicは本を海賊版で入手したから和解金を払ってるのであって、著作権のある本でのトレーニングがフェアユースじゃないからじゃない。他のケースとは必ずしも同じじゃないよ。

Anthropicは確実に競合他社にも何らかの影響があることを期待しているみたいだね。>Anthropicの創業者ベン・マンが、2019年にOpenAIで働いていた時にLibrary Genesisのデータセットをダウンロードしたと証言し、これが「フェアユース」だと思っていたと述べた。NYTの記事によると、Anthropicは物理的な本を大量に購入してスキャンし、トレーニングデータにしていると主張していて、公共モデルには海賊版の素材は一切使っていないと言ってる。OpenAIも同じことが言えるのかな。

これが誤報されたり、意図的に誤解されたりするだろうな。AIの議論が今かなり荒れてるからね。でも、訴訟は海賊行為に関するもので、LLMの著作権遵守についてではないし、いずれにせよ、和解したからには、何も間違ってないってことを認めたことになる。便利なことに、どちらにしても法的な前例は作られないね。投資家がこの問題を裁判外で解決することを条件に最後の資金調達を行ったとしても驚かないよ。

この点をはっきりさせておくけど、これはモデルのトレーニングには関係ないんだ。フェアユースの評価において、トレーニング自体はフェアユースだって理解するのが大事だけど、本の海賊行為が問題なんだよね。Anthropicがトレーニングデータを取得する際に「うっかり」やっちゃったことなんだ。中古の本を買ってスキャンしてトレーニングするのは全然問題ないし、『Rainbows End』は多くの点で先見の明があったね。

確かに、スケーラブルなモデルのトレーニングに関係してるけど、本を切り刻んでページを自動スキャナーに入れるのはスケーラブルじゃないよね。それに、1) 本を探す 2) 購入する 3) 処理する 4) リサイクルするっていうコストも忘れちゃダメだよ。

「Rainbows End」が先見の明があったってどういうこと?

彼らは不正にソースを取得して利益を得たから、全てのモデルを削除しなきゃいけないんじゃない?そうしないと、他の人たちが続けて、後で罰金を払うだけになっちゃうよ。

Rainbows Endは多くの点で先見の明があった。そうだね。読む価値のある素晴らしい本だよ: https://www.goodreads.com/book/show/102439.Rainbows_End 著者のヴァーナー・ヴィンジは、「シンギュラリティ」という言葉を広めた人でもある。

Googleはかなり前にたくさんの本をスキャンしたけど、LibGenよりもずっと多いかも。これをトレーニングに使うのは大丈夫なのかな?

Aaron Swartzが生きていたら、libgenの時代をどう思ったんだろう。

約30ドルの本を海賊版で手に入れるために3000ドル払うのは、ちょっと釣り合わない気がする。

フェアユースの評価において、トレーニング自体がフェアユースであることを理解するのが重要だと思う。これを見落とす人が多い気がする。シェイクスピアの作品を全部取って、トークンやベクトルに変換したら、それはシェイクスピアなのか、それともシェイクスピアについての事実情報なのか?後者だよね。MLBのような組織が事実を著作権で保護したいと思っても、それはできない。さらに一歩進めて考えてみよう。もしその作品を買ってベクトル化したら、それは問題ない。でも、ハリー・ポッターのベクトルを何度も与えて、半分の本を再現できるようになったら、そのコピーを出力するのは問題になるよね。LLMが出力する他のものはどうなるの?誰がそれを所有するの?今のところ、誰も所有していない。もし猿や象に絵を描かせたら、その作品を著作権で保護することはできない。彼らは人間じゃないし、LLMも同じだよ。もし仕事でLLMを使ってコードを生成したら、辞めるときにそのコードを持って行けるの?著作権がないならGPL3やElastic Searchライセンスは適用されるのかな?これから数年、裁判の話がたくさん出てくると思う。

中古の本を買うこと それは相変わらず狂ってるよ。みんなが図書館にあるものは自由に読めるべきだって思ってる。

え、彼らはそのお金を出版社に渡すために集めたの?想像するだけで面白いな。「はい、数十億ドルください。訴訟の和解に使う大きな投資をします」って感じ?

冗談だと思うかもしれないけど、実際にはいい提案だね。彼らの頭上には重大な法的問題があったし、ビジネスを終わらせるような判決のリスクもあった。これでその問題が消えるから、会社はより安全で価値のある投資になるよ。絶対的な意味でも、和解しなかった同業他社と比べてもね。

記事からの引用: > 支払い額は膨大だけど、最近のAnthropicが調達した金額に比べたら小さい。今月、このスタートアップは、さらに130億ドルをAnthropicの資金に加える契約を結んだと発表した。2021年の設立以来、合計で270億ドル以上を調達している。

彼らは早く動いて、物事を壊したかったんだよね。誰も止めなかったし。

子供たち、見てる?罰金よりも多くのお金を盗むなら、盗んでも大丈夫だよ。

その比喩はあまりうまくいかないね。これは罰じゃなくて和解だし、支払いは罰金じゃない。法的には「店が開いてなかったから、ロットからアイテムを取って後で支払った」って感じ。普通の状況では人々がビジネスをする方法とは違うけど、新しい市場や新しい製品では?これに関してはあまり問題がないように思う。著者は受け入れられる価格で支払われているし、AnthropicはLLMのトレーニングを始める前に何年も待つ必要はなかった(再度言うけど、出版社はAI企業が必要としているものを実際には売っていなかった!)。

彼らは一冊あたり3000ドル払ってるんだよ。実際に本を買った方がずっと安かったはず(実際にそうしたんだし)。

オープンソースAIにとっては悲しいことだね。モデルのトレーニングのための海賊行為もフェアユースであるべきだと思う。そうじゃないと、Anthropicみたいな出版社にお金を払える大企業だけができることになっちゃう。モデルのトレーニングのためだけに何十億冊も本を買うなんて、現実的に無理だよ。

これは、モデルのトレーニングが何らかの権利であることを示唆しているね。

モデルをトレーニングするために欲しい本を全部買うのに、いくらかかるんだろう。

フェアユースは、素材にアクセスする方法ではなく、合法的にアクセスした後に何ができるかに関するものだよ。合法的にアクセスしていなければ、フェアユースの問題は無意味だね。

https://archive.ph/wugNc

和解条件(ケースのPDFより)

  1. 最低15億ドルの和解基金:Anthropicは、クラスメンバーのために最低15億ドルを非返還型の基金に支払うことに同意しました。クラス内には約50万の著作権作品があると推定されているので、これは作品ごとに約3,000ドルの支払いに相当します。もし最終的な作品リストが50万を超えた場合、Anthropicは追加の作品ごとに3,000ドルを加えます。
  2. データセットの破棄:Anthropicは、LibGenやPiLiMiから取得したデータセットを法的な保存要件に従って破棄することを約束しました。
  3. 請求の制限された放棄:和解は、2025年8月25日までの公式「作品リスト」に関連する過去の侵害請求に対してのみAnthropicを解放します。将来の侵害や、AnthropicのAIモデルによって生成された侵害出力に関連する過去または未来の請求は対象外です。

忘れないで:法的前例はないから!つまり、訴える人は最初からやり直さなきゃいけない。こういう状況では、負けると思ったら和解するんだよね。編集:これで叩かれるだろうけど、これはGoogleがEpicとの訴訟でやったことと全く同じ。彼らは公衆や裁判所がApple(おお、悪のApple)に注目している間に遅延させた。Appleは負けて、Googleは後で覆せない法的判断を受ける前に不利な条件で和解したんだ。

ありがとう!ここでケースのPDFリンクを見つけるのが早いと思ってたけど、要約してくれて助かる!確かに、支払いだけじゃなくてデータセットの破壊もあるよね。記事にはこう書いてあるしね:>「Anthropicは、これらの海賊版作品を使用していないと言っている」と彼は言った。「もし他の生成AI企業が海賊版のデータを使ってトレーニングして商業化したら、その潜在的な責任は膨大だ。業界を揺るがすことになるだろう — 私には疑いの余地がない。」もし本当なら、近い将来どれだけのケースが出てくるのか気になるな。

じゃあ…すべての本を買った方がずっと安上がりってこと?

一つ思いつくのは…ウェブ上のコンテンツを「ライセンス」する方法ってあるのかな?人間だけが無料で利用できるように。つまり、AIクローラーの利用を海賊行為と見なして、同じような罰則を適用できるようにするってこと?

これ、実際には望んでないんじゃない?企業がウェブスクレイピングを違法にできるべきだって言ってるよね。そのタスクを自動化するために使ってるcurlスクリプトが侵害になっちゃうかも。

試してみることはできると思うけど、著作権にはいろんな変なルールや例外があって、複雑なんだよね。法律の専門家じゃないけど、例えば「公私問わず自由に使っていいけど、学術には使わないでね、あの象牙の塔には関わりたくないから…」ってライセンスを入れたら、それは表現できる気持ちだけど、大学は法的にその希望を尊重する義務はないんだよね。「人々がライセンスに入れる変なこと」についての授業で、あなたの作品を使うことを拒否することはできない。さらに、裁判所がLLMのトレーニングが変革的だと認定したから、「他のことには使えるけど、LLMのトレーニングには使わないで」っていうライセンスは、音楽家が「私の作品を全体として聴くのはいいけど、あのひどい『ラップ音楽』にサンプリングしたら大変なことになるからね…」って言うのと同じくらい、強制力がないんだよね。著作権保護の目的は「科学と有用な技術」を促進することで、学術がすべての作品を調査することを許可する公共の利益は、著者が自分の作品を学術コミュニティに無関係だと宣言することの利益を上回るんだ。 それでも教科書は著作権があり、その著作権は尊重されている。学術のフェアユースの例外が、学者が教科書をコピーするのを許可しない理由がよくわからないな。

いや、法的にも技術的にも不可能だよ。

何かキャプチャのようなシステムを考案して、DMCAの下でセキュリティ対策と見なされ、回避できないようにすることができるかもしれないね。同じコンテンツをライセンス料でAPIを通じて提供するのもいいかも。

「問題となっている技術は、私たちの生涯で見る中で最も変革的なものの一つです」 裁判官が技術の変革性についての意見に基づいて判決を下すのは、信頼感を与えないね。「変革的」という言葉には曖昧さがある。フェアユースの意味での変革だけじゃなくて、世界を変えるような影響力のある革命的な変革も含まれている。後者はこのケースでは関係ないはず。 > 著作権を故意に侵害する企業や個人は、作品ごとに最大15万ドルの高額な損害賠償を受ける可能性がある。2%で和解するのはめちゃくちゃお得だね。 > 6月に、地区裁判所はAI開発と著作権法に関する画期的な判決を下し、AnthropicのAIモデルのトレーニング方法がフェアユースに該当すると認定した」と、Anthropicの副法務顧問アパーナ・スリダールが声明を発表した。これは最も重要な部分で、15億ドルの和解金ではない。Anthropicは海賊行為をしているんだ。

なんかこれがこの量のデータを買うための最良のメカニズムに思える。500,000の出版社に個別に買いに行くことを想像してみて。1冊あたり3,000円はずっと安いよ。著作権システムが目の前でデータ市場に変わりつつあるね。

相対的に見て、ほんの少しのデータだよ。ほとんどのデータソースよりもトークンあたりのコストがずっと高い。