世界を動かす技術を、日本語で。

Nvidiaが「Anna's Archive」に書籍アクセスのために連絡を取った

概要

  • NVIDIA がAIブームで巨額の利益を得ている現状
  • 著作権侵害 を巡る作家たちの集団訴訟
  • Anna’s Archive など“シャドウライブラリ”との関与疑惑
  • 訴訟は 米国カリフォルニア北部地区連邦地裁 で進行中
  • 今後の法的・業界的影響に注目

NVIDIAとAI著作権訴訟の概要

  • NVIDIA はAIチップとデータセンター事業で 急成長
  • 独自AIモデル( NeMo, Retro-48B, InstructRetro, Megatron)の開発・学習
  • 学習データに 大規模テキストライブラリ を活用
  • 他のIT大手同様、 著作権者からの法的反発 を受ける状況

作家によるNVIDIAへの著作権侵害訴訟

  • 2024年初頭、複数の作家が NVIDIAを著作権侵害で提訴
  • 集団訴訟の内容: Books3データセット が“海賊版”サイトBibliotik由来
  • 無断利用による損害賠償請求
  • NVIDIA側は“フェアユース” を主張し、「書籍は統計的相関に過ぎない」と反論
  • しかし、訴訟過程で 新たな証拠 が発見される

Anna’s Archiveとの接触疑惑

  • 2024年6月、訴状が拡大され 新たなAIモデル・書籍・著者 が追加
  • 内部メール等から、 NVIDIAがAnna’s Archiveに直接接触 したと主張
    • データストラテジーチームが「 高速アクセス」の条件を問い合わせ
    • Anna’s Archive側は「 違法性」を警告
    • 数日後、 NVIDIA経営陣が“ゴーサイン” を出し、500TB規模のデータアクセス権を取得
  • 提供データには Internet Archive の電子貸出システム経由の書籍も含む

その他の“シャドウライブラリ”利用疑惑

  • LibGen, Sci-Hub, Z-Library など他の“海賊版”ソースも利用疑惑
  • Books3 以外のデータセットにもアクセスした可能性

二次的・共同侵害の主張

  • NVIDIA が自社AI学習だけでなく、顧客向けに自動ダウンロード用ツールやスクリプトを配布
    • 例:「 The Pile」データセット(Books3含む)の自動取得
  • これにより 共同・間接侵害 による収益化も指摘
  • 損害賠償請求は 原告作家だけでなく、将来参加する可能性のある多数の著者 にも及ぶ

今後の展望と業界への影響

  • Anna’s Archive とのやり取りが米大手IT企業で初めて公になった事例
  • “シャドウライブラリ”の存在感が一層拡大
  • 訴訟の行方次第で AI開発と著作権問題 の業界基準・規制強化の可能性
  • 訴状は 米国カリフォルニア北部地区連邦地裁 に提出済み
  • 代表的な原告作家: Abdi Nazemian, Brian Keene, Stewart O’Nan, Andre Dubus III, Susan Orlean

まとめ

  • NVIDIA はAI時代のリーダーである一方、著作権侵害疑惑で厳しい法的局面に直面
  • “シャドウライブラリ”との関与問題がAI業界全体のリスクとして浮上
  • 今後の訴訟動向と判決が AI開発と著作権の新たなルール を形作る可能性

Hackerたちの意見

NVIDIAの幹部が、AIのトレーニングに使うためにAnna's Archiveから何百万冊もの海賊版の本を利用することを認可したとされています。内部のNVIDIA文書を引用した拡大クラスアクション訴訟では、数人の著者が、兆ドル企業が直接Anna's Archiveに連絡を取り、シャドーライブラリのデータへの高速アクセスを求めたと主張しています。

それに対して、NVIDIAは自社の行動をフェアユースとして擁護し、「本はAIモデルにとって統計的相関に過ぎない」と述べました。これって意味あるの?著作権法がこんなにひどいの?こんな発言がNVIDIAに有利になるなんてあり得るの?

本はデータベースで、文字はその要素。EUではデータベースに著作権があるよ :)

誰が気にするの?ディズニーだけが彼らと戦うお金を持ってる。その他は全部AIのために吸い取られて再利用されるよ。

鶏が卵になろうとしてる。

この映画を海賊版で見たの? いや、見てないよ。これはフェアユースだ。なぜなら、この映画は僕のドーパミン生成の統計的相関に過ぎないから。

確かに理にかなってるね。物議を醸すけど、君の記憶も同じように物を覚えるから。だから、NVIDIAがやってることも変わらない。AIは実際に本をコピーしてるわけじゃないし、トレーニングを違法だと呼ぶのは、本を読んで覚えることを違法だと言うのと同じだよ。著作権法はここで詳細を指定するほど十分に詳細じゃないから、論理的かつ技術的な矛盾が確かにある。これらの法律が人間中心のものに進化するのは見えるね。人間がやるのは許されるけど、AIがやるのはダメってことだ。確実なのは、本を取得するのはたぶん違法だったけど、もしNVIDIAがアマゾンから各本のキンドル版を一冊ずつ買って、トレーニング用に全部スクレイピングしたら、それはグレーゾーンに入るね。

世界のGDPの4%を担ってると、やりたい放題だね。

これって意味あるの?著作権法がそんなにひどいから、こういう発言がNVIDIAに有利になるってこと?まあ、少しは理解できるけど。Googleが大量の本をスキャンしてる前例もあるし、再生産はしてないんだよね。今の著作権法の多くは再生産に関するもので、それはダメ。残りの部分はちょっと曖昧になる。NVIDIAの主張は、作品を再生産してるわけじゃなくて、他の人に提供してるわけでもなくて、「本をスキャンして全体の統計を計算してる」ってこと。Googleに似てるようで、ちょっと違う。どうやって「第三者の怪しいソースから調達する」ことを回避してるのかは分からないけど、まあいいや。確かなのは、今の法律ではこれをカバーしてないし、たぶんもう手遅れだってこと。

そうそう、これについては何度も議論されてるよね。LLMをトレーニングしてる企業は、法的分析をしてそれが防御可能だと結論づけてるはず。FSFが委託したホワイトペーパーの一つ(「機械学習モデルをトレーニングするためのコードリポジトリの使用に関する著作権の影響」 https://www.fsf.org/licensing/copilot/copyright-implications...)でも、著作権データを使ってAIをトレーニングするのは法的に防御可能だと結論づけて、潜在的な主張を示してる。FSFは、FOSSコードでトレーニングされたLLMに反対する理由が他の誰よりも多いはずなのに、著作権侵害訴訟を急いで起こしてないことに気づくと思うよ。

LLMに関しては確定した法律ではないけど、そうだね、本の「統計的要約」を作ること(例えば、ジョイスの「ユリシーズ」の索引を考えてみて)一般的にはフェアユースとして保護されてる。ただし、その索引を作るために海賊版の本に不正アクセスするのはまだ違法だよ。

著作権法ってほんとに曖昧だし、NVIDIAの弁護士がたくさんいるから、あの発言は彼らに有利に働くよね。多くの場合、作品の一部をコピーするのは許されてるし、簡単な例だとレビューで本の一文を引用することができる。そこら辺は微妙なんだよね。

許可を求めるなんて、彼らも優しいね。

彼らは500テラバイトを吸い上げるための高速な回線へのアクセスを求めていたけど、そのアクセスには代償があるんだよね。許可の問題じゃない。著作権侵害で次の世紀まで訴えられるべきだと思う。4兆ドルの企業が、再利用のために出版された文献全体を違法にダウンロードするのは明らかに侵害だし、人間の著者を無価値にするためにLLMをトレーニングするために統計的相関を探すだけでフェアユースだと言うのは馬鹿げてる。一冊や二冊の本はフェアユースだけど、出版されたすべての本はそうじゃない。

許可の問題じゃなくて、高速アクセスの問題だったんだ。彼らはアンナのアーカイブを利用してそれを実現したかったけど、スクレイピングは遅すぎた。アンナのアーカイブが明示的にその素材が違法に取得されたと指摘しても、続けられたのは信じられないよね。

これは許可じゃなくて、彼らが提供してるサービスだよね: https://annas-archive.li/llm

何かが変わるとは言わないけど、ほとんどの大手AI企業がAnna's Archiveをガンガン使ってる中で、そこに手を出すのはすごいことだね。

短期的な考え方だね。データがどこから来るかは気にせず、どれだけ簡単に手に入るかだけを重視してる。たぶんプロジェクトマネージャーレベルで決まってるんだろうね。

NVIDIAは「正当な」企業だから、彼らがやることは何でもOKだけど、AAは「正当でない」からダメってこと?

ライブラリジェネシスは、Metaがそれを使ってるってニュースが出るまでは、かなりうまく機能してたんだよね。その時に主要なサイトがいくつか消えちゃった。だから、これらの企業はすべての海賊版素材を持っていくだけじゃなくて、その行為が海賊たちをも困らせて、他の人たちの海賊行為の楽しみを台無しにしてるんだよ。

アマゾンがあのたくさんのキンドル本にアクセスして何をするつもりなのか気になるな。

「計画」ってどういう意味? もうすでに吸い上げられてると思わない?

気になったので調べてみた: • Anna’s Archive: 2026年1月時点で約6170万冊の「本」(さらに約9570万本の論文) https://en.wikipedia.org/wiki/Anna%27s_Archive • Amazon Kindle: 2018年3月時点で「600万以上のタイトル」 https://en.wikipedia.org/wiki/Anna%27s_Archive 比較するのは難しいけど、AAには重複が含まれてるし、Kindleの数字は古いから、ざっと見るとAAの方が勝ってるっぽい。

AI企業が適切なデータを求めてどれだけ飢えているか、みんな気づくべきだよ。成長著しい市場を支える最大手の企業が、まだそんなことをしなきゃいけないなんて、実際の承認を得るために海賊版のコンテンツを使うなんて、ハードウェアメーカーなのにね。合成データがすべてを解決するって聞くけど、新しい技術やフィードバックがどうのこうの。じゃあ、なんでそんなことするの? 約束と実際に使えるリソースが一致してないから、これが明らかになるんだよね。

AAが約500TBの本を提供したっていうのは驚きだよね(AAにとって保管するのもめっちゃ高いだろうし)。それに対してNVIDIAはどれくらい払ったんだろう?少なくとも50万ドル近くは行ってるはず?

私は雑誌をめちゃくちゃたくさん持ってるんだけど、AI企業が約1年前に現金とFTPログインを提供してたんだよね。でも、事態が悪化したらみんな静かになっちゃった。

ちょっと確認したいんだけど、世界で最も価値のある会社がデジタルメディアにお金を払わないってこと?

お金を使わない(使うのと比べて)ことが、金持ちになる手助けをするんだよね!

彼らはすでに、LLMのトレーニングのためにトレントを合法にするために、弁護士に10倍以上の金額を払ってるのに、なんでさらにお金を払いたいんだろう?

まあ…いい人たち(Nvidia)が悪い人たち(Anna's Archive)にお金を渡すのは嫌だよね??? /s

この意見はよく見かけるけど、出版社は彼らの作品を使ったAIトレーニングのために支払い可能な商品を提供してるのかな?単純なアプローチはオンライン書店に行って、すべての本に15ドル払うことだけど、そうすると著作権で保護されたコンテンツが暗号化されてて、解読するのはDMCA違反になる。彼らが各出版社と個別に交渉して、データをNVIDIAに移すことを期待してるんだと思うけど、それはかなり特別な話し合いや契約が必要なんだよね。彼らが海賊図書館に行くのは、欲しい商品が存在しないからだと思う。

NVIDIAのCEOって、地元のデリで甘い袋をこっそり持っていくタイプの人なんじゃないかな、もっとお金を貯めるために。

「はい、警官。あのダサいやつが革ジャン着てカッコつけてたんです。」

トランプの関税に対する素晴らしい報復策は、あなたの国でアメリカの著作権をキャンセルすることだと思う。

これって、アメリカもその国の作品の著作権をキャンセルするってことだよね。俺はそれでいいよ。著作権なんてぶっ壊れちまえ。