Nvidiaが「Anna's Archive」に書籍アクセスのために連絡を取った

2026年1月19日原文(torrentfreak.com)

概要

NVIDIA がAIブームで巨額の利益を得ている現状
著作権侵害 を巡る作家たちの集団訴訟
Anna’s Archive など“シャドウライブラリ”との関与疑惑
訴訟は 米国カリフォルニア北部地区連邦地裁 で進行中
今後の法的・業界的影響に注目

NVIDIAとAI著作権訴訟の概要

NVIDIA はAIチップとデータセンター事業で 急成長
独自AIモデル（ NeMo, Retro-48B, InstructRetro, Megatron）の開発・学習
学習データに 大規模テキストライブラリ を活用
他のIT大手同様、 著作権者からの法的反発 を受ける状況

作家によるNVIDIAへの著作権侵害訴訟

2024年初頭、複数の作家が NVIDIAを著作権侵害で提訴
集団訴訟の内容： Books3データセット が“海賊版”サイトBibliotik由来
無断利用による損害賠償請求
NVIDIA側は“フェアユース” を主張し、「書籍は統計的相関に過ぎない」と反論
しかし、訴訟過程で 新たな証拠 が発見される

Anna’s Archiveとの接触疑惑

2024年6月、訴状が拡大され 新たなAIモデル・書籍・著者 が追加
内部メール等から、 NVIDIAがAnna’s Archiveに直接接触 したと主張
- データストラテジーチームが「 高速アクセス」の条件を問い合わせ
- Anna’s Archive側は「 違法性」を警告
- 数日後、 NVIDIA経営陣が“ゴーサイン” を出し、500TB規模のデータアクセス権を取得
提供データには Internet Archive の電子貸出システム経由の書籍も含む

その他の“シャドウライブラリ”利用疑惑

LibGen, Sci-Hub, Z-Library など他の“海賊版”ソースも利用疑惑
Books3 以外のデータセットにもアクセスした可能性

二次的・共同侵害の主張

NVIDIA が自社AI学習だけでなく、顧客向けに自動ダウンロード用ツールやスクリプトを配布
- 例：「 The Pile」データセット（Books3含む）の自動取得
これにより 共同・間接侵害 による収益化も指摘
損害賠償請求は 原告作家だけでなく、将来参加する可能性のある多数の著者 にも及ぶ

今後の展望と業界への影響

Anna’s Archive とのやり取りが米大手IT企業で初めて公になった事例
“シャドウライブラリ”の存在感が一層拡大
訴訟の行方次第で AI開発と著作権問題 の業界基準・規制強化の可能性
訴状は 米国カリフォルニア北部地区連邦地裁 に提出済み
代表的な原告作家： Abdi Nazemian, Brian Keene, Stewart O’Nan, Andre Dubus III, Susan Orlean

まとめ

NVIDIA はAI時代のリーダーである一方、著作権侵害疑惑で厳しい法的局面に直面
“シャドウライブラリ”との関与問題がAI業界全体のリスクとして浮上
今後の訴訟動向と判決が AI開発と著作権の新たなルール を形作る可能性

Hackerたちの意見

NVIDIAの幹部が、AIのトレーニングに使うためにAnna's Archiveから何百万冊もの海賊版の本を利用することを認可したとされています。内部のNVIDIA文書を引用した拡大クラスアクション訴訟では、数人の著者が、兆ドル企業が直接Anna's Archiveに連絡を取り、シャドーライブラリのデータへの高速アクセスを求めたと主張しています。

それに対して、NVIDIAは自社の行動をフェアユースとして擁護し、「本はAIモデルにとって統計的相関に過ぎない」と述べました。これって意味あるの？著作権法がこんなにひどいの？こんな発言がNVIDIAに有利になるなんてあり得るの？

└

本はデータベースで、文字はその要素。EUではデータベースに著作権があるよ :)

└

誰が気にするの？ディズニーだけが彼らと戦うお金を持ってる。その他は全部AIのために吸い取られて再利用されるよ。

└

鶏が卵になろうとしてる。

└

この映画を海賊版で見たの？いや、見てないよ。これはフェアユースだ。なぜなら、この映画は僕のドーパミン生成の統計的相関に過ぎないから。

└

確かに理にかなってるね。物議を醸すけど、君の記憶も同じように物を覚えるから。だから、NVIDIAがやってることも変わらない。AIは実際に本をコピーしてるわけじゃないし、トレーニングを違法だと呼ぶのは、本を読んで覚えることを違法だと言うのと同じだよ。著作権法はここで詳細を指定するほど十分に詳細じゃないから、論理的かつ技術的な矛盾が確かにある。これらの法律が人間中心のものに進化するのは見えるね。人間がやるのは許されるけど、AIがやるのはダメってことだ。確実なのは、本を取得するのはたぶん違法だったけど、もしNVIDIAがアマゾンから各本のキンドル版を一冊ずつ買って、トレーニング用に全部スクレイピングしたら、それはグレーゾーンに入るね。

└

世界のGDPの4%を担ってると、やりたい放題だね。

└

これって意味あるの？著作権法がそんなにひどいから、こういう発言がNVIDIAに有利になるってこと？まあ、少しは理解できるけど。Googleが大量の本をスキャンしてる前例もあるし、再生産はしてないんだよね。今の著作権法の多くは再生産に関するもので、それはダメ。残りの部分はちょっと曖昧になる。NVIDIAの主張は、作品を再生産してるわけじゃなくて、他の人に提供してるわけでもなくて、「本をスキャンして全体の統計を計算してる」ってこと。Googleに似てるようで、ちょっと違う。どうやって「第三者の怪しいソースから調達する」ことを回避してるのかは分からないけど、まあいいや。確かなのは、今の法律ではこれをカバーしてないし、たぶんもう手遅れだってこと。

└

そうそう、これについては何度も議論されてるよね。LLMをトレーニングしてる企業は、法的分析をしてそれが防御可能だと結論づけてるはず。FSFが委託したホワイトペーパーの一つ（「機械学習モデルをトレーニングするためのコードリポジトリの使用に関する著作権の影響」 https://www.fsf.org/licensing/copilot/copyright-implications...）でも、著作権データを使ってAIをトレーニングするのは法的に防御可能だと結論づけて、潜在的な主張を示してる。FSFは、FOSSコードでトレーニングされたLLMに反対する理由が他の誰よりも多いはずなのに、著作権侵害訴訟を急いで起こしてないことに気づくと思うよ。

└

LLMに関しては確定した法律ではないけど、そうだね、本の「統計的要約」を作ること（例えば、ジョイスの「ユリシーズ」の索引を考えてみて）一般的にはフェアユースとして保護されてる。ただし、その索引を作るために海賊版の本に不正アクセスするのはまだ違法だよ。

└

著作権法ってほんとに曖昧だし、NVIDIAの弁護士がたくさんいるから、あの発言は彼らに有利に働くよね。多くの場合、作品の一部をコピーするのは許されてるし、簡単な例だとレビューで本の一文を引用することができる。そこら辺は微妙なんだよね。

Hacker Newsで議論の続きを見る

ハクソク