低背景鋼：AI汚染のない成分

2025年6月11日原文(blog.jgc.org)

概要

Low-background Steel とは、AI生成コンテンツに汚染されていないオンラインリソースを集めるために作られたサイト。 2023年3月 に開設し、AI登場以前の純粋な情報源をまとめて紹介。 低バックグラウンド鋼 の概念をコンテンツにも応用。 Wikipediaの旧データ や Project Gutenberg などを掲載。追加情報源の 募集も呼びかけ。

「Low-background Steel」サイトについて

サイトURL： https://lowbackgroundsteel.ai/
開設時期： 2023年3月
目的： AI生成コンテンツに汚染されていない情報源 の集約・紹介
ターゲット： テキスト・画像・動画 などの純粋なコンテンツを求めるユーザー
特徴： AIコンテンツ爆発以前（2022年以前） に作成されたリソースへのリンク集

「Low-background Steel」とは

本来は 放射性同位体で汚染されていない鋼や鉛 を指す用語
1945年の Trinity Test以前に沈没した船 から回収される金属が典型
サイトではこの概念を 「AI生成コンテンツに汚染されていない情報」 に転用
純粋なデータや知識の 保存・共有の重要性 を訴求

掲載リソース例

Wikipedia ：ChatGPTリリース以前の データダンプ
Arctic Code Vault ： GitHub のアーカイブプロジェクト
Project Gutenberg ： 著作権切れ書籍 のデジタルアーカイブ
その他、 AI未介入の信頼できる情報源 の紹介

コミュニティ参加の呼びかけ

非AI生成コンテンツの新規情報源 の募集
サイト利用者への 情報提供・共有のお願い
持続可能な知識保存 のための協力体制の構築

今後の展望

情報源リストの拡充
AI時代における純粋な知識の価値 の再確認
コミュニティ主導型の情報保護活動 の推進

Hackerたちの意見

AIコンテンツに対してアレルギーがあるわけじゃないけど（そのうちそうなるかも）、この低背景鋼の比喩には感心した。すごいね。

└

AIコンテンツに対してアレルギーがあるわけじゃないけど、たぶんこれは恐怖症というより、自分の出力でAIをトレーニングするのを避けたいってことだと思う。実は最近、同僚とこの話をしてたんだ。AI以前のコンテンツは、もう二度と増やせないものだから、ますます貴重になっていくよね。理想を言えば、2015年頃に利用可能なデータを暗号的にタイムスタンプしておくべきだったけど、今は今で仕方ないよね。

└

私もアレルギーはないよ（サイトを作ったのは私だし）。人間が作ったものを追跡するためのアイデアだったんだ。

みんなが思ってるほど大きな問題になるとは思えないな。長期的には、AIには実際の経験から学んでもらいたいんだ（車の修理マニュアルを読むんじゃなくて、実際に車を修理することを考えてみて）。そうすれば、(1) 著作権のない無限のトレーニングデータが手に入るし、(2) AIが汚染されたトレーニングデータの問題をうまく回避できる。

└

予測：一般知能を持つ人型ロボット（エクス・マキナスタイル）が登場する前に、AIシステムが車を修理することはないと思う。そういうロボットが現れるまで、五つ星ホテルにAIメイドも出現しないだろう。これがあなたの主張を無効にするわけじゃないけど、今日とあなたが言ってる瞬間の間には、想像を超えるほどのギャップがあるから、「AIの雑音が言語の単語頻度データベースを汚染することを心配しなくて大丈夫、最終的には解決するから」って言うのは少し的外れだと思う。

└

ハルシネーションが引用されて、真実として扱われるのが残念だね。簡単な例を挙げると、「どのMS-DOSの生産性プログラムにConnect Fourが組み込まれていた？」って質問。私はMS-DOSエミュレーターを持っていて、答えを知ってるんだけど、ちょっとマイナーなものだから、毎回AIから違う答えが返ってくるのがすごい。正しい答えを出したのを見たことがないよ。上の質問をしてみて。それから、それが本当かどうか聞いてみて（たぶん考えを変えるよ！）。こういう答えがオンラインで引用されて、AIがその循環参照されたソースを元に学ぶことになると、真実がなくなっちゃうんだ。マジで上の質問を試してみて。AIが完全に作り上げた権威ある答えを繰り返し言ってる良い例だよ。

└

YouTubeには実際の車修理の経験に関するトレーニングデータが膨大にあるけど、全部著作権で保護されてるんだよね。AI企業がそのコンテンツを使う前にライセンスを取得すべきかどうかは、ちょっとした論争になってる。

└

どちらも (1. 著作権のないトレーニングデータを無限に供給してくれて、(2. AI汚染されたトレーニングデータの問題をうまく回避してくれる。これらは基本的に間違っているか、誤解を招くものだと思う。実際の経験を通じて自分のデータを生成する必要があるのはとても高くつくし、データ取得には実際の運用リスクが伴うことになる。Waymoは実際に車を運転して経験を積んでいるけど、単位時間あたりに得られるデータ量の「限界」はフリートの大きさに依存していて、実際の世界で安全に運転できるレベルに達する必要がある。もし車を修理したいのに、ポリシーに基づくロールアウト以外の知識源から始めないなら、たくさんの車を壊しながら学ぶことになる（そして、ロボットが失敗したことを人間に教えてもらうためにお金を払うことになる）期間があることを覚悟しなきゃいけない。メカニックにはマニュアルにアクセスできることや、明示的なトレーニングを受けていることが重要な理由があるし、これは人間でもAIでも同じこと。オフポリシーのRLアプローチを使っているかもしれないけど、素晴らしいね！もしオフポリシーデータが以前の世代のモデルからのデモンストレーションなら、それもAI汚染されたトレーニングデータだよ。だから、実践で学ぼうとしても、トレーニングデータの供給には意味のある制限があって（ウェブをスクレイピングするよりも生産コストが高いかもしれない）、おそらくまだAI汚染されている（でも、データの出所についてはより良い情報があるかもしれないけど）。

今日はなんだか予知能力がある気がするな。

└

よくやった！この「AIの汚染から自由なコンテンツ」という枠組みは前に聞いたことがある気がする。そういうアイデアはずっと前からあったんだろうね。でも、低背景鋼を比喩として使うのは、成功したコールショットとして自信を持って主張できると思うよ。

└

この例は少なくとも1年前にハッカーニュースで聞いたことがあるけど、もっと前かもしれないね。2年前のやつを見てみて: https://news.ycombinator.com/item?id=34085194

└

本当に君は間違ってると思う。コンテンツや合成データを注釈するプロセスは、AIの出力を将来の出力を良くするための勾配に変えるんだ、悪くするんじゃなくてね。LLMの出力ではそれがあまり明らかじゃないかもしれないけど、画像や動画モデルではすごく明らかだと思う。システムの最良の視覚出力を選ぶことで、わずかなエラーやテイストベースのキュレーションがシステムをより良いパフォーマンスと一般性に導くんだ。これは、ゲノムを合成機械と考え、物理を確率的勾配と考えれば、遺伝学や生物学があらゆる生態的ニッチに適応するのと同じことだよ。私たちはここで同じことをスピードランしてるんだ。

Hacker Newsで議論の続きを見る

ハクソク