世界を動かす技術を、日本語で。

低背景鋼:AI汚染のない成分

概要

Low-background Steel とは、AI生成コンテンツに汚染されていないオンラインリソースを集めるために作られたサイト。 2023年3月 に開設し、AI登場以前の純粋な情報源をまとめて紹介。 低バックグラウンド鋼 の概念をコンテンツにも応用。 Wikipediaの旧データProject Gutenberg などを掲載。 追加情報源の 募集も呼びかけ

「Low-background Steel」サイトについて

  • サイトURL: https://lowbackgroundsteel.ai/
  • 開設時期: 2023年3月
  • 目的: AI生成コンテンツに汚染されていない情報源 の集約・紹介
  • ターゲット: テキスト・画像・動画 などの純粋なコンテンツを求めるユーザー
  • 特徴: AIコンテンツ爆発以前(2022年以前) に作成されたリソースへのリンク集

「Low-background Steel」とは

  • 本来は 放射性同位体で汚染されていない鋼や鉛 を指す用語
  • 1945年の Trinity Test以前に沈没した船 から回収される金属が典型
  • サイトではこの概念を 「AI生成コンテンツに汚染されていない情報」 に転用
  • 純粋なデータや知識の 保存・共有の重要性 を訴求

掲載リソース例

  • Wikipedia :ChatGPTリリース以前の データダンプ
  • Arctic Code VaultGitHub のアーカイブプロジェクト
  • Project Gutenberg著作権切れ書籍 のデジタルアーカイブ
  • その他、 AI未介入の信頼できる情報源 の紹介

コミュニティ参加の呼びかけ

  • 非AI生成コンテンツの新規情報源 の募集
  • サイト利用者への 情報提供・共有のお願い
  • 持続可能な知識保存 のための協力体制の構築

今後の展望

  • 情報源リストの拡充
  • AI時代における純粋な知識の価値 の再確認
  • コミュニティ主導型の情報保護活動 の推進

Hackerたちの意見

AIコンテンツに対してアレルギーがあるわけじゃないけど(そのうちそうなるかも)、この低背景鋼の比喩には感心した。すごいね。

AIコンテンツに対してアレルギーがあるわけじゃないけど、たぶんこれは恐怖症というより、自分の出力でAIをトレーニングするのを避けたいってことだと思う。実は最近、同僚とこの話をしてたんだ。AI以前のコンテンツは、もう二度と増やせないものだから、ますます貴重になっていくよね。理想を言えば、2015年頃に利用可能なデータを暗号的にタイムスタンプしておくべきだったけど、今は今で仕方ないよね。

私もアレルギーはないよ(サイトを作ったのは私だし)。人間が作ったものを追跡するためのアイデアだったんだ。

みんなが思ってるほど大きな問題になるとは思えないな。長期的には、AIには実際の経験から学んでもらいたいんだ(車の修理マニュアルを読むんじゃなくて、実際に車を修理することを考えてみて)。そうすれば、(1) 著作権のない無限のトレーニングデータが手に入るし、(2) AIが汚染されたトレーニングデータの問題をうまく回避できる。

予測:一般知能を持つ人型ロボット(エクス・マキナスタイル)が登場する前に、AIシステムが車を修理することはないと思う。そういうロボットが現れるまで、五つ星ホテルにAIメイドも出現しないだろう。これがあなたの主張を無効にするわけじゃないけど、今日とあなたが言ってる瞬間の間には、想像を超えるほどのギャップがあるから、「AIの雑音が言語の単語頻度データベースを汚染することを心配しなくて大丈夫、最終的には解決するから」って言うのは少し的外れだと思う。

ハルシネーションが引用されて、真実として扱われるのが残念だね。簡単な例を挙げると、「どのMS-DOSの生産性プログラムにConnect Fourが組み込まれていた?」って質問。私はMS-DOSエミュレーターを持っていて、答えを知ってるんだけど、ちょっとマイナーなものだから、毎回AIから違う答えが返ってくるのがすごい。正しい答えを出したのを見たことがないよ。上の質問をしてみて。それから、それが本当かどうか聞いてみて(たぶん考えを変えるよ!)。こういう答えがオンラインで引用されて、AIがその循環参照されたソースを元に学ぶことになると、真実がなくなっちゃうんだ。マジで上の質問を試してみて。AIが完全に作り上げた権威ある答えを繰り返し言ってる良い例だよ。

YouTubeには実際の車修理の経験に関するトレーニングデータが膨大にあるけど、全部著作権で保護されてるんだよね。AI企業がそのコンテンツを使う前にライセンスを取得すべきかどうかは、ちょっとした論争になってる。

どちらも (1. 著作権のないトレーニングデータを無限に供給してくれて、(2. AI汚染されたトレーニングデータの問題をうまく回避してくれる。これらは基本的に間違っているか、誤解を招くものだと思う。実際の経験を通じて自分のデータを生成する必要があるのはとても高くつくし、データ取得には実際の運用リスクが伴うことになる。Waymoは実際に車を運転して経験を積んでいるけど、単位時間あたりに得られるデータ量の「限界」はフリートの大きさに依存していて、実際の世界で安全に運転できるレベルに達する必要がある。もし車を修理したいのに、ポリシーに基づくロールアウト以外の知識源から始めないなら、たくさんの車を壊しながら学ぶことになる(そして、ロボットが失敗したことを人間に教えてもらうためにお金を払うことになる)期間があることを覚悟しなきゃいけない。メカニックにはマニュアルにアクセスできることや、明示的なトレーニングを受けていることが重要な理由があるし、これは人間でもAIでも同じこと。オフポリシーのRLアプローチを使っているかもしれないけど、素晴らしいね!もしオフポリシーデータが以前の世代のモデルからのデモンストレーションなら、それもAI汚染されたトレーニングデータだよ。だから、実践で学ぼうとしても、トレーニングデータの供給には意味のある制限があって(ウェブをスクレイピングするよりも生産コストが高いかもしれない)、おそらくまだAI汚染されている(でも、データの出所についてはより良い情報があるかもしれないけど)。

今日はなんだか予知能力がある気がするな。

よくやった!この「AIの汚染から自由なコンテンツ」という枠組みは前に聞いたことがある気がする。そういうアイデアはずっと前からあったんだろうね。でも、低背景鋼を比喩として使うのは、成功したコールショットとして自信を持って主張できると思うよ。

この例は少なくとも1年前にハッカーニュースで聞いたことがあるけど、もっと前かもしれないね。2年前のやつを見てみて: https://news.ycombinator.com/item?id=34085194

本当に君は間違ってると思う。コンテンツや合成データを注釈するプロセスは、AIの出力を将来の出力を良くするための勾配に変えるんだ、悪くするんじゃなくてね。LLMの出力ではそれがあまり明らかじゃないかもしれないけど、画像や動画モデルではすごく明らかだと思う。システムの最良の視覚出力を選ぶことで、わずかなエラーやテイストベースのキュレーションがシステムをより良いパフォーマンスと一般性に導くんだ。これは、ゲノムを合成機械と考え、物理を確率的勾配と考えれば、遺伝学や生物学があらゆる生態的ニッチに適応するのと同じことだよ。私たちはここで同じことをスピードランしてるんだ。

これはChatGPTのローンチ以来、よく使われる比喩だね。

現状、「AI汚染」がAIのトレーニングにとって実際の問題だとは思えない。2022年以前の公開データでトレーニングされたAIは、2022年以降のデータでトレーニングされたものよりも明らかに優れているわけじゃないんだ。むしろ、場合によっては新しいデータの方が、トークンごとに少しだけ良いパフォーマンスを発揮することもあるし、理由はわからないけどね。

2022年以前の公開データでトレーニングされたAIは、2022年以降のデータでトレーニングされたものよりも明らかに優れているわけじゃない。むしろ、場合によっては新しいデータの方が、トークンごとに少しだけ良いパフォーマンスを発揮することもあるし、理由はわからないけどね。これはいくつかの理由から本当に悪い論理だと思う。1) 2022年以降、LLMのトレーニング技術はかなり向上した。トレーニングデータにAIのノイズが含まれていることの悪影響は、桁違いに多くのパラメータやより良いトレーニング技術の利点を上回ることはないけど、それが全く悪影響がないわけじゃない。2) 「優れている」というのは非常にあいまいな言葉で、意味のある測定方法がまだ確立されていない。Gemini 2.5がGPT-4oより優れているのはみんなわかるけど、Gemini 2.5とClaude 4の違いを見分けるのは難しい。この段階でのノイズの影響は、同世代モデル間の小さな違いに関するものになるだろう。データで何かを証明するのが難しいほど小さな効果サイズを探しているので、ここでは基本原則に基づいて行動するのが妥当だと思う。基本原則は、AI生成コンテンツでトレーニングするのを避けるのが良いアイデアだと明確に示している。

そうそう、「低背景スチール」って概念の背後にある考えは、合成データでAIを訓練すると「モデル崩壊」が起きて、AIが完全に狂ったり無駄になったりする可能性があるってこと。実際にはそうなってないか、AI企業が内部でAIデータをふるいにかけるフィルターを持ってるかのどっちかだと思う。俺は前者に賭けるね。AI生成データに過剰にさらされることで、人間にもモデル崩壊の可能性があると思うけど、それはあくまで俺の経験則と直感に過ぎない。

まだ人々は本格的にゴミを生成し始めてないと思う。これからかなり増えると思うよ。

バナーに明らかにAI生成の画像を使う選択は意図的だったのかな?推測するに、DALL-Eのバージョン2に見えるんだけど。

無駄なAIのゴミはマジで見た目が良くないよね。こういうのには「要約すると」って返すのがデフォになってきた。誰かの考えを聞きたいのに、LLMの圧縮アーティファクトなんていらないよ。

実際にキュレーションされたコンテンツの方がまだマシじゃない?たとえば、ブログスパムや特定のグループが生成した可能性のあるコンテンツを取り除いたものとか。AIが登場する前から、質の悪いコンテンツが多かったのをはっきり覚えてるし。逆に、質が悪くても事実としては十分に有効なものもあるからね。

このサイトは文字通りYコンビネーターのために名付けられたんだよね!ちょっと哲学的な手のひら返しをすると、推論モデルに求めるべきことの一つは、コンテンツを取り込み、またそのコンテンツを消費する関数の固定点を見つける能力だと思う。俺も、人間のオリジナルコンテンツと、そのオリジナルコンテンツから派生したコンテンツ、さらにその派生から派生したコンテンツ…といったデータを混ぜて再帰的に訓練することで、基盤となるシステムの重要な特徴やパターンを抽出できると楽観視してるよ。

AI生成コンテンツは本質的に平均に回帰するもので、訓練や人間の有用性を損なう。AIが生成できるものを公開することに何のメリットもないよ、自分で考えてみて。AIコンテンツにはタグをつけて公開するのもいいかもしれないけど、それ以外は公共の迷惑であることが多いよ。

ナンセンスだね。ディープリサーチツールを使ったことある?ユートピアの誤謬に騙されないで。人間もゴミを出版するから。

これは数年前には直感的に魅力的な信念だったし、いくつかの限定的な実験的支持もあった。しかし、それ以降、(よくキュレーションされた)AI生成からの能力のブレークスルーが、これを決定的に否定したんだ。

自分で質問をすると、人間の専門家がその内容をチェックして名前を付けるステップがないんだよね。そのキュレーションと保証には価値がある。今、君の頭の中では「そんなことしてるわけないじゃん」と思ったかもしれないけど、実際、AI以前にはほとんどそういうことはなかったのは同意するよ。インターネット上のコンテンツの大半は、既に質が低くて、専門知識がない低賃金のライターによって急いで作られていたんだ。AIはそれを変えないよ。

AIによって修正されたりコピー編集されたコンテンツはどうなるの?今は音声メモに話しかけて、それを文字起こしして、トーンやリズムを整えるためにCGPTやClaudeに渡してブログ投稿を書いてるよ。

https://x.com/jeffreyhuber/status/1732069197847687658

ちょっと見てよ、Unicodeに新しい「プレーン」を追加する必要があるんだ。コミュニケーションに役立つすべての文字を反映させつつ、追加の状態ビットを使って…人間が出力したものを保証するためにね。この範囲でAI生成のテキストを出したら、即座に牢屋行きだよ。人間の目だけのためにね。この範囲のテキストにAIがトレーニングするのを許可したら、やっぱり牢屋行き。Fnord、「それは私には何にも見えない」。確かにAI生成だけど、すべてのAI出力はこの範囲を使って開示しなきゃいけない。さもなければ、そうじゃないふりをしている人は即座に牢屋行き。もちろん、すべての範囲は視覚的に区別できないホモグリフを生成するから、これは厳密にソフトウェアを介した準秘密のチャネルで公正な開示をするためのものなんだ。いろんなソースからテキストをコピー&ペーストすると、微妙な文字エンコーディングの違いでその出所が分かるよ。冗談は(1 - イプシロン)だけどね。

食べ物と同じように、完全に「オーガニック」(あるいは一部の言語では「生物的」)なコンテンツには市場価値があるだろう。つまり、人間が書いたり、描いたり、作曲したり、編集したり、キュレーションしたものだよ。食べ物と同じように、何が許可されるかの境界を定義するのは悪夢になるだろうし、コンテンツがオーガニックであることを証明するのは不可能だし、認証は完全に信頼のネットワークに基づくことになる。しかも、クリーンだと主張するものによって完全に汚染されるし、実際には高い価格を維持しながら、明らかに悪化しているかもしれない。

ずっと前から、プレーンテキストフォーマットを拡張してファイル内のサブストリングに出所メタデータを入れるべきだと思ってたんだ。これはそれだけど、別の実装だね。プレーンテキストは2本の導体ケーブルみたいなもので、すごく便利でコスト効果も高いけど、1つの抽象レイヤー(データピン)を追加するだけで、もっとクールなことができるようになるんだ。

AI生成コンテンツを含むネットワークトラフィックには、IPの悪意ビットを設定することを求める方が、ずっと混乱を少なくできるだろうね。

新しいプレーンを作る代わりに、何らかの結合文字や、ただの目に見えない記号を使えば、はるかに少ないエンコーディングスペースで同じ目的を達成できるよ。もちろん、テキストを処理しなきゃいけない人には、依然として悪夢になるけどね。