世界を動かす技術を、日本語で。

GPT-OSSが明らかにするOpenAIのトレーニングデータについて

概要

  • OpenAIのGPT-5やGPT-ossの重み公開 により、トレーニングデータの一部が推測可能であることを解説。
  • トークナイザの「グリッチトークン」 を分析し、成人向けサイトのフレーズが学習済みである証拠を提示。
  • モデルの重みや埋め込み行列の統計的特徴 から、トレーニングプロセスやデータ分布を推定可能。
  • GitHub由来のスパムやブロックリストの文字列 も学習データに含まれている可能性を指摘。
  • オープンウェイトモデルの新たなリスク と、トークナイザ語彙管理の重要性を提言。

OpenAIモデルの重み公開とトレーニングデータの推定

  • OpenAIはGPT-ossなどの重みを公開 し、トレーニングデータの詳細は非公開。
  • モデルカードには「テキストのみの巨大データセット」 と記載され、STEM・コーディング・一般知識分野が中心と説明。
  • 重みや埋め込み行列の統計解析 により、実際の学習内容やデータ分布が推測可能。
  • L2ノルムが極端に低いトークン群 は、訓練時に使用されなかった特殊トークンや未使用バイト列。
  • L2ノルムが高いトークン は、頻出語や推論・コーディング関連語、特定言語の都市名や成人向け語句など多様。

グリッチトークンの発見と意味

  • 「グリッチトークン」 は、モデルの挙動や埋め込み特徴から特定可能な異常トークン。
  • GPT-5やGPT-ossは、成人向けサイトやギャンブル関連の中国語フレーズに反応 し、意味を答えることができる。
  • これらのトークンの一部は実際にトレーニングデータに含まれていた可能性が高い
  • モデルの回答パターンをAPI経由で自動化し、複数モデル間で比較検証 を実施。
  • Claude 4は常に正答 し、OpenAI系モデルの学習範囲との違いが明確。

トレーニングデータの出所推定

  • 認識されるグリッチトークンはGitHubでのヒット数が多い傾向
  • GitHubのスパムリポジトリやブロックリストがデータソースの一部である可能性
  • 検索ヒット数とモデル回答の相関分析で、データ出所の傾向を推測
  • ただし、GitHubが直接の出典とは限らず、インターネット全体での出現頻度の高さも要因

セキュリティ・プライバシー上のリスクと提言

  • オープンウェイトモデルは「メンバーシップ推論攻撃」の新たなリスク をもたらす。
  • 未使用・低頻度のトークンをトークナイザ語彙から除外することでリスク低減が可能
  • グリッチトークンを利用したモデル識別やサンプル効率研究など、さらなる応用可能性
  • フロンティアAIラボは語彙設計・データ管理の強化が必須

まとめ

  • GPT-5やGPT-ossの重み解析から、成人向け・スパム系フレーズの学習が判明
  • 一部のトークンはGitHubスパムやブロックリスト由来と推測
  • オープンウェイト公開は透明性と引き換えに新たな攻撃ベクトルを生む
  • 語彙管理・データクレンジングの重要性が今後さらに高まる見込み

付録:グリッチトークンの応用例

  • モデル識別 :特定グリッチトークンの応答挙動から、裏側のモデル判別が可能。
  • サンプル効率の研究 :グリッチトークンを用いた訓練効率や一般化性能の分析。
  • セキュリティリサーチ :メンバーシップ推論やデータ漏洩リスク評価への活用。

Hackerたちの意見

約936個のトークンがL2ノルムが非常に低く、約2のところに集中しているみたい。これは、GPT-ossのトレーニングプロセスで発生しなかった可能性が高く、何らかの形でウェイトデケイによって抑圧されたってことだね。私の知る限り、埋め込みやノルムのパラメータは標準的にウェイトデケイから除外されるはずなんだけど、これってもう当てはまらないの?例えば、minGPTではそれらを除外してるよね。

残念ながら、この記事はトレーニングデータの中のパターンを明らかにするいくつかの実践については軽く触れているだけだね。ストレートに要点に行ってて、潤滑剤は必要ないって感じ。私にはあまり響かなかった。

これらのトークンがデータセット全体の平均値(ちょっとしたノイズ付き)で初期化されて、その後訓練で見られなかったから一度も変わらなかったってことはないかな?今はもう最先端ではないかもしれないけど、例えばカーパシーの動画では、初期の勾配降下ステップで「シャープなホッケーの棒」のような損失の急落を避けるためにこういうトリックを使ってるんだよね。これが大きすぎる重みの更新を引き起こすことがあるから。

LLMのリバースエンジニアリングに関する研究はある?特にクローズドソースのAPIのやつ。例えば、Claude Sonnet 4.5のトレーニングに使われたデータについてどうやって知ることができるの?それと、もっと難しいけど重要なのは、RLHF後の事前学習モデルを外挿する研究はあるの?例えば、gpt-4oがバイアスのない状態になる前にどんなバイアスがあったのか。バイアスは完全に消えるのか、それともモデルの「心」の奥深くに抑圧されるだけなのか?

そうだね。https://arxiv.org/abs/2403.06634 https://arxiv.org/abs/2311.17035 (これらはニコラス・カーニーニのファンだから、頭に浮かんだだけだよ。彼にこれらの攻撃についてインタビューしたこともあるしね。)

バイアスは完全になくなるのか、それともモデルの「心」の奥深くに抑え込まれるだけなのか?バイアスは人間の用語で、その文脈で話を進めても問題の解決にはならないよ。社会的な文脈に入ってしまうからね。例えば、15年前にLLMが始まったとしたら、出てくる答えは古い初期システムに偏ってしまうだろう。情報が不足してるからね。LLMは与えられたデータを繰り返すだけで、後からデータを削除する方が、トレーニングデータから消すよりも安上がりなんだ。

もしかしたら誤解してるかもしれないけど、この記事はOpenAIがアダルトサイトをトレーニングしてることに何かスキャンダラスなことがあるって暗示してるように見える。ちょっと変だと思うんだけど。Googleがアダルトサイトをインデックスして、検索アルゴリズムにランク付けしてることを知って驚く人いる?そうじゃないなら、LLMにとって何が違うの?

FWIW、私はそんな感じは受けなかったよ。

それは新しいことじゃないよ。 https://github.com/jiangyy/gpt-tokens 人々はGpt-4oでアダルトサイト関連の中国語フレーズを見つけたんだ。OPはもう1年以上遅れてるね。

もし特定のフレーズがGitHubに偶然載ってたら、それがトレーニングデータの一部かもしれないって言ってるね。

あの中国語のフレーズの粗い翻訳は、意味を理解できないくらいズレてるから、あの行列のデータも正確じゃないんじゃないかと思う。著者は、明示的なコンテンツを検索する経験のあるネイティブの中国語話者に記事を校正してもらって、結果を確認してもらうべきだね。

こんにちは、ありがとう!もし誰かがもっと良い翻訳を投稿したら、更新するよ。

面白い記事だね。今のところAIには距離を置いてるけど、AIの仕組みについて学ぶのは楽しい。私が持ってる疑問は、LLMは新しいトークンに出会ったときに何をするのかってこと。文脈や語源、使用法から実際に学べるのかな?子供の頃、新聞や文学の中の多くの言葉の意味がわからなかったけど、その言葉が何を意味するのか知ってるふりをしたり、意味を完全に知らなくてもやり過ごしたりしてた。時間が経つにつれて、これらの言葉に慣れて、文脈の中で理解できるようになったけど、必ずしもその言葉を発音したり、自分の文章で使ったりできるわけじゃなかった。新しい言葉に出会うたびに辞書を取り出すわけじゃなかったし、これがほとんどの人が読むことを学ぶ方法だと思う。新しい言葉に出会って、全く知らない状態から少し慣れて、自信を持って使えるようになるまでの徐々に変化していく感じ。私たちはLLMのようにトークン化してるわけじゃないし、私たちの言語は何十万年もの発展の産物だから。じゃあ、LLMはまだトークン化されていない言葉をどうやって学ぶの?それとも、これは最初から組み込まれてるの?

s/birth/berth :)

知識のない人への警告。トークナイザーは全データセットをカバーしてる。基本的には固定サイズのハフマンコードで、一般的な文字の断片をまとめてるんだ。例えば、100個の最も一般的な英単語はたぶん全部が単一のトークンだね。学習中、モデルは子供が学ぶのと似たような感じで進むよ。まずトークンをまとめて、言語の深い規則性を学ぶ。「news[paper]」が「news[q77.bfe]」よりも可能性が高いって感じでね。そこから、これらの断片をどんどん大きなチェーンに組み立てていく。同様に、まずテーマごとのグルーピングを学ぶ。「word」が「dictionary」の後に出てくる可能性が高いって感じで。次に「パターン」を拾い始める。「as a [baby|child|kid] I had no [idea|concept|clue]」みたいな。ある時点で、自然に言語から概念を抽象化する。「as a child」は「als ich ein Kind war」と同じニューロンで内部的に表現されるようになる。そして、私たちには理解できない魔法が起こって、話せる神経ネットワークが出てくるんだ。プログラムを書いたり、ツールを使ったりもできるようになる。明確に言うと、これはRLの前の話で、たぶんこれらのパターンはトレーニングデータに広く存在していて、モデルはすでに「パターンを完成させる」方法を理解してるんだ。RLはその上に魔法をかけて、20%のベンチマークから80%に引き上げて、AIアシスタントができるってわけ。

LLMのトレーニングプロセスは、その概念的なレベルで動いてるわけじゃないよ。やってることは、たくさんの可能な意味を調べて、一番合うものを見つけて、その方向に「理解」を進めていく感じ。何度も繰り返すうちに、新しい単語と使われる文脈との関連性ができてくる。新しい単語は通常、既存のトークンの組み合わせだけど、新しいモデルのトレーニングの初めの段階では、トークンが何を意味するか「知らない」んだ。UTF-8のバイトを別々のトークンとして扱うこともできるけど、それには結果が知識や理解、知識のように見えるために大きなモデルが必要になる。トークナイゼーションは、word2vecのようなシステムを使って各トークンにベクトル空間での意味的埋め込みを割り当てることを可能にして、モデルに少しアドバンテージを与えるんだ。--- 兄弟コメントへの返信 https://news.ycombinator.com/item?id=45485439、レート制限に引っかかっちゃったから: > 学習中、モデルは […] トークンをまとめ始める こんな風に動くMLシステムを設計することはできると思うし、たぶん1000億パラメータのGPTモデルよりも効率的にトレーニングできるだろうけど、GPTモデルのトレーニングはそんな風には動かないよ。代わりに、すべてのことを並行して試みるんだ(ただし、早い部分の解決策が遅い部分の解決策よりも先に落ち着くとは思うけど)。同じプロセスがすべての振る舞いに責任を持ってる。私たちは「魔法」を理解してるよ。ただ、それが本当に複雑なシステムを生み出すから、その反復的な振る舞いを特定するのが難しいんだ。(比較のために、反復関数f_c(z) = z² + cを0から始めて繰り返すと、マンデルブロ集合ができる。)アナロジーを使うと、トレーニングデータは風景で、GPTモデルの振る舞いは気象システムみたいなものだ。(パラメータ数は大気の量みたいなもの。)気象には特別な魔法はないけど、予測するのが難しいほど複雑で、私たちの理解の小さな隙間が長期的な予測を非常に不正確にすることがある。それでも、GPTモデルの可能な能力について「GPTモデルはXをすることは決してできない、チートしない限り」みたいな一般的なことは言えるよ。RLの魔法は、たぶんよく理解されてると思うけど、私自身は理解してないんだ。(何をするかは知ってるけど、モデルに何をしてるのかはわからない。)

トークンから構成された言葉の意味を推測できると思う。未知の言葉の意味を接頭辞や接尾辞、出身国、文脈などを基に推測できるのと同じようにね。全く新しいトークンについては、文脈に頼るしかないだろうね。おそらく、訓練の初期段階ではそういうことができると思う。

この記事の例をいくつかGemini 2.5 proで試してみたけど、ほとんど完璧に処理できてるみたい。Googleのモデルは、違うグリッチトークンに弱いのかな?技術的な話はちょっと難しかったけどね。

グリッチトークンはトークナイザー特有のものであるべきだよ。GeminiはOpenAIのモデルとは違うトークナイザーを使ってる。OpenAIのグリッチトークンの起源は結構面白いよ。彼らは初期のトークナイザーを早い段階のトレーニングデータにある一般的な文字列で訓練したんだけど、人気のあるサブレディットが変なトークンを整数に割り当てるほど一般的にしちゃったんだ。例えば、https://reddit.com/r/countingの頻繁に投稿するdavidjlみたいにね。詳しくはここにあるよ: https://simonwillison.net/2023/Jun/8/gpt-tokenizers/#glitch-...

トークンスペースが「低品質」なトークンに無駄に使えるほど広いなら、量子化モデルがより良く機能するために小さなトークンスペースを使う研究はされてるのかな?「広告トークン」を見たときにふと思っただけなんだけど。

それって、30bパラメータのモデルがあっても、同時に3bしかアクティブにならないってこととまさに同じじゃない?

この記事には「GPT-5はアダルトサイトのフレーズで訓練された」と書いてある。でも、これはちょっと誤解を招く表現だね。実際には、GPT-5はアダルトサイトにも出てくるフレーズで訓練されたってだけで、データの出所がGitHubみたいなアダルトフレーズを含むコンテナだっていう推測があるだけなんだ。

これはブログ記事の最後で触れられてるよ。

中国のアダルトサイトの広告が、再パッケージされた無料や海賊版コンテンツの中にあふれてるよね。GitHubやシャドーライブラリ、YouTubeなど、いろんなサイトを通じて配信されてるし。だから、ホワイトノイズみたいな音声を流すと、その広告が出てくることもあるんだよね。

憲法改正で、すべての商用AIモデルをオープンソースにして、トレーニングデータや基本プロンプトへのリンクを必須にしてほしいな。公共のデータを使ってるんだから、私たち「市民」が所有すべきだよね。いつか、思ってるより早く、私たちのノートパソコンやデスクトップ、スマホで超巨大なモデルが簡単に動かせるようになると思う。AIは無料であるべきだよ。過剰に宣伝されてて、高すぎる。プライバシーとセキュリティのためにこの設定があったら最高だな。まあ、ちょっと関係ないけど…(こんな漏洩や隠れた基本プロンプトを心配する必要ある?全部100%オープンソースにすべきだよ。プライバシーとセキュリティを確保する唯一の方法だから)。それと、長いこと見てるだけだったけど、初めて投稿するよ!このことを考えたら、どうしても言いたくなったんだ!よろしく!

公共の利益のために、公共信託に保管されるのがいいと思う。

残念だけど、アメリカが「アメリカ対世界」っていうメンタリティを持ってる限り、近い将来は非常に難しいと思う。これが実現したらいいけど、すぐに却下されるだろうね。

じゃあ、同じ議論がすべてのスクレイピングデータにも当てはまるんじゃない?

なんで憲法改正が必要なの?

すべての商用AIモデルをオープンソース化し、すべてのトレーニングデータと基本プロンプトへのドキュメントとリンクを要求する憲法改正があればいいのに。 > 公共データで訓練されているのに、私たちの費用でやってるから、私たち市民が所有すべきだよね。ブログ記事の面白い部分で訓練された人たちは、私と同じようにアメリカ人じゃないことが多い。 > AIは無料であるべきだ。過剰評価されて高すぎる。プライバシーとセキュリティのためにこの仕組みがあればいいな。あと、このブログ記事全体は特定の無料オープンウェイトモデルに興味があるから存在してるだけだよね。「ソース」はだいたい「インターネット」で、ほとんどのモデルメーカーと同じくらいのアクセスがある(つまり、アクセスできないところでは、彼らは明示的なライセンス権を持ってるし)、おそらく明示的に*海賊版のコンテンツも含まれてる(どのモデルメーカーがそれをやってるかは追跡してないけど)。*つまり、偶然ではなく

あなたが言ってるのは、アメリカの市場経済とは真逆の計画経済に近いね。政府は、民間企業が必要な力ではないと見なされるから、公共の利益のために物を取り上げる権限を持ってる。うまくいくこともあれば、そうでないこともあるけど、そんな風に経済を「マネーボール」できるのは特定の国だけだよ。アメリカはもうその試みすら過ぎ去った。ここでのあなたの気持ちはわかる(FOSSについて同意するけど)、アメリカでこれが実現する可能性はほとんどゼロだよ。2030年までにAIがケーブルテレビみたいにならないだけでもラッキーだね。

公共データで訓練されてるって言うけど、これは疑問だね、まあいいけど… > 私たちの費用で? > だから私たち市民が所有すべきだってこと?トレーニングデータに加えて、モデルのアーキテクチャもその効果を大きく左右すると思うんだけど、なんで私たちがアーキテクチャを所有する必要があるの?

他の作品の変形を著作権で保護できるのは新しいことじゃないし、彼らは公共データだけで訓練されてるわけじゃないよ。

面白いね。ところで、小さなタイプミスがあるよ。正しくは「SolidGoldMagikarp」で、kが入るんだ。あのトークナイザーだと間違いやすいよね、ハハ。アダルトサイトから来てるっていうより、むしろ侵害されたサイトからだと思う。前にもそんなことがあったけど、その時はほとんどポルノとかそんな感じだったな。