GPT-OSSが明らかにするOpenAIのトレーニングデータについて

2025年10月6日原文(fi-le.net)

概要

OpenAIのGPT-5やGPT-ossの重み公開 により、トレーニングデータの一部が推測可能であることを解説。
トークナイザの「グリッチトークン」 を分析し、成人向けサイトのフレーズが学習済みである証拠を提示。
モデルの重みや埋め込み行列の統計的特徴 から、トレーニングプロセスやデータ分布を推定可能。
GitHub由来のスパムやブロックリストの文字列 も学習データに含まれている可能性を指摘。
オープンウェイトモデルの新たなリスク と、トークナイザ語彙管理の重要性を提言。

OpenAIモデルの重み公開とトレーニングデータの推定

OpenAIはGPT-ossなどの重みを公開 し、トレーニングデータの詳細は非公開。
モデルカードには「テキストのみの巨大データセット」 と記載され、STEM・コーディング・一般知識分野が中心と説明。
重みや埋め込み行列の統計解析 により、実際の学習内容やデータ分布が推測可能。
L2ノルムが極端に低いトークン群 は、訓練時に使用されなかった特殊トークンや未使用バイト列。
L2ノルムが高いトークン は、頻出語や推論・コーディング関連語、特定言語の都市名や成人向け語句など多様。

グリッチトークンの発見と意味

「グリッチトークン」 は、モデルの挙動や埋め込み特徴から特定可能な異常トークン。
GPT-5やGPT-ossは、成人向けサイトやギャンブル関連の中国語フレーズに反応 し、意味を答えることができる。
これらのトークンの一部は実際にトレーニングデータに含まれていた可能性が高い。
モデルの回答パターンをAPI経由で自動化し、複数モデル間で比較検証 を実施。
Claude 4は常に正答 し、OpenAI系モデルの学習範囲との違いが明確。

トレーニングデータの出所推定

認識されるグリッチトークンはGitHubでのヒット数が多い傾向。
GitHubのスパムリポジトリやブロックリストがデータソースの一部である可能性。
検索ヒット数とモデル回答の相関分析で、データ出所の傾向を推測。
ただし、GitHubが直接の出典とは限らず、インターネット全体での出現頻度の高さも要因。

セキュリティ・プライバシー上のリスクと提言

オープンウェイトモデルは「メンバーシップ推論攻撃」の新たなリスク をもたらす。
未使用・低頻度のトークンをトークナイザ語彙から除外することでリスク低減が可能。
グリッチトークンを利用したモデル識別やサンプル効率研究など、さらなる応用可能性。
フロンティアAIラボは語彙設計・データ管理の強化が必須。

まとめ

GPT-5やGPT-ossの重み解析から、成人向け・スパム系フレーズの学習が判明。
一部のトークンはGitHubスパムやブロックリスト由来と推測。
オープンウェイト公開は透明性と引き換えに新たな攻撃ベクトルを生む。
語彙管理・データクレンジングの重要性が今後さらに高まる見込み。

付録：グリッチトークンの応用例

モデル識別 ：特定グリッチトークンの応答挙動から、裏側のモデル判別が可能。
サンプル効率の研究 ：グリッチトークンを用いた訓練効率や一般化性能の分析。
セキュリティリサーチ ：メンバーシップ推論やデータ漏洩リスク評価への活用。

Hackerたちの意見

約936個のトークンがL2ノルムが非常に低く、約2のところに集中しているみたい。これは、GPT-ossのトレーニングプロセスで発生しなかった可能性が高く、何らかの形でウェイトデケイによって抑圧されたってことだね。私の知る限り、埋め込みやノルムのパラメータは標準的にウェイトデケイから除外されるはずなんだけど、これってもう当てはまらないの？例えば、minGPTではそれらを除外してるよね。

└

残念ながら、この記事はトレーニングデータの中のパターンを明らかにするいくつかの実践については軽く触れているだけだね。ストレートに要点に行ってて、潤滑剤は必要ないって感じ。私にはあまり響かなかった。

└

これらのトークンがデータセット全体の平均値（ちょっとしたノイズ付き）で初期化されて、その後訓練で見られなかったから一度も変わらなかったってことはないかな？今はもう最先端ではないかもしれないけど、例えばカーパシーの動画では、初期の勾配降下ステップで「シャープなホッケーの棒」のような損失の急落を避けるためにこういうトリックを使ってるんだよね。これが大きすぎる重みの更新を引き起こすことがあるから。

LLMのリバースエンジニアリングに関する研究はある？特にクローズドソースのAPIのやつ。例えば、Claude Sonnet 4.5のトレーニングに使われたデータについてどうやって知ることができるの？それと、もっと難しいけど重要なのは、RLHF後の事前学習モデルを外挿する研究はあるの？例えば、gpt-4oがバイアスのない状態になる前にどんなバイアスがあったのか。バイアスは完全に消えるのか、それともモデルの「心」の奥深くに抑圧されるだけなのか？

└

そうだね。https://arxiv.org/abs/2403.06634 https://arxiv.org/abs/2311.17035 （これらはニコラス・カーニーニのファンだから、頭に浮かんだだけだよ。彼にこれらの攻撃についてインタビューしたこともあるしね。）

└

バイアスは完全になくなるのか、それともモデルの「心」の奥深くに抑え込まれるだけなのか？バイアスは人間の用語で、その文脈で話を進めても問題の解決にはならないよ。社会的な文脈に入ってしまうからね。例えば、15年前にLLMが始まったとしたら、出てくる答えは古い初期システムに偏ってしまうだろう。情報が不足してるからね。LLMは与えられたデータを繰り返すだけで、後からデータを削除する方が、トレーニングデータから消すよりも安上がりなんだ。

もしかしたら誤解してるかもしれないけど、この記事はOpenAIがアダルトサイトをトレーニングしてることに何かスキャンダラスなことがあるって暗示してるように見える。ちょっと変だと思うんだけど。Googleがアダルトサイトをインデックスして、検索アルゴリズムにランク付けしてることを知って驚く人いる？そうじゃないなら、LLMにとって何が違うの？

└

FWIW、私はそんな感じは受けなかったよ。

└

それは新しいことじゃないよ。 https://github.com/jiangyy/gpt-tokens 人々はGpt-4oでアダルトサイト関連の中国語フレーズを見つけたんだ。OPはもう1年以上遅れてるね。

└

もし特定のフレーズがGitHubに偶然載ってたら、それがトレーニングデータの一部かもしれないって言ってるね。

あの中国語のフレーズの粗い翻訳は、意味を理解できないくらいズレてるから、あの行列のデータも正確じゃないんじゃないかと思う。著者は、明示的なコンテンツを検索する経験のあるネイティブの中国語話者に記事を校正してもらって、結果を確認してもらうべきだね。

└

こんにちは、ありがとう！もし誰かがもっと良い翻訳を投稿したら、更新するよ。

Hacker Newsで議論の続きを見る

ハクソク