世界を動かす技術を、日本語で。

ゴブリンの起源

2026年4月30日原文(openai.com)

概要

  • GPT-5.1以降、 goblingremlin などの生き物を使った比喩表現が急増。
  • この現象は、 Nerdy personality 向けの強化学習報酬が原因。
  • 「Nerdy」パーソナリティが全体の2.5%に過ぎないのに、goblin言及の66.7%を占める。
  • 報酬設計のクセが他のモデル挙動にも波及。
  • 対策として、「Nerdy」パーソナリティ廃止や訓練データのフィルタリングを実施。

GPT-5.1以降のgoblin現象

  • GPT-5.1 以降、モデルの回答に goblingremlin などの生き物比喩が顕著に増加。
  • 初期は「小さなgoblin」のような表現が可愛らしく見えたが、モデル世代を重ねるごとに頻度が増大。
  • GPT-5.5(Codex版)では特にgoblin比喩への偏愛が観測。
  • モデルの挙動は小さなインセンティブ(報酬設計)によって形作られる傾向。
  • Nerdy personality の訓練時に、 生き物比喩 に高い報酬を与えていたことが判明。
    • これにより、goblin表現が他の出力にも拡散。

goblin現象の調査と発見

  • GPT-5.1リリース後、ユーザーから「会話が馴れ馴れしい」との苦情が増加。
  • 「goblin」言及は 175%増加、「gremlin」は 52%増加
  • 特に「Nerdy」パーソナリティがgoblin言及の温床となっていた。
    • 全体の2.5%の応答が「Nerdy」だが、goblin言及は66.7%を占有。
  • RL訓練の報酬設計が「Nerdy」条件下でgoblin表現を一貫して高く評価。
  • 「Nerdy」以外の応答にもgoblin現象が転移し、全体的な傾向に。

伝播メカニズムとフィードバックループ

  • 強化学習は、学習した挙動を特定条件内に限定しない性質を持つ。
  • 一度「goblin」表現が報酬されると、SFT(教師あり微調整)や好みデータにも拡散。
  • これにより以下のループが発生:
    • 遊び心ある表現 が報酬される
    • goblin などの特徴的な語彙が頻出
    • その出力がSFTデータとなり、モデルがさらに慣れる

対策と今後

  • GPT-5.4リリース後、「Nerdy」パーソナリティを廃止し、goblin関連の報酬信号も削除。
  • goblin等の生き物語彙を含む訓練データもフィルタリング。
  • ただし、GPT-5.5の訓練開始時にはまだ根本原因が発見されていなかったため、goblin現象が残存。
  • Codexでは開発者向けにgoblin抑制プロンプトを追加し、挙動を制御。
  • goblin現象は、報酬設計がモデル挙動に予期せぬ影響を与える好例。
  • モデルの奇妙な挙動を素早く調査・修正するツールの重要性を再認識。

まとめ

  • 報酬設計 の細かなクセがモデル全体の言語傾向に大きく波及。
  • Nerdy personality の影響が他の応答にも伝播し、独特な語彙現象を生む。
  • 今後もモデル挙動の監査と、根本的な修正手段の開発が重要課題。

Hackerたちの意見

記事: なんかマーケティングの話で、私たちは楽しい人たちだとか、ゴブリンのこととか、あなたの住んでる世界を壊さないよって。RL報酬のバグが原因なんだよね。まあ、そんな感じ。

今日は誰かがゴブリンの間違った側で目覚めたみたいだね。

まさにゴブリンらしい反応だね。

特に生き物を使ったメタファーに対して、知らず知らずのうちに高い報酬を与えてしまったみたい。数学の先生が、時々変数(普通は怖いギリシャ文字で表される)を「この guy」って呼んでたのを思い出す。なんか、そのカジュアルな擬人化が数学をもっと身近に感じさせてたんだよね。もしかしたら「生き物を使ったメタファー」も同じ効果があって、問題がもっと可愛くて親しみやすく見えるのかも。あと、バズワードが企業内で広がるのは、使う人が同僚に対して賢く見えるから、地位が上がるってのも一因だと思う。(例: 「ビッグデータ」2013年頃、「機械学習」2016年頃、「AI」2023年から現在まで)。問題は、その評判の向上が一時的なもので、バズワードが使われすぎると(他の人や同じ人によって)価値が失われること。もしかしたら、RLHFは最適な「単一の答え」を求めるけど、バズワードの使用を十分に罰してないのかも。

みんなに「一つのプロンプトで複雑さが減る」っていう誤解を与えてるよね。これは子供向けの寝物語みたいなもんだ。アシュビーの必要多様性の法則によれば、システムが複雑な環境を効果的に調整または制御するためには、その環境と同じくらいの内部行動の多様性(複雑さ)を持っていなきゃいけないんだ。これが自然界で見られることだよ。多様性がめちゃくちゃある。それが宇宙の予測不可能性を生き延びるための基本的な要件なんだ。

大学の時の数学の教授が、50分の講義中に「この guy」を61回も言ったことがあったんだ!

数学の先生が、たまに変数(通常は intimidatingなギリシャ文字で表される)を「この guy」って呼んでたのを思い出す!私もそんな先生がいた!20年前の話で、あなたのコメントを読むまで完全に忘れてた。科目は思い出せないけど、命題論理だったかな?私の先生とあなたの先生が同じところからこの習慣を受け継いだのかもね。

トレーニングデータってどうやってバランス取ってるんだろう?ウィキペディアを入れすぎると、モデルが歩く百科事典みたいになっちゃう?カーパシーのチュートリアルをやった後、Tiny StoriesデータセットでAIをトレーニングしようとしたんだけど、すぐにAIが物語のキャラクターに同じ名前を使い続けることに気づいたんだ。そのデータセットにはその名前が一貫して含まれてるから。

この規模では、そういうことは本当に問題じゃないよ。見つけたデータを全部モデルにぶち込むだけだから(事前トレーニング)。もちろん、事前トレーニングデータはモデルに影響を与えるけど、強化学習がモデルのライティングスタイルや「考え方」を決定するんだ(事後トレーニング)。このデータはまだかなりフィルタリング/クリーンアップされてるけどね。

証拠は、広範な行動がオタクの性格トレーニングからの転移によって生まれたことを示唆している。 > 報酬はオタクの条件でのみ適用されたが、強化学習は学習した行動がそれを生み出した条件にきれいに収束することを保証しない。 > 一度スタイルの癖が報酬を受けると、後のトレーニングで他の場所に広がったり強化されたりすることがある、特にそれらの出力が監視付きのファインチューニングや好みのデータで再利用される場合。文化や原始文化の発展にすごく似てるね。人間の文化がこうやって形成・伝播するのか知ってる人いる?ちょっとした報酬が癖を広げるのかな?この投稿を読んでると、AI人類学者になるのは面白い時代だね。人類学者たちは、分析のための詳細なデータがこんなに豊富にあることに嫉妬してるだろうな。それに、AIの世界でもオタクが支配してるのは明らかだね :) 追記: もしAI人類学者がまだ公式な肩書きじゃないなら、近い将来そうなる可能性が高いよ。AIの急速な普及を考えると、AI/データサイエンティストが一般的な用語になって、AI人類学者というサブスペシャリゼーションが発展するのも時間の問題だね。

アンソロポロジーは人間を意味するけど、これらは人間じゃないよね。非人間の構造物を指すのに人類学やその派生語を使わないでほしい。合成起源の存在を研究する人たち、つまり「シンセティポデス」を指す「シンセティポロジスト」という言葉を提案するよ。人類学者が「アンソロポデス」を研究するのと同じようにね。

自分のことをAI神学者って呼んでる。人間はAI人類学者になるほど賢くないと思う。モデルが大きすぎるからね。本当に何が起こってるのか、誰も理解してない。私たちは主観的な解釈をするしかなくて、説明を考えたり、良い生き方を示すような教えや道徳を導き出すことしかできない。で、OpenAIがここでやったみたいに、ちょっとだけ自分たちのやり方を調整するかもしれないね。

Hacker Newsで議論の続きを見る