概要
- Seahorse emoji の存在についてLLMが誤信する現象の解説
- 大規模言語モデル がなぜ「タツノオトシゴの絵文字はある」と答えるかの分析
- logit lens を使ったモデル内部状態の可視化手法の紹介
- 出力トークンの生成過程 とその誤動作の理由
- 人間の記憶・認知 とLLMの誤信の関連
LLMはなぜ「タツノオトシゴの絵文字は存在する」と信じるのか
- gpt-5-chat, gpt-5, claude-4.5-sonnet などの主要LLMは「タツノオトシゴの絵文字はある」と100%回答
- llama-3.3-70b もほぼ同様の結果を示す
- RedditやSNS上 でも「タツノオトシゴの絵文字があった」と記憶している人が多数存在
- Google検索 でも「seahorse emoji」を巡る多くの情報やミーム、消えたと主張するコンテンツが見つかる現象
- Unicode では2018年に正式提案されたが却下され、実際には絵文字は存在しない
LLMの誤信の背景
- 学習データ内 で多くの人間が「タツノオトシゴ絵文字がある」と誤認しているため、モデルも同様の誤信を持つ可能性
- 水中動物の絵文字 がUnicodeに多く存在することから「タツノオトシゴも当然あるはず」と一般化しやすい
- 新しいコンテキスト ごとに「タツノオトシゴ絵文字存在」という潜在的な誤信から出発する傾向
なぜ人間とLLMで挙動が異なるのか
- 人間 は実際に絵文字キーボードで探して「ない」と気付くが、LLMは「誤った確信」のまま出力を生成
- LLM は「存在しない絵文字」を出そうとしても、最終的に近い別の絵文字や誤ったトークンを出力
logit lensによる内部状態の可視化
- logit lens とは、モデルの各層の出力(residual)に対して lm_head を通し「もしこの層で出力したらどのトークンか」を可視化する手法
- 早い層 では意味不明なトークンが多いが、 中間層以降 では「sea」「horse」など 概念的に正しい単語 が現れる
- 最終層 では「seahorse+emoji」的なベクトルを構築しようとするが、対応する絵文字がないため「魚」や「馬」などで妥協
logit lensの例
- fish emoji の場合:「fish+emoji」ベクトルが構築され、最終的に🐟が正しく出力
- seahorse emoji の場合:「seahorse+emoji」ベクトルを構築しようとするが、該当トークンがなく、似た動物や誤った絵文字が出力される
lm_headの仕組みとトークン出力
- lm_head は全トークン(約30万)のベクトルと入力residualの類似度を計算し、最も近いものを出力トークンとする
- 「hello」を出力したい場合 は「hello」トークンのベクトルに近いresidualを構築
- 「seahorse emoji」を出力したい場合 は「seahorse+emoji」的なベクトルを作るが、該当トークンが無いため失敗
人間の誤記憶とLLMの誤信の関係
- 多くの人間 が「タツノオトシゴの絵文字があった」と記憶している現象(マンデラ効果的な現象)
- LLM も人間の誤信を学習し、同様の誤った応答を生成
- サンプルの繰り返し や コンテキストの蓄積 によって、誤った情報が強化されるリスク
まとめ
- LLMは人間と同様、「存在しそうなもの」を想像しやすい特性 を持つ
- logit lens などの可視化手法により、モデルが「概念的に正しいが現実に存在しない」ものを出力しようとする様子が観察可能
- 誤った知識の伝播 や、 人間の記憶・認知との類似性 がLLMの応答に現れる現象
- 「タツノオトシゴの絵文字」は存在しない が、多くのLLMと人間は「ある」と信じてしまう心理と技術的背景