概要
- xkcdのカレンダー漫画で「11日」が異常に小さい理由の調査
- Google Ngramsで「11th」が他の日より少ない現象の確認
- 原因はタイプミスやOCR誤認識によるものと判明
- 1860年代以降、タイプライターの普及が誤認識を加速
- 「nth」などへの誤読も大きな要因
xkcdカレンダーと「11日」の謎
- 2012年11月28日、Randall Munroeがxkcdで カレンダー漫画 を公開
- 各日付の大きさは、Google Ngramsでの 言及頻度 に比例
- 7月4日、12月25日、各月の1日や末日などが大きく描かれる傾向
- 2月29日などは小さいが、特に「11日」が他の多くの日より 顕著に小さい
- タイトルテキストでも「9月以外の11日は他の日よりも明らかに少ない」と指摘
データ分析による実態把握
- 実際にNgramsデータベースで 各日付の出現頻度 を集計
- 各月の同じ日(例:1月1日、2月1日…)の中央値を算出
- 1日と15日が目立つが、 11日だけが大きく低い値
- 1800年から2008年までのデータでも 11日の低さは一貫
- 1860年代以降、11日の頻度がさらに低下し、20世紀前半には 半分程度 に
誤認識の実態と原因
- 11は「1」と「I(大文字アイ)」「l(小文字エル)」「i(小文字アイ)」と 見分けがつきにくい
- OCR(光学文字認識)やGoogleのアルゴリズムが 誤って認識 してしまう現象
- 例:March llth、July IIth、May iith などの誤記
- 9通りの誤認識パターンのうち、5種類以上が実際にデータベースで確認可能
- これらの誤記を元の11日に 加算すると頻度が回復
- 1860年代以前は差が消失し、それ以降も差の多くが解消
「nth」への誤認識とその影響
- 1860年代以降、 11thがnthと誤認識 される現象が多発
- 「January nth」などの 無意味なフレーズ がデータに多数出現
- 一部の年では、誤認識された「nth」の数が正しい「11th」より多い場合も
- 「nth」を加算すると、残りの差もほぼ全て解消
タイプライターとフォントの影響
- 1860年代、 タイプライターの登場 が誤認識の増加と関連
- 初期のタイプライターには「1」のキーがなく、小文字「l」で代用
- フォントも「1」と「l」が ほぼ区別できないデザイン に変化
- 印刷技術の向上で1970年代以降は減少傾向だが、 完全には解消されず
- 「nth」への誤認識の理由は不明だが、 機械学習の訓練データやフォント特性 が影響している可能性
結論と今後の課題
- 「11日」が少ないのは 技術的な誤認識 が主因
- タイプライターとフォントの歴史的変遷が大きく影響
- 「nth」誤認識の詳細な原因解明にはGoogleのアルゴリズム解析が必要
- 分析コードは Githubで公開