Show HN: Hacker Newsのエムダッシュユーザーリーダーボード（ChatGPT以前）

2025年8月30日原文(gally.net)

概要

emダッシュ（—） の使用がAI生成テキストの疑いを招く現象
dang の提案を受けてHNユーザーのランキング作成
ChatGPTリリース前 の投稿を対象に分析
dang本人は 僅差で2位
Claude Code による技術支援とHTML作成

emダッシュ（—）とAI生成テキストの関連性

emダッシュ の頻繁な使用が AI生成 テキストの可能性と関連付けられる傾向
dang の提案に触発されて分析を実施
2022年11月30日以前 （ChatGPTリリース前）のHN投稿を調査対象
投稿内に emダッシュ が含まれる割合でユーザーをランキング化

HNユーザーランキング作成の経緯

dang 自身は 僅差で2位 にランクイン
Claude Code が Google BigQuery を活用したHNデータベース検索方法を提供
リーダーボードのHTML 作成もClaude Codeが担当

参考リンク

dangの提案投稿 ：https://news.ycombinator.com/item?id=45053933

Hackerたちの意見

エムダッシュの配布って、実際のUnicodeエムダッシュ文字だよね？1990年代に論文を書くためにLaTeXを勉強しなきゃいけなかったから、それ以来「---」の癖がついちゃったんだけど、今はそれがなんか変なLLMのサインになってるのかなって思ってる。

└

対比を設定するスタイルが、実際のLLMのサインだと思う。ほとんどの人が打ち方を知らないタイポグラフィマークを使ってるのは、ただの火に油を注ぐようなもんだね。

└

Macだと簡単なキーボードショートカットがあるよ。エムダッシュを使うことに興味がある「Macユーザーの印」って感じで見てたけど、今はMacじゃないから、LaTeX以外で本物のエムダッシュをどうやって作るか分からないや。

└

自分のコンポーズキーを右のオルト + 左のコントロールに設定したから、今は---を—に変えたり、--を–にしたりできるようになったよ（エンダッシュの話は誰もしてないけど）。

エムダッシュの投稿数の合計じゃなくて、投稿全体に対する割合を見たらデータがどう変わるか興味あるな。後から登録した人たちがリストの上に来るんじゃないかな？

└

ずっとエンダッシュを使ってたことに気づいた。これはアイデンティティクライシスだ。

面白いけど、コメントあたりのエムダッシュの比率の方がもっと興味深いかも？そうじゃないと、単に投稿数の多さに偏ってるように見えるし。

└

今日、HuggingFaceのHNデータセットを使ってこれを試してみた。エムダッシュを使ったコメント数 / 総コメント数を計算したら、2018年に何かの理由で急増して、データセットの最後の方では2024年の後半にまた急増し始めたみたい。残念ながら2025年のデータはなかったけど、エムダッシュ好きが「genAI以前から使ってた」って言ってるのは嘘じゃないかもって思わせるには十分だった。

Google BigQueryのHN公開データセットを使って、無料で許可されているクエリの範囲内で簡単にできると思うよ：SELECT EXTRACT(YEAR FROM timestamp) AS year, SUM(CASE WHEN text LIKE '%—%' THEN 1 ELSE 0 END) AS withDash, COUNT() AS total, SUM(CASE WHEN text LIKE '%—%' THEN 1 ELSE 0 END) / COUNT() AS fraction FROM bigquery-public-data.hacker_news.full WHERE type = 'comment' GROUP BY year ORDER BY year; year with— total frac 2006 0 12 0.000 2007 13 70858 0.000 2008 461 247922 0.001 2009 1497 491034 0.003 2010 3835 842438 0.005 2011 4719 1044913 0.005 2012 5648 1246782 0.005 2013 7881 1665185 0.005 2014 8400 1510814 0.006 2015 9967 1642912 0.006 2016 12081 2093612 0.006 2017 14530 2361709 0.006 2018 19246 2384086 0.008 2019 23662 2755063 0.009 2020 27316 3243173 0.008 2021 32863 3765921 0.009 2022 34657 4062159 0.009 2023 36611 4221940 0.009 2024 32543 3339861 0.010 2025 30608 2231919 0.014 だから、確実に増えてるね。「—」を使うユーザーの割合を全コメントに対して調べるクエリ：SELECT by, SUM(CASE WHEN text LIKE '%—%' THEN 1 ELSE 0 END) / COUNT() AS fraction, COUNT() AS total, MIN(timestamp) AS minTime, MAX(timestamp) AS maxTime FROM bigquery-public-data.hacker_news.full WHERE type = 'comment' AND timestamp 100 ORDER BY fraction DESC LIMIT 250; zmgsabstが最も多く使ってる [1]、westoncb [2]は4番目に多い古いアカウントだよ。

└

zmgsabstのコメントをちょっと見たけど、彼はダッシュの周りにスペースを入れて使ってるね。こういう感じ。ChatGPTはいつもスペースなしで使ってる—こういう感じ。

└

年配の人たち、たとえば40代以上の人たちは、emダッシュに慣れているんだ。

へへ、トップ50か。俺が入ってるわけないよ、そんなに投稿してないし。あ、もっと完全なリーダーボードだ—クリック。おお、俺は51位だ。

Hacker Newsで議論の続きを見る

ハクソク

Show HN: Hacker Newsのエムダッシュユーザーリーダーボード（ChatGPT以前）

概要

emダッシュ（—）とAI生成テキストの関連性

HNユーザーランキング作成の経緯

参考リンク

Hackerたちの意見