世界を動かす技術を、日本語で。

Show HN: Hacker Newsのエムダッシュユーザーリーダーボード(ChatGPT以前)

概要

  • emダッシュ(—) の使用がAI生成テキストの疑いを招く現象
  • dang の提案を受けてHNユーザーのランキング作成
  • ChatGPTリリース前 の投稿を対象に分析
  • dang本人は 僅差で2位
  • Claude Code による技術支援とHTML作成

emダッシュ(—)とAI生成テキストの関連性

  • emダッシュ の頻繁な使用が AI生成 テキストの可能性と関連付けられる傾向
  • dang の提案に触発されて分析を実施
  • 2022年11月30日以前 (ChatGPTリリース前)のHN投稿を調査対象
  • 投稿内に emダッシュ が含まれる割合でユーザーをランキング化

HNユーザーランキング作成の経緯

  • dang 自身は 僅差で2位 にランクイン
  • Claude CodeGoogle BigQuery を活用したHNデータベース検索方法を提供
  • リーダーボードのHTML 作成もClaude Codeが担当

参考リンク

Hackerたちの意見

エムダッシュの配布って、実際のUnicodeエムダッシュ文字だよね?1990年代に論文を書くためにLaTeXを勉強しなきゃいけなかったから、それ以来「---」の癖がついちゃったんだけど、今はそれがなんか変なLLMのサインになってるのかなって思ってる。

対比を設定するスタイルが、実際のLLMのサインだと思う。ほとんどの人が打ち方を知らないタイポグラフィマークを使ってるのは、ただの火に油を注ぐようなもんだね。

Macだと簡単なキーボードショートカットがあるよ。エムダッシュを使うことに興味がある「Macユーザーの印」って感じで見てたけど、今はMacじゃないから、LaTeX以外で本物のエムダッシュをどうやって作るか分からないや。

自分のコンポーズキーを右のオルト + 左のコントロールに設定したから、今は---を—に変えたり、--を–にしたりできるようになったよ(エンダッシュの話は誰もしてないけど)。

エムダッシュの投稿数の合計じゃなくて、投稿全体に対する割合を見たらデータがどう変わるか興味あるな。後から登録した人たちがリストの上に来るんじゃないかな?

ずっとエンダッシュを使ってたことに気づいた。これはアイデンティティクライシスだ。

面白いけど、コメントあたりのエムダッシュの比率の方がもっと興味深いかも?そうじゃないと、単に投稿数の多さに偏ってるように見えるし。

今日、HuggingFaceのHNデータセットを使ってこれを試してみた。エムダッシュを使ったコメント数 / 総コメント数を計算したら、2018年に何かの理由で急増して、データセットの最後の方では2024年の後半にまた急増し始めたみたい。残念ながら2025年のデータはなかったけど、エムダッシュ好きが「genAI以前から使ってた」って言ってるのは嘘じゃないかもって思わせるには十分だった。

Google BigQueryのHN公開データセットを使って、無料で許可されているクエリの範囲内で簡単にできると思うよ:SELECT EXTRACT(YEAR FROM timestamp) AS year, SUM(CASE WHEN text LIKE '%—%' THEN 1 ELSE 0 END) AS withDash, COUNT() AS total, SUM(CASE WHEN text LIKE '%—%' THEN 1 ELSE 0 END) / COUNT() AS fraction FROM bigquery-public-data.hacker_news.full WHERE type = 'comment' GROUP BY year ORDER BY year; year with— total frac 2006 0 12 0.000 2007 13 70858 0.000 2008 461 247922 0.001 2009 1497 491034 0.003 2010 3835 842438 0.005 2011 4719 1044913 0.005 2012 5648 1246782 0.005 2013 7881 1665185 0.005 2014 8400 1510814 0.006 2015 9967 1642912 0.006 2016 12081 2093612 0.006 2017 14530 2361709 0.006 2018 19246 2384086 0.008 2019 23662 2755063 0.009 2020 27316 3243173 0.008 2021 32863 3765921 0.009 2022 34657 4062159 0.009 2023 36611 4221940 0.009 2024 32543 3339861 0.010 2025 30608 2231919 0.014 だから、確実に増えてるね。「—」を使うユーザーの割合を全コメントに対して調べるクエリ:SELECT by, SUM(CASE WHEN text LIKE '%—%' THEN 1 ELSE 0 END) / COUNT() AS fraction, COUNT() AS total, MIN(timestamp) AS minTime, MAX(timestamp) AS maxTime FROM bigquery-public-data.hacker_news.full WHERE type = 'comment' AND timestamp 100 ORDER BY fraction DESC LIMIT 250; zmgsabstが最も多く使ってる [1]、westoncb [2]は4番目に多い古いアカウントだよ。

zmgsabstのコメントをちょっと見たけど、彼はダッシュの周りにスペースを入れて使ってるね。こういう感じ。ChatGPTはいつもスペースなしで使ってる—こういう感じ。

年配の人たち、たとえば40代以上の人たちは、emダッシュに慣れているんだ。

へへ、トップ50か。俺が入ってるわけないよ、そんなに投稿してないし。あ、もっと完全なリーダーボードだ—クリック。おお、俺は51位だ。

このスニペットで自分のカウントもできるよ。俺のユーザー名を自分のに置き換えてね。このコメントの前のカウントは46だった。curl -s "https://hn.algolia.com/api/v1/search?tags=comment,author_sjs382&hitsPerPage=10000" \ | jq -r '.hits[].comment_text' \ | grep -o "—" \ | wc -l

同じこと考えてた。俺はこのリーダーボードには載ってないけど、もっと完全なリーダーボードでは42位だよ。単一コメントの最大でソートすると8位なんだけど、さすがにやりすぎたかなって思う。最後に—HNのトップ50で、好きなことの中でトップ10に入った!

UKのスタイル、特にプロのライティングでは、一般的に「word en-dash word」って感じだよ。私の理解では、「wordem-dashword」はアメリカのスタイルで、UKの出版物で見たことはないと思う。(非「ライター」の人たちの中には、enダッシュとハイフンの違いを知らない人が多いと思うし、いくつかの出版物はその点に関してもあまり厳しくないみたい。)だから、ChatGPTがemダッシュを使ったのは驚きじゃなかった(アメリカのバイアスがトレーニングデータにあると思う)。すぐにそれを使わないように言ったよ(タイトルケースのタイトルと一緒にね)。(出典: 30年間プロのライター。) https://www.theguardian.com/guardian-style-guide-d

ここで試してみて(Google Cloudプロジェクトを作る必要があるかもしれないけど、課金を有効にしたり、無料トライアルを始めたりする必要はないよ):https://console.cloud.google.com/bigquery?p=bigquery-public-... タブバーの「SQLクエリ」と書かれたところで+(青い背景に白)をクリックして、以下を入力してね(俺はGoogleSQLのパイプ構文を使ってるけど、標準SQLでも大丈夫):FROM bigquery-public-data.hacker_news.full |> WHERE type = 'comment' AND timestamp AGGREGATE COUNT() AS total, COUNTIF(text LIKE '%—%') AS with_em GROUP BY by |> EXTEND with_em / total AS fraction_with_em |> ORDER BY fraction_with_em DESC |> WHERE total > 100 AND fraction_with_em > 0.1 (516件の結果の中で47位で、俺のコメントの0.29(875中258)がエムダッシュを含んでるよ。)編集:タイムスタンプについても聞かれたから:FROM bigquery-public-data.hacker_news.full |> WHERE type = 'comment' AND timestamp EXTEND text LIKE '%—%' AS has_em |> AGGREGATE COUNT() AS total, COUNTIF(has_em) AS with_em, MIN(timestamp) AS first_comment_timestamp, MIN(IF(has_em, timestamp, NULL)) AS first_em_timestamp, TIMESTAMP_SECONDS(CAST(AVG(time) AS INT64)) AS avg_comment_timestamp, TIMESTAMP_SECONDS(CAST(AVG(IF(has_em, time, NULL)) AS INT64)) AS avg_em_timestamp, GROUP BY by |> EXTEND with_em / total AS fraction_with_em |> ORDER BY fraction_with_em DESC |> WHERE total > 100 AND fraction_with_em > 0.1 ほとんどの人にとって、平均タイムスタンプは投稿を始めた時点(エムダッシュを使った時)と2022年11月30日のカットオフ日との中間点だよ。トップのユーザーであるzmgsabstは2022年1月下旬に始めたのが目立ってる。

このスクリプトはすごいね。「—」(em)、 「–」(en)、そして「--」と、他のランダムな文字列もチェックしたよ。

あなたのGPTの支配者は、すでにあなたにより良い人間になる方法を教えているみたいだね。

私もだよ。enが11回、--が7回、emが4回ヒットした。curlスクリプトを使ってね。リンクも見てみて: https://news.ycombinator.com/item?id=45074990 それと関連するXKCDも: https://www.xkcd.com/3126/

ダブルハイフンの使用頻度でランク付けするのもいいかもね。私は2022年末のApple Silicon移行後にMacbookを使い始めた長年のLinuxユーザーだから、ここにいるのは私だけじゃないと思う。WindowsやLinuxでは、emダッシュを挿入するのは面倒なaltコードのプロセスなんだ。でも、MacOSのAppleキーボードでは、optionキーがサードシフトみたいに働くから、のemダッシュは簡単に入力できる。Macbookを手に入れたときはemダッシュを使い始めなかったけど(--を打つのは私にとって自然なことだから、今でもほとんどLinuxを使ってるし)、同じような立場の人はいるかもね。

WindowsやLinuxでは、emダッシュを挿入するのは面倒なaltコードのプロセスだ。LinuxではComposeキーを設定できて、その後はemダッシュがcompose、三つのハイフン(Macintoshではshift-option-hyphen)、enダッシュがcompose、二つのハイフン、ピリオド(Macintoshではoption-hyphen)になる。左(または右)のシングル(またはダブル)クォートはcompose、less-than(またはgreater-than)、タイプライターのシングル(またはダブル)クォートになる。これが私の入力方法だ。別の方法として「Level 3 shift」つまり「Alternate Characters Key」またはAltGrを設定することもできて、これで英語の国際レイアウトのクォートや、英語のMacintoshレイアウトでのダッシュも得られるよ。

その文字は実際にはenダッシュ(範囲で正しく使われる、例えば5–10)なんだ。emダッシュは[shift][option][-]だよ。それにトリプルハイフンもリストに入れるべきだね。TeXに慣れている私たちにとって、ダブルハイフン(--)はenダッシュで、トリプル(---)はemダッシュなんだ。

私はemダッシュを記号として悲しみ、同時に祝うよ。それを思い出して笑う未来の自分を想像すると、ちょっと悲しい。gpt2の面白いフレーズや、AI生成の画像の黄色い色合いについてのジョークの記憶みたいなものだね。未来にはこの記号は消えてしまって、私たちのパターン認識も適応して、この記憶もほとんどなくなるだろう。未来のテクノロジー考古学者たち、こんにちは。emダッシュはミームじゃないし、決して生き残ることはないけど、今のうちに楽しんでるよ!未来にはLLMの明らかなサインがほとんどなくなるかもしれないから、ちょっと悲しい。今は黄金の時代だね。