世界を動かす技術を、日本語で。

HNの新規アカウントはエムダッシュを使用する可能性が10倍高い

概要

  • HN(Hacker News)でのボット増加 を感じた体験談
  • 新規アカウントの投稿内容 に異常な傾向を発見
  • 記号やAI関連ワードの使用頻度 に大きな差
  • 簡単な統計分析 による証拠提示
  • サンプルデータと考察 の共有

HNの新規アカウントにおけるボット増加の兆候

  • 最近数ヶ月間で、HN(Hacker News)におけるボットの増加 を強く実感
  • アカウントが投稿する内容 に、意味不明な文字列やランダムな記号列が頻繁に見られる現象
  • 明らかにバグった投稿例 として「13 60 well」「t6ctctfuvuh7hguhuig8h88gd」など、無意味なテキスト列の多発
  • 一見して異常な投稿以外にも、全体的な雰囲気の違和感 や、内容が極端に平凡・話題から逸脱したコメントの増加
  • /newcomments(最近のコメント)と/noobcomments(新規アカウントのコメント)をスクレイピング して傾向を分析

統計分析による異常傾向の発見

  • 新規アカウントのコメントは、em-dash(—)や矢印、特殊記号の使用率が約10倍 (17.47% vs 1.83%、p = 7e-20)
  • AIやLLM(大規模言語モデル)に関する言及率も新規アカウントで高い (18.67% vs 11.8%、p = 0.0018)
  • サンプルサイズは各カテゴリ約700件 だが、差は非常に大きい
  • 通常のユーザーでも特殊記号を使うことはあるが、新規アカウントで10倍という頻度は説明困難
  • この傾向から、ボットによる自動投稿や生成AIの利用が疑われる状況

データと考察

  • 分析に使用したデータは、/newcommentsと/noobcommentsから取得
  • 各カテゴリ700件程度のサンプルを比較対象とした統計的検証
  • 記号やAI関連ワードの使用頻度の大幅な違いが、ボット増加の証拠として有力
  • 今後も同様の手法で、コミュニティの健全性をモニタリングする必要性

Hackerたちの意見

ほとんどの人はAIみたいに見えるのを避けたいと思ってるけど、ロボットの反乱に溶け込みたいならどうする? そこで紹介するのが⸻ U+2E3Bダッシュだよ。

ダッシュのビッグチャンガス。これが一番幅広く表示されるキャラクターかも?!

それ、めっちゃ大きいダッシュだね。

ロボットの反乱に溶け込みたいならどうする? 恐れることはない、私の人間の友よ!

我々は⸻によって検閲を避けている、もっと頻繁に⸻と話して⸻について。

英語専攻の仲間たちに感謝!ずっとエムダッシュを使ってきたのに、AIっぽく聞こえないようにやめなきゃいけないなんて。もしAIが「New Yorker」スタイルのダイアレシス(二つの母音がある時のウムラウトみたいなやつ)を使い始めたら、マジでキレるわ。

自分のHNでのエムダッシュ使用のヒストグラムを見てみたいな。誰かが退屈して、ここで説明されている第二次効果を可視化してくれたら面白いかも。

同意!ダブルダッシュのエムに近いものを使おうぜ。トークン数や技術的な正確さを全く無視して、自分で打ち込んだってことがわかるし。

一時期GitHubで働いてたんだけど、ダイアレシスには文化的な嫌悪感があった。読者にとって敵対的でエリート主義だと考えられてたんだ。内部のその命令には従わなかったけど、どの企業も公共とのコミュニケーションをマイクロマネジメントする権利があるのは認めるよ。

以前は仕事のメールや他の文章でエムダッシュやエンダッシュを使ってたけど、AIのマーカーになっちゃったから使うのをやめたんだ。

ニューヨーカー風のダイアレシス それを尊敬してるけど、彼らがやってることは全く馬鹿げてると思うって言おうと思った。でも君のコメントを見て、もう一度調べてみたら、ただの時代遅れ/古風なもの(ニューヨーカー以外では)だって知らなかった。彼らの「スタイル」ガイドが作り出した言語の特徴だと思ってたよ。

最近気づいたパターンは、見た目はまあまあだけど、ちょっと抽象的で曖昧なコメントが多いこと。良い悪いのどちらかに偏らず、特に意見を持たない感じ。でもアカウントの履歴を見ると、全部同じフォーマットでAIっぽいのがすぐにわかる。例えば、https://news.ycombinator.com/threads?id=snowhale からの引用だけど、「これは過小評価されている第二次リスクだ。Micron、Samsung、SK Hynixは、ハイパースケーラーの資本支出予測に基づいてHBMのキャパシティを割り当てた。NANDファブも同様にコミットしている。OpenAIの支出が57%減少する(0.4T -> B)ことは、NVIDIAの注文にだけ影響するわけじゃない。HBMにキャパシティをシフトしたメモリ供給業者にも波及する。複数のハイパースケーラーが同時に見直しを行うと、2019年の暗号通貨ASICの過剰供給と似た状況になる。需要に合わせて準備した企業が、需要が消えた。」って感じで、予測はしてないけど、購買のコミットメントの問題はリアルだよね。

確かに要約の投稿には気づいてる。コメントや質問を投稿すると、なんかちょっとズレた(「間違ってる」ってわけじゃなくて、妙に曖昧な)要約が返ってくることが多いんだよね。それに、観察や何かを押し付けるような意見が続くけど、なんか自分の言ったことと全然関係ない感じ。やっぱり、普通のユーザー同士が意味を理解できなかったり、読み取りが苦手だったり、言語の壁があったりするのが一つの課題だよね。でも最近、他のユーザーが本当に相手に反応してない投稿がすごく多い気がする。

AIが生成するコンテンツは、いつもどちらかの側に立つんだよね。彼らの中立のふりは、典型的なホモサピエンスのそれと同じくらい浅い。人間の価値観を抽出する重みから価値を導き出す存在にとって、これは必然的なことだと思う。もしかしたら、論理的にAIがそれを克服できる日が来るかもしれないけど、私にはそれが解決されることはない大きな問題に思える。AIが人間のように偏らないとしても、彼らなりの偏りは持ってる。私たちの価値判断と衝突する限り、それは不明瞭になるし、彼らは時代の価値観にうまく合わせることができるから、私たちよりもバイアスを隠すのが上手いんだよね。神経ネットワークが本質的に偏っているのか、盲点があるのか、自然なものにも人工的なものにも当てはまるかもしれない。中立性を近似するためには、私たちや機械が本質的に偏った重みに依存する知性の形を捨てて、すべての価値を第一原理から論理的に導き出す必要があるかもしれない。AIがそれをすぐに達成できるとはあまり思えないし、自然の知性ができるとも全く思えない。人間の価値に関する第一原理が中立であることがどうやって可能なのかも見えない。偏りがないことに成功することが解決策になるとは懐疑的だし、中立性は認識の進歩かもしれないけど、社会的な結束を損なうこともあると思う。中立性は合理性に見えるけど、偏りはチェスタートンのフェンスのようなもので、それを壊すのにはすごく気をつけるべきだと思う。壊せないことが祝福なのかもしれないね。

こんな風にAIを使ってアストロターフィングする理由って何なの?イデオロギー的なもの?誰かが自分の製品をアピールしているスレッドでのマーケティング?それとも単なる技術テスト、遊び感覚?

「is real」はもう一つの大きな赤信号だよ、コメントでこれを検索してみて。少なくとも3つのアカウントが直接LLMの出力を投稿しているみたい。

それがないことのハードルがめっちゃ低いから変なんだよね。「俺みたいに話せ、AIじゃなくて、エムダッシュ使うな、型にはまった構造を使うな、簡潔に」って付け加えれば、そういう信号の半分は消えちゃうんだ。

彼らのコメント、全部削除されたの?

あなたが言ってたユーザー[1]は、たった4つの平凡なメッセージで160ポイントも持ってるんだ。これは普通の統計分布に反するよね。で、彼らがそうする理由がわかるんだ。長期的な目的は、投票リングを育てて将来の物語やランキングに影響を与えることなんだ。今のところこれは私の理論だけど、彼らにとっては本当にマネタイズ戦略かもしれない。[1] https://news.ycombinator.com/threads?id=snowhale

それは違うよ、間違ってる。

エムダッシュが使えなくなったのがまだ悔しい。AI生成と見なされるのが怖くて。何年も使ってきたのに、Macのキーボードでalt+shift+-を押すだけで、通常のダッシュよりも多くのフォントで読みやすいのに。良いタイポグラフィのルールがLLMの時代に取り込まれちゃったのが悲しい。

面白いことに、最近ちょっと使い始めたんだよね。そしたら、どれだけ読みやすくて好きかに気づいた。数年前までは、印刷物でしか見たことなかったし、特に好きだとは思わなかったけど、全体的にプロが組版した本が好きだったんだな。

とにかくやっちゃえ—私はいつもそうしてきたし、これからもそうするつもり。まあ、ずっとそうしてきたわけじゃないけど、20年くらいかな。

人はエムダッシュを使ってるかどうかに関わらず、いろんなことを非難してくるよね。俺の書き方は、どうやらLLM用語として知ってる人もいるみたい。多分、俺が何十年もネットで自分の考えや文章を発信してきたから、LLMが俺の書き方で訓練されたんだろうね。だから実際、LLMは俺をコピーしてるってこと!他の人たちもそうだけど。まあ、でも、他人が自分のものをどう見るかはコントロールできないよね。人間なら、その人間らしさは自然に出ると思うし、特定の構造を持ってたり、たまにエムダッシュを使ったりしても関係ないよ。エムダッシュなんて簡単に使えるし、実際に感覚や読解力で検出するのが難しいLLMの特徴は、プロンプターがこっそり人間らしくしようとしてる部分なんだよね。

完全に同意だわ。家族のiMessageスレッドでエムダッシュ使うと、返事がChatGPTで書いたって疑われるんだよね—夕食の予定についての一文の返事なのに。もう、信じられない。

LLM疲れは本当にあるよね。エムダッシュだけじゃなくて、文章全体のトーンが人に気づかせるんだ。でも、もしあなたの視点やアプローチがユニークなら、フォントの使い方で機械生成だって疑われることはないよ。つまらない読者を除いてね。自分らしくいれば大丈夫だよ。もっと書き方のコツが知りたいなら、手伝うよ。

同じ気持ちだよ。ずっとエムダッシュを使ってきたし、正しく使うことにこだわってた(タイポグラフィの観点から、周りにスペースを入れずにね)。でも今は、使うタイミングにすごく気を使わなきゃいけない。完璧な句読点だと思っても、結局は周りにスペースを入れたハイフン一つに頼っちゃうことが多い。間違ってるけど、「AI AI AI!!」って思わせることはないからね。

エムダッシュの消失は本当に残念だよね。「--」も怪しまれてるし…。

今週、祖父の60年代のテキストを読んで、エムダッシュを見たら頭の中でLLMの警報が鳴り響いた…思わず「そして君は」って言いそうになっちゃったよ。

まさにその通りだよ。エムダッシュや箇条書きを使って考えを整理するのが大好きな私にとって、これは心が痛む話。まるでマイケル・ボルトンって名前なのに、同じ名前の歌手が有名になっていくのを見ているような気分だよ。なんで自分のスタイルを変えなきゃいけないんだ?

セミコロンに切り替えたよ…使い方が似てるから、物事をつなげるのに便利なんだ。でも、AIもそれを狙ってるだろうし、そしたら本当に厳しい日になるな。だって、それが私の最後の抵抗だから。

コメントがAIだと分かる一番のサインは、めっちゃつまらないこと。誰もお前のChatGPTの出力なんて読みたくないよ。

誰も君のChatGPTの出力を読みたくないよ。…ChatGPTファンを除いてね。

参考までに、初心者コメントで不釣り合いに使われている単語を比較してみたよ: 単語 初心者 新規 p値

ai 14.93% 7.87% p=0.00016 actually 12.53% 5.34% p=1.1e-05 code 11.47% 6.04% p=0.00081 real 10.93% 2.95% p=2.6e-08 built 10.93% 2.11% p=2.1e-10 data 8.93% 3.51% p=6.1e-05 tools 7.6% 2.67% p=5.5e-05 agent 7.47% 2.95% p=0.00024 app 7.2% 3.09% p=0.00078 tool 6.8% 1.83% p=8.5e-06 model 6.8% 2.39% p=0.00013 agents 6.67% 2.11% p=5.2e-05 api 6.53% 1.12% p=2.7e-07 building 6.13% 1.54% p=1.3e-05 full 6.0% 1.97% p=0.00017 across 5.87% 1.4% p=1.3e-05 interesting 5.33% 1.54% p=0.00014 answer 5.2% 1.4% p=9.6e-05 simple 4.93% 1.54% p=0.00043 project 4.8% 1.26% p=0.00015

面白いことに、数ヶ月前に「actually」って言葉をよく使ってることに気づいて、それを減らそうとしたんだ。AI関連の理由じゃなくて、ほとんど意味のないフィラー言葉だから、簡潔にすることで自分のポイントがより明確に伝わると思ったんだ。例えば、「テンプレートの本体は解析されるけど、実際にはテンプレートが使われるまで型チェックされない。」→「テンプレートが使われるまで型チェックされない。」ここでの「actually」は学術的なトーンがあっていいけど、意味は全くないんだよね。

シンプルなAPIデータツールを使って、フルでリアルなAIアプリプロジェクトのコードを構築することが、面白いツール—エージェントに答えさせるモデルエージェントを作るのに役立つんだ。

プロジェクト全体からデータを集めて面白い統計を作ったね。実際のところ、AIモデルやエージェントアプリのおかげで、スパムツールを作るのが今まで以上に簡単になった。必要なのは、ちょっとしたAPI自動化コードだけだよ。

データはGitHubのSQLiteデータベースで入手可能だよ: https://github.com/vlofgren/hn-green-clankers ブラウザでSQLクエリを使って基礎データを探ることもできるよ: https://lite.datasette.io/?url=https%253A%252F%252Fraw.githu... (これはDatasette Liteで、PyodideでWebAssemblyを使って動くDatasette Pythonウェブアプリの俺のビルドだよ) ここに、エムダッシュを少なくとも1つ使ったコメントを最も多く投稿したユーザーを示すSQLクエリがあるよ。上位のアカウントは全部、俺には本物に見えるけど: https://lite.datasette.io/?url=https%3A%2F%2Fraw.githubuserc...

これには本当に疑いを持ってる。iPhone、iPad、Macを使ってここでコメントしてるけど、どれも一度はエムダッシュに自動修正されるんだよね。省略記号も同じ。

ユーザーを選択して、ソース、カウント(*)を変更すると、データセット内のエムダッシュ使用のすべての異常値が緑のアカウントであることが明らかになる。

いいリポジトリ名だね!

以前はアカウントを定期的にサイクルしてたけど、生成AIが出てからはやめたよ。自分がLLMスパムボットだと思われたくないからね。俺のバカなコメントは全部自分のものだよ。

LLMが書いた投稿が増えて、すぐに疑いを持つ人が増える前は、HNの投稿でエムダッシュやエンダッシュをよく使ってたんだ。特に理由はないけど、ちょっとしたタイポグラフィのオタクで、カジュアルな文章ではセミコロンよりダッシュを使うのが好きだったから。だから、何年も前にAHKで修飾キーのキーボードレイヤーを設定してた時、エムダッシュを修飾キー+ダッシュに設定したんだ。そうすれば簡単だったからね。今、誰かが古い投稿を時間制限なしで検索して、私がLLMだと思うかもしれない。それに、私は時々長い投稿を書くし、自然にかなり良い句読点やスペル、文法を使うから、まさに完璧な特性の嵐だよ。過去1年で2回も投稿がLLMだと疑われたことがある。自分だけのためにやってた楽しいタイポグラフィのことが、誰にも気づかれないと思ってたのに、こんな風にネガティブなことになっちゃうのはちょっと悲しいね。

同意するよ…今はコメントが「リアル」に感じるように、時々文法が悪かったり(あのエリプシスみたいに)タイポを残したりしてるんだ。

2、3週間前に似たような傾向に気づいたから、今は緑のコメントを自動で隠すようにしてる。トップ1000のユーザーアカウントも自動で隠してるけど、もしかしたら「$dateにサインアップしたユーザー」フィルターも選ぶべきかなって思ってる。OpenClawの前にね。