世界を動かす技術を、日本語で。

最も多くの言語での記事

概要

  • Wikipedia で最も多言語に翻訳された記事がアーティスト David Woodard に関するものである事例
  • Swmmng というユーザーを中心とした大規模な自己宣伝活動の発覚
  • 200以上のアカウント や多数のプロキシIPを使った長期的な操作
  • 機械翻訳 や低品質なスタブ記事による多言語展開
  • 編集・翻訳活動 の経緯と停止のきっかけ

Wikipedia史上最大規模の自己宣伝工作 ― David Woodard現象

  • 2024年後半、Wikipediaで最も多くの言語に翻訳された記事が David Woodard に関するものとなった現象
  • 335言語 で記事が存在し、国やWikipedia自身をも上回る事例
  • 多くの翻訳記事が Swmmng という単一ユーザーによって作成
  • 調査により 10年以上 にわたる自己宣伝活動であることが判明
  • 200以上のアカウント や多数のプロキシIPを利用した組織的な編集

David Woodardとは何者か

  • 1964年カリフォルニア生まれ のアーティスト
  • Dreamachine のレプリカ制作で注目され、William S. Burroughsらと交流
  • 死の前に演奏される「 prequiem」という音楽スタイルを提唱
  • Timothy McVeigh の処刑時に技法を披露
  • プレス記事で「 有名になりたがる奇人」「虚言癖」と報道
  • Nueva Germania (元白人至上主義者の入植地)への関心、ナチス戦犯の家でDreamachine工場計画
  • 2014年 に英語版Wikipedia記事が作成、後にプラハへ移住し Sonja Vectomov と結婚

写真と初期編集活動

  • BarunH というアカウントがWoodardの写真をWikicommonsに投稿
  • フランスやアトランタなどの グローバルブロックIP が記事編集
  • Judy Nylon の写真投稿・編集も同様の手法
  • 英語版Wikipediaで チェコ関連アーティスト の記事編集も開始

Swmmngの登場と活動拡大

  • 2015年6月19日、Swmmngアカウント作成
  • Woodardの親友や義理家族、チェコ芸術家の記事を次々作成
  • VectomovやWoodard自身の記事の編集・写真投稿
  • San Francisco Gate 記事タイトルから「Pure Aryan」等の表現削除の指摘を隠蔽
  • Sonja Vectomov の記事を作成し、自身撮影の写真を掲載

多言語翻訳と関連アカウント

  • JudgtasticŠpačkovití など、チェコ芸術家やWoodard関連に特化したアカウントの出現
  • 各種IPアドレスや複数アカウントによる記事作成・編集
  • Simple English Wikipedia やスペイン語版、各国語版へ記事展開
  • FlenBotoz など短期間のみ活動するアカウントの存在

Swmmngによる大量翻訳キャンペーン

  • 2017年8月~2019年3月、92言語以上でWoodard記事を新規作成
  • 当初は欧州言語中心→少数言語や人工言語にも拡大
  • 機械翻訳 による低品質なスタブ記事が大半
  • 世界中のIPアドレスによる不可解な翻訳活動
    • 韓国IPによるペンシルベニアドイツ語記事
    • フィンランドIPによるナワトル語・エクストレマドゥーラ語記事
    • プラハIPによるSrnanan TongoやZhuang語記事
  • 小規模Wikipedia やマイナー言語へとターゲットが移行

活動停止の経緯

  • 2019年3月11日、ユーザー PiRSquared17 からの問い合わせでSwmmngの活動が停止
  • 以降、新規記事作成はごく少数に減少し、IPによる活動も終了
  • 2020年 には無関係の機械翻訳記事が一部出現するのみ

新たな写真投稿

  • CWells によるWoodardとMelvin Belliの写真投稿など、関連する新規写真の出現

まとめ

  • David Woodard に関するWikipedia記事の多言語展開は、前例のない自己宣伝活動の結果
  • Swmmng を中心とした組織的かつ長期的な編集操作
  • 機械翻訳 やプロキシIPを駆使し、Wikipediaの多言語化を逆手に取った事例
  • 問い合わせやブロック対応により活動は終息
  • Wikipediaコミュニティの 監視体制強化 と多言語展開の課題が浮き彫り

Hackerたちの意見

タイトルが示唆するほど面白くないね。単なる好奇心じゃなくて、調査なんだよね。 > 「私は、ウィキペディアの歴史の中で最大の自己宣伝作戦だったかもしれないものを発見しました。それは10年以上にわたり、200以上のアカウントやさらに多くのプロキシIPアドレスをカバーしています。」

逆に、話はかなり魅力的だよ。(それとも「もっと面白い」って言いたかったの?)もっと gruesome な詳細が知りたいなら、これがどう展開したかや、ウッドアードについての情報が英語の記事のトークページに載ってるよ: https://en.wikipedia.org/wiki/Talk:David_Woodard/Archive_1 https://en.wikipedia.org/wiki/Talk:David_Woodard そして、この異常が取り除かれたことで、最も多くの言語での記事のリストは、予想通りのものに戻ったよ:トップ10はすべて大国とウィキペディア自身だね。 https://en.wikipedia.org/w/index.php?title=Wikipedia:Wikiped...

これは、言葉の一部としての記事(つまり、名詞や動詞の他に「a」や「the」のような記事もある)を指しているのかと思ったんだけど、言語を跨いでいるし…彼がその努力をする動機は何だったんだろう?

それが私の期待でもあったよ。ほとんどの言語には記事の概念がないからね。

これ、数ヶ月前にHNで話題になったよね。誰かが最も翻訳された記事のリストを投稿して、ウッドアードがトップにいたんだ。 https://news.ycombinator.com/item?id=44031697 HNのスレッドのユーザーがイタリアのウィキペディアの不正を見つけて、削除の議論を始めたみたいだね。 [0]: https://news.ycombinator.com/item?id=44035222 [1]: https://it.wikipedia.org/wiki/Wikipedia:Pagine_da_cancellare...

そんな投稿を覚えてる気がしたんだけど、私の直感を裏付けてくれてありがとう!当時はあまり害はないと思ってたけど、今考えると、あの異常な数の翻訳は自己宣伝の煙だったってことが明らかだね。これを追いかけて、面白い記事を書いてくれたHackerNewsの人(YCombinistかな?)に感謝!これから何十年も、/r/TodayILearnedの投稿であなたのことが思い出されること間違いなしだよ。

面白い!現代の探偵物語だね。

…君たちの邪魔がなければ、うまくいってたのに!彼がもっと控えめで、珍しい言語にページを翻訳しようとしなければ、この全体の計画は気づかれなかったかもしれないのが面白いね。動機は不明だけど、自己宣伝だったとしたら、これらの追加言語はおそらく価値がほとんどなくて、計画を危険にさらしたんだろうね。

皮肉なことに、今やこの人はウィキ汚染で悪名高い存在になっちゃったね。彼は「アーティスト」だから、これがアートプロジェクトだったって主張できるけど。残念ながら2025年だから、「最も耐え難いクズ野郎」の賞を競う相手がたくさんいるんだよね。

逆に言うと、この「リスクを冒す」ことで自己宣伝が効果的になったんだよね。今や英語のウィキペディアの記事は数十億もあるから、誰かが偶然に特定の記事にたどり着くことはまずないと思う。だから、人気のある言語でウィキペディアの記事があることの宣伝効果は微々たるものだよ。でも、ウィキペディアをスパムしてこの「計画」が見つかることで、ウッドワードは「ウィキペディアをスパムしたアーティスト」として広く報道される状況を作り出したんだ。だから、彼が必死に求めていた5分間の有名人になれたわけ。もし彼が英語のウィキペディアだけをスパムしてたら、HNのトップページに載ることはなかったんじゃないかな?

この仕事に対して大きな敬意を持っているし、感心してるよ。この記事の説明もありがたい。ひとつ疑問が残るんだけど(ウィキペディアのプロセスについての私の限られた知識に関連しているかもしれない):なぜウッドアードのページにはこの作業の言及がないの?

「オリジナルリサーチ」はウィキペディアでの大罪で、ウィキペディアに掲載されるためには、ウィキペディア以外のニュースメディアがその話を取り上げて、記事を公開する必要があるんだ。

偶然だね。昨日、コービン・ブルーがイエスとバラク・オバマに次いでウィキペディアで3番目に翻訳された記事だっていうYouTube動画を見たばかりなんだ。再び一人のユーザーの努力だって知って驚かないよ。[0] https://youtu.be/vJ_pEP3fRvM

数年前に書いたちょっとしたゲームの宣伝なんだけど、ウィキペディアでどのページが最も多くの言語で存在するかを当てるゲームだよ: https://wikilingua.charlespierre.fr/

デイビッド・ウッドワードの記事にこれについてのセクションを追加すべきかな?

ウィキペディアはウィキペディアの記事には信頼できるソースじゃないから、誰かがそれについてニュース記事を作らなきゃね。

https://en.wikipedia.org/wiki/Wikipedia:Manual_of_Style/Self...

これは「まあ、当然そうだよね」って思う人もいるかもしれないけど、ウィキペディアのXに関する記事は、言語によってかなり違うことが多いんだ。だから、いろんな言語でXについて読むことで面白い洞察が得られるよ。例えば、デイビッド・ホックニーに関するフランス語の記事は、彼が数年間ノルマンディーに住んでいたことを最初の数行で指摘していて、英語のウィキペディアではその事実がページの奥深くに埋もれているんだ。VLCのページにはフランス語のページにリード開発者の写真があるけど、プラグインアーキテクチャについての議論はない。などなど。ある言語のページが特に強いのは、そのトピックが英語圏よりも文化の中で大きな役割を果たしている場合だと考えるのは不合理じゃないと思う。

動物について編集者がどんな決定をしているかを見るのも面白いよ。例えば英語では、アフリカゾウの記事はただその動物の名前だけなんだ。でもイタリア語、スペイン語、タガログ語では科学名になってる。これは、国や地域、方言によって動物にいろんな名前がある言語(スペイン語など)では理にかなってるよね。豚の記事を見てみると、少なくとも15個の名前がリストされてるよ。[1] https://en.wikipedia.org/wiki/African_bush_elephant [2] https://es.wikipedia.org/wiki/Sus_scrofa_domestica