世界を動かす技術を、日本語で。

生成的AIとウィキペディア編集:2025年に学んだこと

概要

  • Wiki Education によるWikipedia編集者支援プログラムのAI活用調査
  • 生成AI によるコンテンツ利用の課題とリスクの分析
  • Pangram によるAI検出と検証作業の実施
  • AI利用ガイドライン の策定と教育プログラムへの反映
  • 生成AI活用の有用な側面と今後の展望

Wiki Educationにおける生成AIの現状と課題

  • Wiki Education は、Wikipediaへの新規編集者を多数育成している団体
  • 近年、 ChatGPTGeminiClaude などの生成AIの普及により、編集者がAIを活用する事例が増加
  • 新規編集者が直面する課題の把握と、AI利用の実態調査の必要性
  • Wikipedia上でのAI生成コンテンツに関する議論の活性化と情報共有の重要性
  • Wikipediaコミュニティ、他国のプログラムリーダー、Wikimedia Foundationなど、多様な関係者への知見提供

生成AIの利用実態と検出

  • ChatGPT 登場以降、AI生成コンテンツの動向を注視

  • 新規記事の投稿内容を Pangram でAI検出し、2022年以降の3,078記事中178件がAI生成と判定

  • AI判定記事の多くで「もっともらしい文章が実際の出典と一致しない」=検証失敗が多発

  • 7%の記事のみが「偽の出典」問題、残りは実在の出典だが内容が一致しないケース

  • 検証失敗記事の修正・削除対応に多大な労力が発生

    • サンドボックスへの移動、スタブ化、削除提案(PROD)などの対策実施
    • Wikipediaコミュニティ内でもAI生成コンテンツへの対応に多様な意見

ガイドラインの改訂と教育プログラム

  • Pangram によるリアルタイム検出体制を構築し、編集内容を自動監視

  • 「生成AIの出力を Wikipediaにコピペしない」を強調した新規トレーニングモジュールを開発

  • Pangram検出時は自動メール通知や動画教材で早期介入

  • サンドボックスでの演習やアウトライン、ビブリオグラフィ作成時の誤検出にも対応

    • フォーマットや非文章要素がAI検出の誤作動要因となる場合あり
    • Grammarlyの高度な機能利用時のみAI検出に引っかかる傾向
  • 2025年後期、6,357名の新規編集者中、複数回AIアラートがあったのは3%

  • メインスペース(本記事)でのAIアラートは全体の5%に留まり、ほぼ全てを修正・差し戻し

検証性とAI利用の限界

  • 教員や参加者には「 検証性」の重要性を再三強調
  • 出典に基づく事実確認ができる場合のみ、AI生成文の復帰を許可
  • しかし現状の生成AIは「検証可能な正確な文章」を書くことが困難
  • Pangramによる検出と早期介入が、AI生成コンテンツ流入の抑止に寄与

生成AIの有用な活用方法

  • 問題点だけでなく、 生成AIの活用可能な領域 も提示

  • 編集者向けトレーニングで、以下の用途を推奨

    • 記事の情報ギャップの特定
    • 参考文献や情報源へのアクセス方法の提案
    • 関連する出典の発見支援
  • 2025年秋、7クラスでAI活用状況を匿名アンケート調査

    • どのツールを使い、どんなプロンプトを入力し、出力をどう活用したかを把握

(以降、アンケート調査結果や具体的な活用事例に話題が移る場合は、次のセクションタイトルを設けて整理してください。)

Hackerたちの意見

ここで選んだタイトルは、主なポイントの一つを強調するために慎重に選びました。これは(長さのために軽く編集されています)この段落からの引用です。「しかし、もっと陰湿なのは、私たちが発見した別のことです。これらの記事の三分の二以上が検証に失敗しました。つまり、記事には信じられそうな文が含まれていて、実際の関連するソースに引用されています。しかし、その引用先のソースを読むと、ウィキペディアの情報はその特定のソースには存在しません。主張が検証に失敗すると、その情報が真実かどうかを判断することは不可能です。PangramがGenAIによって書かれたとフラグを立てたほとんどの記事では、引用された文のほぼすべてが検証に失敗しました。」

提出されたタイトルは「フラグが立てられたほとんどの記事では、引用された文のほぼすべてが検証に失敗した」でした。面白いですね、同意しますし、あなたのコメントでうまく表現されています。

参考までに、これはウィキペディアの政治記事においてかなり一般的な問題で、AIの登場以前から存在していました。ぜひ試してみて、いくつかの引用を検証してみてください。多くはほぼ嘘だということがわかります。AIが悪化させているとは言いませんが、ホットボタンのトピックに関しては悪意のある編集が一般的です。

ここでは、人間にも同じことが言えるって主張してる人がいるよ。悪いコンテンツがLLMでずっと早く生成できるっていう事実を除けば、その批判についてどう思う?LLMが根拠のない主張をする前に、どれくらいの提出があるかの指標はあるの?この研究を発表してくれてありがとう。自分たちでソースを確認することの大切なリマインダーだね!

つまり、少数の記事がボットによって書かれたと検出され、その中の大部分が検証に失敗したということですね。もし実際に多くの記事がボットによって書かれていたとしても、検証できないものだけが悪質で検出されたのかもしれませんね。

人間の編集者は、生成されたテキストの「兆候」を見抜くと思いますが、知っての通り、その分野には多くの誤検出があります。でも、Pangramは、あるテーマについて人間にテキストを書かせ、その後に様々なLLMに同じテーマについてテキストを書かせるという手法で訓練されたテキスト分類NNのようです。これは問題にアプローチする良い方法だと思います。私がMLを正しく理解する資格があるわけではありませんが。詳細はこちらです: https://arxiv.org/pdf/2402.14873

これはLLMプロバイダーにとって、非常に悲劇的な状況だと思います。ウィキペディアは彼らのデータセットの大部分を占めているでしょうに、どうしてそれを汚すのか?「ウィキペディアで私たちのプラットフォームを使ってはいけません」というスタンスを採用するのも面白いかもしれませんね。

これはプロバイダーのせいではなく、ひどいユーザーのせいだと思います。彼らはGitHubでも同じことをしています。本当にイライラします。

それはランダムな個人たちでしょう。

ウィキペディアの間違った引用は、LLMよりずっと前からあったことだよ。スレッドの他の人たちも指摘してるけど、糸を引き始めると、多くの人が書いたことが崩れ始めるんだ。これはウィキペディアに特有のことでもないし、元の情報を確認すると、主張を支持しない非常に誤解を招く表現を見つけるのは本当に簡単だよ。

この記事には、リアルで関連性のあるソースから引用された、もっともらしい文が含まれていたってことだね。でも、その引用先を読んでみると、ウィキペディアの情報はその特定のソースには存在しないんだ。主張が検証できないと、情報が本当かどうか判断できない。これはウィキペディアで常に問題になってることだよね。最近これが増えてるっていう指標は見つからないんだけど?だって、AIの可能性がある記事だけを調査してるから。じゃあ、ここでの基準は何なの?正しい引用をするのは本当に大変な作業なんだよね、たとえその内容をよく知っていても。人は自分の分野から知ってることを書いて、後から最小限のもっともらしい引用を追加するだけって感じだと思うし、ほとんどの人はそれを確認しないし、みんなそれが何もないよりはマシだって受け入れてるみたい。でも、ページのニッチさや分野によっても変わるんだろうね。

最近のChangelogのエピソードで面白い例があったよ。ホストたちは「GitHub出身」と誤って説明されていて、その主張を裏付けるリンクもなかったんだ。ゲストが収録中に引用を修正してくれたんだよ。

ウィキペディアの引用をチェックしたとき、明らかに主張を支持しない引用がたくさんあって、ウィキペディアに対する信頼がなくなったよ。 > 正しい引用をするのは本当に大変な作業なんだよね、たとえその内容をよく知っていても。どうしてそれが難しいと思うの?学術的な参考文献は基本的な主張のソースになり得るし、レビュー記事も大いに役立つよね。それに、価値のある情報に出会ったときにウィキペディアや他のウィキに追加することが多いから、何かを書いてからソースを探すっていうのは(他の理由でも問題があるけど)あまりやらないかな。クラウドソーシングの良いところは、記事を全部自分で書かなくてもいいし、一度に全部やる必要もないってことだよ。繰り返しながら効率的に進められるからね。

僕が直面した問題は、偽の引用をする人(その引用が記事でされている主張を実際には正当化しない)と、実際の引用をする人がいるけど、そのソースを掘り下げるとクレイジーな人からの引用だと気づくことだよ。これは編集者たちの大きな盲点でもある。過去にこの問題がここで取り上げられたとき、ウィキペディアの主張は自分でソースを確認しない限り信じるべきじゃないって言ったら、数人のウィキペディア編集者が来て、これは問題じゃないしウィキペディアは信頼できるって言ってたんだ。こんなに多くの人が問題だと思っていないのに、どうやって解決するんだろうね?それを問題じゃないと捉えるのは、ユーザーにサイトの正確性について誤解を与えるよ。

LLMは、LLMなしで作業している人間よりも、根拠のない結論をはるかに高い頻度で追加できるんだ。

リンクロットは問題だし、編集された記事もまた別の問題だよ。いくら引用しても、基盤となるリソースが変わったら、あなたの基盤は溶けてしまうからね。

正しい引用を適用するのは実際に本当に大変な作業だよ それには同意するよ。ウィキペディアの既存の記事には、ほとんど引用や参考文献がないものも多いし、場合によっては間違った引用や誤った結論があることもある。例えば、ある記事が水分子の挙動が奇妙だと言っていて、ウィキペディアの記事が水分子は正しく振る舞うと結論づけていることがある。

これはウィキペディアで常に問題になってることだよね。最近これが増えてるっていう指標が見つからないんだけど? だって、AIの可能性がある記事だけを調査してるから。じゃあ、ここでのコントロールの基準は何なんだろう? …あのさ、あんまり言いたくないけど、これってAIがチェックして、人間のレビュー用にフラグを立てることができるようなことに見えるんだよね。

この文章は、大学や学者と提携して学生がコース関連のトピックでウィキペディアを編集するWiki Eduプログラムを通じて行われた編集についてだけのものだよ。ウィキペディア全体についての話じゃないからね!

Wiki Eduが編集したページには、創造的なライティングの練習問題がいっぱい載ってるのを見つけたよ。彼らの出典を読んでみると、出典を不器用に言い換えたり、誤解したりしてることが多い。LLMは、単に成績を取るためだけにトピックを調べることなく、Wiki Eduの学生にぴったりだと思う。

面白いね。コメントを読んで最初に思ったのは、「この問題は、多くの学生が論文を書くときに正しい引用を見つけるのと非常に似ている」ということだった。ソーシャルメディアで(博士課程の学生でも)彼らの論文執筆の実践について読むと、本当に悲しくなることがある。

ああ、学生にウィキペディアを編集させると、情熱を持って自発的に編集する人よりも悪い結果が出るってことか。それは... あまり驚くべきことじゃないね。だから、今の大学で生成AIが問題になってるのは、怠けた学生がそれを使って作業をやってるからで、ウィキペディア自体の問題ではないと思う。

本当にエピックなアプリケーションがあるとしたら、編集ガイドラインについて質問できるチャットボットだと思う。ほとんどのガイドラインを読んでみたけど、トークページの議論は経験豊富な編集者の間でもかなりズレてるように見えた。最初に戻して後から言い訳するパターンは、新人にとって最悪の抑止力だと思う。ミスをするのは全然問題ないはずなのにね。そんな言い訳はボットによってすぐに暴かれるだろうし、全然助けにならないよ。既存の編集者が気に入らなければ、ガイドラインを編集すればいいんだし。

ウィキペディア内の影響を置いといて、もっと大きな視点で考えてみて。何百万もの人がLLMを使ってテキストを生成していて、その中の少しは何百万もの読者に正しいと受け入れられている。WikiEduの記事は、誰もがすでに知っているべきことをはっきり示してるよ:LLMには真実に対するコミットメントがない。LLMの唯一のコミットメントは、文法を正すことだけ。

LLMの唯一のコミットメントは、文法を正すことじゃないんだよね。人気のある文法にコミットしてるだけ。人気があるものは、全体的にうまく機能することが多いから、正しいこともあるけど、やっぱりいつも微妙な感じになると思う。

そうだね、AIスパムは質を落とす可能性がある。でも、ウィキペディアに関しては、もっと一般的な問題だと思う。通常、改訂は実際の人間によって手動で承認されるから、これ自体がネガティブなこともあるし、時間もかかるし、新しい情報が正しい保証もないけど、古い情報も間違ってることがある。私には、問題はウィキペディア自体の品質管理の問題にもっと関係しているように思える。確かにAIスパムはここで疲れさせるけど、品質管理のステップが悪ければ、AIスパムがあってもさらに悪化するだけだよ。AIスパムがなくなったからといって、品質管理のステップが良くなったわけではない。この二つの問題は分けて考えるべきだと思う。ウィキペディアは、全体的により良い品質管理のメカニズムを見つける必要があるし、既存の記事も含まれる。専門家が書いた記事もあるけど、実際には何も説明していないことが多い。だから、これらの記事は見た目は良さそうだけど、98%の人にとってはほとんど役に立たない。ウィキペディアを簡単にしろとは言わないけど、平均的な人に焦点を当てる必要があると思う。愚かではなくても、神のような専門家でもない人に説明する感じで、例えば18歳くらいの人に説明するように。

もう一つの問題、ちょっと間接的だけど、グロキペディアのことね。今や情報が増えてきて、ここで使われているAIは、意図的にグロキペディアを「代替事実」を含むように作ってるんだ。グロキペディアを見てみると、少なくともスマホでは、実際にウィキペディアより見た目が良いんだよね。同時に、ウィキペディアが「バイアスなしで正確な情報を示そう」とする目的を壊そうとしてる。エロンや大企業がAIを使う方法には、純粋さや真実がないと思うけど。ウィキペディアに何が起こるかを注意深く見守る必要があるかも。AIによるウィキペディアへの攻撃は、単なる「偶然」じゃないように思えるしね。(もちろん、たくさんのデータを保存してるから、AIボットが定期的にデータを吸い取るのは当然だけど、ここで言ってるのは、民主主義を嫌うような組織の目的についてのこと。)

「生成AIチャットボットの出力をコピー&ペーストしちゃダメ」って記事に三回も書いてあった。これ、私も同じ経験がある。最初のAIの出力はすごく見えるけど、すぐにほとんどがデタラメや無駄なものだって気づくんだよね。でも、ブレインストーミングやアイデア出し、サウンドボードとしてはLLMがすごく役立つと思う。