生成的AIとウィキペディア編集：2025年に学んだこと

2026年2月1日原文(wikiedu.org)

概要

Wiki Education によるWikipedia編集者支援プログラムのAI活用調査
生成AI によるコンテンツ利用の課題とリスクの分析
Pangram によるAI検出と検証作業の実施
AI利用ガイドライン の策定と教育プログラムへの反映
生成AI活用の有用な側面と今後の展望

Wiki Educationにおける生成AIの現状と課題

Wiki Education は、Wikipediaへの新規編集者を多数育成している団体
近年、 ChatGPT や Gemini、 Claude などの生成AIの普及により、編集者がAIを活用する事例が増加
新規編集者が直面する課題の把握と、AI利用の実態調査の必要性
Wikipedia上でのAI生成コンテンツに関する議論の活性化と情報共有の重要性
Wikipediaコミュニティ、他国のプログラムリーダー、Wikimedia Foundationなど、多様な関係者への知見提供

生成AIの利用実態と検出

ChatGPT 登場以降、AI生成コンテンツの動向を注視
新規記事の投稿内容を Pangram でAI検出し、2022年以降の3,078記事中178件がAI生成と判定
AI判定記事の多くで「もっともらしい文章が実際の出典と一致しない」＝検証失敗が多発
7%の記事のみが「偽の出典」問題、残りは実在の出典だが内容が一致しないケース
検証失敗記事の修正・削除対応に多大な労力が発生
- サンドボックスへの移動、スタブ化、削除提案（PROD）などの対策実施
- Wikipediaコミュニティ内でもAI生成コンテンツへの対応に多様な意見

ガイドラインの改訂と教育プログラム

Pangram によるリアルタイム検出体制を構築し、編集内容を自動監視
「生成AIの出力を Wikipediaにコピペしない」を強調した新規トレーニングモジュールを開発
Pangram検出時は自動メール通知や動画教材で早期介入
サンドボックスでの演習やアウトライン、ビブリオグラフィ作成時の誤検出にも対応
- フォーマットや非文章要素がAI検出の誤作動要因となる場合あり
- Grammarlyの高度な機能利用時のみAI検出に引っかかる傾向
2025年後期、6,357名の新規編集者中、複数回AIアラートがあったのは3%
メインスペース（本記事）でのAIアラートは全体の5%に留まり、ほぼ全てを修正・差し戻し

検証性とAI利用の限界

教員や参加者には「 検証性」の重要性を再三強調
出典に基づく事実確認ができる場合のみ、AI生成文の復帰を許可
しかし現状の生成AIは「検証可能な正確な文章」を書くことが困難
Pangramによる検出と早期介入が、AI生成コンテンツ流入の抑止に寄与

生成AIの有用な活用方法

問題点だけでなく、 生成AIの活用可能な領域 も提示
編集者向けトレーニングで、以下の用途を推奨
- 記事の情報ギャップの特定
- 参考文献や情報源へのアクセス方法の提案
- 関連する出典の発見支援
2025年秋、7クラスでAI活用状況を匿名アンケート調査
- どのツールを使い、どんなプロンプトを入力し、出力をどう活用したかを把握

（以降、アンケート調査結果や具体的な活用事例に話題が移る場合は、次のセクションタイトルを設けて整理してください。）

Hackerたちの意見

ここで選んだタイトルは、主なポイントの一つを強調するために慎重に選びました。これは（長さのために軽く編集されています）この段落からの引用です。「しかし、もっと陰湿なのは、私たちが発見した別のことです。これらの記事の三分の二以上が検証に失敗しました。つまり、記事には信じられそうな文が含まれていて、実際の関連するソースに引用されています。しかし、その引用先のソースを読むと、ウィキペディアの情報はその特定のソースには存在しません。主張が検証に失敗すると、その情報が真実かどうかを判断することは不可能です。PangramがGenAIによって書かれたとフラグを立てたほとんどの記事では、引用された文のほぼすべてが検証に失敗しました。」

└

提出されたタイトルは「フラグが立てられたほとんどの記事では、引用された文のほぼすべてが検証に失敗した」でした。面白いですね、同意しますし、あなたのコメントでうまく表現されています。

└

参考までに、これはウィキペディアの政治記事においてかなり一般的な問題で、AIの登場以前から存在していました。ぜひ試してみて、いくつかの引用を検証してみてください。多くはほぼ嘘だということがわかります。AIが悪化させているとは言いませんが、ホットボタンのトピックに関しては悪意のある編集が一般的です。

└

ここでは、人間にも同じことが言えるって主張してる人がいるよ。悪いコンテンツがLLMでずっと早く生成できるっていう事実を除けば、その批判についてどう思う？LLMが根拠のない主張をする前に、どれくらいの提出があるかの指標はあるの？この研究を発表してくれてありがとう。自分たちでソースを確認することの大切なリマインダーだね！

つまり、少数の記事がボットによって書かれたと検出され、その中の大部分が検証に失敗したということですね。もし実際に多くの記事がボットによって書かれていたとしても、検証できないものだけが悪質で検出されたのかもしれませんね。

└

人間の編集者は、生成されたテキストの「兆候」を見抜くと思いますが、知っての通り、その分野には多くの誤検出があります。でも、Pangramは、あるテーマについて人間にテキストを書かせ、その後に様々なLLMに同じテーマについてテキストを書かせるという手法で訓練されたテキスト分類NNのようです。これは問題にアプローチする良い方法だと思います。私がMLを正しく理解する資格があるわけではありませんが。詳細はこちらです: https://arxiv.org/pdf/2402.14873

これはLLMプロバイダーにとって、非常に悲劇的な状況だと思います。ウィキペディアは彼らのデータセットの大部分を占めているでしょうに、どうしてそれを汚すのか？「ウィキペディアで私たちのプラットフォームを使ってはいけません」というスタンスを採用するのも面白いかもしれませんね。

└

これはプロバイダーのせいではなく、ひどいユーザーのせいだと思います。彼らはGitHubでも同じことをしています。本当にイライラします。

└

それはランダムな個人たちでしょう。

└

ウィキペディアの間違った引用は、LLMよりずっと前からあったことだよ。スレッドの他の人たちも指摘してるけど、糸を引き始めると、多くの人が書いたことが崩れ始めるんだ。これはウィキペディアに特有のことでもないし、元の情報を確認すると、主張を支持しない非常に誤解を招く表現を見つけるのは本当に簡単だよ。

この記事には、リアルで関連性のあるソースから引用された、もっともらしい文が含まれていたってことだね。でも、その引用先を読んでみると、ウィキペディアの情報はその特定のソースには存在しないんだ。主張が検証できないと、情報が本当かどうか判断できない。これはウィキペディアで常に問題になってることだよね。最近これが増えてるっていう指標は見つからないんだけど？だって、AIの可能性がある記事だけを調査してるから。じゃあ、ここでの基準は何なの？正しい引用をするのは本当に大変な作業なんだよね、たとえその内容をよく知っていても。人は自分の分野から知ってることを書いて、後から最小限のもっともらしい引用を追加するだけって感じだと思うし、ほとんどの人はそれを確認しないし、みんなそれが何もないよりはマシだって受け入れてるみたい。でも、ページのニッチさや分野によっても変わるんだろうね。

└

最近のChangelogのエピソードで面白い例があったよ。ホストたちは「GitHub出身」と誤って説明されていて、その主張を裏付けるリンクもなかったんだ。ゲストが収録中に引用を修正してくれたんだよ。

Hacker Newsで議論の続きを見る

ハクソク