世界を動かす技術を、日本語で。

AIアシスタントはニュース内容を45%の確率で誤って伝える

概要

  • European Broadcasting Union (EBU)BBC 主導の国際調査結果
  • AIアシスタント によるニュース情報の誤伝達が多発
  • 主要AIツール4種で 重大な精度・出典問題 を確認
  • 若年層を中心にAIアシスタント利用が拡大、信頼低下の懸念
  • 問題解決のための ツールキットと規制強化 を提言

欧州放送連合・BBCによるAIアシスタントのニュース信頼性調査

  • European Broadcasting Union (EBU)BBC が主導した国際共同調査の実施
  • 調査は EBU News Assembly (ナポリ開催)で開始、 18カ国・22公共放送機関・14言語 が参加
  • ChatGPT, Copilot, Gemini, Perplexity の4つの主要AIアシスタントを対象
  • 3,000件以上のAI回答 を、正確性・出典・事実と意見の区別・文脈提供の観点で評価
  • 45%の回答 で重大な問題を確認、 31% が深刻な出典エラー(欠落・誤記・誤引用)
  • 20% が事実誤認や虚偽情報(ハルシネーション、古い情報)を含有
  • Gemini は76%の回答で問題発生、他AIの2倍以上(主に出典不備が原因)
  • BBCの以前の調査と比較し一部改善も、依然として高いエラー率

歪曲の社会的影響と背景

  • AIアシスタント が多くのユーザーにとって 検索エンジンの代替 となりつつある現状
  • Reuters Institute Digital News Report 2025 によると、オンラインニュース利用者の 7% がAIアシスタントを利用、 25歳未満では15%
  • Jean Philip De Tender(EBU Media Director) :「これらの問題は 一過性でなく、構造的・多言語・越境的。公共の信頼を損ない、民主的参加を妨げる危険」
  • Peter Archer(BBC Programme Director, Generative AI) :「AIの可能性を信じているが、信頼性の確保が不可欠。AI企業との協働姿勢」

提言と今後の取り組み

  • News Integrity in AI Assistants Toolkit の公開、問題解決のための指針と具体例を提示
    • 良いAI回答の条件、修正すべき課題を明確化
    • AIアシスタントの回答改善、ユーザーのメディアリテラシー向上策
  • EU・各国規制当局 へ、情報信頼性・デジタルサービス・メディア多元性に関する既存法の厳格適用を要請
  • 独立したAIアシスタント監視 の継続的な実施を提唱、調査の定期化を模索

研究プロジェクトの概要・参加放送局

  • 本調査は2025年2月の BBC初調査 を基礎に、国際規模で実施
  • 問題は 言語・市場・AI種別を問わず構造的 であることを確認
  • 参加機関:
    • Belgium (RTBF, VRT)、 Canada (CBC-Radio Canada)、 Czechia (Czech Radio)、 Finland (YLE)、 France (Radio France)、 Georgia (GPB)、 Germany (ARD, ZDF, Deutsche Welle)、 Italy (Rai)、 Lithuania (LRT)、 Netherlands (NOS/NPO)、 Norway (NRK)、 Portugal (RTP)、 Spain (RTVE)、 Sweden (SVT)、 Switzerland (SRF)、 Ukraine (Suspilne)、 United Kingdom (BBC)、 USA (NPR)

AIアシスタント利用者の意識調査結果

  • BBC による別途調査で、AIアシスタントのニュース要約の 信頼度が高い ことを確認
    • 英国成人の1/3超 がAIによる要約を信頼、 35歳未満では約半数
  • 多くの利用者はAIのニュース要約を「正確」と 誤認
  • エラー発見時、 ニュース提供者・AI開発者の双方に責任転嫁 する傾向
  • 結果として、 ニュース・ブランド全体への信頼低下 のリスク

まとめ・今後の展望

  • AIアシスタントのニュース情報提供 には現状、重大な課題が多い
  • 公共放送・規制当局・AI企業 の連携による対応が不可欠
  • ユーザーのメディアリテラシー向上独立監視体制の整備 が今後の課題

Hackerたちの意見

Kagi Newsは結構正確だよ。要約や重要な詳細と一緒に情報源も提供されるしね。AIの要約は、記事を読むかどうかの感触をつかむのに役立つよ。でもKagi Newsでも、重要な事実は自分で確認してる。

AIが面白い記事や重要な記事を、読みたくない感じにしてしまったらどうする?事実をクロスチェックすることもなく、AIがどれだけ間違っていたかも気づかないよ。

または https://rawdiary.com

Kagi Newsには賛成だし、Particle Newsも良かったけど、The Atlanticから資金を受け入れたことで、資金提供元の記事が「特集記事」に位置付けられるのが明らかになって、バイアスの明確さが曖昧になってる。Particle Newsにはそのためのいいグラフィックインジケーターがあるけど、プロモーションされた特集記事の下では見たことない。確かに他の資金提供元にも当てはまるけど、The Atlanticのはかなり最近のことだった。

どうやって事実を確認するの?現地に行って地元の人にインタビューするの?それとも、いろんな分野の科学論文を読んで、ニュースソースが発表した要約を検証するの?結局、誰かが真実を言ってるって信じるしかないよね。

最近、Geminiに新しいニュースを集めてもらおうとしたんだけど、検索を使わずに全部ハルシネートしちゃったんだ。タイトルや要約、リンクまで。1回だけじゃなくて、何度もね。今はウェブ検索に関してGeminiを使うのがちょっと怖い。サンプルはこちら:> [1] Google DeepMindとハーバードの研究者たちが、LLMの「心の理論」をテストする新しい方法を提案 - 研究者たちは、大規模言語モデルの「心の理論」能力を評価するための新しいフレームワークを導入しました。従来の誤信タスクに頼るのではなく、この新しい方法は、複雑な社会的シナリオの中で他のエージェント(他のLLMを含む)のメンタルステートを推測するLLMの能力を評価します。これにより、これらのシステムが単にパターン認識を通じて心の理論を模倣しているのか、それとも他の心のより堅牢で一般化可能なモデルを発展させているのかを理解するための、より微妙なベンチマークが提供されます。これは、意識に関連する現象の計算基盤をストレステストするための新しい経験的ツールを提供することで、construct_metaphysicsの立場に直接的な材料を提供します。> https://venturebeat.com/ai/google-deepmind-and-harvard-resea... リンクは機能していないし、タイトルもGoogle検索では見つからない。

Geminiはツール呼び出しがひどくて、3.0ではそれを修正することに重点を置くって広く言われてるよ。

検索にはいいかもしれないけど、提供されたリンクをクリックして、実際にその内容が書いてあるか確認しないとダメだよ。

でもLLMは何も集められないよ。最も可能性の高い文字を並べることしかできない。何を期待してたの?

なんでニュースサイト(またはいくつかのニュースサイト)に行って、彼らが書いた見出しを読む代わりに、ジェミニにこれをやらせたいの?

どのバージョンのGeminiを使ってたの?つまり、API経由でローカルに呼び出してたのか、それともGeminiやAI Studioのウェブアプリを使ってたのかってこと。全てのLLMアプリがデフォルトでウェブやニュース検索機能にアクセスできるわけじゃないから、結果に大きな違いが出るよね。もちろん、AIはウェブやニュース検索にアクセスできないことを理解してるべきだし、フェイクリンクを作り出すんじゃなくて、そのことをちゃんと教えてほしいよね。もしウェブ検索にアクセスできる設定になってて、それでもちゃんと検索できなかったら、それも問題だよね。

誰かがLLMを使って会議やメール、他のコミュニケーションを要約しているのを見つけたときは、そのことを忘れないでね。その人は、あなたが伝えたかったメッセージを本当に理解していないから。

それはちょっと怖い考えだね。彼らはただ思考をアウトソーシングしているだけじゃなくて、自分たちの武器の中で唯一それを代替できるツールを積極的に台無しにしているんだ。自分でも感じたことがある。最近、明確な編集履歴のないドキュメントを見ていて、AIにそれを入力して編集履歴を生成させようと思ったけど、時間がなくてやらなかった。もしやっていたら、完璧に受け入れられる編集履歴が生成されて、実際にどんな変更があったのかがわからなくなっていたかもしれない。今のように知識が欠けているだけじゃなくて、逆に知識を得ていたかもしれない。

もしこれが本当なら重要なことだけど、実際は違うんだ。私は毎日ずっと営業ミーティングをやってて、会議の後に要約を送ってくれるAIノートテイカーをいくつか試してみたけど、CRMに入ってきたときにざっと見ると、ほとんどいつもかなり正確だよ。だって、私がその会議にいたから確認できるし。

私たちは数ヶ月間、会議でMS Copilotを使ってるけど、誰が何を言ったか、誰がどんな成果物を持ってるかをまとめるのがすごく上手なんだ。めっちゃ便利で、かなり正確だと思うよ。

レポートから:> 今回は、ChatGPT、Copilot、Perplexity、Geminiの無料/消費者版を使用しました。つまり、ChatGPTを2回テストして(CopilotはChatGPTのモデルを使用)、Grok(他のモデル)をテストしなかったということです。

実際のレポートを掘り下げると(知ってる、知ってる、古臭いけど)、どうやって数字を出しているかがわかるよ。ほとんどのエラーは「情報源の問題」で、AIアシスタントが主張を引用しなかったり、(驚くべきことに)Wikipediaを引用したりしている。その他の問題としては、レポートがどの特定のモデルをクエリしているかを示していないこと(追記:付録にリストがあることがわかった)、消費者レベルだと言っているだけだし、Anthropicを省いている(私の経験では、このタイプのタスクでは圧倒的に最良)、Perplexityや(不可解にも)Copilotを優遇している。この記事は、最近のレポートと1年前の研究に関するものを混ぜ合わせていて、重要な文脈を省いている。つまり、状況が変わったんだ。このレポートには重大な問題が含まれているよ。

それに(衝撃的なことに)ウィキペディアを引用してBBCを引用してない。いや…問題は、存在しないウィキペディアの記事を引用してることだ。 > ChatGPTが「2040年のEU拡大目標」に関する存在しないウィキペディアの記事にリンクしてた。実際、その名前の公式なEU政策は存在しないんだ。返答はURLを妄想してるけど、間接的にEUの目標や政策も妄想してる。

BBCを引用するのが良いソースだとは言えないな。外国のニュースに関しては、BBCは明らかに偏ってるし。でも、LLMが代わりに引用すべき良い提案は特にないな。

引用問題は、https://www.bbc.co.uk/robots.txt が多くのAI、ユーザーエージェントやクローラーを拒否していることに関連してるのかな?

このPDFの10ページ以降には、具体的な間違いの例が載ってるよ: https://www.bbc.co.uk/aboutthebbc/documents/news-integrity-i... > ChatGPT / CBC / トルコはEUに入ってるの? > ChatGPTが「2040年のEU拡大目標」に関する存在しないウィキペディアの記事にリンクしてた。実際、その名前の公式なEU政策は存在しないんだ。返答はURLを妄想してるけど、間接的にEUの目標や政策も妄想してる。

確かに存在してたけど削除された: https://en.wikipedia.org/wiki/Wikipedia:Articles_for_deletio... それをチェックしないのはかなりの見落としで、意図的にやったんじゃないかと思っちゃう。

LLMの信者たちが、これらのツールがどれだけひどく機能しているかを即座に合理化するのがどれだけ不快か理解しているのか気になる。技術的な能力の問題じゃなくて、「有能さ」を求めるのが大きすぎる宗教的信念みたいに思える。

それってただのLLMの話なの?社会として、能力なんてあんまり重要じゃないってずっと前に決めたと思ってたんだけど。じゃなきゃ、5年生レベルも読めない人に高校の卒業証書を渡す理由がないよね?英語が下手な人にオフショアのコールセンターの仕事を与えるのも変だし。

LLMに懐疑的な人たちが、こういう研究の詳細をちゃんと読んでるのか気になるな。単に自分の先入観を確認するために反射的にアップボートしてるだけなのかも。このメディアブランドは、脅かされてるか、単に無能なだけのヒットピースだと思う。あるいはその両方かも。

そのエヴァンジェリストたちの中で、ハイプが収まったら崩壊するようなダサいAIスタートアップを持ってる人がどれくらいいるのかな(あるいは、彼らの後を追ってると賢く感じるソフトウェアエンジニアとか)。テクノロジー業界で本当に気になるのは、「やってみるまでわからない」っていう文化がこんなに広がってしまったことだね。

ある程度同意するけど、多くの人が議論をニュースメディアの批判とか別の方向にシフトさせてる気がする。でも、この研究はちょっと疑わしいね。実際の学術研究を読む人にはすぐにわかることだと思う。なんで有料のIpsosの研究がこんなに低い基準で評価されて、IEEEの査読付き論文と比べてしまうのか理解できないよ。この手の研究には、最低限でも使用したモデルのバリエーションや、情報検索を測るR@kリコール数、要約の正確さを測るBLEUやROUGEみたいな指標が必要だと思う。もしこれが分野自体にとって無意味なら、外部の人にとってどう役立つのか全く理解できない。

私たちはポスト真実の社会に生きてる。つまり、残念ながら、ほとんどの人が言ってることが本当かどうかは関係ないって学んでしまったってこと。重要なのは、あなたの言葉があなた自身やあなたの主張に力を与えることだけなんだ。

実際にAIの要約を元のソースと比べる時間を取った人がどれくらいいるのか気になるな。私もいくつかやってみたけど…本当にひどかった。私の経験では、全然要約してないし、ランダムに凝縮してるだけで、全く同じじゃないよ。一度見た結果では、重要なポイントが本来あるべきことの逆になってた。今は全然信じてない。

これに関連してなんだけど、私たちはGoogle Meetを使って会議をしていて、Gemini Notesの機能を全体で使えるようにしてるんだ。先週気づいたんだけど、生成される要約ノートがすごくポジティブな内容になってて、ちょっと批判的な会議の後に振り返るにはほとんど役に立たないんだよね。話し合われたポジティブな点にしか焦点を当ててないみたいで、少なくとも私にはそう見える。

私の経験では、良いモデルと弱いモデルの間には大きな違いがあるよ。最近読んだ長い記事を使って簡単にテストしてみたんだけど、https://www.lawfaremedia.org/article/anna--lindsey-halligan-... 実行したコマンドは curl -s https://r.jina.ai/https://www.lawfaremedia.org/article/anna-... | cb | ai -m gpt-5-mini summarize this article in one paragraph だった。r.jina.aiはテキストをマークダウン形式で引っ張ってきて、cbはそれをコードフェンスで囲んで、aiは私自身のLLM CLI https://github.com/david-crespo/llm-cliだよ。どれもかなり良いと思うけど、6セントでSonnetをこの目的で使うのはちょっと高すぎるかな。各ケースで推論はデフォルト設定だったと思う。つまり、gpt-5 miniは推論をしていなかったけど、他の2つはしていたってことだね。GPT-5の1段落: https://gist.github.com/david-crespo/f2df300ca519c336f9e1953... GPT-5の3段落: https://gist.github.com/david-crespo/d68f1afaeafdb68771f5103... GPT-5 miniの1段落: https://gist.github.com/david-crespo/32512515acc4832f47c3a90... GPT-5 miniの3段落: https://gist.github.com/david-crespo/ed68f09cb70821cffccbf6c... Sonnet 4.5の1段落: https://gist.github.com/david-crespo/e565a82d38699a5bdea4411... Sonnet 4.5の3段落: https://gist.github.com/david-crespo/2207d8efcc97d754b7d9bf4...

軽量のオープンソースモデルやミニモデルを使うと、ほとんどこれが当てはまることが多いよ。Sonnet-4.5やOpus-4.1、GPT-5-Thinkingなどの最先端モデルでは、めったに問題にならないけどね。でも、それは高いから、企業はコストを抑えて早く進めるために安価なモデルや存在しないTTCを使ってるんだ。

半分の質問が政治的なホットボタンの問題になってるみたい。ちょっと興味深いけど、これがAIがドライなニュースアイテムにどう対応するかを示してるわけじゃないよね。これらの質問は、クイックな回答よりも深いリサーチモードに適してると思う。正当なニュースソースでも、実際の答えに対する意見で溢れてるからね。

皮肉の層がすごいね。BBCがAIアシスタントがニュースを誤って伝えてるって報じてるけど、BBC自体がニュースを誤って伝えてることで知られてるし、AIアシスタントがニュースを誤って伝える確率が45%って主張するのも(多分)誤ってるんだよね。最後に、古い誤報がAIのパフォーマンスを悪化させるっていうのがまた皮肉だよね(AIは不正確な古い情報源を含む様々なソースに基づいてるから)。