GPTZeroがNeurIPS 2025で受理された論文の中から100件の新しい幻覚を発見

2026年1月23日原文(gptzero.me)

概要

このリストは、AI論文の参考文献における ハルシネーション（虚偽情報） の具体例を検証したものです。各エントリは、 論文タイトル・著者・出版情報の一致度 を詳細に記録。 偽造された著者やタイトル、存在しないDOIやURL の事例が多数含まれます。一部は実在論文に類似するが、 情報の一部が改ざん されているものも存在。 AIによる 自動生成文献の信頼性検証 や注意喚起に役立つ内容。

AI論文参考文献におけるハルシネーション検証例

SimWorld: An Open-ended Simulator for Agents in Physical and Social Worlds
- 著者名が架空、arXiv IDは 別論文 にリンク
Unmasking Puppeteers: Leveraging Biometric Leakage to Expose Impersonation in AI-Based Videoconferencing
- 複数の引用で 著者名・タイトルが不一致、 URLやDOIも偽造
SimWorld-Robotics: Synthesizing Photorealistic and Dynamic Urban Environments for Multimodal Robot Navigation and Collaboration
- 年代やタイトルが 実在論文と異なる、著者名も 不明確
Efficient semantic uncertainty quantification in language models via diversity-steered sampling
- 多くの引用が タイトル・著者・arXiv ID不一致、 出版実績なし
- 一部はarXiv IDが 未記入または不完全
Privacy Reasoning in Ambiguous Contexts
- 論文タイトルは実在するが、 著者や出版年が改ざん
Memory-Augmented Potential Field Theory: A Framework for Adaptive Control in Non-Convex Domains
- 一部著者が 実在論文と一致 も、 タイトルや出版情報が誤り
Adaptive Quantization in Generative Flow Networks for Probabilistic Sequential Prediction
- arXiv IDは実在だが、 著者・タイトル不一致
Grounded Reinforcement Learning for Visual Reasoning
- 類似タイトルの論文あり、 著者や内容が異なる
MTRec: Learning to Align with User Preferences via Mental Reward Models
- タイトル・著者・出版年が完全一致 （例外的に正当な引用）
Redefining Experts: Interpretable Decomposition of Language Models for Toxicity Mitigation
- 一部著者・出版情報は正確だが、 タイトル・ページ番号が不一致
Self-supervised Learning of Echocardiographic Video Representations via Online Cluster Distillation
- タイトル・著者不一致、会議録の巻数情報も欠落
PANTHER: Generative Pretraining Beyond Language for Sequential User Behavior Modeling
- 著者・タイトル・DOI全て偽造 または出版実績なし
LiteReality: Graphic-Ready 3D Scene Reconstruction from RGB-D Scans
- 一部著者やタイトルが 部分的に一致、完全一致なし
When and How Unlabeled Data Provably Improve In-Context Learning
- 著者・タイトル不一致、実在しない出版情報
その他
- 多くの引用が 実在論文の一部情報を流用 しつつ、 改ざん または合成されている

ハルシネーションの特徴と傾向

著者名の偽造 ：実在する研究者名を混ぜて 新規著者名を作成
タイトルの合成 ：既存論文タイトルを 部分的に変更
出版情報の捏造 ： 架空のDOIやURL、巻号・ページ番号の偽装
arXiv IDの誤利用 ： IDのみ実在、中身は全く異なる論文
一部のみ一致 ： 会議名や雑誌名だけ正しい が、その他は虚偽

利用上の注意点

AI生成論文や参考文献リスト は、 必ず一次ソースで検証 が必要
自動生成された引用情報 は、 信頼性に欠ける 場合が多い
論文執筆や調査時には、必ず公式データベースや出版社サイトで確認 すること

まとめ

AIによる自動生成参考文献には 虚偽情報やハルシネーションが多発
正確な学術情報の引用・利用には厳重な検証が不可欠
今後の AI活用時代における情報リテラシーの重要性

Hackerたちの意見

うわ、これは科学研究に大きな悪影響を与えるね。すでにデータやサンプルを偽造する論文の問題があるのに、LLMが信じられるような論文を出せるようになると、さらに悪化するだけだよ。明るい面としては、これをきっかけに科学界や科学ジャーナリストが再現性をもっと真剣に考えるようになるかもしれないね。将来的には「研究が素晴らしい化学物質xがyをすることを発見した」と言う代わりに、「研究者が化学物質xの素晴らしい結果を再現した。最初に発見したのはz」と報告されるのを見たいな。

└

すでに無効化された研究を引用している論文がまだ引用される問題は解決されたの？

└

ML/AI/コンピュータサイエンスの論文では、再現可能なコードを提供するのがいい選択だね。要するに、PoCかGTFOってこと。

└

それによって、偽科学者の行動がより明らかになるだろうね。

└

「研究が素晴らしい化学物質xがyをすることを発見した」と言うのではなく、「研究者が化学物質xがyをする素晴らしい結果を再現した。最初に発見したのはz」と報告される未来が見たい。私が話す科学者たち（少なくとも私の周りでは）も再現性の危機に同意してる。問題は、その作業を奨励する良い方法が本当にないこと。基本的に（独立して裕福で自分の研究を資金提供していない限り）、大学や政府の研究所、民間セクターにいるときは、何らかの形で生産性を測らなきゃいけない。それがすごく難しいんだよね。論文の数を単純に測ると（発展途上国や低ランクの大学でよく見られる）、ゴミのような論文が溢れかえることになる。中には良いものもあるけど、ほとんどの人は他の人たちの成果を基にして、あなたの研究をヒューリスティックとして切り捨てちゃう。だから、むしろ「良い」論文の量を評価する方向に行くことが多いんだよね。でも、それは主観的なものを定量化することだから、引用数みたいなものを代理指標として使おうとするかもしれない。影響力のある作品は通常たくさん引用されるから。最終的にはH指数みたいなものに行き着くかもしれない。「あなたが書いた論文の中で、H回引用された論文の数がHの最大値」と定義されるやつね。この方法の問題は、人々が「時間を無駄にしたくない」と思うようになること。これが難しいところで、たとえ再現性の結果を出すために資金提供や報酬を与えたとしても、常に元の発見者の引用数を増やすことになるから。でもそれ以上に悪いのは、実際には誰もあなたの研究を引用しないってこと。10年後には、元の論文とそれを再現したいくつかの論文があるだけで、時間を節約するために元の論文だけを引用することになる。科学的な仕事をどう奨励するかに明らかに問題がある。再現性をテストする世界にいたいのは明らかだけど、名声や生計が発見に直接結びついている限り、そこにたどり着くのは非常に難しい。

└

LLMの価値の一部は、特定のニーズに応じたリタイアメントを作ることになるんじゃないかな、少なくともそう願ってる。どんな問題でも解決するように頼むんじゃなくて、目標に早く到達できるように手助けしてくれるツールに制限する方がいいと思うんだ。

└

再現性は過大評価されてると思うし、もし魔法の杖で明日すべての論文を再現可能にできたとしても、問題は解決しないと思う。むしろ悪化するかもしれないよ。

すごい！実際にFirstname Lastname、John Doe、Jane Smithの論文を引用して提出してるのに、誰も気づいてないし、罰も受けてないんだね。

└

発覚した後でも（願わくば）罰せられるかもしれないね。

└

これが未来の流れだね。

└

もしかして「科学」ってずっとジョークだったのかもね。今はそれが明らかな証拠として指摘できるだけの違いがあるってこと？

2020年以前の論文でも同じような分析をしてもらえないかな？LLMが登場する前に、どれくらいの頻度で情報源を作り上げていたのか知りたいな。

Hacker Newsで議論の続きを見る

ハクソク

GPTZeroがNeurIPS 2025で受理された論文の中から100件の新しい幻覚を発見

概要

AI論文参考文献におけるハルシネーション検証例

ハルシネーションの特徴と傾向

利用上の注意点

まとめ

Hackerたちの意見