世界を動かす技術を、日本語で。

GPTZeroがNeurIPS 2025で受理された論文の中から100件の新しい幻覚を発見

概要

このリストは、AI論文の参考文献における ハルシネーション(虚偽情報) の具体例を検証したものです。 各エントリは、 論文タイトル・著者・出版情報の一致度 を詳細に記録。 偽造された著者やタイトル、存在しないDOIやURL の事例が多数含まれます。 一部は実在論文に類似するが、 情報の一部が改ざん されているものも存在。 AIによる 自動生成文献の信頼性検証 や注意喚起に役立つ内容。

AI論文参考文献におけるハルシネーション検証例

  • SimWorld: An Open-ended Simulator for Agents in Physical and Social Worlds
    • 著者名が 架空、arXiv IDは 別論文 にリンク
  • Unmasking Puppeteers: Leveraging Biometric Leakage to Expose Impersonation in AI-Based Videoconferencing
    • 複数の引用で 著者名・タイトルが不一致URLやDOIも偽造
  • SimWorld-Robotics: Synthesizing Photorealistic and Dynamic Urban Environments for Multimodal Robot Navigation and Collaboration
    • 年代やタイトルが 実在論文と異なる、著者名も 不明確
  • Efficient semantic uncertainty quantification in language models via diversity-steered sampling
    • 多くの引用が タイトル・著者・arXiv ID不一致出版実績なし
    • 一部はarXiv IDが 未記入または不完全
  • Privacy Reasoning in Ambiguous Contexts
    • 論文タイトルは実在するが、 著者や出版年が改ざん
  • Memory-Augmented Potential Field Theory: A Framework for Adaptive Control in Non-Convex Domains
    • 一部著者が 実在論文と一致 も、 タイトルや出版情報が誤り
  • Adaptive Quantization in Generative Flow Networks for Probabilistic Sequential Prediction
    • arXiv IDは 実在 だが、 著者・タイトル不一致
  • Grounded Reinforcement Learning for Visual Reasoning
    • 類似タイトルの論文あり、 著者や内容が異なる
  • MTRec: Learning to Align with User Preferences via Mental Reward Models
    • タイトル・著者・出版年が完全一致 (例外的に正当な引用)
  • Redefining Experts: Interpretable Decomposition of Language Models for Toxicity Mitigation
    • 一部著者・出版情報は 正確 だが、 タイトル・ページ番号が不一致
  • Self-supervised Learning of Echocardiographic Video Representations via Online Cluster Distillation
    • タイトル・著者不一致、会議録の巻数情報も 欠落
  • PANTHER: Generative Pretraining Beyond Language for Sequential User Behavior Modeling
    • 著者・タイトル・DOI全て偽造 または出版実績なし
  • LiteReality: Graphic-Ready 3D Scene Reconstruction from RGB-D Scans
    • 一部著者やタイトルが 部分的に一致、完全一致なし
  • When and How Unlabeled Data Provably Improve In-Context Learning
    • 著者・タイトル不一致、実在しない出版情報
  • その他
    • 多くの引用が 実在論文の一部情報を流用 しつつ、 改ざん または 合成 されている

ハルシネーションの特徴と傾向

  • 著者名の偽造 :実在する研究者名を混ぜて 新規著者名を作成
  • タイトルの合成 :既存論文タイトルを 部分的に変更
  • 出版情報の捏造架空のDOIやURL、巻号・ページ番号の偽装
  • arXiv IDの誤利用IDのみ実在、中身は全く異なる論文
  • 一部のみ一致会議名や雑誌名だけ正しい が、その他は虚偽

利用上の注意点

  • AI生成論文や参考文献リスト は、 必ず一次ソースで検証 が必要
  • 自動生成された引用情報 は、 信頼性に欠ける 場合が多い
  • 論文執筆や調査時には、必ず公式データベースや出版社サイトで確認 すること

まとめ

  • AIによる自動生成参考文献には 虚偽情報やハルシネーションが多発
  • 正確な学術情報の引用・利用には厳重な検証が不可欠
  • 今後の AI活用時代における情報リテラシーの重要性

Hackerたちの意見

うわ、これは科学研究に大きな悪影響を与えるね。すでにデータやサンプルを偽造する論文の問題があるのに、LLMが信じられるような論文を出せるようになると、さらに悪化するだけだよ。明るい面としては、これをきっかけに科学界や科学ジャーナリストが再現性をもっと真剣に考えるようになるかもしれないね。将来的には「研究が素晴らしい化学物質xがyをすることを発見した」と言う代わりに、「研究者が化学物質xの素晴らしい結果を再現した。最初に発見したのはz」と報告されるのを見たいな。

すでに無効化された研究を引用している論文がまだ引用される問題は解決されたの?

ML/AI/コンピュータサイエンスの論文では、再現可能なコードを提供するのがいい選択だね。要するに、PoCかGTFOってこと。

それによって、偽科学者の行動がより明らかになるだろうね。

「研究が素晴らしい化学物質xがyをすることを発見した」と言うのではなく、「研究者が化学物質xがyをする素晴らしい結果を再現した。最初に発見したのはz」と報告される未来が見たい。私が話す科学者たち(少なくとも私の周りでは)も再現性の危機に同意してる。問題は、その作業を奨励する良い方法が本当にないこと。基本的に(独立して裕福で自分の研究を資金提供していない限り)、大学や政府の研究所、民間セクターにいるときは、何らかの形で生産性を測らなきゃいけない。それがすごく難しいんだよね。論文の数を単純に測ると(発展途上国や低ランクの大学でよく見られる)、ゴミのような論文が溢れかえることになる。中には良いものもあるけど、ほとんどの人は他の人たちの成果を基にして、あなたの研究をヒューリスティックとして切り捨てちゃう。だから、むしろ「良い」論文の量を評価する方向に行くことが多いんだよね。でも、それは主観的なものを定量化することだから、引用数みたいなものを代理指標として使おうとするかもしれない。影響力のある作品は通常たくさん引用されるから。最終的にはH指数みたいなものに行き着くかもしれない。「あなたが書いた論文の中で、H回引用された論文の数がHの最大値」と定義されるやつね。この方法の問題は、人々が「時間を無駄にしたくない」と思うようになること。これが難しいところで、たとえ再現性の結果を出すために資金提供や報酬を与えたとしても、常に元の発見者の引用数を増やすことになるから。でもそれ以上に悪いのは、実際には誰もあなたの研究を引用しないってこと。10年後には、元の論文とそれを再現したいくつかの論文があるだけで、時間を節約するために元の論文だけを引用することになる。科学的な仕事をどう奨励するかに明らかに問題がある。再現性をテストする世界にいたいのは明らかだけど、名声や生計が発見に直接結びついている限り、そこにたどり着くのは非常に難しい。

LLMの価値の一部は、特定のニーズに応じたリタイアメントを作ることになるんじゃないかな、少なくともそう願ってる。どんな問題でも解決するように頼むんじゃなくて、目標に早く到達できるように手助けしてくれるツールに制限する方がいいと思うんだ。

再現性は過大評価されてると思うし、もし魔法の杖で明日すべての論文を再現可能にできたとしても、問題は解決しないと思う。むしろ悪化するかもしれないよ。

すごい!実際にFirstname Lastname、John Doe、Jane Smithの論文を引用して提出してるのに、誰も気づいてないし、罰も受けてないんだね。

発覚した後でも(願わくば)罰せられるかもしれないね。

これが未来の流れだね。

もしかして「科学」ってずっとジョークだったのかもね。今はそれが明らかな証拠として指摘できるだけの違いがあるってこと?

2020年以前の論文でも同じような分析をしてもらえないかな?LLMが登場する前に、どれくらいの頻度で情報源を作り上げていたのか知りたいな。

それに、彼らの「AI検出器」が2020年以前の論文をどれだけAI生成とマークするかも興味深いね。LLMにはちょっと不信感があるけど、AI検出器にはもっと不信感がある。

うん、ベースレートを測らずにこれをAIに帰属させるのは意味がないよね。確かに増えている可能性はあるけど、こういうことは人間でも起こっていたと思う。

2024年にWACVの出版のために完全にAI生成のレビューを受けたことがあるよ。エリアチェアがすごく忙しくて、著者はあまり手段がないんだ。これは辛いけど、もっとボランティアが集まって会議の運営を手伝わないと、なかなか解決できないよね。(もし論文のレビューができる資格があるなら、好きな会議のプログラムチェアにメールして知らせてあげて!本当に助けが必要なんだ。)私のレビューについては、レビュー用のフォームに要約用のテキストボックス、強み用のテキストボックス、弱み用のテキストボックス、全体的な意見用のテキストボックスがあったんだけど、受け取ったレビューには、要約テキストボックスに一つの完全なセットの要約/強み/弱み/締めの意見が入っていて、強みのボックスには別のセットの要約/強み/弱み/締めの意見が、弱みにはまた別の完全なレビューが、締めの意見には四つ目の完全なレビューが入ってた。これらの四つのレビューはそれぞれ少しずつ違っていて、矛盾してたんだ。レビュアーは私の論文を弱い拒否として評価したけど、「利点が欠点を大きく上回っている」とも言ってた。強みとして「合成データの革新的な使用」を挙げて、弱みとして「合成データへの依存」を挙げてたよ。

NeurIPSのリーダーシップは、幻覚的な引用が必ずしも失格になるとは考えていないみたい。彼らの声明についてはFortuneの記事を見てみてね:https://archive.ph/yizHN > コメントを求められた際、NeurIPSのボードは次のような声明を発表しました。「AI会議における論文でのLLMの使用は急速に進化しており、NeurIPSはその動向を積極的に監視しています。過去数年にわたり、LLMの使用に関するポリシーを試行してきました。そして2025年には、レビュアーに幻覚を指摘するよう指示しました。この特定の研究の結果に関しては、その影響を判断するために、さらに多くの努力が必要であることを強調します。たとえ1.1%の論文がLLMの使用によって1つ以上の誤った引用を含んでいたとしても、論文自体の内容が無効になるわけではありません。たとえば、著者がLLMに引用の部分的な説明を与えて、bibtex(フォーマットされた引用)を生成するように頼んだ可能性があります。NeurIPSは常に、科学的厳密さを確保し、著者やレビュアーの能力を向上させる方法を見つけるために、レビューと著作プロセスの進化に取り組んでいます。」

なんか、全てがバレちゃうよね。「引用が幻覚だとしても、実際には関係ない。」公平に言えば、NeurIPSはみんなが知ってることをそのまま言ってるだけだよ。出版された科学のほとんどの引用は無駄なゴミだし、互いに評価を上げるための相互引用か、「人間は生き残るために清潔な水が必要です(Franz, 2002)」みたいな無意味な過剰引用の慣習だよ。本当に、幻覚の引用は、ずっと前から必要だった清算を強いているだけなんだ。

LLMの幻覚が一度でもあったら、その論文は全部撤回して、今後の提出を禁止すべきだと思う。

論文の内容自体が必ずしも無効になるわけではない。例えば、著者がLLMに引用の部分的な説明を与えて、bibtex(フォーマットされた参考文献)を生成させた可能性がある。もしかしたら過剰反応かもしれないけど、これはめちゃくちゃ偏った反応に感じる。彼らは一つの無害そうな理由を見つけて、それを使って問題全体を軽く流そうとしている。科学はすでに再現性の問題を抱えていて、今は幻覚の問題もある。民間セクターが研究や機関に与える影響を考えると、オープンサイエンスの未来は暗いね。

これは、効果的に罰せられない限り続くよ。論文を撤回してもあまり意味がないだろうし、著者がLLMを使えなかったら書かれなかった可能性が高いから、試みたことで何も悪くはない。科学出版は今やほとんど数字のゲームになってる。悪い行動を監視するよりも、悪い行動をする方がずっと安上がりな状況の一例だし、それに対するインセンティブが変わらない限り、状況は悪化する一方だね。

たとえ1.1%の論文がLLMの使用によって1つ以上の不正確な引用を含んでいたとしても、論文の内容自体が必ずしも無効になるわけではない。この発言は間違っていないし、論文の残りの部分が正しい可能性もある。ただ、論文のどこかに明らかな虚偽があるのを見ると、他の部分もすぐに疑わしく思っちゃう。便利なときに手を抜く著者は、たいてい一度だけではなく、逃げられると思ったところではどこでもそうするからね。LLMに引用を扱わせることから、LLMに自分のために書かせること、さらにはデータを解釈させることに至るのは滑りやすい道だよ。後者は、データ分析のためにLLMを使ったことがある人なら誰でも最終的に気づくような、幻覚的な結果や統計の扉を開くことになる。

提出された論文をすべてGPTZeroに通して、幻覚がある論文は一発で却下しちゃえばいいんじゃない?

AIが「出版か消滅か」のパラダイムを完全に消し去るかもしれないね。論文の量が多すぎて、どの論文が価値あるものか、再現性がない怪しいものか、ただの必死な出版ラッシュかを正しく判断するのがほぼ不可能だよ。こういうやり方は終わるべきだね。

でも、どうやって教員や研究者の質を評価できるんだろうね?組み立てラインの部品を数える以外に。/s これは問題だよ。出版狂時代の前は、基本的に同業者同士の評判を基にしたクラブ的なゲームだったと思う。出版メトリクスは、確かにハードサイエンスから出てきて、最もソフトな人文学にも広がったんだ。ちょっとした裏技でゲームするのはいつでも簡単だったけど、今はそれを打破するのが trivial だね。

これはひどいけど、驚くことでもないね。誰かが論文に再現可能なコードについて言及してたけど、そのコードも部分的または完全にAI生成である可能性が高いよね。つまり、AIが仮説を生成して→AIがその仮説を実装するためのコードを作って→AIがその仮説とコードに基づいて論文を生成するって感じ。あと、NeurIPSでは15,000件の提出が却下されたけど、その中でどれくらいが部分的または完全にAI生成/幻覚だったのか、興味深いね。その比率は比較できるのかな?

コードがAI生成かどうかは重要じゃなくて、実際に動くことが大事だよね。コードを共有することで、他の人が別のデータセットでその方法を検証できるし。LLMが登場する前から、見た目が良さそうな方法がたくさんあったけど、実際には受け入れられたベンチマーク以外ではうまくいかなかったことが多い。

よくわからないんだけど、引用の存在を確認する自動ツールはなんでないの?引用のデータは構造化されたスタイル(APA、MLA、シカゴ)になってるし、論文のメタデータはウェブ検索で入手できるはず。たとえ論文の内容がなくても。GPTZeroにはそんなツールがあるみたいだけど、なんで論文の著者やレビューアがもっと使わないのか不思議だわ。

引用はあまりにもオープンすぎて、バリエーションが多いし、ちょっとしたミスが人間の検証者には問題にならないけど、自動ツールには簡単に確認できない形になっちゃってるんだよね。DOIは、ソースの存在に関する機械的なバリエーションを解決するために作られたはずなんだけど、ジャーナルのペイウォールや採用の限界で、普遍的な解決策にはなってない。さらに、DOIは「引用が言ってることをソースが本当に言ってるのか」っていう事実の正確性を簡単には確認できないから、そこが一番重要なのに。私の経験では、引用フォーマットにはかなりのバリエーションがあって、厳密に定義されていてBibTexの使用を求めるジャーナルでもそうなんだよね。多くのジャーナルは引用フォーマットのルールをかなり曖昧にしてるし、これは深い問題だよ。

GPTZero Source Finderはたった1年前にリリースされたみたいだね。むしろ、スロップライターたちがこのツールを事前に使わないのが意外だよ。レビューアに対して「先を行ってる」わけだからさ。

論文を発表することは、今や新しい研究を発表したいという真摯な気持ちよりも、履歴書を飾るためのものになってる気がする。どのレベルでもこれをよく見かけるよ。どこかに論文を発表することは、履歴書を完成させるためのチェックボックスみたいになってる。業界全体で、候補者を評価したり給与を決めるときにこれを考慮するのはやめるべきだと思う。ある意味、逆信号になってしまってるよね。