言語モデルが幻覚を引き起こす理由

2025年9月6日原文(openai.com)

概要

OpenAI はAIの 幻覚（hallucination） 問題に取り組み中
幻覚とは、 言語モデル が自信満々に誤った情報を出す現象
現在の 評価方法 が「推測」を促し、謙虚さを評価しない点が原因
解決策は「 自信過剰な誤答」を厳しく評価し、「不確実性表現」を部分的に評価すること
最新モデルでは幻覚率が下がっているが、完全解決には至っていない

OpenAIにおける幻覚（hallucination）問題

OpenAI はAIシステムの 有用性と信頼性 向上を目指す
言語モデルが進化しても、幻覚問題は依然として解決困難
幻覚とは、 モデルが本当でない答えを自信満々に生成 する現象
ChatGPTやGPT-5 でも幻覚は減少傾向だが、完全には消えていない
全ての大規模言語モデルに共通する 根本的課題

幻覚とは何か

幻覚： もっともらしいが誤った内容 を生成する現象
シンプルな質問でも 予想外の誤答 が現れる
- 例：著者のPhD論文タイトルや誕生日を複数回誤答
正答・誤答・無答（abstention） の3分類で評価可能

現在の評価方法の問題点

現行の評価法は「推測」を促進し、「 不確実性の表明」を評価しない
正答率のみを重視することで、 誤答（幻覚） の発生率が上昇
例：分からない場合でも「I don't know」より ランダム推測 が高得点
正答率重視のスコアボード がモデルの推測傾向を助長
OpenAIの価値観 では、誤った自信よりも「謙虚な無答」を重視

モデル別評価例

o4-mini ：正答率24%、誤答率75%、無答率1%
gpt-5-thinking-mini ：正答率22%、誤答率26%、無答率52%
o4-mini は正答率が僅かに高いが、 誤答率が圧倒的に高い
gpt-5-thinking-mini は「無答」を多用し、誤答率を大幅低減

幻覚発生の根本原因

言語モデルの 事前学習 は「次の単語予測」が中心
「真偽ラベル」なしで、 自然な言語パターン のみ学習
低頻度事実 （例：誕生日）はパターンから予測不可能
スケール拡大で「スペルミス」等は減るが、「事実誤認」は残存

幻覚対策と今後の課題

自信過剰な誤答にペナルティ、 不確実性表現に部分点 が有効
この考えは新しくなく、 一部試験では既に導入
主要な評価指標自体を 「謙虚さ」も評価する形へ見直し が必要
評価法の抜本的改革が、 幻覚低減技術の普及 を後押し

幻覚に関する誤解と事実

「 正答率100%なら幻覚ゼロ」→現実は不可能、答えられない質問も存在
「 幻覚は避けられない」→無答を選択すれば回避可能
「 大規模モデルのみ幻覚回避可能」→小規模モデルでも限界認識は容易
「 幻覚は不可解なバグ」→統計的な仕組みで発生・評価で強化される現象
「 良い幻覚評価指標だけで十分」→全体の評価指標見直しが不可欠

今後の展望

最新モデル は幻覚率が低下傾向
自信過剰な誤答の更なる削減 に向けて継続的に研究開発
評価方法の刷新 が、より信頼性の高いAI実現の鍵

Hackerたちの意見

これは選択肢テストのように考えてみて。答えがわからないときに適当に推測すると、運が良ければ正解するかもしれない。何も書かないと確実にゼロ点だよね。同じように、モデルが正確さだけで評価されると、正確に答えた割合が求められるから、「わからない」と言うよりも推測することが奨励される。私には、これはアメリカ的な選択肢テストの考え方に見える。他の一般的な選択肢テストの評価方法としては、 1. テストを受ける人がN個の選択肢の中で正しいのが1つだけだとわかっている場合： 1.1 正解にはN-1ポイント、間違いには-1ポイントを与える。これで、テストを受ける人がランダムに答えた場合、期待値として0ポイントになる。 1.2 Nが3以上の場合は、もっと厳しい方法：正解には1ポイント、間違いには-1ポイントを与える。正しい答えがあるときだけ答えることを学ぶべきだよ（N=2の場合、評価は1.1と同じ）。 2. 複数の正解があり得る場合は、各項目を「はい」か「いいえ」の選択肢に変える（答えない選択肢もあり）。正しい選択肢には1ポイント、間違いには-1ポイントを与える（つまり1.1のように）。

└

SAT、アメリカの大学入試試験は、昔は間違った答えに対してポイントを引いて、答えがない場合は0ポイントだったと思う。確か、正解には+1ポイント、答えがない場合は0ポイント、間違いには-1/4ポイントだったはず。

└

これはテキストに書かれている通りだね： > このアイデアは新しいものではない。いくつかの標準化されたテストでは、間違った答えに対する負のマークや、盲目的な推測を抑制するために質問を空白にした場合の部分点を長い間使用している。

これは本質的に間違っていると思う。部分的に間違っているとも言えるけど。LLMが統計的に有意な答えがないと言えないように訓練されていないから、幻覚を起こすのは合理的だ。でも、これらのシステムには正しいか間違っているかの知識はない。すべてが統計だから、OpenAIが説明していることは幻覚を減らすための合理的な方法に聞こえるけど、それを完全に排除する方法でもないし、根本的な原因でもない。

└

LLMが統計的に有意な答えがないと言えないように訓練されていないから、幻覚を起こすのは合理的だ。実際のスケールモデルのパラメータを直感的に説明している人は見たことがないけど、たぶんそれはすべて千次元のナンセンスだからだろう。統計も面白いもので、ほとんどの人はトレンドラインが常にうまく外挿されるわけではないことを見たことがあると思う。OpenAIは、もっとパラメータを追加して訓練を良くすればすべての問題が解決すると思い込んでいるように見える。手を振るように言うと、スプレッドシートで曲線フィットする際に多くの次数を追加するようなものだ。十分なパラメータがあれば、どんなデータセットにも完璧にフィットできる。でも、それはトレーニングデータとは異なる新しい入力に出くわすまでうまくいく。

└

あなたの中に「正しい vs 間違い」の知識はあるの？もし「ない」なら、それなしでも一般知能に到達できるってことだよね。もし「ある」なら、LLMがその知識を詰め込むことができない理由はないと思う。完璧になるかって？ハハハ、無理だね。でも、「十分良い」状態には達成できる理由は見当たらない。

└

彼らはこの問題に最後の方で少し触れているね。 > 「無効な例が全くないと、有効な発言と無効な発言を区別するのは二重に難しい。でも、ラベルがあっても、いくつかのエラーは避けられない。なぜかというと、もっとシンプルな例えを考えてみて。画像認識では、何百万もの猫と犬の写真が「猫」や「犬」とラベル付けされていれば、アルゴリズムはそれを信頼性高く分類できるようになる。でも、代わりにペットの誕生日でラベル付けしたらどうなる？誕生日は基本的にランダムだから、このタスクはどんなにアルゴリズムが進んでも常にエラーを生むことになる。> 同じ原則が事前学習にも当てはまる。スペルや括弧は一貫したパターンに従っているから、そこにエラーはスケールと共に消えていく。でも、ペットの誕生日みたいな恣意的な低頻度の事実は、パターンだけでは予測できないから、幻覚を引き起こすことになる。私たちの分析は、次の単語予測からどんな種類の幻覚が生じるべきかを説明している。理想的には、事前学習の後のさらなるステージでそれらを取り除くべきだけど、前のセクションで説明した理由から、完全には成功していない。」

└

正しいことと間違ったことの知識はある。それが損失というもので、質問には多くの可能な答えがあることが多い。これがRLVRが機能する理由でもある。正しい答えは一つだけで、LLMはこれをかなりうまく学習するけど、まだ完璧ではない（今のところ）。

幻覚を起こすのは、定義が曖昧な問題で、2つの対立するユースケースがあるからだ。1. 物語の最初の2行を教えたら、LLMに物語を完成させてほしい。これは幻覚を必要とする。なぜなら、物語を作り上げなければならないから。物語はオリジナルでなければならない。2. 質問をしたら、事実で返答してほしい。作り話はしてほしくない。LMは元々（1）のために設計されていた。研究者たちは（2）は手の届かないものだと思っていた。でも、根本的な変更なしにLMが（2）を少しできることがわかってから、状況は改善されたけど、幻覚が消えたり制御されたりするところまでは至っていない。

└

確かに - レベッカ・パーソンズが言うように、LLMができることは幻覚を起こすことだけだ。ユーザーはその幻覚の中で役に立つものもあれば、そうでないものもある。

└

これは明確に定義されていない問題だとは思わないな。別々のモデルを設計して、これら二つのタスクで優れた結果を出すことができるから。例えば、「事実に基づく」LLMの場合、出力が検証可能な発言なら正しいべきだ。そうでなければ「幻覚」ってことになる。でも、LLMは全てを知っているわけじゃないから、自分の不確実性をうまく表現して、低い自信で確定的な発言を避けるのがいいアプローチだと思う。

└

本質的に定義が曖昧だとは思わないな。文脈がフィクションが求められているかどうかを教えてくれるから。AIチャットボットにとって、デフォルトはフィクションであるべきじゃない。事前学習中は、モデルがこれを判断するのに十分な情報を持っていないのは事実だし、自分が知っていることと作り上げていることを区別することもできない。この高次の区別は、後から出てくるもので、もし出てくるとしてもね。最近の「悪のベクトル」を発見した研究は、高次の区別の一例だ。

Hacker Newsで議論の続きを見る

ハクソク