GPT-5.5はMITライセンスのGLM-5.2よりも3倍多く幻覚を引き起こす

2026年6月20日原文(arrowtsx.dev)

概要

大規模AIモデルの「大きさ至上主義」に対する懐疑的な見方の台頭
Fable 5の米国政府による規制がAI開発の転換点
モデルの巨大化による知能の伸び悩みと幻覚率の増加
性能指標と現実の正確性とのギャップ
今後のAI開発における三重苦（トリレンマ）問題の提起

AIラボにおける「巨大化」への懐疑と転換点

主要AIラボ間で パラメータ数や学習データの無限拡大 に対する懐疑の高まり
Claude Fable 5が 米国政府によってリリース3日後に規制、国家安全保障上の初のAI禁止事例
巨大モデルのリスク （単一の脱獄（jailbreak）でも禁止に至る可能性）

「大きいほど良い」神話の現状

世界最大級のモデルが Artificial Analysis Intelligence Index で最高スコアを獲得
Z.aiのGLM-5.2（753Bパラメータ、約40Bアクティブ）が GPT-5.5やFable 5に僅差で迫る
Opus 4.8やGPT-5.5は 推定1-2兆パラメータ規模 でクローズド
MITライセンスのオープンウェイトLLM がより巨大なクローズドモデルに迫る実績
知能の伸び悩み（プラトー） の顕在化

「大きいほど良い」とは限らない現実

事実ベース・非理論的データ で学習したモデルは常に答えを出そうとする傾向
DeepSeek V4 Pro（1.6Tパラメータ、49Bアクティブ）は AA-Omniscienceベンチマークで94%幻覚率
「分からない」と答えたのはわずか6%、 残りは自信満々に誤答
GLM-5.2は28%、Opus 4.8は36%、Fable 5は48%、GPT-5.5は86%の幻覚率
巨大モデルほど幻覚率が高い 傾向

実例による性能比較

Pythonの 明確な設計上の矛盾を含む質問 でテスト
DeepSeek V4 Proは 10倍の推論トークンと長時間計算 しても誤答
GLM-5.2は 12秒、約800トークンで即座に矛盾を指摘
GPT-5.5やDeepSeek V4 Proは幻覚率が突出
巨大化により「分からない」と言えず、 複雑な論理的誤謬も見抜けない

ベンチマークと現実の乖離

理論上の性能（ベンチマークスコア）と現実の正確性 のギャップ拡大
巨大モデルのコモディティ化で 消費者がモデル選択に困難
モデルサイズや理論性能だけで選ぶ時代の終焉

現代AIの三重苦（トリレンマ）

推論予算、コーパス規模、パラメータ数 の盲目的な増加への警鐘
DeepSeek V4 Proは 3分26秒かけて誤答を生成、GLM-5.2は即座にパラドックスを認識
AGI時代においても 巨大モデルが誤った解決策を自信満々に提示 する危険性
今後はモデルの巨大化路線の限界
トレーニングや選択基準は 「生能力」「不確実性キャリブレーション／幻覚率」「計算効率」 という三重苦を考慮する必要

テスト条件と補足情報

両モデルとも 高推論努力・温度1 でOpenRouter上でテスト
GLM-5.2はZ.ai（FP8精度）、DeepSeek V4 ProはBaidu Qianfan（FP8精度）で提供
システムプロンプト：「You respond professionally. You are a highly capable coding assistant well-versed in Python.」

Hackerたちの意見

モデルが大量の事実に基づいたデータでトレーニングされると、常に答えを持つようになることが証明されてるんだ。DeepSeek V4 Pro（1.6Tパラメータ、49Bアクティブ、44 AAインテリジェンスインデックススコア）は、AA-Omniscienceベンチマークでなんと94%の幻覚スコアを記録してる。つまり、答えがわからない質問に対しては、約6%の確率で「わからない」と言うだけで、残りの94%は自信満々に幻覚の答えを言ってるってこと。GLM-5.2は28%、Opus 4.8は36%、Fable 5は48%、GPT-5.5は86%の幻覚率だって！すごいね！ここで共有された以前の研究から、幻覚はLLMの根本的な問題で、修正が難しいことは知ってたけど、幻覚率がこんなにひどいとは思わなかった！みんな、最高のモデルはエッジケースでしか幻覚を起こさないって言ってるけど、ここで言及されてる中で一番性能がいいGLM-5.2ですら、答えがわからないときは28%の幻覚率があるんだ。そう考えると、ブログのタイトル「大きなモデルは解決策ではない」は、もっと重要なニュースに触れてる気がする。もし大きなモデルやトレーニングセットが比例したリターンを生まなくなっているなら、もうS字カーブの頂点に近づいている可能性が高い。これは大きなニュースだよ、OpenAIやxAIの企業評価がこれらのモデルからの（ばかげた）スケーリングの増加に大きく基づいていることを考えると。

└

タイトルには同意だ、私のミス！でも、そうだね、特にコーディングエージェントでこれらの「フロンティア」モデルを使った時の体験は本当にひどかった。彼らはコードベースについて適当な事実をでっち上げるから。

└

LLMにはWikipediaのような「知識」の概念はないよ。質問トークンが答えトークンを定義するだけ。それだけなんだ。重要なのは、関連する重みをうまくまとめることだね。

幻覚率のスコアは解釈がちょっと難しいんだ。モデルが答えを知らないという条件付きだからね。つまり、日常使用で幻覚に遭遇する確率を測っているわけではなく、モデルが答えを知らない確率や、タスクの分布が評価でテストされた分布とどれだけ合っているかにも依存してる。これをモデルのサイズだけに帰するのはためらうね。確かに、GLM-5.2はDeepSeek-V4 Proよりも幻覚を起こす頻度が少ないけど、DeepSeek-V4 FlashはGLM-5.2の半分以下のサイズなのにAA-Omniscience幻覚インデックスでトップなんだ。Opus 4.8はDeepSeek-V4 Proよりも大きい可能性があるけど、インデックスで36%の幻覚率を記録していて、GLM-5.2の28%を上回っているけど、DeepSeekの数値には遠く及ばない。Opusの正確性は47%で、GLM-5.2は25%だよ。この数値を使って絶対的な幻覚率（つまり、幻覚した応答の数を総応答数で割ったもの）を計算すると、Opusは19%、GLM-5.2は21%になる。だから、他の条件が同じなら、大きなモデルは答えを知らないシナリオで幻覚を起こしやすいかもしれないけど、幻覚率に影響を与える他の要因もたくさんあって、これが追跡する価値のある主要な指標かどうかははっきりしないね。

└

さらに、モデルが答えを知らないことに気づくのが簡単な質問の方が、幻覚率が高くなるかもしれないね。もしOpusが一番難しい質問を除いてすべて正解するなら、間違える質問が検証や幻覚検出が最も難しい質問だから、幻覚率が高くなるかもしれない。

└

幻覚率のスコアは解釈がちょっと難しいんだ。モデルが答えを知らないという条件付きだからね。つまり、日常使用で幻覚に遭遇する確率を測っているわけではなく、モデルが答えを知らない確率や、タスクの分布が評価でテストされた分布とどれだけ合っているかにも依存してる。これについての引用はある？人間が適当な嘘をついた場合、正しい答えを知っている場合だけそれを作り上げたとは言わないよね。知らないなら、唯一の正しい答えは「わからない」だ。他の答えは全部作り話だ。LLMが答えを持っているときだけ幻覚になるのはなぜ？何かを作り上げたら、それはまだ間違ってるよね。正しい答えを言えたかどうかは関係ない。言えなかったんだから、代わりに適当なことを考えたってこと？追記：> そして、これは追跡する価値のある主要な指標かどうかはっきりしない。うーん、あるモデルがどれだけ適当なことを作り上げるかの率は有用な気がする。HNで繰り返し見かける議論が、幻覚を完全に排除するのは不可能だってことなら、嘘を作り上げる可能性が低いモデルを選べるのは良い特性だと思うけど？どちらにしても、嘘が幻覚としてカウントされない厳密な定義は、正確なエラーレートよりも無限に役に立たない気がする。発生したトークンの何パーセントが誤解を招くかは、私にとって有用だ。誰か、グローバルエラーレートを定量化しようとしたグループを知ってる？

└

幻覚は「基盤を持たない失敗」と呼ぶべきだ。アメリカのフロンティア近くのコストモデルには、モデルが不確実なときに牛の電気ショックが出るような感じがあるけど、検索するかどうかで迷っている。検索のフリンチはほぼすべて幻覚だよ。モデルのターンを待たずに、マニュアルページやHoogleのヒットがあれば、最後のプレフィックスキャッシュのカットポイントを詰め込む。そうすれば得をする。

└

これは一般的な失敗モードを見逃しているね。それは知識のカットオフを超えた情報だ。もしその時点以降の情報が必要なら、モデルのサイズに関係なく失敗するから、幻覚率は知識ベースとは独立して重要になる。すべてのユースケースがサポート外になるリスクが均一であれば、これは有効な議論だけど、データポイントがサポート外になることが保証されていることが多いから、それを認識する絶対的な能力が重要なんだ。

└

その数字はひどいね。本当にLLMを使ってコードを書くべきなの？私には理論があるんだけど、LLMは仕事をこなすコードを出力できて、見た目も悪くない、もしくは素晴らしいかもしれないけど、時間が経つにつれて小さな「異常」を含んでいて、それが蓄積されるんだ。LLMに頼りすぎた開発者が作ったエンタープライズアプリは、ほぼメンテナンス不可能になるかもしれない。どう説明すればいいかわからないけど、LLMが書いたコードを見るたびに、それが良いコードを装った悪いコードだと感じる。今後1、2年で、LLMの「支援」で完全に作られたエンタープライズのグリーンフィールドプロジェクトが本番に入ると、この見解はあまり注目されなくなると思う。コードが人間にとって読みづらく、理解しづらく、デバッグしづらく、拡張しづらくなることがわかると思う。コードベースが大きくなるほど、LLMがメンテナンスするのが難しくなると思う。幻覚の機会が増え、より大きなコンテキストウィンドウが必要になり、より小さなコード変更のために購入して消費するトークンが増える。アプリのためにLLMが書くコードが多くなるほど、そのコードベースは悪化すると思う。

幻覚の発生率はモデルのサイズの問題じゃなくて、モデルのトレーニングに依存してると思う。彼らは、非常に良く構成された質問と正しい答えが圧倒的に多い大規模なコーパスでトレーニングされてきた。これは、専門家によって厳選された本の内容に典型的に見られることだよ。本には、答えがない質問があって、その理由やどうして答えがないのかを説明するなんてことはない。良い質問があっても、本はそれに対して「わからない」と正直に説明することはない。なぜなら、本の内容が厳選されているから、著者は答えがない質問については触れないからだよ。それに、HFRLの間、ラボは解決策を持つ面白い答えに偏っていて、「悪い」質問、つまり良い答えがない質問はあまり扱われていないと思う。さらに、モデルが「わからない」と認めるべき質問に対しては、HFRLの努力が少ないんじゃないかな。人間は、リアルな世界で一生を通じて、すぐには答えがわからない質問に直面するように訓練されてきたし、すぐに「わからない」ことや「確信がない」ことを判断することを学んできた。もう一つ、人間にはあってLLMにはないものは「恐れ」だよ。私たちの脳には扁桃体があって、論理的思考の部分とは別に、恐れの信号を発信することができるから、発言にはもっと慎重になる。逆に、LLMには扁桃体のような恐れを感じる器官がないから、トレーニングコーパスのパターンに基づいて応答するだけなんだ。間違った答えを出して恥をかくことや解雇されることを「恐れない」から、平気で完全に間違った答えを出せるんだよ。だから、幻覚の発生率はトレーニングで改善できるけど、今のところラボはそれを最適化していない。なぜなら、最も知能が高く能力のあるモデルを手に入れるための高い賭けのレースがあるからね。代わりに、LLMのために扁桃体のような別の器官を作ることも考えられる。その器官は、ユーザーのプロンプトやLLMの思考過程に基づいて非同期で信号を発信して、LLMの推論に恐れの信号を注入して、より安全な答えに導くことができるかもしれない。

└

確かに、モデルのサイズが直接の要因ではないけど、パラメータ数が多いモデルは、オーバーフィットやアンダーフィットしないために大量のトレーニングデータが必要だっていう事実があるよね。だから、「最大トレーニングデータサイズ」を目指す競争が、意図せずオーバーフィッティングを引き起こしていると思う。壊滅的ではないけど、モデル内でのこの「全知感」を引き起こすには十分だよ。

└

スキナーは、恐れや欲望のような感情よりも、結果の方が重要だと言うだろうね。

Hacker Newsで議論の続きを見る

ハクソク