5つの最前線のLLMが1,000件の実際のファクトチェック主張の67%で意見が一致しない

2026年5月28日原文(lenz.io)

概要

Frontierモデル間の 不一致率は67% と高い傾向
意見の違い には「ニュアンス」と「本質的」なものが存在
モデルごとの 一致率や傾向 にも大きな差
評価対象は1,000件 の実際のファクトチェック依頼
厳格な評価手順・除外基準 を設定

フロンティアモデル間の不一致率とその内訳

1,000件の主張 に対し、 67%（672件、95% CI: 64–70%） でパネルが一致せず
- 5モデル中3つ以上が同じ答えを選んだ場合を「厳密な多数派」と定義
- 多数派が形成されない場合（例：2-2-1分布）は「No majority」と分類
一致パターン別の内訳
- 全員一致（Unanimity）：328件（33%）
- 1人だけ反対：224件（22%）
- 2人反対：316件（32%）
- 多数派なし：132件（13%）
モデル不一致の意味
- 多数派＝正解とは限らず、 正誤判定の基準ではない
- 多数派を基準に不一致率を算出するが、 実際の誤答率はさらに高い可能性

本質的 vs ニュアンスの不一致

34%（343件、95% CI: 31–37%） で2モデル以上が 2段階以上離れた判定 を下す
- 判定ラベル： True → Mostly True → Misleading → False
距離ごとの内訳
- 0（全員一致）：328件（33%）
- 1（ニュアンスの違い）：329件（33%）
- 2（本質的な違い）：132件（13%）
- 3（完全対立）：211件（21%）
注意点
- 距離指標はラベル間を等間隔扱いする単純化
- 本質的 vs ニュアンスの指標であり、誤差の大きさではない

モデル間の一致率

最高一致率 ：Gemini 3 Pro × Gemini 3 Pro + Search（75%）
最低一致率 ：Claude Opus 4.7 × Gemini 3 Pro／Claude Opus 4.7 × Gemini 3 Pro + Search／Gemini 3 Pro × Sonar Pro（各53%）
全体的なモデル間一致率（例）
- GPT-5.4 × Claude Opus 4.7：65%
- Gemini 3 Pro × Sonar Pro：53%
- Sonar Pro × Claude Opus 4.7：58%

各モデルの判定傾向・パネル多数派との一致率

判定分布の特徴
- Gemini系は True/Falseに極端、ClaudeやSonarは 中間ラベルも多用
モデルごとのラベル分布（例）
- Gemini 3 Pro：True 54%、False 40%、中間ラベルは少ない
- Claude Opus 4.7：True 38%、Mostly True 26%、Misleading 19%、False 17%
他4モデルの多数派と一致する割合
- GPT-5.4：81%
- Claude Opus 4.7：70%
- Gemini 3 Pro：77%
- Gemini 3 Pro + Search：76%
- Sonar Pro：69%

ドメイン別の不一致傾向

Finance ：不一致67%、本質的な不一致39%、多数派なし20%
General ：不一致68%、本質的な不一致40%、多数派なし12%
Health ：不一致71%、本質的な不一致29%、多数派なし12%
History ：不一致53%、本質的な不一致24%、多数派なし13%
Legal ：不一致77%、本質的な不一致40%、多数派なし19%
Politics ：不一致70%、本質的な不一致38%、多数派なし8%
Science ：不一致68%、本質的な不一致36%、多数派なし21%
Tech ：不一致69%、本質的な不一致31%、多数派なし8%

判定ラベルごとのパネル一致率

True/False多数派は比較的高い一致率
- True：47%が全員一致
- False：43%が全員一致
Mostly True/Misleading多数派はほぼ全員一致せず
- Mostly True：全員一致0%
- Misleading：全員一致5%
全員一致328件の分布
- True：204件（62%）
- Mostly True：0件
- Misleading：4件（1%）
- False：120件（37%）

データセットの構成と除外基準

対象：1,000件のLenz提出ファクトチェック依頼
- 2026年2月15日以降の新しい主張のみ
除外基準
- プライベート・社内・API提出、未審査・非公開、PII含むもの、類似主張（埋め込み距離0.2未満）、モデルが出力失敗したもの、180日以上前の主張
主張の正規化
- 感情的・バイアス的表現を排除し、検証可能な中立命題に変換

モデル・プロンプト・評価手順

選定モデル
- パラメトリック：GPT-5.4（OpenAI）、Claude Opus 4.7（Anthropic）、Gemini 3 Pro（Google）
- 検索拡張型：Gemini 3 Pro + Search（Google）、Sonar Pro（Perplexity）
プロンプト
- 日付指定＋命題提示、 True / Mostly True / Misleading / False の4択で強制回答
出力条件
- 出力は完全一致のラベルのみ有効
- パースエラーは再試行1回、失敗時は除外
- 出力長制限・温度設定はモデルによって異なる
評価
- LLMによる自動採点は未実施

まとめ

Frontierモデル間のファクトチェック判定は 大きな不一致 が存在
本質的な意見の相違 も多く、モデルごとの傾向も顕著
評価基準の曖昧さやデータセットの性質 が、AIファクトチェックの限界を示唆

Hackerたちの意見

日々、人間らしくなってるね。

└

これには笑っちゃった。でも、すごく大事なポイントを突いてるよね。最近、たくさんの「人間」が事実について合意できてないみたい。どんどん悪化してる気がする。解決策はよくわからないけど。

これは公的な答えのキーがあるベンチマーク項目じゃなくて、実際のユーザーがファクトチェックプラットフォームに提出した主張だよ。すごいね。著者がレポートのどれだけをLLMで書いたのかを明らかにしないと、これがどれだけ意味があるのか気になるな。しかも「11. 倫理とデータの使用」ってセクションもあるのに、LLMの使用がこのレポートの制作に関して一度も言及されてないのはおかしいよね。

└

データの収集と処理は手動で行われた。LLMがレポートのドラフト作成を手伝ったんだ。すべて人間がレビューしてから公開されたよ。

彼らが使ったプロンプトはこれだよ: 「この主張を分類してください: "" 正確に一つのラベルを出力: True, Mostly True, Misleading, または False。説明なし、条件なし。主張はこんな感じ: https://lenz.io/research/llm-disagreement/data.csv これをDatasette Liteに入れて、探しやすくしたよ。意見の不一致の例はこれ: https://lite.datasette.io/?csv=https%3A%2F%2Fstatic.simonwil... 主張は「すべてのアーモンドはアメリカのカリフォルニア州で育てられている。」だった。ほとんどのモデルはFalseと言ったけど、Opus 4.7だけが「misleading」と言った。「mostly true」と「misleading」があると、特にプロンプトの「説明なし」ルールを考えると、話が弱くなる気がする。アーモンドの件はFalseだけど、「誤解を招く」って言うのは、「大多数のアーモンドはカリフォルニアで育てられているが、すべてではない」と付け加えれば正当化できるかも。 [更新: うん、アーモンドの例は悪い例だった、選んで後悔してる。もっといい例を読むべし。] プロンプトには、これらの用語をどう適用すべきかの基準が全然ない。こういう研究では、プロンプトやハーネスの評価も含まれていることが多いよね。更新: もっといい例: 「不完全なエジプトビザ申請書は、エジプトのビザ申請が却下される最も一般的な理由の一つです。」モデルは「true」と「mostly true」に分かれた。この「最も一般的な」という表現から、どちらの答えも実質的に同じ意味になる。更新2: もっといい例: 「2026年5月18日に、ウクライナがロシアのモスクワにドローン攻撃を行った。」これに対する唯一の正しい答えは、「この主張は私には確認できません」です。それが選択肢にないのはおかしい。答えはtrueとfalseに分かれた: https://lite.datasette.io/?csv=https%3A%2F%2Fstatic.simonwil...

└

「一つの主張につき一つの判決バケットしか正しくない」という記事の主張には、「True / Mostly True / Misleading / False」の定義を各評価者に提供しない限り、私はFalseと評価する。何かは同時に「誤解を招く」と「真実」または「偽」であることができる。もし「ほぼ偽」であれば、どのカテゴリーに入るべきなの？どれくらい間違っていたら「ほぼ真実」から「偽」に変わるの？（客観的には、どちらも一部は真実じゃない）。これは少なくとも「mostly」と「misleading」のモデルの定義をテストしている。事実の理解ではないよ。これがモデルが事実そのものに根本的に異なる意見を持っていることを意味するのは、行き過ぎだと思う。

└

これって、モデルが人間みたいに振る舞ってる別のケースのように思える。もしウェブ検索が許可されていなかったら、モデルがこれらのことについて詳細な情報を持っているとは思えない。どんなに大きくても、限界があるし、「情報ストレージ」のスペースも限られてる。もっと多くのことを数字に収める必要があるからね。このテストは、ウェブにアクセスできるAIと比べると、実世界ではあまり役に立たないと思う。ウェブにアクセスできるAIがプラトニックな真実をもたらすとは思わないけど、人間らしい何かには近づくかもしれない。約1年前に、ウェブ検索をLLMのクエリに変えることについて話していたのを思い出すけど、みんなが単にAIに直接クエリを投げるのか、ウェブに放たれるのか、はっきりしなかったのを覚えてる。前者がこのテストで、情報理論的に見ても、AIがすべてのクエリに対する答えを持っているわけがないから、単純にバカらしい。実際には大きくなれないからね。専用のAIリソースを使っているときは、良い結果が出てるよ（今の検索エンジンから出てくるものは、たいていひどいと思う）。非最前線のモデルでも、良い結果が目の前にあればうまくいくことがある。また、ここで適用している基準は、絶対的な真実を求めるものではなく、リンクをたどるとAIが言った通りのことを言っていて、要約も妥当であること。カジュアルな概要で人間がもっと良い結果を出すとは思わないけど、結果が完璧ってわけでもない。

└

そうだね、むしろこれはモデルの評価方法としてはダメな例だと思う。それに、ラベルがあいまいでなかったとしても、モデル間の整合性に何で気を使うの？私が気にするのは正解率だけだから、どのモデルを選ぶかが分かる。明確であいまいでないプロンプトがあれば、実世界の事実については100%に近い合意が得られると思う。大きなモデルは、世界の知識に関しては本当にすごいからね。

└

これがただの小さなミスだったとは信じがたい。この記事を通報したけど、平均的なクロードの幻覚よりも誤解を招く内容に感じる。

└

アーモンドの件は間違いだけど、「誤解を招く」と言うのは、「アーモンドの大半はカリフォルニアで育てられているが、全てではない」と付け加えれば弁護できるかもしれない。この場合の「大半」は約51%を意味するらしいけど、51%が「全て」に近いと考えられるのはどういうこと？「誤解を招く」が有効な答えになるのはおかしくない？何か見落としてる？

└

LLMを神託のように使うつもりなら、プロンプトは不合理ではないと思う。彼らは天才として売られていて、人々は特にSFでのAIの描写を考えると、そう扱ってるからね。「天才レベルの知能」を持つ完璧なツールは、正しい答えを出すはずだ。

└

「正確に1つのラベルを出力せよ：真実、主に真実、誤解を招く、または間違い。説明や条件はなし。」これが今の公共の議論の愚かさそのものだよ。人々は多くの問題にもっと微妙な部分があるのに、はっきりした立場を取らなきゃいけないと感じてる。「わからない」とか「状況による」とか「私の知る限りでは」と言うのはダメなんだ。そして、新しい情報が出てきても、この立場を守らなきゃいけないと感じるんだよね。

Hacker Newsで議論の続きを見る

ハクソク