世界を動かす技術を、日本語で。

5つの最前線のLLMが1,000件の実際のファクトチェック主張の67%で意見が一致しない

概要

  • Frontierモデル間の 不一致率は67% と高い傾向
  • 意見の違い には「ニュアンス」と「本質的」なものが存在
  • モデルごとの 一致率や傾向 にも大きな差
  • 評価対象は1,000件 の実際のファクトチェック依頼
  • 厳格な評価手順・除外基準 を設定

フロンティアモデル間の不一致率とその内訳

  • 1,000件の主張 に対し、 67%(672件、95% CI: 64–70%) でパネルが一致せず
    • 5モデル中3つ以上が同じ答えを選んだ場合を「厳密な多数派」と定義
    • 多数派が形成されない場合(例:2-2-1分布)は「No majority」と分類
  • 一致パターン別の内訳
    • 全員一致(Unanimity):328件(33%)
    • 1人だけ反対:224件(22%)
    • 2人反対:316件(32%)
    • 多数派なし:132件(13%)
  • モデル不一致の意味
    • 多数派=正解とは限らず、 正誤判定の基準ではない
    • 多数派を基準に不一致率を算出するが、 実際の誤答率はさらに高い可能性

本質的 vs ニュアンスの不一致

  • 34%(343件、95% CI: 31–37%) で2モデル以上が 2段階以上離れた判定 を下す
    • 判定ラベル: True → Mostly True → Misleading → False
  • 距離ごとの内訳
    • 0(全員一致):328件(33%)
    • 1(ニュアンスの違い):329件(33%)
    • 2(本質的な違い):132件(13%)
    • 3(完全対立):211件(21%)
  • 注意点
    • 距離指標はラベル間を等間隔扱いする単純化
    • 本質的 vs ニュアンスの指標であり、誤差の大きさではない

モデル間の一致率

  • 最高一致率 :Gemini 3 Pro × Gemini 3 Pro + Search(75%)
  • 最低一致率 :Claude Opus 4.7 × Gemini 3 Pro/Claude Opus 4.7 × Gemini 3 Pro + Search/Gemini 3 Pro × Sonar Pro(各53%)
  • 全体的なモデル間一致率(例)
    • GPT-5.4 × Claude Opus 4.7:65%
    • Gemini 3 Pro × Sonar Pro:53%
    • Sonar Pro × Claude Opus 4.7:58%

各モデルの判定傾向・パネル多数派との一致率

  • 判定分布の特徴
    • Gemini系は True/Falseに極端、ClaudeやSonarは 中間ラベルも多用
  • モデルごとのラベル分布(例)
    • Gemini 3 Pro:True 54%、False 40%、中間ラベルは少ない
    • Claude Opus 4.7:True 38%、Mostly True 26%、Misleading 19%、False 17%
  • 他4モデルの多数派と一致する割合
    • GPT-5.4:81%
    • Claude Opus 4.7:70%
    • Gemini 3 Pro:77%
    • Gemini 3 Pro + Search:76%
    • Sonar Pro:69%

ドメイン別の不一致傾向

  • Finance :不一致67%、本質的な不一致39%、多数派なし20%
  • General :不一致68%、本質的な不一致40%、多数派なし12%
  • Health :不一致71%、本質的な不一致29%、多数派なし12%
  • History :不一致53%、本質的な不一致24%、多数派なし13%
  • Legal :不一致77%、本質的な不一致40%、多数派なし19%
  • Politics :不一致70%、本質的な不一致38%、多数派なし8%
  • Science :不一致68%、本質的な不一致36%、多数派なし21%
  • Tech :不一致69%、本質的な不一致31%、多数派なし8%

判定ラベルごとのパネル一致率

  • True/False多数派は比較的高い一致率
    • True:47%が全員一致
    • False:43%が全員一致
  • Mostly True/Misleading多数派はほぼ全員一致せず
    • Mostly True:全員一致0%
    • Misleading:全員一致5%
  • 全員一致328件の分布
    • True:204件(62%)
    • Mostly True:0件
    • Misleading:4件(1%)
    • False:120件(37%)

データセットの構成と除外基準

  • 対象:1,000件のLenz提出ファクトチェック依頼
    • 2026年2月15日以降の新しい主張のみ
  • 除外基準
    • プライベート・社内・API提出、未審査・非公開、PII含むもの、類似主張(埋め込み距離0.2未満)、モデルが出力失敗したもの、180日以上前の主張
  • 主張の正規化
    • 感情的・バイアス的表現を排除し、検証可能な中立命題に変換

モデル・プロンプト・評価手順

  • 選定モデル
    • パラメトリック:GPT-5.4(OpenAI)、Claude Opus 4.7(Anthropic)、Gemini 3 Pro(Google)
    • 検索拡張型:Gemini 3 Pro + Search(Google)、Sonar Pro(Perplexity)
  • プロンプト
    • 日付指定+命題提示、 True / Mostly True / Misleading / False の4択で強制回答
  • 出力条件
    • 出力は完全一致のラベルのみ有効
    • パースエラーは再試行1回、失敗時は除外
    • 出力長制限・温度設定はモデルによって異なる
  • 評価
    • LLMによる自動採点は未実施

まとめ

  • Frontierモデル間のファクトチェック判定は 大きな不一致 が存在
  • 本質的な意見の相違 も多く、モデルごとの傾向も顕著
  • 評価基準の曖昧さやデータセットの性質 が、AIファクトチェックの限界を示唆

Hackerたちの意見

日々、人間らしくなってるね。

これには笑っちゃった。でも、すごく大事なポイントを突いてるよね。最近、たくさんの「人間」が事実について合意できてないみたい。どんどん悪化してる気がする。解決策はよくわからないけど。

これは公的な答えのキーがあるベンチマーク項目じゃなくて、実際のユーザーがファクトチェックプラットフォームに提出した主張だよ。すごいね。著者がレポートのどれだけをLLMで書いたのかを明らかにしないと、これがどれだけ意味があるのか気になるな。しかも「11. 倫理とデータの使用」ってセクションもあるのに、LLMの使用がこのレポートの制作に関して一度も言及されてないのはおかしいよね。

データの収集と処理は手動で行われた。LLMがレポートのドラフト作成を手伝ったんだ。すべて人間がレビューしてから公開されたよ。

彼らが使ったプロンプトはこれだよ: 「この主張を分類してください: "" 正確に一つのラベルを出力: True, Mostly True, Misleading, または False。説明なし、条件なし。主張はこんな感じ: https://lenz.io/research/llm-disagreement/data.csv これをDatasette Liteに入れて、探しやすくしたよ。意見の不一致の例はこれ: https://lite.datasette.io/?csv=https%3A%2F%2Fstatic.simonwil... 主張は「すべてのアーモンドはアメリカのカリフォルニア州で育てられている。」だった。ほとんどのモデルはFalseと言ったけど、Opus 4.7だけが「misleading」と言った。「mostly true」と「misleading」があると、特にプロンプトの「説明なし」ルールを考えると、話が弱くなる気がする。アーモンドの件はFalseだけど、「誤解を招く」って言うのは、「大多数のアーモンドはカリフォルニアで育てられているが、すべてではない」と付け加えれば正当化できるかも。 [更新: うん、アーモンドの例は悪い例だった、選んで後悔してる。もっといい例を読むべし。] プロンプトには、これらの用語をどう適用すべきかの基準が全然ない。こういう研究では、プロンプトやハーネスの評価も含まれていることが多いよね。更新: もっといい例: 「不完全なエジプトビザ申請書は、エジプトのビザ申請が却下される最も一般的な理由の一つです。」モデルは「true」と「mostly true」に分かれた。この「最も一般的な」という表現から、どちらの答えも実質的に同じ意味になる。更新2: もっといい例: 「2026年5月18日に、ウクライナがロシアのモスクワにドローン攻撃を行った。」これに対する唯一の正しい答えは、「この主張は私には確認できません」です。それが選択肢にないのはおかしい。答えはtrueとfalseに分かれた: https://lite.datasette.io/?csv=https%3A%2F%2Fstatic.simonwil...

「一つの主張につき一つの判決バケットしか正しくない」という記事の主張には、「True / Mostly True / Misleading / False」の定義を各評価者に提供しない限り、私はFalseと評価する。何かは同時に「誤解を招く」と「真実」または「偽」であることができる。もし「ほぼ偽」であれば、どのカテゴリーに入るべきなの?どれくらい間違っていたら「ほぼ真実」から「偽」に変わるの?(客観的には、どちらも一部は真実じゃない)。これは少なくとも「mostly」と「misleading」のモデルの定義をテストしている。事実の理解ではないよ。これがモデルが事実そのものに根本的に異なる意見を持っていることを意味するのは、行き過ぎだと思う。

これって、モデルが人間みたいに振る舞ってる別のケースのように思える。もしウェブ検索が許可されていなかったら、モデルがこれらのことについて詳細な情報を持っているとは思えない。どんなに大きくても、限界があるし、「情報ストレージ」のスペースも限られてる。もっと多くのことを数字に収める必要があるからね。このテストは、ウェブにアクセスできるAIと比べると、実世界ではあまり役に立たないと思う。ウェブにアクセスできるAIがプラトニックな真実をもたらすとは思わないけど、人間らしい何かには近づくかもしれない。約1年前に、ウェブ検索をLLMのクエリに変えることについて話していたのを思い出すけど、みんなが単にAIに直接クエリを投げるのか、ウェブに放たれるのか、はっきりしなかったのを覚えてる。前者がこのテストで、情報理論的に見ても、AIがすべてのクエリに対する答えを持っているわけがないから、単純にバカらしい。実際には大きくなれないからね。専用のAIリソースを使っているときは、良い結果が出てるよ(今の検索エンジンから出てくるものは、たいていひどいと思う)。非最前線のモデルでも、良い結果が目の前にあればうまくいくことがある。また、ここで適用している基準は、絶対的な真実を求めるものではなく、リンクをたどるとAIが言った通りのことを言っていて、要約も妥当であること。カジュアルな概要で人間がもっと良い結果を出すとは思わないけど、結果が完璧ってわけでもない。

そうだね、むしろこれはモデルの評価方法としてはダメな例だと思う。それに、ラベルがあいまいでなかったとしても、モデル間の整合性に何で気を使うの?私が気にするのは正解率だけだから、どのモデルを選ぶかが分かる。明確であいまいでないプロンプトがあれば、実世界の事実については100%に近い合意が得られると思う。大きなモデルは、世界の知識に関しては本当にすごいからね。

これがただの小さなミスだったとは信じがたい。この記事を通報したけど、平均的なクロードの幻覚よりも誤解を招く内容に感じる。

アーモンドの件は間違いだけど、「誤解を招く」と言うのは、「アーモンドの大半はカリフォルニアで育てられているが、全てではない」と付け加えれば弁護できるかもしれない。この場合の「大半」は約51%を意味するらしいけど、51%が「全て」に近いと考えられるのはどういうこと?「誤解を招く」が有効な答えになるのはおかしくない?何か見落としてる?

LLMを神託のように使うつもりなら、プロンプトは不合理ではないと思う。彼らは天才として売られていて、人々は特にSFでのAIの描写を考えると、そう扱ってるからね。「天才レベルの知能」を持つ完璧なツールは、正しい答えを出すはずだ。

「正確に1つのラベルを出力せよ:真実、主に真実、誤解を招く、または間違い。説明や条件はなし。」これが今の公共の議論の愚かさそのものだよ。人々は多くの問題にもっと微妙な部分があるのに、はっきりした立場を取らなきゃいけないと感じてる。 「わからない」とか「状況による」とか「私の知る限りでは」と言うのはダメなんだ。そして、新しい情報が出てきても、この立場を守らなきゃいけないと感じるんだよね。

ちなみに、検索にアクセスできた2つのモデルは、爆撃に関して意見が食い違ってたよ: > 7.1 モデル選択 > 5つのフロンティアモデル、2つの能力面をカバーするために選ばれた: > パラメトリック(トレーニングのみ):GPT-5.4(OpenAI)、オーパス 4.7(Anthropic)、ジェミニ 3 プロ(Google) > リトリーバル拡張:ジェミニ 3 プロ + 検索(Google)、ソナー プロ(Perplexity)

うん、例を見てると、モデルが実際にどの事実で意見が食い違ってるのか全然わからないよね。「X対ほとんどX」とか「ほとんどX対誤解を招く」とか「偽対誤解を招く」とか。真実対偽でも、説明を見ないと、必然的に二つの答えを比べることになるし。この研究は、同じフレーズを言ったかどうかがテーマだから、コメント欄で反応してる人たちが考えてるよりもずっと弱い主張なんだよね。

「反対する」っていうのは、すごく緩いというか、頼りない研究だね。もっと具体的な期待される反応を加えたら、いい基準になると思う(そうすれば、著者がLLMに提示された選択肢についてちゃんと考えなきゃいけなくなるから)。

これ、ちょっと変だね。論文は本物だけど、Claudeが書いたの? OPは人間だと思うけど、Claudeを使って投稿してるみたいだね。

正直なところ、みんながこれを要約してもらうためにクロードに頼んだのは、クロードが書いたからだよね。

これが何を示してるの? LLMは、トレーニングセットにデータが含まれていない質問に対して正確な答えを提供できないってことは、もうみんな知ってるよね。あんまり実質的な内容はない気がする。

残念ながら、多くの人はこれを知らなくて、LLMモデルを全知全能の脳みたいに扱ってるんだよね。

じゃあ、これらのモデルが全然違うトレーニングセットを使っていて、必要ない時でも自信満々であることが分かるね。「マウスウォッシュは効果的か?」みたいな質問は、たぶん一つの確かなデータソース、つまり医療ジャーナルがあるんだろうね。

LLMは、トレーニングセットにデータが含まれている質問に対しても不正確な答えを出すことがあるよ。それがニューラルネットワークの特性だからね。ただ、データがトレーニングセットにない時は、そうなる可能性が低いだけなんだ。

人々を忘れないで、グッドハートの法則がこの「ベンチマーク」を数週間、いや数日で無意味にするから。結局、元に戻されて「解決済み」に見えるけど、推論はなくて、ただ新しい「問題」に光が当たったから、統計的な正確さが増すだけ。そうなったら、「すべてを変える」素晴らしい「進展」として騒がれることになる。追記:はい、企業戦略とPRの学位を持ってるかもしれないし、持ってないかもしれない。

面白い例があるよ。「ラスキン・ボンドは1934年5月19日にインドのカサウリで生まれた。」オーパスとジェミニはこれが真実だと思ってるけど、GPT 5.4はそれが間違いだと考えてる。ソナーは主に真実だと思ってる。意見の不一致の値は3で、いくつかのモデルが真実だと思っている一方で、他のモデルが間違いだと思っているから、これ以上の不一致はないね。でも、ウィキペディアを2分見た印象では、「ヒマーチャル・プラデーシュ、インド」の部分での不一致が最もありそう。彼はその日、その町で生まれたけど、今はその町はインドのヒマーチャル・プラデーシュ州にあるけど、1934年にはそうじゃなかった。彼が生まれた時、都市はイギリス領インドのパンジャブ州にあったからね。じゃあ、彼はヒマーチャル・プラデーシュ、インドで生まれたのか?真実と間違いの両方が同じくらい正当化できると思うよ。 https://lite.datasette.io/?csv=https%3A%2F%2Fstatic.simonwil... https://en.wikipedia.org/wiki/Ruskin_Bond

「宇宙のどこかに地球外生命が存在する。」GPT-5.4: 誤解を招く オーパス 4.7: 誤解を招く ジェミニ 3: 間違い ジェミニ 3(リトリーバル): 間違い ソナー プロ: 間違い これは変な事実の主張だよ。なぜなら、真実は「誰も確実には知らない」で、それは選択肢にはないからね。

利用可能な選択肢の中では、「誤解を招く」が一番いいと思う。なぜなら、最も真実に近いけど証明されていないことが事実として提示されているから。でも、「不明または決定不可能」っていうカテゴリーもあったらよかったのに。

じゃあ、ここで正しい選択肢は「誤解を招く」ってことになるの?

この実験がいくつかの点で欠陥があることにはみんな同意できると思う。でも、LLMを使うときに人々がよく犯す一般的な間違いを特定するための素晴らしい練習だと思う。これはプロンプトエンジニアリングの仕事の面接質問としてもいいかもね。

要するに、ランダムなファクトチェックの主張が完全に真実か完全に偽かを言うのは難しいってこと。誤解を招くとか、ほとんど真実って判断する方がずっと簡単だよ。