概要
- Frontierモデル間の 不一致率は67% と高い傾向
- 意見の違い には「ニュアンス」と「本質的」なものが存在
- モデルごとの 一致率や傾向 にも大きな差
- 評価対象は1,000件 の実際のファクトチェック依頼
- 厳格な評価手順・除外基準 を設定
フロンティアモデル間の不一致率とその内訳
- 1,000件の主張 に対し、 67%(672件、95% CI: 64–70%) でパネルが一致せず
- 5モデル中3つ以上が同じ答えを選んだ場合を「厳密な多数派」と定義
- 多数派が形成されない場合(例:2-2-1分布)は「No majority」と分類
- 一致パターン別の内訳
- 全員一致(Unanimity):328件(33%)
- 1人だけ反対:224件(22%)
- 2人反対:316件(32%)
- 多数派なし:132件(13%)
- モデル不一致の意味
- 多数派=正解とは限らず、 正誤判定の基準ではない
- 多数派を基準に不一致率を算出するが、 実際の誤答率はさらに高い可能性
本質的 vs ニュアンスの不一致
- 34%(343件、95% CI: 31–37%) で2モデル以上が 2段階以上離れた判定 を下す
- 判定ラベル: True → Mostly True → Misleading → False
- 距離ごとの内訳
- 0(全員一致):328件(33%)
- 1(ニュアンスの違い):329件(33%)
- 2(本質的な違い):132件(13%)
- 3(完全対立):211件(21%)
- 注意点
- 距離指標はラベル間を等間隔扱いする単純化
- 本質的 vs ニュアンスの指標であり、誤差の大きさではない
モデル間の一致率
- 最高一致率 :Gemini 3 Pro × Gemini 3 Pro + Search(75%)
- 最低一致率 :Claude Opus 4.7 × Gemini 3 Pro/Claude Opus 4.7 × Gemini 3 Pro + Search/Gemini 3 Pro × Sonar Pro(各53%)
- 全体的なモデル間一致率(例)
- GPT-5.4 × Claude Opus 4.7:65%
- Gemini 3 Pro × Sonar Pro:53%
- Sonar Pro × Claude Opus 4.7:58%
各モデルの判定傾向・パネル多数派との一致率
- 判定分布の特徴
- Gemini系は True/Falseに極端、ClaudeやSonarは 中間ラベルも多用
- モデルごとのラベル分布(例)
- Gemini 3 Pro:True 54%、False 40%、中間ラベルは少ない
- Claude Opus 4.7:True 38%、Mostly True 26%、Misleading 19%、False 17%
- 他4モデルの多数派と一致する割合
- GPT-5.4:81%
- Claude Opus 4.7:70%
- Gemini 3 Pro:77%
- Gemini 3 Pro + Search:76%
- Sonar Pro:69%
ドメイン別の不一致傾向
- Finance :不一致67%、本質的な不一致39%、多数派なし20%
- General :不一致68%、本質的な不一致40%、多数派なし12%
- Health :不一致71%、本質的な不一致29%、多数派なし12%
- History :不一致53%、本質的な不一致24%、多数派なし13%
- Legal :不一致77%、本質的な不一致40%、多数派なし19%
- Politics :不一致70%、本質的な不一致38%、多数派なし8%
- Science :不一致68%、本質的な不一致36%、多数派なし21%
- Tech :不一致69%、本質的な不一致31%、多数派なし8%
判定ラベルごとのパネル一致率
- True/False多数派は比較的高い一致率
- True:47%が全員一致
- False:43%が全員一致
- Mostly True/Misleading多数派はほぼ全員一致せず
- Mostly True:全員一致0%
- Misleading:全員一致5%
- 全員一致328件の分布
- True:204件(62%)
- Mostly True:0件
- Misleading:4件(1%)
- False:120件(37%)
データセットの構成と除外基準
- 対象:1,000件のLenz提出ファクトチェック依頼
- 2026年2月15日以降の新しい主張のみ
- 除外基準
- プライベート・社内・API提出、未審査・非公開、PII含むもの、類似主張(埋め込み距離0.2未満)、モデルが出力失敗したもの、180日以上前の主張
- 主張の正規化
- 感情的・バイアス的表現を排除し、検証可能な中立命題に変換
モデル・プロンプト・評価手順
- 選定モデル
- パラメトリック:GPT-5.4(OpenAI)、Claude Opus 4.7(Anthropic)、Gemini 3 Pro(Google)
- 検索拡張型:Gemini 3 Pro + Search(Google)、Sonar Pro(Perplexity)
- プロンプト
- 日付指定+命題提示、 True / Mostly True / Misleading / False の4択で強制回答
- 出力条件
- 出力は完全一致のラベルのみ有効
- パースエラーは再試行1回、失敗時は除外
- 出力長制限・温度設定はモデルによって異なる
- 評価
- LLMによる自動採点は未実施
まとめ
- Frontierモデル間のファクトチェック判定は 大きな不一致 が存在
- 本質的な意見の相違 も多く、モデルごとの傾向も顕著
- 評価基準の曖昧さやデータセットの性質 が、AIファクトチェックの限界を示唆