概要
本論文は、LLMの「欠落情報検出能力」をAbsenceBenchで評価。 詩、数列、GitHubプルリクエストの3領域を対象。 Claude-3.7-Sonnetなどの最先端モデルでもF1スコア69.6%と苦戦。 Transformerの注意機構の根本的な限界が原因と分析。 NIAHでの超人的性能との対比が示される。
欠落情報検出ベンチマークAbsenceBenchの提案
- LLM (大規模言語モデル)の長文処理・情報検索能力の進歩
- Needle in a Haystack(NIAH)テスト で特異情報の検索に成功
- しかし、明確に「抜けている情報」の検出には依然として課題
- AbsenceBench の開発・導入
- 数値列、詩、GitHubプルリクエストの3分野をカバー
- 元文書と編集後文書の両方をモデルに提示
- 意図的に削除された部分の特定を要求
- タスク自体は一見単純だが、モデルの成績は良好とは言えない
実験結果と分析
- Claude-3.7-Sonnet など最先端モデルでもF1スコアは 69.6%
- 平均文脈長は 5Kトークン 程度の比較的短い設定
- 成績不振の主因は Transformerの注意機構 の限界
- 欠落情報(ギャップ)は「参照できるキー」を持たない
- そのため、注意を向けること自体が困難
- NIAHのような「存在する情報の検索」と「欠落情報の検出」の間に、モデル性能の大きな断絶があることを実証
研究の意義と今後の展望
- NIAH ではLLMは人間を超える性能を発揮
- 一方で AbsenceBench のような欠落検出タスクでは予想外の失敗
- TransformerベースLLMの根本的な弱点の具体的事例
- 欠落情報検出能力の向上が、今後のLLM研究の重要課題
- コード・データは 公開済み (論文URL参照)
論文情報
- 著者: Harvey Yiyun Fu
- arXiv:2506.11440 [cs.CL]
- 提出日:2025年6月13日
- 全23ページ、図8点
- コード・データ: 公開URL あり