AbsenceBench: 言語モデルは欠落しているものを識別できない

2025年6月21日原文(arxiv.org)

概要

本論文は、LLMの「欠落情報検出能力」をAbsenceBenchで評価。詩、数列、GitHubプルリクエストの3領域を対象。 Claude-3.7-Sonnetなどの最先端モデルでもF1スコア69.6%と苦戦。 Transformerの注意機構の根本的な限界が原因と分析。 NIAHでの超人的性能との対比が示される。

欠落情報検出ベンチマークAbsenceBenchの提案

LLM （大規模言語モデル）の長文処理・情報検索能力の進歩
Needle in a Haystack（NIAH）テスト で特異情報の検索に成功
しかし、明確に「抜けている情報」の検出には依然として課題
AbsenceBench の開発・導入
- 数値列、詩、GitHubプルリクエストの3分野をカバー
- 元文書と編集後文書の両方をモデルに提示
- 意図的に削除された部分の特定を要求
タスク自体は一見単純だが、モデルの成績は良好とは言えない

実験結果と分析

Claude-3.7-Sonnet など最先端モデルでもF1スコアは 69.6%
平均文脈長は 5Kトークン 程度の比較的短い設定
成績不振の主因は Transformerの注意機構 の限界
- 欠落情報（ギャップ）は「参照できるキー」を持たない
- そのため、注意を向けること自体が困難
NIAHのような「存在する情報の検索」と「欠落情報の検出」の間に、モデル性能の大きな断絶があることを実証

研究の意義と今後の展望

NIAH ではLLMは人間を超える性能を発揮
一方で AbsenceBench のような欠落検出タスクでは予想外の失敗
TransformerベースLLMの根本的な弱点の具体的事例
欠落情報検出能力の向上が、今後のLLM研究の重要課題
コード・データは 公開済み （論文URL参照）

論文情報

著者： Harvey Yiyun Fu
arXiv:2506.11440 [cs.CL]
提出日：2025年6月13日
全23ページ、図8点
コード・データ： 公開URL あり

Hackerたちの意見

面白いね。最近のモデルでも、元の文脈と編集された文脈の両方を見せられたときに、どの情報が削除されたかを特定するのはあまり得意じゃないみたい。著者たちは、トランスフォーマーの注意メカニズムが削除されたトークンに注意を向けられないからだと考えてるんだって。だって、それらのトークンにはキーがないから！HNでシェアしてくれてありがとう。

└

ビジョンモデルに関して、写真のネガや回転した画像などでトレーニングできるのか気になるな。あるいは、「_____が馬のショーで1位を取った」というようなmadlib的な文も。

└

それでも、彼らの間にはいくつかの顕著な違いがあるから、基準ができてこの問題に注目が集まった今、どれだけ良くなるのか気になるね。明らかに何かできることがあるはずだから。

└

最近のトップモデルは使ってないみたいだね。オーパスも、o3も、ジェミニ25プロもなし。

└

注意を払うべきキーがあるけど、それは修正されたテキストではなく元のテキストにある。モデルは両方を入力として受け取るから、理論的にはそのキーに注意を払うことができる。注意メカニズムに関しては、元のテキストと修正されたテキストの間に大きな違いはない。元のテキスト: {共有接頭辞} {削除された部分} {共有接尾辞} 修正されたテキスト: {共有接頭辞} {共有接尾辞} そして元のテキスト: {共有接頭辞} {共有接尾辞} 修正されたテキスト: {共有接頭辞} {追加された部分} {共有接尾辞} これをRASP（トランスフォーマーを手動でプログラミングするための言語）で実装するアルゴリズムを大体こんな感じで考えられると思う。1. 最初の層は「元のテキスト」と「修正されたテキスト」のトークンに注意を向けて、現在のトークンが元の部分にあるのか修正された部分にあるのかを判断する。2. 二番目の層は、元のトークン全体に均等に注意を払い、その値を平均し、もう一つのヘッドは修正されたトークン全体に均等に注意を払い、それも平均する。その平均を計算して差を出す。3. 三番目の層は、その差に似たトークンに注意を向ける。それは{削除された部分}/{追加された部分}のものになる。唯一の順序依存部分は、元の平均 - 修正された平均を計算するか、その逆かということ。もしモデルが追加を検出できるけど削除をできないなら、それは原理的にはこのアルゴリズムを学ぶ能力があるけど、必要な回路を発展させるための削除スタイルのデータが十分に訓練されていなかったことを示すんじゃないかな。

まだ論文は読んでないけど、構造的な「注意」の観点から見ると、分類されていない欠落を検出できないのは全く予想通りだね。（でも、構造的な思考で解決できると思う。）干し草の中の針を探すには、探しているものに注意を向ける必要がある。注意はこれをかなりうまくやれるんだよね。欠落を探すとき、その欠落は何でもあり得るから、全体の文脈を別の全体の文脈と比較することでしか推論できない。注意層はそれをうまくできないんだ。これは「長いもののセットをランク付けする」問題に似てる。メタ認知プロセスがない限り、彼らはそれをできないんだ。

└

欠落を探すとき、その欠落は何でもあり得る。このベンチマークでは、LLMに何が欠けているかを判断するために必要な情報を与えてるんだ。例えば、「ここに詩があって、ここにその詩のバージョンがあるけど、行が欠けてるかもしれない。行は欠けてる？」って感じ。私の意見では、これはLLMの本質的な弱点というよりは調整の問題だと思う。もし私がMLの論文で欠落を見つけるように頼まれたら、他のMLの論文と比較するだけで、スター・ウォーズやトップ・ギア、ギリシャの歴史、陶芸、他の1000以上の文脈と比較する必要はないんだ。

もしかしたら関係あるかも。ジェラルド・サスマンのトークを見た後、カニッツァの三角形の画像をClaudeに読み込ませて、推測される三角形が「見える」かどうかを確認するためにかなり曖昧な質問をしてみたんだ。画像を認識して、すぐにその要約を教えてくれた。だから、画像を90度回転させて新しい会話を試みたら、画像を認識できなくて、要素の数も間違えた。以下のような内容だったよ：この画像は、いくつかの要素を持つミニマリストで抽象的な幾何学的構成を示している。四隅に配置された、部分的な円や「パックマン」のような形の黒い形状が4つ、それぞれにくさびが切り取られている。上左のエリアには上向きの細い黒い三角形または矢印のような形状が1つ、中央右のエリアには右向きのものが1つ。すべての要素は薄い灰色またはオフホワイトの背景に配置されている。

└

これからは、トレーニングデータの画像を90度回転させて、このギャップを埋めるんじゃないかな。

└

このアイデアを一般化すると、三角形をほぼ埋める千の点を見れば、すぐにその形を認識できる。私の意見では、このシンプルな例は知性が本当に何であるかを示している。千の点がシンプルで低エントロピーな幾何学的形状に収まるから、三角形を見つけられるんだ。IQと呼ばれるものは、私たちが気づけるパターンの複雑さの上限だと思う。例えば、千の点は実際には少し回転した10次元の立方体の角を表しているかもしれない。これは10次元の心にとっては簡単なパターンだ。

└

どんなLLMにでも、5本足の犬の写真を見せたら、全く数えられないのが分かるよ。

これはとても興味深い。1. 著者たちは、ギャップの位置に注意を向けられないかもしれないと言ってるけど、ギャップがトークンじゃないからだって。でも、良いLLMトランスフォーマーなら、ギャップの位置に少しは近づけると思ってた。数学的にそのアーキテクチャがそれに適していない理由が理解できない。ギャップが含まれるかもしれない領域に注意を向けることができるはずだよね。こういうタスクでファインチューニングが役立つのかな？2. 欠落が少ない短い入力の方が解くのが難しかった。これは完全に驚くべきことではない。人間がこのタスクをやるとき、1単語が欠けていると気づくのが難しいからね。同様に、1行が欠けているのは10行よりも難しい。でも、LLMにとってこの問題があるのは面白い。3. 推論モデルはうまくいく。文書を作成して、これを簡単に解決できる可能性があるから。これが100%の精度につながらないのは驚きだ。これは簡単なタスクのはずだよね。論文にも書いてあるけど、これを解決するためのトリビアルなプログラムが書けるはず。もしかしたら、ChatGPT（または類似のエージェント）がこの論文をトレーニング中に読んで、問題を解決するためにPythonを書いて実行することができるかもしれない。でも、最も興味深いのは、私たちが明示的に特定していない知能の他の側面が何か、そしてLLMや現在のAIがそれに対して非常に苦手なのかどうかってこと。この論文は、そういった側面がたくさんある可能性が高いことを示唆していて、ベンチマークを構築している人たちにとってはかなり楽しい時期のようだね。

Hacker Newsで議論の続きを見る

ハクソク