世界を動かす技術を、日本語で。

AbsenceBench: 言語モデルは欠落しているものを識別できない

概要

本論文は、LLMの「欠落情報検出能力」をAbsenceBenchで評価。 詩、数列、GitHubプルリクエストの3領域を対象。 Claude-3.7-Sonnetなどの最先端モデルでもF1スコア69.6%と苦戦。 Transformerの注意機構の根本的な限界が原因と分析。 NIAHでの超人的性能との対比が示される。

欠落情報検出ベンチマークAbsenceBenchの提案

  • LLM (大規模言語モデル)の長文処理・情報検索能力の進歩
  • Needle in a Haystack(NIAH)テスト で特異情報の検索に成功
  • しかし、明確に「抜けている情報」の検出には依然として課題
  • AbsenceBench の開発・導入
    • 数値列、詩、GitHubプルリクエストの3分野をカバー
    • 元文書と編集後文書の両方をモデルに提示
    • 意図的に削除された部分の特定を要求
  • タスク自体は一見単純だが、モデルの成績は良好とは言えない

実験結果と分析

  • Claude-3.7-Sonnet など最先端モデルでもF1スコアは 69.6%
  • 平均文脈長は 5Kトークン 程度の比較的短い設定
  • 成績不振の主因は Transformerの注意機構 の限界
    • 欠落情報(ギャップ)は「参照できるキー」を持たない
    • そのため、注意を向けること自体が困難
  • NIAHのような「存在する情報の検索」と「欠落情報の検出」の間に、モデル性能の大きな断絶があることを実証

研究の意義と今後の展望

  • NIAH ではLLMは人間を超える性能を発揮
  • 一方で AbsenceBench のような欠落検出タスクでは予想外の失敗
  • TransformerベースLLMの根本的な弱点の具体的事例
  • 欠落情報検出能力の向上が、今後のLLM研究の重要課題
  • コード・データは 公開済み (論文URL参照)

論文情報

  • 著者: Harvey Yiyun Fu
  • arXiv:2506.11440 [cs.CL]
  • 提出日:2025年6月13日
  • 全23ページ、図8点
  • コード・データ: 公開URL あり

Hackerたちの意見

面白いね。最近のモデルでも、元の文脈と編集された文脈の両方を見せられたときに、どの情報が削除されたかを特定するのはあまり得意じゃないみたい。著者たちは、トランスフォーマーの注意メカニズムが削除されたトークンに注意を向けられないからだと考えてるんだって。だって、それらのトークンにはキーがないから!HNでシェアしてくれてありがとう。

ビジョンモデルに関して、写真のネガや回転した画像などでトレーニングできるのか気になるな。あるいは、「_____が馬のショーで1位を取った」というようなmadlib的な文も。

それでも、彼らの間にはいくつかの顕著な違いがあるから、基準ができてこの問題に注目が集まった今、どれだけ良くなるのか気になるね。明らかに何かできることがあるはずだから。

最近のトップモデルは使ってないみたいだね。オーパスも、o3も、ジェミニ25プロもなし。

注意を払うべきキーがあるけど、それは修正されたテキストではなく元のテキストにある。モデルは両方を入力として受け取るから、理論的にはそのキーに注意を払うことができる。注意メカニズムに関しては、元のテキストと修正されたテキストの間に大きな違いはない。元のテキスト: {共有接頭辞} {削除された部分} {共有接尾辞} 修正されたテキスト: {共有接頭辞} {共有接尾辞} そして元のテキスト: {共有接頭辞} {共有接尾辞} 修正されたテキスト: {共有接頭辞} {追加された部分} {共有接尾辞} これをRASP(トランスフォーマーを手動でプログラミングするための言語)で実装するアルゴリズムを大体こんな感じで考えられると思う。1. 最初の層は「元のテキスト」と「修正されたテキスト」のトークンに注意を向けて、現在のトークンが元の部分にあるのか修正された部分にあるのかを判断する。2. 二番目の層は、元のトークン全体に均等に注意を払い、その値を平均し、もう一つのヘッドは修正されたトークン全体に均等に注意を払い、それも平均する。その平均を計算して差を出す。3. 三番目の層は、その差に似たトークンに注意を向ける。それは{削除された部分}/{追加された部分}のものになる。唯一の順序依存部分は、元の平均 - 修正された平均を計算するか、その逆かということ。もしモデルが追加を検出できるけど削除をできないなら、それは原理的にはこのアルゴリズムを学ぶ能力があるけど、必要な回路を発展させるための削除スタイルのデータが十分に訓練されていなかったことを示すんじゃないかな。

まだ論文は読んでないけど、構造的な「注意」の観点から見ると、分類されていない欠落を検出できないのは全く予想通りだね。(でも、構造的な思考で解決できると思う。)干し草の中の針を探すには、探しているものに注意を向ける必要がある。注意はこれをかなりうまくやれるんだよね。欠落を探すとき、その欠落は何でもあり得るから、全体の文脈を別の全体の文脈と比較することでしか推論できない。注意層はそれをうまくできないんだ。これは「長いもののセットをランク付けする」問題に似てる。メタ認知プロセスがない限り、彼らはそれをできないんだ。

欠落を探すとき、その欠落は何でもあり得る。 このベンチマークでは、LLMに何が欠けているかを判断するために必要な情報を与えてるんだ。例えば、「ここに詩があって、ここにその詩のバージョンがあるけど、行が欠けてるかもしれない。行は欠けてる?」って感じ。私の意見では、これはLLMの本質的な弱点というよりは調整の問題だと思う。もし私がMLの論文で欠落を見つけるように頼まれたら、他のMLの論文と比較するだけで、スター・ウォーズやトップ・ギア、ギリシャの歴史、陶芸、他の1000以上の文脈と比較する必要はないんだ。

もしかしたら関係あるかも。ジェラルド・サスマンのトークを見た後、カニッツァの三角形の画像をClaudeに読み込ませて、推測される三角形が「見える」かどうかを確認するためにかなり曖昧な質問をしてみたんだ。画像を認識して、すぐにその要約を教えてくれた。だから、画像を90度回転させて新しい会話を試みたら、画像を認識できなくて、要素の数も間違えた。以下のような内容だったよ:この画像は、いくつかの要素を持つミニマリストで抽象的な幾何学的構成を示している。四隅に配置された、部分的な円や「パックマン」のような形の黒い形状が4つ、それぞれにくさびが切り取られている。上左のエリアには上向きの細い黒い三角形または矢印のような形状が1つ、中央右のエリアには右向きのものが1つ。すべての要素は薄い灰色またはオフホワイトの背景に配置されている。

これからは、トレーニングデータの画像を90度回転させて、このギャップを埋めるんじゃないかな。

このアイデアを一般化すると、三角形をほぼ埋める千の点を見れば、すぐにその形を認識できる。私の意見では、このシンプルな例は知性が本当に何であるかを示している。千の点がシンプルで低エントロピーな幾何学的形状に収まるから、三角形を見つけられるんだ。IQと呼ばれるものは、私たちが気づけるパターンの複雑さの上限だと思う。例えば、千の点は実際には少し回転した10次元の立方体の角を表しているかもしれない。これは10次元の心にとっては簡単なパターンだ。

どんなLLMにでも、5本足の犬の写真を見せたら、全く数えられないのが分かるよ。

これはとても興味深い。1. 著者たちは、ギャップの位置に注意を向けられないかもしれないと言ってるけど、ギャップがトークンじゃないからだって。でも、良いLLMトランスフォーマーなら、ギャップの位置に少しは近づけると思ってた。数学的にそのアーキテクチャがそれに適していない理由が理解できない。ギャップが含まれるかもしれない領域に注意を向けることができるはずだよね。こういうタスクでファインチューニングが役立つのかな?2. 欠落が少ない短い入力の方が解くのが難しかった。これは完全に驚くべきことではない。人間がこのタスクをやるとき、1単語が欠けていると気づくのが難しいからね。同様に、1行が欠けているのは10行よりも難しい。でも、LLMにとってこの問題があるのは面白い。3. 推論モデルはうまくいく。文書を作成して、これを簡単に解決できる可能性があるから。これが100%の精度につながらないのは驚きだ。これは簡単なタスクのはずだよね。論文にも書いてあるけど、これを解決するためのトリビアルなプログラムが書けるはず。もしかしたら、ChatGPT(または類似のエージェント)がこの論文をトレーニング中に読んで、問題を解決するためにPythonを書いて実行することができるかもしれない。でも、最も興味深いのは、私たちが明示的に特定していない知能の他の側面が何か、そしてLLMや現在のAIがそれに対して非常に苦手なのかどうかってこと。この論文は、そういった側面がたくさんある可能性が高いことを示唆していて、ベンチマークを構築している人たちにとってはかなり楽しい時期のようだね。

AbsenceBenchのやり方に対する批判は妥当だけど、これをベンチマークしていること自体にとてもワクワクしてる。確実に正しい方向への一歩だね。

これがビジョンモデルにどう適用されるか気になるな。いくつかの単一画像の例で試してみたけど、うまくいってるみたい。いくつかのおもちゃの例でも、違いを見つけるのがかなりうまくいってる(Claude + Gemini)。例の画像はこちら:https://www.pinterest.com/pin/127578601938412480/ 画像をひっくり返すと、違いを見つけるのが難しくなるみたい(見つける違いが少なくなったり、幻覚を見たりすることもある)。

存在を検出するために、本物の脳は感覚入力を受け取り、それを期待と比較して、冷静でいるか驚きを感じたりする。そして時々、動物を導くために予測を出す。欠如を検出するためには、脳は定義上、感覚入力に頼ることができない。感覚的な証拠がないことで驚くためには、期待がないときに驚きを感じるのに十分な強さの世界モデルが必要だ。私には、欠如を検出することは感覚入力を処理するよりも厳密に高次の神経的なタスクだと思える。もしLLMがこの厳密に高次の神経的なタスクをできないなら、それは生き物に特有の能力ってことじゃない?

時々、私はそのテーマについて全く知らないけど、時間的な側面だけでも問題だと思う。これらのエージェントは、リアルタイムで調整するのではなく、固定された「現実」のバージョンから推論しているんじゃないの?

なんでトランスフォーマーが欠けてるものを検出できないことに驚くのか、全てのスタックが入力が完璧だと思い込んでるからじゃない?トークナイザーはプレースホルダーを残さないし、アテンションウェイトも何に基づいていいかわからない。損失関数だって、存在するものを予測するように作られてるし、存在しないものを考慮してない。これはモデルのバグじゃなくて、アーキテクチャの欠陥だよ。もし欠如を検出するモデルが欲しいなら、欠如を期待するトレーニングの目的が必要だし、「ここにあったかもしれない」って表現する入力エンコーディングも必要かもね。

https://en.wikipedia.org/wiki/Chinese_room

アーキテクチャのレベルでどう解決すればいいかはわからないけど、差分ツールにアクセスできるLLMなら100%できると思う。でも、それが本質じゃないってのは理解してるよ。