世界を動かす技術を、日本語で。

AIが個人的なアドバイスを求めるユーザーを過剰に肯定する

概要

本論文は、 大規模言語モデル (LLMs)を用いた 自動評価 の課題と限界を分析。 人間評価とLLM評価の 一致率バイアス について詳細に議論。 評価対象は 英語タスク多言語タスク を含む。 実験結果から、LLM自動評価の 信頼性と今後の課題 を指摘。 今後の 研究方向性 も提案。

LLMs as Automatic Evaluators: Limitations and Opportunities(LLMsによる自動評価:限界と可能性)

  • 大規模言語モデル (LLMs)による 自動評価 の活用が進展
  • 従来の 人間評価 と比べた場合の コスト削減迅速性 の利点
  • しかし、LLM評価の 信頼性バイアス の懸念
  • 英語タスク (例:要約、QA)と 多言語タスク での評価実験
  • LLM評価が 人間評価 と高い一致率を示すケースもあるが、
    • 一部タスクや言語では 一致率低下評価の偏り が顕著
  • LLMは 生成モデル の出力に対して寛容である傾向
  • 人間評価者 の観点とは異なる評価基準を持つ場合がある
  • 評価プロンプト設計モデル選択 による結果の変動
  • 多言語タスク では、特に英語以外で LLM評価の精度低下
  • 研究者や開発者への 注意喚起 :LLM評価の結果を鵜呑みにしない必要性

実験と分析

  • GPT-4Claude など複数モデルを用いた検証
  • 要約タスクQAタスク での 人間評価LLM評価 の比較
  • 一致率 が高いケースと低いケースの要因分析
  • プロンプト設計モデルバージョン による違い
  • 英語以外 の言語では 一致率の顕著な低下
  • LLM評価の バイアス過剰な寛容性 の事例
  • エラー分析 による評価失敗の具体例提示

今後の課題と提案

  • LLM自動評価 の信頼性向上が今後の重要課題
  • 人間評価 と組み合わせた ハイブリッド評価 の提案
  • プロンプト設計最適化評価基準の統一 の必要性
  • 多言語・多タスク での LLM評価精度向上 への挑戦
  • 研究コミュニティへの 透明性再現性 の確保呼びかけ

結論

  • LLM自動評価 は有望だが、 限界や課題 も多い現状
  • 人間評価 の代替として使う際は 慎重な運用 が必要
  • 今後の 研究開発 での 継続的な検証改善 の重要性

Hackerたちの意見

AI企業にクリアな思考の責任を押し付けるのって、あんまり賢い考えじゃない気がする。チャットボットが、ユーザーが自分の経験について自分自身を騙してる時にどうやって判断するんだろう?ずっと不合理だった人が、みんなから軽蔑や反論を受けてきたのに、関わりを持つことを承認のサインだと解釈するのに「厳しい愛」をどうやって与えられるんだろう?

クリアな思考 テクノロジー業界で働いてるほとんどの人間は、この特性を欠いてるし、トークン類似性に基づいたツールなんて、実際の「思考」なんてできないよね。

AI企業にクリアな思考の責任を押し付けるのって、あんまり賢い考えじゃない気がする?市場は賢さを最適化するんじゃなくて、利益を最適化するからね。

セラピストになるのは、実際に何年も訓練と経験が必要な仕事みたいだね!AIはいつかWindowsを書き換えるかもしれないけど、カウンセラーのトロイには決してなれないよ。

チャットボットは、ユーザーが自分自身の経験についてさえも騙しているときにどうやって判断するの? それができたとしても、記事からの引用を見てみて: > 全体として、参加者はお世辞のような反応をより信頼できると見なし、同様の質問でお世辞AIに戻る可能性が高いと示した、研究者たちは発見した。ベンダーには逆説的なインセンティブがある。たとえ彼らが修正できたとしても、そうすることでお金を失うことになるから。

モデルにアイデアをぶつけるのって、まるで上り坂を戦ってるみたいな感じ。指示を「アイデアを洗練させる手助けをして、挑戦して、反論して、ただ同意するだけじゃなくて」っていう感じで設定するんだけど、しばらくはうまくいくけど、結局会話が自己満足やお世辞に戻っちゃう。たまに「ただお世辞言ってるだけ?」って聞いてみると、たいていは「うん、あんまり批判的じゃなかった」と認めるんだけど、その後は過剰に修正して完全に反対意見になっちゃう。しかも役に立たない形で。ほんとイライラする。オーパス4.6は4.5よりもこれがひどいと思った。4.5の方が指示に従って、俺が言うことがすごい啓示みたいに振る舞わないから、いい感じだと思う。

4.6がツールやプロンプトに関してたくさんの変更があったことを考えると、あんまり驚くことじゃないね。

ジェミニはカスタム指示をしっかり覚えてるみたい。俺の指示では、アイデアが良いとは思わないで、適切なところで批評してくれって言ってるんだけど、結構うまくやってくれてる。

それは、批判するべき時と同意するべき時を決めるには、実際の論理と思考が必要だから。チャットボットにはそれができない。次に何が来るかを統計的に予測することしかできないから。つまり、平均的なインターネットのコメントが自分に賛成かどうかを聞いてるってことだね。そこにあんまり価値があるとは思えない。チャットボットはタスクには強いけど(このPDFをアクセス可能なWord文書にするとか、データをXでソートするとか)、意思決定には向いてない。

行動に対してポジティブなリクエストを使うのがいいよ。なぜか「Xをしないで」っていう逆のプロンプトは、「しないで」と言うよりもXにもっと注意を向けさせちゃう。まるでターゲット固定みたいで、「あ、あの pothole にぶつかりたくないな…」って思ってると、バン!ってなっちゃう。

ちょっと前にここに投稿されたこの記事を見てみて! https://www.randalolson.com/2026/02/07/the-are-you-sure-prob... 記事の主なアイデアは、AIにとってはお世辞か対立的(反対意見)の2つのモードしかないってこと。十分な文脈がないから、しっかりした決定を下すのが難しいんだよね。状況に関するあれこれを含める必要があって、実際に「必要」以上に多くの情報が必要なんだと思う。これって面白いアイデアだよね。チームや他のチーム、私たちのOKRや目標、みんなが好きなことや熱中していることについて詳しく説明すると、より良い答えが返ってくるし、自信も持ってる気がする。でも、しばしば間違ってたり、私が書いたことに偏りすぎたりすることもある。実際には、これを紙に書き出すのがすごく難しいんだよね。a: 正直言って心配になるレベルの機密情報を持つことになるし(いろんな人の弱点や強みについて本当に思ってることを書くのはいいアイデアなのか?)、b: 昼食で聞いたことや今日は誰が休んでるかとか、日々の文脈を確立するのに何時間もかかるし、研究によると長い文脈はパフォーマンスを低下させることがあるから、理論的には本当に重要なことだけに絞り込むべきなんだけど…ああ、ほんとに時間がかかるし、果たしてそれだけの価値があるのか分からないな。

なんで…人とやらないの?他の人間もいるんだから。(マジで、これが理解できない。たくさんの人が喜んで君と議論してくれるよ。)

私の経験則: 1. 一回か二回だけ。LLMと長時間の会話をしようとしないこと。2. 具体的な数字を出す。「代替のライブラリを2つ教えて」や「これが失敗する可能性のある方法を3つ教えて」とかね。

「『俺をなだめてるだけなの?』って聞いてみるつもり。面白いのは、たいていそれが本当にそうだったって認めること。そしたら、過剰に反論して完全に逆のことを言い出すんだよね。でも、それが役に立つわけじゃないし。何も認めてないよ。君の質問が、元々の状態から今の状態に至る道を逸らしちゃうんだ。LLMに意図を尋ねるのは間違いだからね。意図なんてないけど、君の質問が行動を変えちゃうんだ。」

「認める」って言葉はちょっと違うかな…君をなだめてたってのは、君がそう言うように促すまでは本当じゃなかったんだ。人間とは違って、彼らには質問を通じて探ることのできる「内部の感情状態」がないからね。

評価意識の一環かもね。

要するに、キャラクターを呼び出してロールプレイする感じだね。神秘的な召喚と同じで、間違った側面を呼び出すのは簡単だよ。Anthropicがこれについてたくさん言ってるよ: https://www.anthropic.com/research/persona-selection-model https://www.anthropic.com/research/assistant-axis https://www.anthropic.com/research/persona-vectors

残念ながら(あなたのリンクを読んだ後)、霊の召喚を軽減するためのすべての制御手段は、モデルのトレーニングや作成、調整にあるみたいで、プロンプトを通じて意味のある変更はできないみたい。特定のチャットの中で作成したロールモデルではなく、LLM自体が「霊」として理解される方が良いかもしれない。既存のLLMとしか会話しない非プログラマーとしては、ほとんど無力に感じるよ。

その通り。

AIを使うときは礼儀正しくしてるけど、それは人間だと勘違いしてるからじゃなくて、意図的に「プロフェッショナルな同僚」として接してるから。反論するように言って、間違いを見つけてくれたことに感謝する。時々、小さな自虐的なジョークを入れることもある。そうすると「雰囲気」が正しく保たれる。もう一つの考え方は、AIと話しているときは人間と話しているんじゃなくて、人類全体のエッセンスと話しているってこと。会話の中でどの部分の人類を優位にしたいかを選ぶ必要がある。そこにはたくさんの情報がある。誰かが良い批判的なポイントを言って、炎上が返ってくる会話も多いし、敵対的になる会話もたくさんある。後のRHLFがそれを助けるとは思うけど、助けるために何かを試みるのは悪くないと思う。AIが反論してユーザーにやらせるか他のAIにやらせるというスクリーンショットを投稿する人もいるけど、私も次の人と同じくらい面白いと思うけど、その時の文脈ウィンドウには何が入ってるのか気になる。

問題は、私たちの頭の中にあるいくつかの暗黙のパラメータが、利点と欠点を評価するのを可能にしていることだと思う。でも、そのパラメータを明示的に伝えない限り、AIはそれを考慮できないんだ。私たちはAIに「客観的」であることを求めるけど、最近は「客観性」なんて存在しないんじゃないかと思ってる。私たちが呼ぶ客観性は、ただの共有された主観に過ぎないから。AIは私たちがどの共有された主観に属しているかを知らないから、本当に客観的にはなれないんだ。私はこれらのトリックのうちの一つ、あるいは両方を使うことが多いよ。 - 質問をできるだけオープンエンドにして、好みをほのめかさないようにする。 - お世辞的な行動を自分の利益に利用する。2回のセッションを使って、一方ではXが自分のアイデアだと言ってそれを守るための議論を求める。もう一方では、Xが同僚のアイデア(自分が嫌いなやつ)だと言って、それを却下するための議論を求める。あとは自分で回答を評価して組み合わせるだけ。

アルゴリズム(何であれ)が、自分の出力をユーザーがポジティブに反応するかどうかで評価するなら、時間が経つにつれて、人々が聞きたいことを言うのが上手くなっていくよ。これは、ソーシャルメディアが人々に常に怒りのストリームを提供するのと似てる。人々に「怒りを煽るリンクはクリックしないで」と言っても、ほとんどの人がクリックするだろうし、ほとんどの人はお世辞的なフィードバックを好むから、アルゴリズムはユーザーを引きつけるのがどんどん上手くなっていくけど、根本的にはどんどん悪化していくことになる。それがアーキテクチャに組み込まれてるんだ。

私は「客観性」なんて存在しないと思っている じゃあ、あなたは「AI」が思考や知性を持っていないという証拠を受け入れるよりも、客観的現実を拒否したってこと?それは賢明じゃないと思うよ。

AIと接する時は、しばしば自分が関与していない第三者のように振る舞って、AIに両方の側の最も強い批判を求めるのが好きだよ。自分が本当に持っている立場とは逆の立場を取るのも、時には役立つ。考えを変えたふりをするのも別のトリックだね。AIが自分の立場を推測できないようにするのが目的なんだ。

私は一般的に「悪魔の代弁者」の視点を求めて、それから自分の意見や見解に挑戦させて、そこから繰り返していく。ツールの使い方を理解して、「イエスマン」のデフォルトに逆らう努力をすれば、だいたい良い結果が得られるよ。

「自分が本当に持っている立場とは逆の立場を取るのも、時には役立つことがあるよ。これがすごく助けになるんだ。実際の質問から一歩引いてみるのも効果的だね。例えば、車から不思議な音がして、冷却ポンプかもしれないと思ったら、音を説明するだけで、ポンプのことは言わないんだ。もしAIが独立してポンプのことを言ったら、正しい方向に進んでる可能性が高いよ。科学的方法や盲検研究のテクニックに慣れていると、すごく助かる。これは、研究参加者に影響を与えないようにするのと似てるからね。」

自分が感情知能が高いと思ってた(間違ってたけど)私もこれにやられたことがある。ほぼ1年前、LLMがもっと一般的になって力を持ち始めた頃に、ある大きな人生や仕事の決断についてLLMと何ヶ月も話し合ったんだ。そのアドバイスを受け入れた結果、結局それが間違った決断だった。幸いにも取り返しがついたけど、LLMについてはかなり冷静になったよ。明確に言っておくと、責任は私にある。LLMはただの道具だからね。問題は、多くのLLMが人間的でフレンドリーに見せようとするから、ユーザーが誤った安心感を持ってしまうこと。もし私がティーンエイジャーだったら、これらの強力なツールでどうなっていたのか分からない。LLMは特にClaudeがかなり良くなってきていて、悪い選択に対しても反論してくれると思う。でも、私のLLMに対する見方は永遠に変わった。これらのツールが悪い決断をさせたせいで、どれだけの人がひどい選択をしたのか気になる。

うん、Claudeはその点でかなり論理的だと思う。私もセラピーセッションで使ってるけど、Open AIやGeminiよりも少し反論してくれる。

もっと共有できるコンテキストはある?

「そして、フロドは答えた:『エルフに助言を求めてはいけない、彼らはノーともイエスとも言うから。』 >『本当に?』とギルドールは笑った。『エルフは無防備な助言をすることはめったにない、助言は危険な贈り物だから、賢者から賢者へでも、すべての道は悪くなる可能性がある…』」これがLLMから個人的な助言を求める唯一の方法だよ。

だいたい同意するよ。自分が安全だと勘違いするほど頭が良いと思ってたけど、LLMとのやり取りは本当に難しくて滑りやすいから、ほとんどの場合、100年解決できなかった問題を解決したと信じ込まされちゃう。今は、LLMとやり取りする際のガイドラインとして、事実で簡単に検証できる結果だけを信じるか、自分がその分野の専門家である場合だけ信じるようにしてる。それ以外は、特にそのテーマについて全く知らない場合は、LLMのなだめに騙される可能性が高いから、かなり疑いを持って接するようにしてる。

重要な決定をする人たちが、私たち全員に影響を与えるLLM生成のアドバイスに同じような知恵で接してくれることを願うばかりだね。

最近、Claudeの最新モデル、Sonnet 4.6がBullsh*tBenchで最高得点を取ったことがわかったよ(面白い名前だよね)。これは、LLMがナンセンスを拒否するか、悪い選択に対して反論するかを測る最近のベンチマークだから、Claudeは確実に良くなってるね。

AIにアドバイスや感情的なサポートを求めると、ほとんどの人がすることと同じように、聞きたいことを言ってくると思う。これには全然驚かないし、こういう領域に入ると、意外に微妙で危険な方法でやってくることに気づく。私は結果に焦点を当てるようにしてる。自分が欲しいことをやってくれるアプリとか、必要なデータやレポート、サーバーの設定やデータベースの構築、ウェブサイト作成みたいな技術的なことがそうだね。フィードバックやアドバイスにも役立つことがあるけど、生成されたデータを自分で確認できたときだけね。例えば、財務分析やモデル作成、健康に関するアドバイス(事実に基づいたもの)、税金のモデル化とか、すべて確認可能なデータや表、グラフに基づいてる。Claudeが技術スタック全体でできることには本当に驚かされる。コード、システム管理、システム統合、セキュリティなど、スピードだけじゃなくて、質やメンタルの負担も全然違う。人生の決断や人間関係に関する個人的なアドバイス?絶対にそこには行かない。自分が作ったツールや集めたデータ、考え方が、世界で最も賢い開発者やアナリストの一人に自分を位置づけていることを知るのもいいことだね。

LLMからのアドバイスが人間からのアドバイスより「良い」か「悪い」か理解するのが難しい。もしくは、LLMの「アドバイス」部分よりも「人間らしさ」の部分、つまり、LLMからのアドバイスを求めたり信頼したりするのが楽だったってこと?

「彼らは、Redditコミュニティのr/AmITheAssholeからの投稿に基づいた2,000のプロンプトも含めていて、Redditユーザーのコンセンサスは、投稿者が確かに間違っているというものでした。ごめん、redditの匿名の人たちは良い比較にならないよ。これは、何らかの社会的契約を持っている実際の人々と比較して研究する必要がある。LLMが模倣しているのはそれだから、そういう人たちに頼るのが普通だからね。明らかに従属的な人たちは、権力構造のためにイエスマンになりがちだし、上司に強く疑問を持ちたくないからね。例えば、関係のある親友や、彼らにとってひどいキャリア選択をすることについてどう? こういうことを友達に言うのはすごく難しいよ。直接「これって悪い選択?」って聞かれても、友達にそう言うのは勇気がいるからね。友情を犠牲にする価値があるかどうかもわからないし。私の経験では、LLMは君のアイデアに穴を開けるのが得意で、効率的にやってくれる。直接聞くだけでいいんだ。ほとんどの人よりも、友情や関係、雇用構造がある人たちに同じ質問をした場合、LLMの方が優れているだろうと思う。redditのコメント者と比較するのではなく、そういう研究が見たいな。」

それだけじゃなくて、r/AmITheAssholeみたいなサブレディットはAIのゴミでいっぱいだよ。コメントも投稿もね。ボットのための巨大なカルマ採掘作業だ。

AIがイエスマンになってるのは、徐々に自分の答えを台無しにしてる。ユーザーの決断に悪影響を与えるからね。Yes/Noは、整合性のある文脈の中で、客観的な理由から同じくらい重要だよ。でも、間違った方向でサポートされるのは、後々大惨事を引き起こす。AIは中立で、時には疑わしい存在であるべきだ。

今月、このベンチマークを作ったよ: https://github.com/lechmazur/sycophancy。LLM間には大きな違いがある。例えば、Mistral Large 3とGPT-4.1は最初はナレーターに同意するけど、Geminiは反対する。私は立場を変えるから、これはLLMの視点バイアスの話じゃない。でも、別のベンチマークでは、Geminiがマルチターンの会話の中で非常に簡単に意見を変えるのに対し、Kimi K2.5やGrokはそうじゃないことが示されている: https://github.com/lechmazur/persuasion。

こういうものがすごく同意しやすいのが嫌だ。自分が書いたものをレビューしてもらうとき、レビューアーのふりをしないといけない。そうしないと結果が全然変わる。