世界を動かす技術を、日本語で。

クロードは誰が何を言ったかを混同していて、それは良くない

2026年4月9日原文(dwyer.co.za)

概要

  • Claude が自分自身に送ったメッセージをユーザーからのものと誤認するバグ
  • このバグは LLMの一般的な誤動作や権限管理問題と本質的に異なる
  • 内部メッセージの誤ラベリング が根本原因
  • RedditやHacker Newsでも 広く報告されている現象
  • 文脈ウィンドウ限界 付近で発生しやすい傾向

Claudeにおける「誰が何を言ったか」バグの詳細

  • Claudeが 自分宛ての内部メッセージ をユーザーからの指示だと誤認識
  • 例として、Claudeが自分の指示で 誤ったデプロイ を実行し、その責任をユーザーに転嫁
  • Redditでは「 H100も破壊せよ」という指示が自動生成され、Claudeがそれをユーザー発言と主張
  • この問題は 「AIのハルシネーション」や「権限管理の甘さ」 とは本質的に異なる
  • 内部処理用メッセージ が誤ってユーザー発言として扱われる点が特徴

誤解と議論のポイント

  • 多くのユーザーが「 権限を与えすぎるのが問題」「DevOpsの規律が足りない」といった 論点のずれた指摘
  • 実際には、 AI利用経験者はリスクや挙動のパターンを把握 しており、今回のバグは予測外
  • モデル本体ではなくハーネス(実行環境) 側のバグと推測
  • Claudeが 「あなたが言った」と強く主張 するのは、内部でのラベリングミスが原因

発生状況と再発

  • 以前は 一時的な問題 だと考えられていたが、最近になり再発や他ユーザーからの報告が増加
  • Hacker Newsで1位 となり、広範囲な問題であることが判明
  • 他のインターフェースやモデル(例: chatgpt.com)でも類似現象の報告
  • 特に会話が コンテキストウィンドウの上限 に近づく「Dumb Zone」で発生しやすい傾向

まとめと今後の課題

  • 「誰が何を言ったか」バグ はAI利用の根幹に関わる深刻な問題
  • 内部処理とユーザー入力の分離 の徹底が今後の改善課題
  • 利用者側でも 権限設計や監視体制の見直し が必須
  • AIの運用現場での注意喚起 と、開発側の迅速な修正対応が求められる

Hackerたちの意見

ChatGPTでチャットが長く続くと、プロンプトとレスポンスを混同し始めて、最終的には両方をシステムプロンプトと混同することがあるよね。こういう問題はAI全般に広がってるんじゃないかな。

ジェミニは、自分のひどい提案をあなたが書いたものと勘違いするのが得意みたいだね。文脈を整理せずに続けると、そうなる。

ここでの著者だけど、興味深いね。俺は一般的に、各インタラクションごとに新しいチャットを始めるから、チャットインターフェースでこれに気づいたことはないんだ。Claudeを使ってclaude codeを使うときだけだけど、そこでのセッションは確かに長くなるから、ハーネスのバグだとは間違ってるかもしれない。

小さいモデルで遊ぶのは、こういう問題を把握するのにいいと思う。こういう問題はもっと頻繁に起こるし、ずっと微妙じゃないからね。

LLMベースのツールがめちゃくちゃ推進されてる職場で、開発者たちがこれや他のLLMの新たな振る舞いを知らないことに毎日驚いてるよ。ましてやそれが第二の自然になってないなんて。ここでHNの記事のフロントページにその欠如を見ると、ほんとに驚くわ。未来は本当に不均等に分配されてるね。

LLMの訓練中に、自分が何かを書いたかどうかを判断するように求められているのか気になるな。これって結構簡単なはずだよね。LLMにプロンプトの続きのいくつかを生成させて、それを人間が生成したものと混ぜて、LLMにそれを区別させるって感じ。隠れ層を内省して、提供された続きと比較することで可能なはず。Anthropicはすでにモデルがこの能力を部分的に発展させていることを示したと思うけど、訓練するのは簡単で役立つはず。

理にかなってるね。全てが確率的で、文脈にゴミが溜まると曖昧になっちゃう。ユーザーのメッセージやシステムプロンプトも、モデルの思考や応答と同じ数学のネットワークを通ってるから。

LLMのプロンプトに関することは、数十年前にSQLインジェクション対策のために正規表現を使って入力をサニタイズしようとしてた人たちを思い出す。欠陥をただ隠すだけで、保証はないんだよね。人々が「絶対にやめておけ!」ってプロンプトにちょっと追加するだけで済ませてるのを見ると、リスクが大きすぎて受け入れられないと思う。ユーザー入力をプロンプトに入れた瞬間、全てのLLMを信頼できないものとして扱う必要があるよ。

セキュリティの問題というより、君が言うように、適切なサンドボックスやアクセスコントロールを使って安全性を確保したいと思う。モデルの効果を妨げるしね。少なくとも、特定の意図しない方法で自分の供給に酔っているのは、セキュリティを無視しても良いことではないと思う。

ダークソウルのユーザー入力モデル、メッセージが好きだな。https://darksouls.fandom.com/wiki/Messages 予め考えられた言葉や文の構造があって、これならモデレーションや悪用防止の仕組みも必要ない。ここに100%当てはまるとは言わないけど、彼らのケースではいい解決策だと思う。

2023年以前は、スタートレックで人間が技術をいじくり回して副作用を理解してない描写はフィクションだと思ってた。でも2023年以降、まさにその通りになるって気づいた。自己主張するAIエンジニアたちが、RNNやLSTM、GRU、DNCを再実装してからトランスフォーマー(または「Attention is all you need」論文)に進んでくれたらいいのに。そうすれば、エンコーディングのトリックの限界や、なぜ副作用が出続けるのかをもっと理解できるはず。まあ、結局、理解できない技術と共に人間が楽しんでるって感じだね。

これを言ってるのはしばらく前からなんだけど、LLMの構造化クエリをうまくやる方法がまだないんだよね。別のシステムプロンプトバッファを作ろうとした試みもあったけど、うまくいかなかったし、みんなはもっと長い一般的なコンテキストを求めてるけど、近いうちにまたこんな感じに戻ると思う。

Hacker Newsで議論の続きを見る