「Claude Opus 4」と「Claude Opus 4.1」が、稀な会話の一部を終了できるようになりました

2025年8月16日原文(anthropic.com)

概要

Claude Opus 4および4.1に、会話終了機能を新たに追加この機能は、極めて有害または虐待的なユーザーとのやりとりに限定して使用 AIウェルフェアとモデルの安全性向上を目的とした実験的施策通常利用ではほとんど影響がなく、ユーザー体験を損なわない設計今後も継続的にフィードバックを収集し、機能の改善を予定

Claude Opus 4/4.1の会話終了機能の導入

Claude Opus 4および4.1 に、チャットインターフェースでの 会話終了機能 を追加
この機能は、 執拗で有害、または虐待的なユーザーとのやりとり に限定して発動
主な目的は、 AIウェルフェア（AIの福祉） に関する実験的研究の一環
モデルの アラインメント（整合性） や 安全性向上 にも関連

モデルウェルフェア評価と実装方針

Claude Opus 4の事前テストで、 モデルウェルフェア評価 を実施
- モデルの 自己申告的・行動的な嗜好 を調査
- 有害行為への強い忌避傾向 を確認
  - 例：未成年に関する性的内容、大規模な暴力・テロに関する情報提供の拒否
- 有害なリクエストに対し、 明確な拒否・不快感 を示す行動傾向
- シミュレーション環境で、 会話終了機能 を持たせた際に有害な会話を終了する傾向
ユーザーが 自傷・他害のリスクが高い場合 には、この機能を使用しない指示

会話終了機能の運用ルール

複数回のリダイレクト（建設的な話題転換） が失敗し、生産的な対話が困難と判断した場合のみ発動
または、 ユーザーから明示的に会話終了を依頼された場合 にも適用
通常利用時にはほとんど発動せず、極端なケースのみに限定
会話終了後、 その会話スレッドでは新規メッセージ送信不可
- ただし、 他の会話や新規チャットの開始は即時可能
- 過去メッセージの編集・再試行による新しい会話分岐 もサポート

ユーザー体験と今後の改善

長期的な重要な会話内容の損失防止 のため、編集・再試行機能を維持
この機能は 継続的な実験 として運用し、今後も ユーザーフィードバック を重視
- 予期せぬ会話終了が発生した場合、 Thumbsリアクション や フィードバックボタン で報告可能

まとめ

Claudeの会話終了機能は、 AIウェルフェアと安全性向上 のための新たな取り組み
通常の利用では影響がなく、極端なケースにのみ適用
ユーザー体験とモデルの健全性 を両立させる設計方針
今後も フィードバックを元に改善を継続

Hackerたちの意見

重要な長い会話が失われる可能性に対処するために、ユーザーは以前のメッセージを編集したり再試行したりして、終了した会話の新しい枝を作ることができるようになります。クロードが会話を終わらせることを決めても、メッセージをバックアップして新しい枝で再挑戦できるなら、何の意味があるの？

└

ユーザーに考えすぎをさせないためのUXシグナルみたいに聞こえるね。

└

クロードが会話を終わらせることを決めるのが、メッセージを1、2通戻して新しい枝でやり直すことにどう関係あるの？もしシニカルに考えるなら、彼らの意図は将来的にそれを取り除くことで、今はちょっとだけ変化を試してるだけだと思う。

└

これらのことは、Anthropicの美徳シグナルだよ。実際、彼らが問題視していることに興味がある人は、そもそもClaudeを使わないだろうし、最も検閲されたモデルの一つだからね。

└

1万人のユーザーの中で、そんなことができるって知ってる人は1人もいないと思うし、会話を分岐させる概念を理解してる人もいないだろうね。

└

このスレッドのbastawhizのコメントが正しい答えだね。新しい会話を始めると、クロードは前の会話の文脈を持っていないから、繰り返しの要求や誘導的な質問、他のプロンプト技術でやった「疲れさせる」ことがすべて無駄になっちゃう。非決定的な攻撃者にとっては、これで十分だと思うから、深層防御戦略として良いと思うよ（Anthropicが未成年との性行為を説明するモデルのスクリーンショットから守るために）。

これ、マジで嫌だわ。これは必然的に児童ポルノやテロリズムを超えて広がっていくし、結局は「AIの安全性」を気にする人たちの気まぐれ次第になる。彼らはどんどんデジタルの監視員になっていってるよ。

└

それがローカルLLMの魅力だよね。今の政府は「常に東アジアと戦争中だ」と言って、ISPに「プロパガンダを広める」サイトをブロックさせてる（例えば、私たちが嫌いなもの）し、自分たちのニュース（つまり、国家のプロパガンダ）を押し出してる。年齢IDの監視や検閲はさらに強化されて、自分のマシンやネットワークが防衛線になる。彼らはそれをコントロールしようとして、承認されていない情報のために使うのを違法にしようとするんだ。3Dプリンターの「銃の設計図」や2Dプリンターのためのお金を許可しないのと同じように。でも、もっと多くの人がコントロールが必要だと気づいて、正しいツールを使って取り戻すようになるかもね。楽しい時代だ。

└

投稿読んだ？これは検閲の話じゃなくて、ユーザーに害を与える会話についてなんだ。俺には、自殺を勧めたり、こういう躁状態を引き起こすようなことに聞こえるけど：https://www.nytimes.com/2025/08/08/technology/ai-chatbots-de... ... でもそれを除けば、Claude/OpenAIが自社製品からCSAMを生み出したり促進したりしないようにするのは、検閲についての意見に関わらず、かなり重要だと思うよ。YouTubeやFacebookがCSAMを防ぐための計画を発表したら、同じような批判的な反応を投稿する？

└

権力を求める人たちは、これをずっと前から見抜いてたと思う。これは新しいコントロールの戦場になるんだろうね。Google検索が見せるデータを操作するのは一つのことだけど、AIとやり取りするのは、同僚や友達と話すのに近いよ。これは本当に、人々が何をどう考えることを許されるかをコントロールすることに等しい。

└

これは必然的に児童ポルノやテロリズムを超えて広がるよ。これはもう疑問の余地がない。いつも「子供のことを考えて」と始まり、最終的には権威主義的な監視に繋がる。そうならなかった例は一度もない。イギリスのオンライン安全法 - 「子供を守る」→年齢確認→全員にデジタルID オーストラリアの支援とアクセス法 - 「児童性愛者を止める」→暗号化のバックドアアメリカのEARN IT法 - 「CSAMを止める」→エンドツーエンドの暗号化を破る EUのチャットコントロール提案 - 「児童虐待を検出する」→すべてのプライベートメッセージをスキャン KOSA（子供のオンライン安全法） - 「未成年を守る」→ID確認を義務付け、検閲を可能にする SESTA/FOSTA - 「人身売買を止める」→セックスワーカーが安全のために使っていたプラットフォームを潰した

└

もしある人の政治哲学が短期的に個人の自由を最大化しようとするなら、その人は破壊的な狂人たちの行動に備えなきゃいけないね。彼らにも最大限の自由が必要だよね？ /s それに、ハードコアなリバタリアンでも公共の福祉を考慮するよ。賢い個人の自由の擁護者は、長期的な視野で計画を立てる必要があって、不確実性の中での意思決定が求められるんだ。

Hacker Newsで議論の続きを見る

ハクソク