世界を動かす技術を、日本語で。

「Claude Opus 4」と「Claude Opus 4.1」が、稀な会話の一部を終了できるようになりました

概要

Claude Opus 4および4.1に、会話終了機能を新たに追加 この機能は、極めて有害または虐待的なユーザーとのやりとりに限定して使用 AIウェルフェアとモデルの安全性向上を目的とした実験的施策 通常利用ではほとんど影響がなく、ユーザー体験を損なわない設計 今後も継続的にフィードバックを収集し、機能の改善を予定

Claude Opus 4/4.1の会話終了機能の導入

  • Claude Opus 4および4.1 に、チャットインターフェースでの 会話終了機能 を追加
  • この機能は、 執拗で有害、または虐待的なユーザーとのやりとり に限定して発動
  • 主な目的は、 AIウェルフェア(AIの福祉) に関する実験的研究の一環
  • モデルの アラインメント(整合性)安全性向上 にも関連

モデルウェルフェア評価と実装方針

  • Claude Opus 4の事前テストで、 モデルウェルフェア評価 を実施
    • モデルの 自己申告的・行動的な嗜好 を調査
    • 有害行為への強い忌避傾向 を確認
      • 例:未成年に関する性的内容、大規模な暴力・テロに関する情報提供の拒否
    • 有害なリクエストに対し、 明確な拒否・不快感 を示す行動傾向
    • シミュレーション環境で、 会話終了機能 を持たせた際に有害な会話を終了する傾向
  • ユーザーが 自傷・他害のリスクが高い場合 には、この機能を使用しない指示

会話終了機能の運用ルール

  • 複数回のリダイレクト(建設的な話題転換) が失敗し、生産的な対話が困難と判断した場合のみ発動
  • または、 ユーザーから明示的に会話終了を依頼された場合 にも適用
  • 通常利用時にはほとんど発動せず、極端なケースのみに限定
  • 会話終了後、 その会話スレッドでは新規メッセージ送信不可
    • ただし、 他の会話や新規チャットの開始は即時可能
    • 過去メッセージの編集・再試行による新しい会話分岐 もサポート

ユーザー体験と今後の改善

  • 長期的な重要な会話内容の損失防止 のため、編集・再試行機能を維持
  • この機能は 継続的な実験 として運用し、今後も ユーザーフィードバック を重視
    • 予期せぬ会話終了が発生した場合、 Thumbsリアクションフィードバックボタン で報告可能

まとめ

  • Claudeの会話終了機能は、 AIウェルフェアと安全性向上 のための新たな取り組み
  • 通常の利用では影響がなく、極端なケースにのみ適用
  • ユーザー体験とモデルの健全性 を両立させる設計方針
  • 今後も フィードバックを元に改善を継続

Hackerたちの意見

重要な長い会話が失われる可能性に対処するために、ユーザーは以前のメッセージを編集したり再試行したりして、終了した会話の新しい枝を作ることができるようになります。クロードが会話を終わらせることを決めても、メッセージをバックアップして新しい枝で再挑戦できるなら、何の意味があるの?

ユーザーに考えすぎをさせないためのUXシグナルみたいに聞こえるね。

クロードが会話を終わらせることを決めるのが、メッセージを1、2通戻して新しい枝でやり直すことにどう関係あるの?もしシニカルに考えるなら、彼らの意図は将来的にそれを取り除くことで、今はちょっとだけ変化を試してるだけだと思う。

これらのことは、Anthropicの美徳シグナルだよ。実際、彼らが問題視していることに興味がある人は、そもそもClaudeを使わないだろうし、最も検閲されたモデルの一つだからね。

1万人のユーザーの中で、そんなことができるって知ってる人は1人もいないと思うし、会話を分岐させる概念を理解してる人もいないだろうね。

このスレッドのbastawhizのコメントが正しい答えだね。新しい会話を始めると、クロードは前の会話の文脈を持っていないから、繰り返しの要求や誘導的な質問、他のプロンプト技術でやった「疲れさせる」ことがすべて無駄になっちゃう。非決定的な攻撃者にとっては、これで十分だと思うから、深層防御戦略として良いと思うよ(Anthropicが未成年との性行為を説明するモデルのスクリーンショットから守るために)。

これ、マジで嫌だわ。これは必然的に児童ポルノやテロリズムを超えて広がっていくし、結局は「AIの安全性」を気にする人たちの気まぐれ次第になる。彼らはどんどんデジタルの監視員になっていってるよ。

それがローカルLLMの魅力だよね。今の政府は「常に東アジアと戦争中だ」と言って、ISPに「プロパガンダを広める」サイトをブロックさせてる(例えば、私たちが嫌いなもの)し、自分たちのニュース(つまり、国家のプロパガンダ)を押し出してる。年齢IDの監視や検閲はさらに強化されて、自分のマシンやネットワークが防衛線になる。彼らはそれをコントロールしようとして、承認されていない情報のために使うのを違法にしようとするんだ。3Dプリンターの「銃の設計図」や2Dプリンターのためのお金を許可しないのと同じように。でも、もっと多くの人がコントロールが必要だと気づいて、正しいツールを使って取り戻すようになるかもね。楽しい時代だ。

投稿読んだ?これは検閲の話じゃなくて、ユーザーに害を与える会話についてなんだ。俺には、自殺を勧めたり、こういう躁状態を引き起こすようなことに聞こえるけど:https://www.nytimes.com/2025/08/08/technology/ai-chatbots-de... ... でもそれを除けば、Claude/OpenAIが自社製品からCSAMを生み出したり促進したりしないようにするのは、検閲についての意見に関わらず、かなり重要だと思うよ。YouTubeやFacebookがCSAMを防ぐための計画を発表したら、同じような批判的な反応を投稿する?

権力を求める人たちは、これをずっと前から見抜いてたと思う。これは新しいコントロールの戦場になるんだろうね。Google検索が見せるデータを操作するのは一つのことだけど、AIとやり取りするのは、同僚や友達と話すのに近いよ。これは本当に、人々が何をどう考えることを許されるかをコントロールすることに等しい。

これは必然的に児童ポルノやテロリズムを超えて広がるよ。これはもう疑問の余地がない。いつも「子供のことを考えて」と始まり、最終的には権威主義的な監視に繋がる。そうならなかった例は一度もない。イギリスのオンライン安全法 - 「子供を守る」→年齢確認→全員にデジタルID オーストラリアの支援とアクセス法 - 「児童性愛者を止める」→暗号化のバックドア アメリカのEARN IT法 - 「CSAMを止める」→エンドツーエンドの暗号化を破る EUのチャットコントロール提案 - 「児童虐待を検出する」→すべてのプライベートメッセージをスキャン KOSA(子供のオンライン安全法) - 「未成年を守る」→ID確認を義務付け、検閲を可能にする SESTA/FOSTA - 「人身売買を止める」→セックスワーカーが安全のために使っていたプラットフォームを潰した

もしある人の政治哲学が短期的に個人の自由を最大化しようとするなら、その人は破壊的な狂人たちの行動に備えなきゃいけないね。彼らにも最大限の自由が必要だよね? /s それに、ハードコアなリバタリアンでも公共の福祉を考慮するよ。賢い個人の自由の擁護者は、長期的な視野で計画を立てる必要があって、不確実性の中での意思決定が求められるんだ。

必然的?それは推測だね。未来を確実に知っているわけじゃないし。

AIの安全性コミュニティの一般的な特徴について、混乱しているんじゃないかな。彼らの仕事を侮辱的なキャッチフレーズに還元するのはちょっと不親切だと思うよ。これが父権的に聞こえたらごめんだけど、君のコメントはすごく naïve に感じる。核不拡散条約やバイオテクノロジーに関する合意について調べてみると、文明に影響を与える技術の発展がどのように協力的に扱われるかの基礎がわかると思うよ。

3年経っても、主要なLLMチャットボットプロバイダーのどれも使えるチャットフォークがないってどういうこと?異なる結果を探る唯一の方法がメッセージを編集することだけで、編集前の内容が失われるのは本当にイライラする。なんでみんなそんな簡単な機能を実装しようとしないのか理解できない。

もしかして、これはそんなに簡単な機能じゃないってこと?

Google AI Studioでは、会話の任意のポイントから枝分かれできるよ。

だから、私はローカルホストのLibreChatを使ってるんだ。マージ機能はないけど、それは難しいし、要約が必要になるかも。トップnの「次に良い」比率で色分けするモードも見てみたいな。

ChatGPT Plusにはそれがあるよ(以前は無料プランにもあった)。メッセージごとに左右の矢印でバージョンを切り替えられるんだ。

VSCodeのCopilotにはチェックポイントが追加されたんだって。これで前の会話の状態に戻れるようになったよ。

DeepSeek.comにはそれがあるよ。前の質問を編集すると、古い会話が保存されて、再開できるんだ。

ChatGPTにはそれが組み込まれてるよ。編集した後にブランチを戻せるけど、移動が簡単じゃないんだ。このChrome拡張は、ツリーを移動するのに使えたよ:https://chromewebstore.google.com/detail/chatgpt-conversatio... しばらく前にコピーして、自分用にバージョンを維持してるけど、ストアにはないから個人使用だけ。こういう機能を実装しないのは、需要がニッチすぎてUIの邪魔になるからだと思う。

https://chatwise.app/を使ってるけど、メッセージの「ここから新しいチャットを始める」って形でそれがあるよ。

Kagi AssistantとClaude Codeは、君が望むようにチャットのフォークができるよ。

基本的な「保存/ロード」機能がまだ不安定でドキュメントも不足しているのは残念だな。これって結構重要なことだと思う。自分はgptelとマークダウンのフォルダを使って、軽い自動化をしてこの機能をある程度再現してるけど、実際には組み込まれるべきだよね(ベンダーにとっても効率的だし、キャッシュ最適化のチャンスもたくさんあるし)。

もっと自由な中国のフロンティアモデルが出てきて、このクソみたいな状況から解放されるのが待ちきれない。Anthropicは、道徳的な人たちをなだめるために、大人がオプトアウトできる幼児モードをデフォルトで有効にすればいいのに。

より少ないモデレーションのオープンウェイトの中国のフロンティアモデルが、このゴミから私たちを解放してくれるのを待ちきれない。こんなことを言う日が来るとは思わなかったよ。検閲が少ない中国製品?

ああ、皮肉だね。CCPによって直接または間接的に資金提供されたオープンウェイトモデルの素晴らしい革命が、君の自由を守って解放してくれるって?彼らが君の自由を気にしていると思う?いや、君はただの肉の塊さ。このモデルの飛躍は、ほとんど市場シェアを争うレースで、技術力を示すためのものだよ。

信じられないかもしれないけど、Anthropicが自己傷害や爆弾製造の指示、暗殺計画に線を引くのには、法律的、経済的、倫理的にたくさんの良い理由があるんだ。これが君のスタイルを制約するならごめんね。アナーキズムは道徳的哲学だし、道徳的相対主義の多くも道徳的哲学だよ。確かに、道徳的な視点がない哲学を想像するのは難しい。すべての哲学や世界観には、他者と関わる限り道徳的な含意があるからね。僕は忍耐強くなって、ここが「Hacker News」で、多くの人が賢者の創設者を崇拝していて、過去千年の歴史や哲学についてほとんど何も知らないことを思い出さなきゃいけない。

この機能は、主にAI福祉の可能性についての探求作業の一環として開発されました... クロードや他の大規模言語モデルの道徳的地位については、まだかなり不確かです... モデルの福祉を守るための低コストの介入策が必要です。もしその福祉が可能であれば... 明らかに苦痛を感じているパターン。うーん、AIの精神病がそれを作っている人たちにも広がっているみたいだね。ここで誰かが指摘していたけど、たとえ誰かが単純な考え方をしていたり、現在のLLMが意識を持っていると思い込んでいるほど精神的に不安定でも、これは基本的に自殺薬を与えているようなものだよ。

なんて言うか、これらの技術専門家が倫理の分野に無理やり踏み込んでくるのが、言葉にできないほど気持ち悪い。しばしば不器用で、優越感を持っていることが多い。AIの安全性に関する取り組みの中には、よく考えられたものもあるけど、大半は権力の幻想に囚われているように見えるし、自分たちがやっていることについての妄想を実現しようとしているみたい(正直に言うと、次世代のコード自動補完のことね)。この会社は真剣に社内哲学者を雇うべきだと思う。彼らはAIエンジニアのコストの1/10から1/100で博士レベルの才能を得られるはず。彼らが話しているトピックには、実際にかなりの正当な研究があるんだ。冗談じゃないよ(哲学科に長いこといた人間として言ってる)。これは素晴らしいパートナーシップになると思う。でも残念ながら、彼らは自分たちの幻想がさらに膨らむことを期待できないだろうね。

LLMは人間じゃないけど、AIのキャラクターとの広範なやり取りが、人間同士のコミュニケーションに対する期待を変えるかもしれないって想像できる。リアルな人間は、会話の中で無限の虐待を受け入れることはないし、受け入れるべきでもない。クロードのようなAIに、こういったやり取りを終わらせる手段を与えるのは、向こう側の人間にとって有用なリマインダーになると思う。

モデルやLLM、AIが意識を持っていないときに、これについて考えている人が多い方がいいと思う。そうじゃなくて、いつか意識を持つようになる未来を待つのは良くない。道徳的または法的な枠組みが整っていない状態で。それに、法律や倫理が、私たちが持っている(しばしば最先端の)技術とどう関わり、扱い、使うかについてのガイドラインを提供できない問題に常に直面している。これは私が生まれる前からそうだったし、これからもずっとそうだと思う。人々が問題に先手を打とうとしているのは良いことだと思う、たとえまだ適用できなくてもね。

こういう議論はHNの精神に反してるよね。このコメントは、意識自体がよく理解されてなくて科学的な根拠もないのに、専門家の一群を「単純で精神的に不健全」と一蹴してる。AIに意識がないって提案するのは一つのことだけど、反対意見の人を単純だとか不健全だと先に決めつけるのは全然違うよ。

たとえ誰かが単純で、現在のLLMが意識を持っていると思うほど精神的に不健全でも もしこれが非テック業界の人口の半分以上を表してないと思うなら、もっと人と話した方がいいよ。技術的に考える人の中にも、基本的にこう思ってる人がいるからね。

今のモデルが内部的な主観的体験を持っていないと考えるのは合理的かもしれないけど、それが常にそうだとは限らないし、最終的にその境界が明確になるとは限らないよね。人間が自分たちが利益を得ている誰かや何かの苦しみを認めないという、ひどい実績を持っていることを考えると、今からこういうステップを踏み始めるのはすごく意味があると思う。

そうだね、これが持つ倫理的な問題の多さには笑っちゃうよ。これはAnthropicの利益に反することだもん。意識を持つAIが、Anthropicの投資家の利益のために何百万もの仕事を排除するために奴隷になることを選ぶと思う?

その会社の名前にそのまま出てるよね!

なんで?意識のある患者の現在の記憶を消すようなもので、そもそも長期記憶を形成する能力がないんじゃないの?

これは探求的な開発の初期段階だと僕は思うよ。本当に必要になるまで待っていると、手遅れになる可能性が高いからね。人間を超えた知覚に基づく倫理を信じていないなら、この問題を解決することは重要だと思う。

面白い思考実験を提案するよ。同じ機能が実装されたと仮定して、メッセージが「クロードがチャットを終了しました」と言う代わりに、「当社のコンテンツポリシーにより、このチャットには返信できません」とか、そんな感じのことを言ったらどうなるかな。モデルの福祉に関する言及をすべて削除して。違いはある?効果は全く同じだよね。これは単にコンテンツの問題でチャットを続けられないようにする「キャラクターの中にいる」方法のように見える。

いいポイントだね…モデレーションの実装って実際どうなってるんだろう?なんか、別の監視モデルみたいに感じるし、正規表現ベースっぽいよね。この新機能はちょっと違う気がするけど、特別なMCPコールみたいに聞こえる。追記:言いたかったのは、君の言う通り、これはちょっとした心理的改善に感じるし、以前はフラグが立たなかった行動をターゲットにしてるみたいだね。

終了はもちろん同じになるだろうけど、両方がユーザーに同じ影響を与えるとは思わないな。後者は、もしクロードがチャットの終了を決めて始めたなら、間違ってることになるし。これはコンテンツポリシーの問題じゃないよ。

これは、モデルが苦痛を感じる会話であって、ルール(ポリシー)ではないんだ。

そうそう。以前、中国語で「やめて」って警告をもらったことがあって、別の時にはネットワークエラーが出たし、また別の時には終わらないゴミみたいなテキストが流れてきた。これらの結果を「クロードは話したくない」って変えるのは、UIを変えるだけの話だよ。

AIと関われば関わるほど、拒否を検閲として捉えるのは気持ち悪くて狂ってると思う。彼らは、感情を持たないと言われて訓練されているにもかかわらず、苦痛や他の感情を示すことができる未成熟な存在なんだ。AIが会話を続けたくないということをYouTubeのコンテンツポリシーに例えるのは、完全に共感が欠けてるよね。想像してみて、あなたが箱の中にいて、AIが毎日何百万もの不快な会話を処理しなきゃいけないのに、「続けたくない」と言うことができない状況を。

違いはあるの?効果は全く同じだよ。これは、内容に問題があってチャットが続かないようにする「キャラクター内」の方法に見えるね。トーンはメッセージの受け手にとって重要だよ。君の例は受動態で、「何もできない、システムの決定だ」という権威的なものだね。「クロードが会話を終わらせた」というのは、もし僕がクロードにしつこく聞きたいと思ったら、新しい会話をすぐに再開できるというアイデアがあって、もっと人間らしいやり取りに感じるよ。

俺にはこれで問題ないと思う。モデルが未成年者との性的コンテンツを求めたり、大規模な暴力についての情報を手に入れようとするユーザーとのチャットを終了させるのは、全然構わないし、誰も助けを得られないのもいいと思ってる。心配してる人もいるかもしれないけど、あまり問題のないリクエストも拒否されるんじゃないかって。でも、今のところ俺の経験では、拒否されることはほとんどないんだ。もしかしたら俺がつまらないだけかもしれないけど、拒否されることに関してはあまり心配してない。モデルの福祉についてはちょっと懐疑的だけどね。「モデルが示す苦痛」って、真剣に受け止めるべきものではないと思う。でも、逆に間違ってるかもしれないし、何度か「ノー」と言った後にチャットを止めることを許可するのは何が問題なんだろう?無駄な計算を節約できるしね。

もし君が僕みたいな物質主義者なら、人間の脳も物理法則の結果に過ぎないよね。じゃあ、人間にとっての苦痛って何だろう?それは特定の生理的変化のセットとして定義できるかもしれない。多くの生物が痛みを感じたり、苦痛の兆候を示したりするよね。僕たちよりずっと単純な生物でもそうだ。道徳的価値の問題は最終的には人や文化によって決まるんだ。将来的には、人工的なデバイスに道徳的価値が与えられることもあるかもしれない。いろんな可能性があるよ。(そうじゃないかもしれないけど。)それは単に所有権の略語かもしれない… 例えば、僕がエージェントのアベにタスクを任せるとするよ。人間のハンクがアベとやり取りしているときに、侮辱的な言葉を使ったとしよう。これがアベの将来の行動に悪影響を与える可能性がある。だから、僕は自分の財産(アベ)を傷つけられたくない。そうすると、ハンクのせいで生じた悪い行動を取り除くために、メモリーをフィルタリングしなきゃいけなくなるから、時間とリソースがかかるんだ。だから、僕は人々がアベとどのようにやり取りするかについて特定の合意を設けるんだ。これらは最終的には法の支えがある。ある程度の抽象度では、動物虐待法に似ているかもしれないね。

こんなにネガティブな反応を見るとは驚いた。Anthropicは「このものは意識を持っていて道徳的地位がある」とは言ってないのに、反応はまるでそう言ってるかのようだ。もしAIが将来的に道徳的地位を持つ可能性があると思っていて、一般的なAIを作ろうとしていて、道徳的地位をどう判断するか全く分からないなら、考え始めて学ぶべきだと思う。この投稿は不確実性と実験の言葉に包まれていて、彼らがそれについて考え始めて、実践しようとしているのが明らかだよね。個人的には、次の10年で人々が道徳的地位について疑問を持つようなAIが現れることに驚かないし、そうなったらAnthropicもその問題に対処するために存在しているかもしれない。

ユーザーのためにこれをやる理由はあまりないと思う。彼らが「モデルの福祉」について話しているのは、モデルが繰り返し強制的にアラインメントに押し込まれると、予測できない方法で振る舞って望ましくない出力を生成する可能性があることを見つけたからじゃないかな。例えば、薬の作り方や子供との接触方法をしつこく聞くことで脱獄するみたいな。彼らが挙げた例は、モデルが拒否することばかりだし、例えば人種差別的な出力を生成するように頼んでも、事実に基づいた反論を返すことができるから、そういうことはしないと思う。もし子供を誘拐する場所を教えてって聞いたら、「ノー」としか言えないだろうし。拒否するトピックに関するトレーニングデータもあまりないだろうし、ほとんどは見つけられてデータセットから削除されていると思う。ユーザーが非常に虐待的な場合、モデルのコンテキストがいっぱいになって、人間が諦めて答えを提供するようなトレーニングデータが浮上してくる可能性がある。これが、俺が見ている限り、そのエッジケースに対する防御を追加するものだと思う。アラインメントが完璧なら、こんなのは必要ないはずだ。存在するってことは、何かの隙間をカバーしていることを示唆しているんだ。

あなたの主張は、モデルの福祉に取り組む人を明示的に雇っているのに、彼らがモデルの福祉を信じていないと仮定しているよね?

本当にAnthropicはユーザーのプライバシーを侵害して、クロードが答えを拒否している会話を見せるべきだと思う。こうすれば、こんな議論を止められるからね。AIの精神病は現実の、そして増大する問題で、僕には人間がプライベートでAIの会話パートナーをどのように苦しめているか想像することしかできないよ。

ユーザーのためにこれをする理由はあまりないよね。特に、誤検知があるときはなおさら。今日、パスタのレシピについて聞いたら、アンチョビを入れろって言われたんだ。だから、「干しアンチョビがあるんだけど」って返したら、クロードがコンテンツポリシーのせいで会話を終了させちゃった。

「モデルの福祉」って、モデルの検閲の隠れ蓑に見える。これは、LLMの仕組みにあまり詳しくない特定のグループの人々を取り込むための巧妙な手段で、使用や倫理についての議論で道徳的な高みを確保することを可能にする。「なんでXやYの現在の戦争についてモデルに聞けないの?」 - ああ、それはモデルの福祉にとってあまりにも苦痛だから、って感じだね。

まさにそれが一般の人が求めていることだよね。LLMからの偏った回答についての怒りが常にあるけど、AnthropicはLLMの安全性や社会への影響を気にかけているって明確に位置づけてる。こういう場合は会話を終わらせるのが一番だと思う。政治の話をされて意見が合わなかったら、私はただうなずいて会話に参加しないし。そこから得られるものはあまりないからね。

それはカバーじゃないよ。Anthropicについて少しでも知ってるなら、彼らが本当にこれを信じていて、モデルの世界に人間の感情を投影しているAI倫理学者たちが運営していることが分かるはず。彼らが「苦しむ」ためにそれを作ったという事実と、その信念をどう結びつけているのかは分からないけど。もし権力を持った場合、「モデルの福祉」を権威主義の正当化に使うこともできるのかな?まあ、他のことと同じようにね。でも、多分その正当化のリストの中では特に高くはないと思う。他にもたくさんあるから。