アンソロピック、フラッグシップの安全誓約を撤回

2026年2月25日原文(time.com)

概要

Anthropicは、AI安全性に関する中核方針を大幅に変更。従来の「十分な安全対策が確保できない限りAIを開発しない」約束を撤回。新方針では、競合他社と同等以上の安全努力や透明性を重視。 AIリスク評価の困難さや規制の不在が背景。今後はリスク報告書や安全ロードマップの定期公開を約束。

AnthropicのAI安全方針の転換

Anthropic は、最も安全志向のAI研究企業として知られていた企業
2023年、AIシステムの開発前に「安全対策が十分であることを保証できない限り開発しない」と約束
この約束は「Responsible Scaling Policy（RSP）」の中核であり、業界に責任ある姿勢を示す柱
しかし、最近になりRSPを抜本的に見直し、事前保証の約束を撤回
安全対策が事前保証できなくてもAIモデル開発を継続する方針へ転換

方針転換の背景と理由

AI技術の急速な進歩 と、競合他社の積極的な開発競争
RSPの旧方針では、一社だけが開発を止めても全体の安全には寄与しないとの判断
安全評価の科学的困難さ、規制や国際的枠組みの不在も要因
- 米国政府はAI開発の規制強化に消極的
- グローバルなAIガバナンスの実現も遠のいた現状
AIモデルによるバイオテロなどのリスク評価も曖昧で、明確な危険ラインを引くことが困難

新RSPの主な内容

AI安全リスクの透明性強化 を重視
- 自社モデルの安全テスト結果の追加開示
- 競合他社と同等以上の安全努力を約束
- AnthropicがAI開発競争でリーダーかつ重大なリスクを認識した場合、開発の「遅延」を検討
従来よりも自己制約が緩和 され、柔軟な対応が可能に

社会的・業界的な影響

競合他社や国家間のAI競争が激化する中、Anthropicだけが開発を止めることは現実的でないとの認識
AIリスク評価・対策のスピードがAI能力の進化に追いつかない現状
「リスク報告書」や「Frontier Safety Roadmaps」の定期公開を通じた透明性強化
- 3～6ヶ月ごとにリスク評価レポートを発表
- 今後の安全対策目標を明示するロードマップも公開

専門家の評価と懸念

METRのChris Painter氏は、方針転換は理解できるが、AIによるカタストロフィーリスクへの社会全体の備えが不十分であることの証左と指摘
透明性や安全ロードマップの公開は評価するが、従来の「能力到達で開発停止」という明確な基準の廃止には懸念
- 徐々にリスクが高まる「茹でガエル現象」への警戒

Anthropicの今後の姿勢

市場圧力への屈服ではなく、現実的かつ責任あるAI開発を継続する意志を強調
競合他社が適切なリスク対策を取るなら、Anthropicもそれ以上を目指すと表明
AI研究・安全対策を継続し、技術フロンティアの理解と革新性を維持する方針

Hackerたちの意見

これは国防省からの圧力だろうね。AIスタートアップは、自社の技術が武器を自動で標的にしたり、アメリカ国内の監視に使われるのを防ぐための安全策を外すことを拒否している。ペンタゴンの関係者は、政府はアメリカの法律に従うだけでいいと主張している。会議中、ヘグセス氏はアンソロピックに対して「協力しなければ政府は厳しい措置を取る」との最後通告を出したらしいよ。

└

おそらく、彼らはこの使用について合意した契約の証拠を持ってるんだろうね。悪い報道があったからって契約を変えることはないし、国防総省を顧客として失いたくないと思ってるはず。

今年のIPO、早く来てほしいな。

安全宣言を出すには面白い週だね。こういう会社のやり方だよ。利益が損なわれるまでは、倫理的なコードに従ったり、PBCとして登録したりするんだ。これらの企業は明らかにホワイトカラーの労働の価値を安くしようとしてる。自分に問いかけてみて：彼らは倫理的に私たちをその時代に導いてくれるのか？それともアメリカの労働者から株主に富を移転するレースをするのか？

この見出しは残念ながら、光よりも煙の方が多いね。この記事はペンタゴンとの現在の対立とは関係ない。今日はアンソロピックの「責任あるスケーリングポリシー」に関する特定の変更について話しているんだ。それが「3.0」として公開されたんだよ。

└

私はこれをペンタゴンの問題よりも大きな問題だと思ってる。

└

「この記事は現在のペンタゴンとのやり取りとは関係ない。」記事自体はそうだけど、そのトピックについては確信が持てないよね。無関係だとは言えないし、どうなるかわからない。二つの事柄が全く関係ない可能性もあるし、悪化する要求を防ぐための予防策だった可能性もある。

最初に彼らは安全チェックなしでモデルを市場に急いで出したけど、私は何も言わなかった。それは私の分野じゃなかったから。次に、研究者たちが警告していることを無視したけど、私は何も言わなかった。まるでSFみたいだったから。次に、重要なもの、電力網や病院、武器を制御させたけど、私は何も言わなかった。うまくいっているように見えたから。そしたら何かがうまくいかなくなって、誰も止め方を知らず、誰もそれに対する計画を立てていなかった。そして、警告を聞いていた人もいなくなってしまった。

└

たくさんの人がたくさんのことを言っている。問題は警告じゃなくて、人々が長期的な影響について考えるには愚かすぎて貪欲すぎることだ。

└

社会の問題って、赤信号を無視する集団的な傾向が人間の特性みたいだね。

└

「何かがうまくいかなくなって、誰もそれを止める方法を知らなかった。」これがAIの安全性に関するシナリオの問題だよ。現実からの乖離がすごくて、正直言って驚くべきことだよね。もし作業員が一週間仕事に来なかったら、電力が切れる。アメリカでは「高性能」ライフルを持った人たちが電力網を止めることができるって示されてる。AIをオフにするのが問題になるような世界にはまだまだ遠いよ。「I, Pencil」の世界のままだし、HALやターミネーターみたいな状況にはならない。安全性の多くは政治に関わってる（国際的な例としては台湾が国かどうか）。もっと言えば、文化的な要素も大きいね。

└

モデルを検閲することは安全性ではなく、サフェティズムだよ。AIの世界のTSAみたいなもんだ。安全性っていうのは、モデルがやりたくても許可されていないことができないようにすることなんだ。

Hacker Newsで議論の続きを見る

ハクソク