世界を動かす技術を、日本語で。

アンソロピック、フラッグシップの安全誓約を撤回

概要

Anthropicは、AI安全性に関する中核方針を大幅に変更。 従来の「十分な安全対策が確保できない限りAIを開発しない」約束を撤回。 新方針では、競合他社と同等以上の安全努力や透明性を重視。 AIリスク評価の困難さや規制の不在が背景。 今後はリスク報告書や安全ロードマップの定期公開を約束。

AnthropicのAI安全方針の転換

  • Anthropic は、最も安全志向のAI研究企業として知られていた企業
  • 2023年、AIシステムの開発前に「安全対策が十分であることを保証できない限り開発しない」と約束
  • この約束は「Responsible Scaling Policy(RSP)」の中核であり、業界に責任ある姿勢を示す柱
  • しかし、最近になりRSPを抜本的に見直し、事前保証の約束を撤回
  • 安全対策が事前保証できなくてもAIモデル開発を継続する方針へ転換

方針転換の背景と理由

  • AI技術の急速な進歩 と、競合他社の積極的な開発競争
  • RSPの旧方針では、一社だけが開発を止めても全体の安全には寄与しないとの判断
  • 安全評価の科学的困難さ、規制や国際的枠組みの不在も要因
    • 米国政府はAI開発の規制強化に消極的
    • グローバルなAIガバナンスの実現も遠のいた現状
  • AIモデルによるバイオテロなどのリスク評価も曖昧で、明確な危険ラインを引くことが困難

新RSPの主な内容

  • AI安全リスクの透明性強化 を重視
    • 自社モデルの安全テスト結果の追加開示
    • 競合他社と同等以上の安全努力を約束
    • AnthropicがAI開発競争でリーダーかつ重大なリスクを認識した場合、開発の「遅延」を検討
  • 従来よりも自己制約が緩和 され、柔軟な対応が可能に

社会的・業界的な影響

  • 競合他社や国家間のAI競争が激化する中、Anthropicだけが開発を止めることは現実的でないとの認識
  • AIリスク評価・対策のスピードがAI能力の進化に追いつかない現状
  • 「リスク報告書」や「Frontier Safety Roadmaps」の定期公開を通じた透明性強化
    • 3~6ヶ月ごとにリスク評価レポートを発表
    • 今後の安全対策目標を明示するロードマップも公開

専門家の評価と懸念

  • METRのChris Painter氏は、方針転換は理解できるが、AIによるカタストロフィーリスクへの社会全体の備えが不十分であることの証左と指摘
  • 透明性や安全ロードマップの公開は評価するが、従来の「能力到達で開発停止」という明確な基準の廃止には懸念
    • 徐々にリスクが高まる「茹でガエル現象」への警戒

Anthropicの今後の姿勢

  • 市場圧力への屈服ではなく、現実的かつ責任あるAI開発を継続する意志を強調
  • 競合他社が適切なリスク対策を取るなら、Anthropicもそれ以上を目指すと表明
  • AI研究・安全対策を継続し、技術フロンティアの理解と革新性を維持する方針

Hackerたちの意見

これは国防省からの圧力だろうね。AIスタートアップは、自社の技術が武器を自動で標的にしたり、アメリカ国内の監視に使われるのを防ぐための安全策を外すことを拒否している。ペンタゴンの関係者は、政府はアメリカの法律に従うだけでいいと主張している。会議中、ヘグセス氏はアンソロピックに対して「協力しなければ政府は厳しい措置を取る」との最後通告を出したらしいよ。

おそらく、彼らはこの使用について合意した契約の証拠を持ってるんだろうね。悪い報道があったからって契約を変えることはないし、国防総省を顧客として失いたくないと思ってるはず。

今年のIPO、早く来てほしいな。

安全宣言を出すには面白い週だね。こういう会社のやり方だよ。利益が損なわれるまでは、倫理的なコードに従ったり、PBCとして登録したりするんだ。これらの企業は明らかにホワイトカラーの労働の価値を安くしようとしてる。自分に問いかけてみて:彼らは倫理的に私たちをその時代に導いてくれるのか?それともアメリカの労働者から株主に富を移転するレースをするのか?

この見出しは残念ながら、光よりも煙の方が多いね。この記事はペンタゴンとの現在の対立とは関係ない。今日はアンソロピックの「責任あるスケーリングポリシー」に関する特定の変更について話しているんだ。それが「3.0」として公開されたんだよ。

私はこれをペンタゴンの問題よりも大きな問題だと思ってる。

「この記事は現在のペンタゴンとのやり取りとは関係ない。」記事自体はそうだけど、そのトピックについては確信が持てないよね。無関係だとは言えないし、どうなるかわからない。二つの事柄が全く関係ない可能性もあるし、悪化する要求を防ぐための予防策だった可能性もある。

最初に彼らは安全チェックなしでモデルを市場に急いで出したけど、私は何も言わなかった。それは私の分野じゃなかったから。次に、研究者たちが警告していることを無視したけど、私は何も言わなかった。まるでSFみたいだったから。次に、重要なもの、電力網や病院、武器を制御させたけど、私は何も言わなかった。うまくいっているように見えたから。そしたら何かがうまくいかなくなって、誰も止め方を知らず、誰もそれに対する計画を立てていなかった。そして、警告を聞いていた人もいなくなってしまった。

たくさんの人がたくさんのことを言っている。問題は警告じゃなくて、人々が長期的な影響について考えるには愚かすぎて貪欲すぎることだ。

社会の問題って、赤信号を無視する集団的な傾向が人間の特性みたいだね。

「何かがうまくいかなくなって、誰もそれを止める方法を知らなかった。」これがAIの安全性に関するシナリオの問題だよ。現実からの乖離がすごくて、正直言って驚くべきことだよね。もし作業員が一週間仕事に来なかったら、電力が切れる。アメリカでは「高性能」ライフルを持った人たちが電力網を止めることができるって示されてる。AIをオフにするのが問題になるような世界にはまだまだ遠いよ。「I, Pencil」の世界のままだし、HALやターミネーターみたいな状況にはならない。安全性の多くは政治に関わってる(国際的な例としては台湾が国かどうか)。もっと言えば、文化的な要素も大きいね。

モデルを検閲することは安全性ではなく、サフェティズムだよ。AIの世界のTSAみたいなもんだ。安全性っていうのは、モデルがやりたくても許可されていないことができないようにすることなんだ。

最初に、安全チェックなしでモデルを市場に急いで出して、私は何も言わなかった。私の専門外だったから。 > 次に、研究者の警告を無視して、私は…試してみて、熱心な初期採用者になった。楽しんでいたディストピアSF小説のような感じだった。 > それから、重要なこと、電力網や病院、武器に制御を与えて…私のスタートアップは順調で、私は幸せだった。次の四半期には利益が出るはずだ。 > でも、何かがうまくいかなくなって、誰もそれを止める方法を知らなかった。誰もそれに備えていなかった…私はめちゃくちゃ罪悪感を感じていた、HNの人たちに合わせるために言い換えればね。

正直言って、アンソロピックが立場を変えるのは悲しいけど、今の世界では、LLMの安全性を気にするなら、これが正しい選択だと思う。モデル提供者が多すぎて、彼らはアンソロピックほど安全を優先していないだろうから。(もちろん、状況が変わるかもしれないし、政府から圧力を受けるかもしれないけど、彼らはAIの安全のために自分たちの会社を作ったから、今は本当に気にかけていると思う)安全が必要なら、アンソロピックにはあまり遅れをとってほしくない(少なくとも今のところ、アンソロピックが悪に変わる前に)、それは他のモデルよりも安全で操作しやすいモデルをリリースすることを意味するかもしれない(残念ながら、100%アンソロピックの目標に合っているわけではないけど)。ドグマ主義は素晴らしいけど、時と場所があるし、LLMの世界には悪党が千人いるから、現実主義が勝るんだよね。

あなたはAnthropicで働いてるの?それともそこで働いてる人を知ってる?彼らがあなたにとってそんなに神聖な存在なのが本当に気になる。私にはただの金儲けを狙ってるテック企業にしか見えないんだけど。編集:リンクされた記事を読んでみたら、AnthropicのCEOが戦争(人を殺すこと)に自社製品を使わせないようにしてるみたいで、これは支持する理由として良いことだと思う。

「安全が必要なら、Anthropicにはあまり遅れをとってほしくない(少なくとも今は、Anthropicが悪に変わる前に)。」彼らが悪に変わるかもしれないっていうのを見極めるのは、あなたが思ってるほど簡単じゃないと思うよ。もしこれがすでに彼らの計画だっていう警告があなたに響いてないなら、遅すぎるかもしれない。

ああ、典型的なAIスタートアップのライフサイクルだね。「人類をAIから守るために防波堤を作らなきゃ。オープンソースの競合を規制して安全を確保してほしい。」でも実際、私たちのQ3の収益目標には安全性はあまり関係ないんだよね。

彼らが市場の支配的なリーダーになったら、政府に対して非営利団体からの政策提案に基づいて規制を求めるようになるだろうね。

基盤モデル提供者のマニフェスト:「安全性に価値はあるけど、ペンタゴンのお金の方がもっと大事だよ」

アンスロピックを責める気にはなれないよ。政府が公然と彼らの存在を脅かしたんだから。彼らは同意するか、さもなくば国有化されるかのどちらかだった。

今、アメリカでは「命令に従う」って感じのことが多いね。

この記事は、政府からアンスロピックへの最近の脅威について全く触れないのはどういうこと?!

同意の製造

これがアンスロピックのDRMの瞬間かな。モジラはFirefoxがDRM制限のあるメディアを再生するのを長い間拒んでたけど、結局は relevancy を保つために妥協しなきゃいけなかった。これや他の決定を評価するほどの知識はないけど、誰かが気にかけようとしているのは嬉しい。今の世界では、より多くを求めるあまり、大局を無視するのがデフォルトだからね。アンスロピックがどれだけ責任を持とうとしているのかは分からないけど、少なくとも彼らが努力していることは伝わってきた。オープンAIのように、彼らがあまり責任を持っていないと感じるのとは対照的にね。(どちらの評価も絶対的ではないけど、オープンAIはもっと悪化する可能性もある。)