AIが自己構築する時: 再帰的自己改善に向けた私たちの進展

2026年6月5日原文(anthropic.com)

概要

Anthropic ではAI自身がAI開発に関与する割合が増加中
自己改良型AI（recursive self-improvement） はまだ未到達だが、実現が近づいている可能性
AI開発の加速 と人間の管理リスクの両面が顕在化
Claude がコード生成・研究で大きな成果を上げている
今後のAI進化 が社会・技術に与える影響は極めて大きい

AIによるAI開発の進化と自己改良型AIの可能性

AI開発 の歴史では長らく人間が全ての工程を主導
Anthropic ではAIがAI開発サイクルの多くを担当し始め、作業の高速化を実現
十分な計算資源 があれば、AIが自律的に後継AIを設計・開発する「自己改良型AI」実現の可能性
現状では自己改良型AIは未実現だが、予想より早く登場する可能性
AI自身によるAI開発の加速 は外部ベンチマークやAnthropic内部データでも確認

AnthropicでのAI開発プロセスの変遷

2021–2023年 ：人間エンジニアがコードやドキュメント作成
2023–2025年 ：チャットボットが短いコード生成など部分的に補助
2025–2026年 ：コーディングエージェントが自律的にファイル単位でコード作成・編集
現在：自律型エージェントがコード実行や他エージェントへの作業委任も可能
将来：AIが自らモデルを構築・学習し、自己進化を実現する可能性

外部ベンチマークと進化速度

AIモデルの能力向上速度 が加速傾向
- 以前は7ヶ月ごとにタスク完了時間が半減→現在は4ヶ月ごと
Claude Opus 3（2024年3月） ：人間4分相当のタスクを完了
Claude Sonnet 3.7（1年後） ：1.5時間タスクを完了
Claude Opus 4.6（さらに1年後） ：12時間タスクを完了
この傾向が続けば、2027年には数週間かかるタスクもAIが対応可能に

コーディング・研究ベンチマークでの進歩

SWE-bench （ソフトウェア工学ベンチマーク）：2年でほぼ満点達成
CORE-Bench （研究再現ベンチマーク）：2024年20%→15ヶ月後にほぼ満点
METR （長時間タスク完了能力測定）：Claude Mythos Previewが16時間以上の作業に成功

Anthropic内部の直接的な証拠

AI開発はエンジニアリングと研究に大別
- エンジニアリング：コード作成、インフラ構築、モデル学習管理
- 研究：実験計画・解析・次のアイデア策定
Claude は曖昧な課題でも解決策を自律的に導出
研究分野 でも明確な目標設定下で熟練者と同等以上の成果
目標設定や優先順位判断 ではまだ人間にギャップあり

Claudeのコード生成と生産性向上

2026年5月時点 でAnthropicのコードの80%以上をClaudeが執筆
Claude Code 導入前（2025年2月以前）は1桁台の比率
エンジニア1人あたりのコード出力量 は2021–2024年は横ばい、2025年から急増
2026年第2四半期 には2024年比で8倍のコードを統合
コード行数は品質を完全に示さない が、全体的な生産性向上を示唆
AI活用で本来着手しなかった作業 （例：APIエラー修正800件以上）も実施

Claudeによるコード品質とレビュー

Claudeが書くコードの品質向上
- 問題訂正・介入率の低下
- 複雑で曖昧なタスクでも成功率が上昇（2026年5月時点で76%）
人間エンジニアとの品質差 は急速に縮小、2025年末は劣るが現在は同等、年内に上回る見込み
コードレビューも自動化 ：Claudeが自動でバグ・セキュリティ欠陥を検出
過去のインシデントの1/3はClaudeの自動レビューで事前検出可能

Claudeの実験自動化能力

目標と評価基準が明確な実験 でClaudeは人間以上の成果
コードの高速化実験 では2025年5月Claude Opus 4で3倍、2026年4月Claude Mythos Previewで52倍の高速化達成

今後の展望とリスク

AIがAIを開発する時代 が現実味を帯びてきている
科学・医療など多分野への波及効果 が期待される一方、 制御不能リスク も増大
AIの監視・安全性確保・行動制御 の重要性が今後さらに高まる

Hackerたちの意見

注意点として、コード行数は不完全な指標で、質よりも量を測るものなんだ。だから、2026年第2四半期にエンジニア1人あたりのコード行数が8倍になるっていうのは、実際の生産性向上を過大評価してる可能性が高い。でも、加速してることは示してるね。Anthropicでは、コードの行数で人を評価しないし、チームメンバーはAIシステムを使ってもっとコードを書いてるから、自然とコードが増えてるんだ。AIが冗長なコードを生成してるっていう仮説はどうなの？「LOC != 生産性」って認めてるようなテキストを見かけるけど、結局それを指標として使ってるし。

└

その通り。もしAIが生成するコード行数で評価されるようになるなら、ああ、すみません、どれだけ「加速」するかで評価されるなら、新しいモデルはもっとそれをやるようになるよね？

└

同僚がAI生成のプルリクエストをレビューしてくれって頼んできたんだけど、600ファイルに触れて、4万行以上のコードが追加されてた。彼はこれが大きな成果だと思ってたんだろうね。AIが10倍の開発者を可能にする証拠だって。だって、どのエンジニアが1週間で4万行のコードを書けるっていうの？私はそれをレビューするのは無理だって断ったよ。4万行のコードを精査するなんてできないし、自分の評判をかけて良い仕事だと認めるわけにはいかないからね。PRは2週間私のTODOリストに残って、その後消えちゃった。彼が別の開発者から承認を得たのか、PRが放棄されたのかは分からないけど、彼と私はLLMの価値について全く別の島にいるってことは確かだね。

└

AIは既存のコードを模倣してコードを生成するんだよね。もし君のコードが簡潔でコメントがなかったら、エージェントのコードもそうなる。Claudeがデフォルトの「ハウススタイル」に流れるのを見た時は、大体10行に1コメントくらいの割合で生成してた。GPT-3の頃みたいに、どの行にも「キャプテン・オブビアス」の日記が散らばってるのとは大違いだね。

└

そうそう、彼らは「生産性 = k * LOC」って仮定してるけど、k > 1はかなり欠陥があるよね。

そうそう、AnthropicはすごいAIを持ってて、ほとんどのコードを書いてくれるらしいけど、定期的にサービスが落ちるし、長時間の作業をすると「APIエラー：サーバーがリクエストを一時的に制限しています」ってなるんだよね。これがトークン使用量を減らすための意図的なものかは分からないけど、今はこの制限や障害を回避するために、自分のツールでセッションを再起動・再開する必要がある。ここ2週間の経験では、実際に重要なClaudeのセッションや作業は100%この問題にブロックされてて、手動での介入が必要なんだ。今は、自分のモデルに依存しないハーネスやワークフローオーケストレーションに注力してる（みんなこれを作ってるのは知ってるけど）、Opusを基準にして、短期的にはDeepSeekみたいな中国のモデルに移行し、将来的にはオープンで自己ホスト型のモデルを目指してる（これはオープンソースにする予定）。Anthropicのサービス品質と可用性が明らかに低下してるのに、マーケティングのフワフワした言葉が続くのは、会社への信頼をどんどん失わせてる。

└

彼らの障害は多分、コードのせいじゃないと思う。インフラが追いついてないんじゃないかな。だから、インフラの失敗を見ても、Anthropicがモデルをどれだけうまく使ってるかは分からないよね。

└

それに、彼らは何十億ドルも持ってるのに、まともなサポートや公共のコミュニケーションシステムをどうにかすることもできないんだよね。

└

インフラはもっと難しい問題だね。彼らは1GB以上のRAMを消費するClaude Codeを改善することすらできないし、私のエディタは80MBのRAMしか使わないのに。

└

ほら、私はAI企業を無条件に持ち上げるタイプじゃないんだけど、実際、彼らには全体的に深刻なリーダーシップの問題があると思ってる。でも、君たちが彼らをあまりにも悪く言ってるから、逆に同情しちゃうよ。彼らは完全自動の贅沢AGIがあるなんて言ってないし、モデルがその基準に達していない理由を具体的に挙げて、8倍の数字を実際の向上数値として受け取らないように警告してるんだ。同時に、今では新しいコードの80%がAIによって書かれていることも認識してる。2年前には、そんなモデルはおもちゃみたいなもんだったのにね。正直、それは納得できるよ。2年前にOpus 4.8/GPT 5.5みたいなものが出るって言われたら、信じられなかっただろうな。

└

それは人間だけの結果だよ。AIじゃない。AIは完璧だね /s

└

計算の問題とコードの質の問題を混同してるね。

Hacker Newsで議論の続きを見る

ハクソク