概要
- Kwa et al. (2025) の研究に基づくAIエージェントの長時間タスク性能分析
- 成功率は タスク長 に対して指数関数的に減少し、 半減期 で特徴付け可能
- METR によるAIタスク完了時間の指数的成長の観察
- 一定ハザード率モデル による成功率とタスク長の関係説明
- 人間とAIエージェント間の 性能スケーリング差異 の示唆
Kwa et al. (2025)の研究に基づくAIエージェントの長時間タスク性能モデル
- Kwa et al. (2025) の実証研究に基づくAIエージェント評価
- 長時間タスクにおけるAIの成功率は 単純な数学モデル (各分ごとに一定の失敗率)で説明可能
- タスク長が長くなるほど 成功率が指数関数的に減少 する現象
- 各AIエージェントは 独自の半減期 (50%成功率のタスク長)で特徴付け
- この規則性により、異なるタスク長での 成功率推定 が可能
METRによるAIタスク完了能力の進展
-
METR のKwa et al. (2025)論文で、AIエージェントの タスク完了時間が7ヶ月ごとに2倍 になる指数的成長を発見
-
170種類の ソフトウェア工学、サイバーセキュリティ、一般推論、機械学習タスク で評価
-
タスクは人間がかかる時間に基づき分類
-
AIの成功率は タスク長が増すごとに減少 する傾向
-
50%成功率のタスク長と80%成功率のタスク長には 大きな差 (例:Claude 3.7 Sonnetでは59分 vs 15分)
- 80%成功率タスク長は50%成功率の1/4
- 50%成功率達成から80%成功率達成まで 約14ヶ月 (2回の倍増期間)
-
成功率ごとのタスク長 を用いたAI能力の時系列測定という新しいアプローチ
-
人間のタスク時間を共通指標とし、異種タスク間の比較が可能
この結果の一般化と限界
- 本研究の結果が 他のタスク群にも一般化可能かは未確定
- 人間が即座に解決できるがAIが苦手なタスク、逆にAIが得意なタスクも存在
- 「人間の所要時間」だけではAI能力の全てを説明できない
- 本タスク群には「自動スコアリング可能」「他エージェントとの相互作用なし」「資源制約が緩い」などバイアスあり
- 本稿ではこのデータを前提に 背景メカニズム を考察
一定ハザード率モデルによる説明
- タスクの成功率低下を サバイバル分析 の観点から説明
- 一定ハザード率 (各単位時間ごとに一定の失敗確率)仮定
- 放射性崩壊の半減期に類似
- AIエージェントの50%成功率タスク長= 半減期
- タスクが 連続したサブタスク から成り、どこかで失敗すれば全体が失敗
- サブタスクごとに 独立した一定失敗率 を仮定
- タスク分割の粒度に依存せず、 人間が必要とする総時間 で成功率が決定
成功率とタスク長の理論的関係
- 80%成功率タスク長 ≈ 50%成功率タスク長の1/3
- ln(0.8)/ln(0.5) ≈ 0.322
- 実測値(1/4)も理論値に近い
- 高成功率ごとのタスク長の目安
- T₈₀ ≈ 1/3 T₅₀
- T₉₀ ≈ 1/7 T₅₀
- T₉₉ ≈ 1/70 T₅₀
- T₉₉.₉ ≈ 1/700 T₅₀
- 各「ナイン」増加ごとにタスク長は10分の1
成長速度と成功率閾値の到達予測
- 80%成功率タスク長が特定長さに到達:50%成功率から約1年後
- 90%成功率:2年後
- 99%成功率:4年後
- 99.9%成功率:6年後
- 以降、各「ナイン」ごとに2年追加
実データとのフィット
- 成功率とタスク長の関係を ロジスティック関数 や 指数関数 で近似
- 指数関数近似はパラメータが少なく自然
- 人間の成功率カーブは 一定ハザード率よりも緩やか に減少
- 人間は長時間タスクでの成功率低下がAIより遅い傾向
- 人間は失敗したサブタスクの 自己修正能力 が高い可能性
人間とAIエージェントの性能スケーリングの違い
- 人間のタスク長と成功率の関係はAIと異なるスケーリングを示唆
- 人間の方が 長時間タスクでの成功率低下が緩やか
- 現在のAIパラダイムの 非効率性や改良余地 を示唆
- さらなる研究の必要性
まとめ
- AIエージェントの長時間タスク性能は 一定ハザード率モデル で単純かつ高精度に説明可能
- 成功率とタスク長の関係は 指数関数的 であり、半減期で特徴付け
- 人間とAIの違い が今後のAI開発・評価の重要な論点
- 本モデルの 一般化 や人間との違いの解明が今後の課題