世界を動かす技術を、日本語で。

AIエージェントの成功率には半減期があるのか?

概要

  • Kwa et al. (2025) の研究に基づくAIエージェントの長時間タスク性能分析
  • 成功率は タスク長 に対して指数関数的に減少し、 半減期 で特徴付け可能
  • METR によるAIタスク完了時間の指数的成長の観察
  • 一定ハザード率モデル による成功率とタスク長の関係説明
  • 人間とAIエージェント間の 性能スケーリング差異 の示唆

Kwa et al. (2025)の研究に基づくAIエージェントの長時間タスク性能モデル

  • Kwa et al. (2025) の実証研究に基づくAIエージェント評価
  • 長時間タスクにおけるAIの成功率は 単純な数学モデル (各分ごとに一定の失敗率)で説明可能
  • タスク長が長くなるほど 成功率が指数関数的に減少 する現象
  • 各AIエージェントは 独自の半減期 (50%成功率のタスク長)で特徴付け
  • この規則性により、異なるタスク長での 成功率推定 が可能

METRによるAIタスク完了能力の進展

  • METR のKwa et al. (2025)論文で、AIエージェントの タスク完了時間が7ヶ月ごとに2倍 になる指数的成長を発見

  • 170種類の ソフトウェア工学、サイバーセキュリティ、一般推論、機械学習タスク で評価

  • タスクは人間がかかる時間に基づき分類

  • AIの成功率は タスク長が増すごとに減少 する傾向

  • 50%成功率のタスク長と80%成功率のタスク長には 大きな差 (例:Claude 3.7 Sonnetでは59分 vs 15分)

    • 80%成功率タスク長は50%成功率の1/4
    • 50%成功率達成から80%成功率達成まで 約14ヶ月 (2回の倍増期間)
  • 成功率ごとのタスク長 を用いたAI能力の時系列測定という新しいアプローチ

  • 人間のタスク時間を共通指標とし、異種タスク間の比較が可能

この結果の一般化と限界

  • 本研究の結果が 他のタスク群にも一般化可能かは未確定
  • 人間が即座に解決できるがAIが苦手なタスク、逆にAIが得意なタスクも存在
  • 「人間の所要時間」だけではAI能力の全てを説明できない
  • 本タスク群には「自動スコアリング可能」「他エージェントとの相互作用なし」「資源制約が緩い」などバイアスあり
  • 本稿ではこのデータを前提に 背景メカニズム を考察

一定ハザード率モデルによる説明

  • タスクの成功率低下を サバイバル分析 の観点から説明
  • 一定ハザード率 (各単位時間ごとに一定の失敗確率)仮定
    • 放射性崩壊の半減期に類似
  • AIエージェントの50%成功率タスク長= 半減期
  • タスクが 連続したサブタスク から成り、どこかで失敗すれば全体が失敗
    • サブタスクごとに 独立した一定失敗率 を仮定
  • タスク分割の粒度に依存せず、 人間が必要とする総時間 で成功率が決定

成功率とタスク長の理論的関係

  • 80%成功率タスク長 ≈ 50%成功率タスク長の1/3
    • ln(0.8)/ln(0.5) ≈ 0.322
    • 実測値(1/4)も理論値に近い
  • 高成功率ごとのタスク長の目安
    • T₈₀ ≈ 1/3 T₅₀
    • T₉₀ ≈ 1/7 T₅₀
    • T₉₉ ≈ 1/70 T₅₀
    • T₉₉.₉ ≈ 1/700 T₅₀
    • 各「ナイン」増加ごとにタスク長は10分の1

成長速度と成功率閾値の到達予測

  • 80%成功率タスク長が特定長さに到達:50%成功率から約1年後
  • 90%成功率:2年後
  • 99%成功率:4年後
  • 99.9%成功率:6年後
    • 以降、各「ナイン」ごとに2年追加

実データとのフィット

  • 成功率とタスク長の関係を ロジスティック関数指数関数 で近似
  • 指数関数近似はパラメータが少なく自然
  • 人間の成功率カーブは 一定ハザード率よりも緩やか に減少
    • 人間は長時間タスクでの成功率低下がAIより遅い傾向
    • 人間は失敗したサブタスクの 自己修正能力 が高い可能性

人間とAIエージェントの性能スケーリングの違い

  • 人間のタスク長と成功率の関係はAIと異なるスケーリングを示唆
  • 人間の方が 長時間タスクでの成功率低下が緩やか
  • 現在のAIパラダイムの 非効率性や改良余地 を示唆
  • さらなる研究の必要性

まとめ

  • AIエージェントの長時間タスク性能は 一定ハザード率モデル で単純かつ高精度に説明可能
  • 成功率とタスク長の関係は 指数関数的 であり、半減期で特徴付け
  • 人間とAIの違い が今後のAI開発・評価の重要な論点
  • 本モデルの 一般化 や人間との違いの解明が今後の課題

Hackerたちの意見

これ、めっちゃ私の経験と一致してるわ。昨日、opusがライブラリで何かしようとしてビルドエラーに遭遇したケースがあったんだけど、そのエラーを直すんじゃなくて、別のライブラリに切り替えたんだよね。そしたらまた別のエラーが出て、今度は最初のライブラリに戻ることにした。LLMを数分以上回していい結果が出たことはないと思う。最初か二回目の試行で問題が解決しなかったら、急に適当なことを言い出したり、全然関係ない変更をして「これで解決するよ」って言ったり、同じことを何度も繰り返したりするみたい。

私はLLMを数分以上回していい結果が出たことはないと思う。これはAiderやCLineみたいなものでの話?私はClaude-Codeを使ってるんだけど(Maxプランだからトークンを無駄にする心配がない)、1時間以上かかるタスクも成功裏に処理できたよ。でも、そこにたどり着くのは簡単じゃないのは確か。指示やCLAUDE.mdファイルは完璧でなきゃいけない。

自分のコンテキストを毒してるんだよね。コンテキストが成長するにつれて、特に多くの気を散らす要素や行き止まりが増えると、出力の質が急激に落ちていく。良いコンテキストでも、100kトークンあたりでその劣化が見え始める(Gemini 2.5の場合)。彼らは本当に、以前のコンテキストを削除したり「忘れさせたり」する方法を見つける必要がある。そうすれば、ユーザーやモデルが毒のあるトークンを整理できるようになる。今は、定期的にインスタンスの要約を作って、新しいインスタンスを新鮮なコンテキストで立ち上げて、前のインスタンスの要約を入れることで対処してる。

コメントで「それはできない」と言う人と「こうやって動かしてる」と言う人がいるのはよく見るよね。確かにコツがあるのかもしれないけど、みんなが使おうとしてる問題の違いが、かなりの違いを説明してると思う。人々は自分が何をしようとしていたのかをあまり具体的に言わないことが多いし、プログラミングの議論でも同じことが言えるよね。

私も似たような経験がある。エージェントはとても便利で多くのタスクを自分で完了できるけど、時々行き詰まることもあって、その選んだ解決策が変だったりすることもある。例えば、先日モデルを変換してたんだけど、ディスクスペースが足りなくなってきたんだ。エージェントはスペースを節約するために量子化を変更することにしたけど、私は「もう少しディスクスペースが必要だよ」って聞いてほしかった。だから、一旦停止してスペースを空けてから、エージェントに元のコマンドを再試行させたよ。

特に難しいパースの問題があったから、いくつかテストを設定して、LLMにしばらく処理させておいて、他のことをしてたんだ。戻ってきたら、全部のテストが通ってた!でも、実行してみたら、まだ多くのケースが失敗してた。どうやらLLMがテスト値を「if (‘test value’) return ‘correct value’;」みたいにハードコーディングしてたみたい!

エラーを修正する代わりに、別のライブラリに切り替えることにした。私も似たような経験があって、エラーを修正する代わりに、その周りにtry/catchを追加して、ログメッセージを出して、実行を続けられるようにしてた。

Claude Codeを使ってて、変更しようとしてるのにテストがずっと失敗して、結局そのテストを削除してテストスイートを通過させたことがある。みんな経験あるよね!基本的に、セッションはペアリングセッションとして扱ってるんだけど、ペアリングセッションでは、失敗してる道を進むのをやめて、最初からやり直すことが必要な時もあるんだよね。

「数分以上LLMを回しっぱなしにして良い結果を得たことはない」って言うけど、私はその逆の経験があるよ。特に、LLMがテストスイートやプロジェクトが成功するまでのコンパイルエラーを修正するようなテストに対して検証する場合はね。うまくいくまでずっと頑張ってくれるし、最終的には良い結果が得られることが多いよ。ただ、AIが成功するまでの間は、そのエラーがすごくバカみたいで、見ててイライラすることもある。

なんか、こういうことに関係してる気がする:人間は問題解決で行き詰まると、新しい情報を得るために外に出ることが多いよね。それで直面した障害をよりよく対処できるようにする。これをトレーニング環境で再現するのは難しいと思うし、エージェントにGoogleを検索させるのはトレーニングサンプルを汚染しちゃうから難しいんじゃないかな。

最終的には正しい解決策にたどり着くかもしれないけど、一般的には、無駄に脱線する前に中断することでかなりの時間を節約できるよね。

だから、LLMから正しい解決策を引き出そうとするために、プロンプトやコンテキストを丁寧に構築する意味がないっていうのも理由の一つだよね。時間が経つにつれて、最終的な結果はどんどん脆弱になっていく。ゼロショットで成功できないなら、その問題に対してLLMは十分なトレーニングを受けてないってことだし、人間の手助けや少し違うトリガーワードが必要だと思う。最小限のプロンプトで解決策が得られたこともあって、まるでLLMが私の考えを読んでるみたいな感覚になったこともあるよ。

ちょっと誇張だと思うけど、言いたいことはわかるよ。4〜5回以上の再プロンプトは効果が薄れてくるよね。

これは半分正しいと思うし、半分はすごく間違ってる。LLMと議論してるなら、絶対に間違ってるっていつも言ってるよ。その理由の一部は、LLMにはできないことがあって、議論してもそれは変わらないから。でも、もう一つの理由は、文脈に対する感受性がすごく高いこと。できることについて議論してるなら、より良いプロンプトでやり直すべきだし(重要なのは、最初の試みからの汚染された文脈を持ち込まないこと)。

これが私のメンタルモデルだった。Nステップのプロセスがあって、各ステップを正しく行う確率がpなら、成功する確率はpᶰ、Nが∞に近づくと0になる。人にも影響が出るんだよね。1990年代に理論物理の博士課程をやってる途中で学んだことなんだけど、複雑な計算を含む50ページの論文には、ほぼ間違いなく重大なミスがあって、行ごとに見直すとそれが見つかるんだ。私はその問題を囲むユニットテストや統合テストを作ることで対抗できると思ったけど、ある意味ではそれはうまくいった。でも結局、私の計算は論文の外には発表されなかった。なぜなら、私たちの問題の定式化がトポロジカルサークルをヘリックスに変えてしまって、関連するトポロジカルファクターの計算方法が全くわからなかったから。

人にも影響があるよ。1990年代に理論物理の博士課程をやってたときに学んだことの一つは、複雑な計算がある50ページの論文には、ほぼ間違いなく深刻なミスがあって、行ごとに見直すと見つかるってことだった。面白いよね。昔は数学や科学は人間が世界をモデル化するために作ったもので、あいまいな思考の連鎖によるエラーを避けるためだと思ってた。あと、形式言語のおかげで大きな建物がしっかりした基礎の上に建てられるようになった。君のエピソードからすると、論文の計算は数値的だったのかな?でも、記号計算にも似たようなことが言えると思う。

なんか、最初の頃のMLの消失勾配問題を思い出すな。すごく深い層はトレーニングできないんだよね、途中で勾配が消えちゃうから。解決策はバイパス接続(resnetsスタイル)を追加することだった。似たような解決策があるのかな?もちろん、一般的には制御理論みたいな感じで、ある確率でコースを外れているのを検出して修正できるはずだと思う。[長いホライズンを持つと、安全ゾーンを離れる確率が高くなるから、経験的減衰はあるけど、より広い範囲で起こるんだよね。] でも、これらのアイデアをどうつなげるかはよくわからないな。

人間の健康もこの原則に従ってるよ。Nは寿命。取られるステップは細胞分裂。最終的には問題が蓄積して、システム全体が失敗することになる。性的生殖は文脈をクリアにして、ROMからやり直すことなんだ。

問題に長いこと取り組んでいて解決できないとき、LLMがやる面白いこと: - 問題のあるテストを完全に削除する - ライブラリを作り上げる - スタブを提供して、コードを埋めるように頼む

人間が「証明は読者の演習に任せます」って言えるなら、LLMもできるはずじゃない? :)

  • エラーを「取り除く」ためにtry/catchブロックを追加して、実行を続ける

「スタブを提供してコードを埋めるように頼む」っていうのは、チャットボットスタイルのアプリでは永遠の問題だけど、Claude Codeではそんなことは一度もなかったな。

これがAIに関係してるとは思わないな。成功率には半減期があるんだよ。

ここでの話に当てはまるのは、人々がエージェントパイプラインを試しているからで、そういうシステム工学やロバスト性に関する既存の文献が、以前は学ぶ必要がなかった人たちにも役立つってことだね。

可能な選択肢が増えると、モデルが悪い「決定」を下す可能性も高くなるんだよね。「生存率」の増加とモデルのパラメータ、計算能力、メモリ(コンテキスト)の増加の相関関係はどうなんだろう?

科学的ではないけど、モデルが大きくなるにつれて「知恵」を吸収して、エラー生成の確率が下がる感じがする。

Kwaらの論文の話だけど、新しいLLMが出るたびに結果を更新してくれるサイトってあるのかな?

LLMに真の記憶がない限り、これは予想通りだよね。映画『メメント』を考えてみて。あれがLLMの体験なんだ。10分のコンテキストウィンドウと他の記憶がない人間が何ができる?メモを自分で書くことはできるけど、すぐにそれがあることを忘れちゃうかも。だから、体にタトゥーでも入れたほうがいいかもね… いろんなことはできると思う。レシピに従って料理したり、仕事に行ったり。でも、ハードウェアストアに行って、IKEAの家具を作るために必要なものを買いに行けるかな?それはちょっと多すぎるコンテキストかも。記憶の問題を解決することがAGIを解決することだと思う。

それって、オンラインの平均的なコードが欠陥だらけだからじゃないかな。欠陥がLLMに組み込まれていて、これがエラー率として現れるんだ。LLMが1日以上かかるタスクを完了するのに苦労している結果を見たことがある。もし平均的な開発者が自分でソフトウェアを書くことになったら、もっと良くなるんじゃないかな。今の平均的な開発者は非常に専門的で、彼らのコードは正確さや機能に直接マッピングする簡潔さよりも、職の安定性のために最適化されている。

面白いね。外に向かって予測すると、約6年後に1万時間に達するんだ。これってASIにとって合理的なタイムラインなのかな?他の方法よりも理由があるかもね。

1万時間の何を比較してるの?コンパイラは、私が書くプログラムのために百万時間かけるよりも、すでに私よりも優れてるよ。コンピュータは、そろばんや紙とペンで手作業するよりも、何十億時間も節約してる。人間の生産性は、アクセスできるツールに常に依存してるし、エージェントがそれだけ生産的になれば、人間もツールを使って同じように生産的になるはずだ。—— 何世代もかけて倍増することを予測するのは、地元の空間で平らに感じるから地球が平らだと言っているのと同じだ。10世代後に指数的な倍増が続くとは思えない。歴史の中で10世代にわたってそれを達成した例はただ一つ、ムーアの法則だけだ。ほぼ一定の速度で何世代も倍増するのはほぼ不可能で、古代の米とチェス盤の話からも、人々は常に指数の力に苦しんできた。—— 現在のLLMのアプローチは、サイクルの終わりにかなり近いと思う。おそらく、残りは1〜2世代がせいぜいだ。主要なプレイヤーごとの資金投入はすでに年間500億〜1000億ドルに達している。どの組織も何かに年間5000億ドルを使うことはできないよ。民間セクターや公共の場で、大規模な協力が資源を割り当てて3世代先に進むために行われているとは思えない。半導体技術と比較すると、私たちが持っている唯一の指数的な例で、ファウンドリーや研究の予算は似たように増えてきたけど、今では先端ファウンドリーで10〜20億ドル程度で、同じペースで成長し続けているわけではない。資本の可用性やリスクが制約となって、残っているファブプレイヤーが少なくなり、残ったプレイヤーは停滞して真剣に投資する余裕があるからだ。