世界を動かす技術を、日本語で。

シグモイドはあなたを救わない

概要

  • 「全ての指数関数的成長は最終的にシグモイド曲線になる」 という議論について解説
  • 技術進歩やAIの能力向上がどこまで続くか の予測の難しさ
  • シグモイド曲線(S字カーブ)と指数関数的成長の実例 紹介
  • Lindyの法則 による予測手法の提案
  • AI能力の将来予測における注意点 の整理

「全ての指数関数は最終的にシグモイドになる」という議論

  • AI分野でよく聞かれる「 全ての指数関数的成長は最終的にシグモイド曲線になる」という主張
  • これは 技術進歩や能力向上が永遠に続くことはない という事実に基づく
  • 物理的・実用的限界により、成長は 最終的に頭打ち になる
  • 例として、 感染症の累積感染者数航空速度記録 など、シグモイド的な成長パターンが観察される
  • AI能力も同様に、どこかで成長が鈍化する可能性

シグモイド曲線の誤認識事例

  • 国連による出生率予測 ・出生率が下がり続けている国で、国連は毎回「そろそろ下げ止まる」と予測 ・実際は予測よりも長く下がり続けるケースが多い
  • 太陽光発電の普及予測 ・世界エネルギー機関(WEO)は毎年「今年は普及が鈍化する」と予測 ・しかし実際には、同じペースで普及が続いている
  • AI能力のMETRグラフの予測失敗 ・Whartonの研究者が「もうすぐ成長が鈍化する」と予測 ・しかし次のモデルで急成長が続き、予測が外れる

成長の鈍化が「今」起こるとは限らない理由

  • 指数関数的成長がシグモイドに移行するタイミング は、予測者の感覚で決まるものではない
  • 実際には、 成長が長く続く場合も多い
  • どれくらい続くかを予測するには、成長の仕組みを理解することが重要

予測手法:Lindyの法則

  • Lindyの法則 :過去に続いてきた期間と同じくらい、今後も続くと考えるのが妥当
  • 例:噴水が10分前に噴出したなら、次の噴出も10分後と予測
  • トレンドの仕組みを全く理解していない場合、Lindyの法則がデフォルトの予測手法

AI能力の将来予測とLindyの法則の適用

  • AI能力は 2017年のGPT-1以降、特に2019年以降急成長 している
  • 何も分からない前提なら、 これまでの成長期間(約7年)と同じくらいは続く と予測
  • パレート分布を仮定した場合、 あと2年未満で鈍化する確率は約22%

トレンド予測における議論のポイント

  • AI能力が「危険なレベル」に到達しないと主張するなら、 その根拠やモデルを明示する必要 ・AIの成長ダイナミクスを明示的にモデル化しているか ・データセンターの成長やアルゴリズム進歩の速度を考慮しているか ・既存の予測モデルとの違いを説明できるか
  • ブラックボックス的にAIを扱うなら、Lindyの法則をデフォルトとすべき理由 も説明する必要

まとめ

  • 全ての指数関数的成長が必ずすぐにシグモイドになるわけではない
  • 成長がどこまで続くかは、その仕組みの理解度による
  • 仕組みが不明な場合は、Lindyの法則で予測するのが妥当
  • トレンドが止まると主張する側に説明責任がある

Hackerたちの意見

あのWhartonのAI能力グラフのY軸が何を示してるのか分からないけど、Opus 4.6がGPT 5.1 Maxの2倍以上の知能や能力を持ってるとはあんまり思えないな。

https://metr.org/time-horizons/ これは線形スケールのリンク。最近の彼の記事はほとんどがクリックベイトのゴミだね。

確かそのグラフは、人間がタスクを解決するのにかかる時間を追跡してるんだと思う(つまり、モデルが通常人間が8時間かかるタスクを扱えるようになったってこと)。見てるタスクによっては、合理的な結果かもしれないね。Opus 4.6が人間が8時間かかるタスクをこなせるのは分かるし、5.1が以前はできなかったタスクだとしたら(5.1は4時間のタスクに「制限」されてると仮定して)。ちょっと恣意的だけど、これが彼らが追跡してる内容だと思う。

この記事によると、「誰かがベンチマークを操作してY軸で上向きのチャートを作るときは、そのトレンドが無限に続かない理由を証明するのはあなたの責任だ。」ってことだね。🙄

Re-BenchとHCASTをチェックしてみて。タスクは明らかに「これをやって、もし次の出力が出たら合格」って形式だね。ウェブサーバーの設定は人間が15分かかるらしいけど、俺はhttps://gist.github.com/willurd/5720255を検索して、Pythonのワンライナーを見つけて、約10秒でコピーできるから、ちょっと驚きだよ。まあ、これは面白いけど、Claudeが8時間未満でできる人間のタスクをこなせるわけじゃないからね。

「知能や能力が2倍以上になる」って言ってる人たちが本当に何を意味してるのか気になる。知能って定義するのが難しいことで有名だし、測るのも大変だよね。線形にスケールするわけじゃないし、実際の測りやすい特性とはゆるくしか相関しないし。プログラミング能力のことを言ってるのか、それとも...?

https://podcasts.apple.com/us/podcast/machine-learning-stree... はMETRについての良い入門書だよ。何を測定するのか、そしてその限界についても触れてる。

最近のAIの進展について面白いのは、ちょうどモーアの法則の「実際にはシグモイドの指数関数」の減少収益の側面に入ったときに起こってるってこと。単純な期待としては、モーアの法則が終わるからAIは遅くなるって考えがちだけど、モデルや現在のシリコンでの実装を考えると、まだめっちゃ非効率的なんだよね。いつか、デジタルの行列演算をアナログのログアンプ行列演算に置き換えるテンソル処理チップが登場するか、メムリスタのブレイクスルーがメモリと計算の壁を壊すかもしれない。ハードウェアに適切な研究資金があれば、AIの上限はかなり高くなると思う。

もうシリコンにモデルを入れたらしくて、めっちゃ速いよ。https://chatjimmy.ai/ 今年から始まる3年の設計目標があって、qwenやdeepseekなどのモデルにもそれが適用されると思う。こういう質のモデルを高速化したら、できることがたくさんあるよ。実際、80〜90%のユースケースは、あなたが言うように、膨れ上がったSOTAじゃなくて、モデルを搭載したシリコンチップで済むかもしれないくらいだよ。

たとえ速度が桁違いに速くても、出力の質には限界があるってことだよね。超人的な推論能力みたいなものはまだ見つかってないし、ただ超人的な(可能性のある)推論速度だけがあるって感じ。

ムーアの法則はボリュームで回避されるよね—データセンターが増えてるから。

個人的には、データに制限されているか、トランスフォーマーアーキテクチャで可能な限界に達していると思う。ハードウェアは効率をもたらすけど、賢いモデルに繋がるかは分からないな。

ニューロンを計算の構成要素と考えると、人類の始まりから今までの全計算量を指数関数的に描けるんじゃないかな。大半は人口によるものだけど、面白いのはデジタルコンピュータが人口増加が鈍化するタイミングでその穴を埋め始めるってこと。

リンディの法則は本当に素晴らしいもので、俺はこれを大事にしてる。特定のトレンドの根本的な限界を理解していない場合、デフォルトの仮定はそのトレンドが今まで続いてきたのと同じくらい続くってことだ。実際、これに対して簡単に信頼区間を設定できるよ。90%の確率で、俺たちはそのトレンドの最初の5%にも最後の5%にもいない。だから、たぶん1/19倍長く続くか、19倍長く続くかだね。中央値は今まで続いてきたのと同じくらい。これはかなり直感に反する。何かが有限の時間続くと期待すると、毎年それが続くことで終わりに近づいてるって思っちゃう。でも、うまく続いている毎年は、さらに1年続く期待をもたらすんだ。俺たちはトレンドを見ていて、それが有限だと信じてる。直感としては、毎年過ごすことが終わりに近づくって思うけど、期待としては、毎年過ごすことでさらに1年続くってことになる!これをどう応用できるかな?簡単な方法は株式だね。急成長している会社がどれくらい急成長を続けるべきか、どう期待すればいいのかな?

面白いアイデアだけど、数学的に正当化できるかもしれないけど、そういう正当化がないとリンドの法則を乱用してると思う。ウィキペディアによると[1]、「リンド効果は、書籍のような腐らないアイテムに適用されるもので、避けられない期限がないもの」なんだ。そして記事の後半には、法則がパレート分布のものに当てはまるという数学的な定式化がある[2]。だから、「指数成長曲線の寿命」がパレート分布から導かれるような良い分析を見たいな。完全に無理とは思わないけど、リンドの法則を適用するには自信が足りないかな。[1]: https://en.wikipedia.org/wiki/Lindy_effect [2]: https://en.wikipedia.org/wiki/Pareto_distribution

これはCPUスケジューリングで使われるのと全く同じヒューリスティックだね。新しいプロセスはすぐに終わることを期待して、長く続くプロセスはもう少し長く続くって感じ。

それもできるけど、無知を精密に見える数学に変えてるだけだよ。もっとシンプルに「多分中間くらい、始まりでも終わりでもない」って言っておけばいいんじゃないかな。ピークを予測するのは難しいから。

リンドの法則は、自身によって観察が部分的にコントロールされるものには当てはまらない気がする。例えば、流行やトレンドみたいなものは、人間の寿命のような明確な終わりがないから、リンドの法則に従うべきだと思う。でも、トレンドライフサイクルの終わりに観察される確率は、始まりよりも高くなるんだ。これは定義に組み込まれていて、時間が経つにつれてますます多くの人がトレンドを知るようになるから、最も多くの観察者がライフサイクルの終わりにいることになる。つまり、もしあなたがランダムな人なら、トレンドを知ることはおそらく中間ではなく終わりに近いってことだね。

これは数学的な演習としてはすごく楽しいけど、現実の未知のプロセスを理解するための実用的なツールとしては全く関係ないよ。法則は特定のプロセスにしか適用されないし、他のタイプには全く当てはまらない(例えば、50年生きた人はさらに50年生きるかもしれないけど、100年生きた人は100年も生きないだろうね)。だから、どんなプロセスを見ているのかが問題になるんだ。それがまさに最初に考えた質問で、「この成長曲線には根本的な限界があるのか、ないのか?」ってことだね。

これに関連して、ラプラスの継続の法則があるんだけど、基本的には「他の情報がない場合、何かが次に起こる確率は、それが連続して起こらない回数が増えるほど下がる(その逆も然り)」ってことだよ。例えば、タイムボムが長くカウントダウンしているほど、すぐに爆発する可能性は低くなるってこと。(タイマーが見えない前提でね。) :)

シグモイドがいつ始まるかわからないけど、Nvidiaの四半期データセンターの収益は過去3年間で15倍に成長してるんだ[1]。スコットを含めて誰もこれが3年も続くとは思ってないし、そうじゃなきゃNvidiaの時価総額は今の10倍以上になってるはずだよ。全ての指数関数的成長は最終的にシグモイドになる。なぜなら、指数成長は最初は制約がなかった要因を露呈するから。シリコン製造は1年前にはNvidiaのような高利益率の顧客に対して十分な余地があったけど、今はほとんどなくなっちゃった。どんなにお金をかけてもファブは一晩で自分たちを作ることはできないよ。[1]: https://stockanalysis.com/stocks/nvda/metrics/revenue-by-seg...

参考までに:著者は「AGI」が1〜2年以内に実現すると予測していて、そのために自分の公的な評判を賭けているんだ。彼はトレンドラインがリンドリーであってほしいと思っているけど、シグモイドじゃないと。トレンドを静的なものとして扱うのは無理だと思うけど、それはまた別の話だね。

彼は自分の評判を賭けているだけだから、個人的にはあまり投資してないよ。彼の文章を通して、同じことを何度も繰り返しているんだ。AIの進化が遅くなることを切実に望んでいて、それを遅らせる政治を支持している。シグモイド曲線が現れるのを見たら、彼が一番安らぐんじゃないかな。

まあ、METR曲線を見ればいいよ。ミトスは50%のタイムホライズンで飽和した。80%は今3時間だ。進歩のペースは加速していて、遅くなっているわけじゃない。これがシグモイドである兆候はまだないね!

彼にはあと1.5ヶ月しかないよ。もし間違っていたら、それを受け入れなきゃいけない。同じことがエリエザー・ユドコウスキーにも言えるけど、彼らはブランドにかけているものが大きすぎる。間違っていることを認める勇気がある人はいないよ。彼や他の人がこの信念を公言しているポッドキャストの数を考えると、ただそうじゃないふりをするのは難しいだろうね。

参考までに:著者は「AGI」が1〜2年以内に実現すると予測していて、そのために自分の公的な評判を賭けているんだ。彼はトレンドラインがリンドリーであってほしいと思っているけど、シグモイドじゃないと。つまり、それは「意見を持つこと」と呼ばれるんだ。

AGIは意味のない曖昧な用語になっちゃったね。いつそれが来るのか、どう議論しても無意味になってきた。OpenAIも妥協して、Microsoftとの契約からAGIの条項を削除したんだ。まだそこに達してないかどうか、完全には確信が持てなかったから。元々のARC AGIは、AGIがまだ来ていない証拠として称賛されてたけど、ARC 1と2が飽和状態になった今、平均的な人間が取り残されている可能性を考えたくない人が多い。今はフロンティアモデルが知能によって制限されているのではなく、文脈やモダリティによって制限されているんだ。

これは書かれている通りでは間違ってる。著者はAI-2027の執筆に関わったけど、基盤となるモデルからは距離を置いている。そのモデルはAGIのモーダル年を2027年としたもので、中央値や平均ではない。モデルの著者たちは、その後すぐに日付を遅らせる修正を行ったし(もし記憶が正しければ)それ以降も再度修正している。スコットがAGIは近い将来に、LLMから来ると信じているのは大まかに言って真実だけど、彼の評判はそれだけではないんだ。

これ、ちょっと違うね:アレクサンダーは報告書に貢献したけど、彼の個人的な意見は2030年代中頃って感じだよ。フレディはこれが彼が元の発言から後退しているように感じているけど、実際には彼は報告書が公開された時にこれを言ったし、フレディが2027年に彼を結びつけると言っているグラフも指摘している。> 本当にこんなに早く進むと思う? まあ、そうじゃないね。プロジェクトが始まった昨年の夏から今までの間に、ダニエルの知能爆発の中央値は2027年から2028年にシフトした。私たちは2027年を中心にシナリオを維持しているけど、それはまだ彼のモーダル予測だから(変更するのが面倒だからでもある)。チームの他のメンバー(私も含めて)は2020年代後半や2030年代初頭に中央値があり、自動化がもっとゆっくり進むと思っている。だから、これは80パーセンタイルの速いシナリオのビジョンとして考えた方がいいかもね。私たちの正確な中央値ではないけど、排除するのも安全だとは感じていない。[2] これが彼が「個人的に投資している」という観察を変えるとは思わないけど、2027年にAGIが現れなかったら、多くの人がここ(または報告書)での議論を無効にすると思う。実際の報告書は、近い将来の「災害」AGIシナリオがどうなるかを感じてもらうために意図されていて、そのために具体的な緊急性を持たせる日付を設定した。可能性はあるけど必然ではない日付としてそれを示した集団レビューはまだ進行中だよ(彼らは元々最良の推定をもう少し先に延ばしたけど、今は達成されている目標から判断して、彼らのシナリオは少し保守的すぎたと思っている)。

AIは便利な指標に基づいてうまくスケールしているよ。ニューラルネットワークは、定義したものを素早くマスターできる特性があるんだ。複雑さが増すさまざまなタスクが知能を必要としないことを示せるし、自動回帰強化学習の問題としてフレーム化できる。個人的には、AIがセンシエントな知能に近づいているとは思わない。どう動いているかはほぼ明らかだからね。だから、我々は本質的に、普遍的な関数近似器が定義した関数にどれだけフィットできるかを測っているだけで、それを進歩と呼んでいる。彼らができないことや、本物の知能との違いを正しく測る方法を見つけられたら、本当に面白くなると思う。編集:特に、誰かがAIの能力が増加するトレンドが特定の怖いレベルに達することはないと言った場合、同意しないけど、ベンチマークの結果が「怖くなっている」ことには同意しなきゃいけない。これは、最適化する目標が増えることから自動的に示されるわけじゃないからね。

様々な複雑なタスクが知能を必要としないことを示すことができるし、自動回帰型強化学習の問題として捉えられるんだ。重要なのは、これを振り返ってみて初めて示せるってこと。今、どのタスクが知能を必要だと誤解しているのかは分からない。もしかしたら、どれも必要ないのかも?分からないよね。知能が何かも分からないし、知能を定義しようとした過去数十年、数世紀の試みを見ても、目標がどんどん移動しているように見える。知能の定義が、知的だと思いたくない人や物を含むようになると、定義を変えちゃうんだ。

基本的に、普遍的な関数近似器が私たちが定義する関数にどれだけフィットできるか それが間違ってる。LLMが近似する関数を私たちが定義するわけじゃない。自己回帰的な事前学習は、テキストを生成する未知の関数を近似している(それが脳のやっていること)。RLは関数を近似するんじゃなくて、より良いパフォーマンスを発揮する未知の関数を見つけることで目的を最適化する。

この記事は2段落目の質問には答えてるけど、その後は完全に無視してるね。> 私の理解では、これは異なる技術の3〜4「世代」を表している(プロペラ、ターボジェットなど)。各技術は通常の反復改善を経て、基本的な限界に達したときに、より良い技術に置き換えられた。最後の技術であるラムジェットは、約3500 km/hで限界に達し、それ以上のものを開発する経済的・規制的な意志がなかったから、記録はそのまま残ってる。シグモイドが一つだけあるわけじゃなくて、いくつかが重なってるんだ。飛行機は一つの技術じゃなくて、同じことをする複数の技術がある。それぞれが完璧にシグモイドに従ってる。別のシグモイドに切り替えることで、より高い最大ポテンシャルを持つように見えるだけなんだ。AIでも同じことが言える。もし今日、GPT2と同じアーキテクチャを使ったら、新しいフロンティアモデルを訓練するのは大変だよ。モデルの能力がここまで向上したのは、数十のブレイクスルーがあったからこそ。とはいえ、成長にシグモイドや指数関数を使うのは間違いだ。成長は微分方程式なんだ。独立した入力があって、出力があって、その出力の中には再び因果関係の複雑さを持つ依存入力がある。何が起こるかは、その技術を支配する特定の微分方程式次第。完全にランダムなブームやバストがあるカオス的なシステムも簡単にあり得る。それが経済って呼ばれてるんだ。

そうなんだよね、彼がその指数関数が通常は重なったシグモイドで構成されているってアイデアについて話さなかったのは驚きだった。でも…もし指数関数が重なったシグモイドでできているなら、全体としてはまだ指数関数なんだ!それが重なったシグモイドでできているってことは、エンジニアには関係あるけど、ユーザーやそれに影響を受ける人にはあまり関係ないことだよね。

ブライアン・ポッターの「効率の起源」という本がこれについて語ってるよ。重なったシグモイドはイノベーションにおいてよく理解されたアイデアなんだ。重なったシグモイドで指数成長が続くってのも当たり前じゃない。例えば、釘がある。釘はかつてアメリカのGDPの約0.5%を占めてた。結構大きな数字だよね!釘のコストを下げるために、各イノベーションがそれぞれのシグモイドを持って重なり合ったんだ。釘のコストは90%以上下がった。でも結局、釘の製造は限界に達しちゃった。20世紀中頃から、釘の製造はあまり進歩してないんだ。釘のコストは実際に少しずつ上がり始めた。新しいイノベーションのシグモイドが尽きちゃったから、最後のシグモイドに留まっちゃったんだ。だから、実際に予測しなきゃいけないのは、新しいシグモイドが続くかどうかであって、既存のシグモイドが漸近するかどうかじゃない(それはもう分かってるから)。これは予測が難しいんだ。新しいシグモイド(大きなイノベーション)は予測できない出来事だから。具体的な内容を予測するのも難しいし(もし知ってたら、イノベーションはもう起こってるはず)、大きなイノベーションがあるかどうかも予測が難しい。既存のシグモイドのトレンドとは別のものだから。だから、現在のAIのすべてのイノベーションはシグモイドの平坦な部分に達するにつれて漸近するだろうけど、全体のトレンドを維持する新しいシグモイドがあるかもしれないし、ないかもしれない。分からないんだ。それはあまり満足できる答えじゃないから、こういう記事を読み続けることになるんだよね。

モデルアーキテクチャの研究開発をしていた者として、現代のLLMモデルアーキテクチャがGPT2にどれだけ似ているかには本当にイライラする。まあ、これはちょっと不誠実かもしれないけど、実際にはスケーリングやトレーニングの部分に多くの作業が費やされているからね。

著者は過去にスタックされたシグモイドについて書いていて、例えばここにある:https://slatestarcodex.com/2018/10/15/is-science-slowing-dow... 彼はここでそれをもっと深く考え始めたと思うけど、分析にあまり寄与しなかったんじゃないかな。スタックされたシグモイドは、最終的には新しい革新がなくなると単一のシグモイドを与えるか、そうでなければ指数関数的なものを与える。

今日、GPT2と同じアーキテクチャを使ったら、新しいフロンティアモデルのトレーニングは大変だよ。数十のブレークスルーがあるからこそ、そうなってるんだ。これらの数十のブレークスルーって具体的に何?今のフロンティアモデルのアーキテクチャは、コア部分はまだGPT2にとても似ている。インストラクションGPTやファインチューニング技術、KVキャッシュの効率改善、より速いアテンション、LoRA、より良いトークナイザーなど、いろんな改善があったけど、ほとんどはスピードを上げるためのものだよ。最大の差別化要因は、データのキュレーションやトレーニング後のデータ、モデルにもっとフィットさせる能力だと思う。でも、異なる技術のカテゴリーに入るようなブレークスルーはあまりなかったと思う。

この件からの一番の教訓は、データやモデルに関係なく、これがいつまで続くかを確実に知ることは不可能だってことだと思う。もし誰かがそれを正確に予測できるなら、彼らは地球上で最も裕福な人の一人になっているはずだから。AIがいつ(またはもし)崩壊するのか、あるいは成功するのかを確実に知ることはできない。私の専門分野ではないからね。むしろ、一般的なブースターやドゥーマーの議論の欠点を指摘したり、どちらの側も話したがらない問題を特定したりすることができる。それは冷静な慰めにはなるけど、どちらかの方向にお金を賭けるには十分じゃない。だから、特定の企業への投資を制限して、うまくいけば上昇するインデックスやファンドをターゲットにしている。逆に、うまくいかなければ損失を最小限に抑えるようにしている。そもそも、そんな数学に頼ってポジションを正当化するのはちょっと馬鹿げてると思う、特に技術者にとってはね。数学モデルは機能するけど、機能しなくなる時が来る。その時には新しいモデルを設計しなきゃいけない。対して、論理的な議論は新しいデータに適応しやすく、数学的ではなく批判的な思考や推論を表す。AIがシグモイドやリンディの法則でブームやバストになるって言うのは議論じゃなくて言い訳だよ。本当の議論は、そういうことがどうして起こるか、または起こらないかで、AIの内部や外部でその結果にどう対処するかを規制や革新、政策を通じて考えることだ。

彼の意図は、AIの結果に対する確率分布は広く持つべきだってことを指摘することだと思う(君が言ったこと)。でも最も重要なのは、私たちがすぐに超知能を得る可能性を真剣に考えなきゃいけないってこと。基本的に多くの人が「でも、超知能を得ない可能性もかなり高いんじゃない?」って言うけど、うん、確かにそうだよ。でも、超知能が少しでも現実的な結果であることは大問題だ。そういう文脈での投資選択は重要じゃない。人々はこの形の不確実性に直面すると、合理的に考えるのが本当に難しいんだ。

テキストや画像で解決できる問題を考えると、曲線が平坦になる時期を知ることはできないってことを受け入れるのは全然構わないよ。でも、成功を判断するために物理的な世界とのインタラクションが必要な問題は全然状況が違う。物理的な問題に強力なシミュレーターを加えると、AIの自己学習体験がかなり制約されるんだ。必要な計算量が膨大だからね。

こういう予測にはベイズフィットを使って、信頼区間を出した方がいいよ。そうすれば、こういうケースでは不確実性がすごく高いってことが分かると思う。