世界を動かす技術を、日本語で。

アンドレイ・カルパティのYC AI SUSトーク:業界の未来について

概要

  • Andrej Karpathyによる Software 3.0 の講演内容を日本語で要約
  • ソフトウェアの進化、 1.0/2.0/3.0 という新たな分類
  • LLM(大規模言語モデル)が 新しいOS的存在 となる現状
  • 産業構造や開発パラダイムの 根本的変化 について解説
  • 今後のエンジニアに必要な スキルと視点 を提案

Software 3.0時代の到来とその本質

  • 現在は ソフトウェア産業 にとって極めてユニークかつ興味深い時代
  • ソフトウェアは 70年間大きく変わらなかった が、ここ数年で2回急速に変化
  • Software 1.0 :従来型のプログラムコードによる開発
  • Software 2.0 :ニューラルネットワークの重み(パラメータ)を最適化する開発
    • コードを書くよりも データセットのチューニング と最適化が中心
    • Hugging Faceが GitHub的役割 を果たす
  • Software 3.0 :LLM(大規模言語モデル)を活用し、 自然言語(英語)でプログラミング する新時代
    • 製品やサービスは 人々をプログラムするプログラム となる
    • コードと英語が混在し始める新たなプログラミングパラダイム

Tesla Autopilotに見る進化の実例

  • Tesla在籍時、Autopilot開発で C++コード(1.0)ニューラルネット(2.0) が混在
  • 時間とともに ニューラルネットの役割が拡大 し、従来コードが削減
    • 画像間の情報統合などをニューラルネットが担う
    • 実際に 大量のC++コードを削除 できた事例
  • 現在も同様に 新たなパラダイム(3.0) がソフトウェアスタックを刷新

新たな開発者像とスキルセット

  • これからのエンジニアは 1.0/2.0/3.0全てに精通 する必要
    • それぞれに 長所・短所 があり、適材適所で使い分け
    • LLMの訓練やAPI利用、従来コードの統合など 流動的なスキル運用 が求められる

LLMと新しいエコシステムの形成

  • LLMは ユーティリティ(公共事業) 的な性質
    • OpenAI、Gemini、Fungiなどが API経由で知能を提供
    • 低遅延・高稼働率 が求められる
    • 停止時は「 知能の停電」が発生し、社会的影響が大きい
  • LLM開発には 巨大な資本と研究開発力 が必要
    • 電力インフラやクラウドのような 集中型構造 が進行
    • 一方でソフトウェアなので 物理的制約は少ない

LLMは新しいOSであるという視点

  • LLMは オペレーティングシステム(OS) に近い存在
    • WindowsやmacOSのような クローズドソース と、Linux的な オープンソース が並立
    • LLM自体だけでなく、 ツール連携やエコシステム が複雑化
  • LLMは 新たなCPU、コンテキストウィンドウは メモリ という比喩
    • LLMが 計算資源と記憶資源を統合的に管理
  • アプリケーションも プラットフォーム間で柔軟に動作
    • 例:VS CodeがWindows/Linux/Macで動作するように、LLMアプリも様々な基盤で動作

現状と今後の展望

  • 現在は 1960年代の時分割計算機 のような状況
    • LLMの計算コストが高く、 クラウド集中
    • ユーザーは ネットワーク越しのクライアント として利用
  • 今後、 LLMの普及と進化 により、より分散的・個別最適化された利用形態へ移行する可能性

まとめ

  • ソフトウェアは 1.0→2.0→3.0 と進化し、 自然言語によるプログラミング が現実に
  • LLMは OS的存在 として、産業構造や開発手法を大きく変革
  • エンジニアには 多様なスキルと適応力 が求められる新時代の到来

Hackerたちの意見

コンテキストとして - カーパシーがソフトウェア3.0について素晴らしい講演をしているとき、私は観客の中にいました。YCは公式動画がリリースされるまで数週間かかると言っていて、カーパシー自身もその講演は時代遅れになると言っていました。 https://x.com/karpathy/status/1935077692258558443

ループを完成させるためには、カーパシーのAIアバターがトランスクリプトからテキストを音声に変換する必要があります。AIが生産性を向上させられないって誰が言ったの?

この講演の業界の未来に関する予測は、数週間以上先を見越しているのかな?もしそうなら、講演の重要なポイントは有効のままだと思うけど。うーん…

スライドを講演のトランスクリプトと同期させたよ: https://latent.space/s3

数週間後には彼の見解が無意味になるなんて、判断力がかなり乏しいんだろうな。編集:元の文の最後の絵文字は引用されてないね。笑顔が違いを生むんだよね。元のツイート: https://x.com/karpathy/status/1935077692258558443

初めてNotebookLMを使ったけど、すごく驚いた。OPの講演のトランスクリプトをNotebookLMに貼り付けたら、こんな「ポッドキャスト」ができたよ: https://notebooklm.google.com/notebook/5ec54d65-f512-4e6c-9c...

これ、インフォマーシャルみたいだね。

まとめてくれてありがとう、結構良かったよ - 27分12秒

このエッセイの大きな主張(講演がそれに基づいているか、またはそのトランスクリプトから来ていると仮定している)として、オープンソースモデルは最終的にクローズドソースモデルに追いつくと思うし、少なくとも「十分良い」ものになると思う。LLMが知識労働を補強しているのはすでに見えるしね。新しい文明の夜明けを切り開く4番目の波ではないと思うけど、LLMが正しく適用されれば有用であり続けるのは明らかだね。

オープンソースモデルは最終的にクローズドソースモデルに追いつくと思う しばらくはその方向に向かっているように感じたけど、ここ1年くらいでそのギャップが広がっている気がする。これが自分の認識なのか、何かの指標で裏付けられているのか、ちょっと気になるな。

オープンソースが追い越す理由って何?クローズドソースの方がずっとお金があるし、だからこそ取り組むインセンティブも大きいんじゃないの?

だから、メニューのgemが基本的にデモとして数時間で動くのを見て本当に面白かったんだけど、それを実現するのに1週間かかった。リポジトリを動かす方法を考えるのに時間をかけることが多い仕事を思い出すな。私の仕事の多くは、開発環境やデプロイプロセスを理解することに集中していて、すごく制限された権限の中でやってる。LLMが業界をかなり変える可能性があると思う。LLMを使ったリライトは、新しい機能を追加したりバグを修正したりするよりも簡単なことがあるからね。特にリライトがよりLLMフレンドリー(つまり、人気のあるフレームワーク)なものになるときは。リライトするたびにコードがさらにClaudeコード化、またはCursorコード化されて、さらに早く反復できる準備が整うんだ。

最後の10%はいつも1000%の時間がかかるよね…

ソフトウェア2.0は、ニューラルネットワークをプログラムするための重みです。 >これは根本的な変化だと思います。ニューラルネットワークが大きなライブラリでプログラム可能になったからです…私の考えでは、これをソフトウェア3.0と呼ぶ価値があると思います。ここで考えを変えるのはちょっと早いと思いますよ。あなたの2.0が好きだから、もう少し時間を待って、状況が落ち着いてからはっきり見えるようにして、改訂番号を上げましょう。実際、AKが考えている番号についてはちょっと混乱しています。誰か彼がソフトウェア2.0にどうやってたどり着いたか知ってる人いる?サスマン教授の講演を思い出しますが、彼は「まだ計算方法がわからない」と言っていました[1]。彼が言っていたのはこれだと思ってました。ソフトウェア0.1 - マシンコード/アセンブリコード ソフトウェア1.0 - コンパイラ/インタープリタ/ライブラリを使った高級言語 ソフトウェア2.0 - LLMによる言語理解 もし重みを2.0、ライブラリを使ったNNを3.0と呼ぶなら、機能型プログラミングやオブジェクト指向プログラミングも番号付けに含めるべきじゃない? [1] https://www.youtube.com/watch?v=HB5TrK7A4pI

話全体を通して客観性が欠けてるね、論文だけじゃなくて。でも、客観性は盛り上がりを作るにはあまり良くないんだよね。

アンドレイが3.0をどう見ているかは、彼のテスラでの後のアナロジーにヒントがあると思う。彼は手動で書かれたソフトウェア1.0のC++がニューラルネットワークの重みに置き換わるのを見たんだ。以前は明示的なコードで手動で書いていたものが、今はNN自体に組み込まれていて、実装が1.0から3.0に移行しているんだ。

「リビジョン番号」なんて関係ないよ。彼は、従来のソフトウェアの動作(「ソフトウェア1.0」)はコードによって定義されているのに対し、モデルが生成する出力(「ソフトウェア2.0」)はトレーニングデータによって駆動されると言ってるだけ。でも正直、その後は読まなくなったから「ソフトウェア3.0」が何かはわからない。

決定論的コンピューティングと検証不可能な情報の死は恐ろしいことだね。

もしかしたら間違ってるかもしれないけど、ここで言われていることを誤解している人がいるように思う。ソフトウェア3.0はAIを使ってコードを書くことじゃなくて、コードの代わりにAIを使うことなんだ。だから、人間 -> AI -> コードを作成 -> コードをコンパイル -> コードが実行される -> マジックが起こる、じゃなくて、人間 -> AI -> マジックが起こる、って感じなんだよね。

この業界、ほんと疲れるわ。

これはいいアイデアだけど、実際に何かを作るとなるとね。

AIはそんなに簡単じゃないよ。「AI」っていうステップは実際には、データセットを作る -> モデルをトレーニングする -> モデルをファインチューニングする -> より小さいモデルをトレーニングするためにモデルを動かす -> その小さいモデルをエンドデバイスに送る、って感じだから。

じゃあ、AIを作るのは誰なの?これが、AI業界はほとんど煙と鏡だと思う理由。もしこれらのツールが本当に革命的なら、自分たちのより良いバージョンを作れるはずだし、能力の指数関数的な向上が見られるはずなのに。だけど、ここ1年くらいは、トレーニングに使うデータの規模や質、デプロイの規模を増やすことでのわずかな改善しか見てないし、ちょっとしたエンジニアリングの工夫もあるけどさ。

人々が誤解してるとは思わないよ。単に、説得力がないとか興味を引かないだけだと思う。

それ、ナデラが最近のインタビューで言ってたことと一致してるね。要するに、SaaSアプリは完全に消えて、LLMが直接データストアとやり取りするようになるってこと。言外の意味としては、私たちが理解しているソフトウェアがなくなって、みんながコンピュータやソフトウェアではなくLLMと直接やり取りするようになるってことだよね。AIに賭けてる会社のトップからはそういう発言が出るのも納得だし、ここでも似たような見解があるのは面白いね(バイアスは考慮して)。

自己宣伝だけど、これに関するベストセラー本を一冊書いたよ。

俺の友達がAIの会社やってるんだけど、こんなこと言ってたんだ。「未来はAIでCRMを作ることじゃない。未来はAIに『CRMみたいに動け』って言うことだ」って。

これが富の分配にどう影響するか、何か言ってる?

くそ、これからはバカなマネージャーやC-suiteが「ソフトウェア3.0」っていうクソみたいなことを延々と繰り返すのを聞かされる羽目になるんだな…

ところで、このトークのトランスクリプトにはかなりひどい誤りが多いことに気づいたよ。実際の動画はもうすぐアップされるといいな。

あ、ごめん!この投稿は今、評価を下げるね。これに関しては需要がすごく高いから、みんな情報を得たくてたまらないんだよね。私もお気に入りのトークだったから、その気持ちはわかるよ :)

何かすぐに直したいことある?喜んでやるよ。必要ならこの投稿を削除してもいいし。君のトークだからね。

これって、伝統的なメモ取りじゃなくてAIツールを使って録音されたからなのかな?

これが、イーロンにテスラのレーダーをやめさせた男だよ。