世界を動かす技術を、日本語で。

穏やかな特異点

概要

  • 人類はすでにAIの「イベントホライズン」を越え、デジタル超知能の構築が目前
  • AIの進化による科学進歩と生産性向上が生活の質を大きく向上させる見込み
  • 2030年代には知能とエネルギーが豊富になり、人間社会が劇的に変化する可能性
  • 技術進歩の急加速と社会的課題への適応力が問われる時代の到来
  • 安全性や公平な分配に向けた議論と準備の重要性

AI時代の到来と現在地

  • 人類 はAIの「イベントホライズン」を越え、 デジタル超知能 の構築が現実味を帯びる段階
  • ロボット が街を歩き回る未来や、AIと一日中会話する社会はまだ実現していない
  • 医療・宇宙・科学 など未解決の課題が山積
  • それにもかかわらず、 GPT-4やo3 のようなシステムが多くの面で人間を上回る知能を発揮
  • AI活用 による生産性の飛躍的向上と科学進歩の加速

近未来のAIと社会の変化

  • 2025年には 本格的な認知エージェント が登場し、 プログラミング のあり方が一変
  • 2026年には 新たな洞察を発見するAIシステム が登場する可能性
  • 2027年には 現実世界で作業できるロボット が普及する見通し
  • ソフトウェアやアート の創造が一般化し、専門家と初心者の差は新たなツール活用で広がる
  • 2030年には一人ができることの量が2020年比で劇的に増加

2030年代の「変わること」と「変わらないこと」

  • 家族愛・創造性・娯楽 など人間らしい営みは存続
  • 一方で 知能とエネルギーの豊富化 による社会構造の大変革
  • 人間レベルを超える知能 がどこまで進化するか未知数
  • アイデアと実現力 の両面で限界突破が期待される

AI進化の加速と自己強化ループ

  • AI自身がAI研究を加速 することで、科学的発見やアルゴリズム進化が加速

  • 経済価値の創出 がインフラ投資の好循環を生み、より強力なAIシステムの構築が進む

  • ロボットやデータセンター の自動生産体制が進展し、知能のコストが電力コストに収束する未来

    • ChatGPTの1回のクエリ消費電力は 約0.34Wh (オーブン1秒分、LED数分分)
    • 消費水量は 約0.000085ガロン (小さじ1/15程度)

社会変化と人間の適応力

  • 技術進歩により 職業構造の大変化 が予想されるが、社会全体の豊かさの急上昇が新たな政策議論を促進
  • 産業革命後の職業変化 のように、人類は新しい役割や欲求を見出し、ツールの適応も迅速
  • 人間固有の強み として「他者への関心」がAIとの差別化要素

未来の仕事と価値観の変容

  • 1000年前の農民から見れば現代の仕事は「偽物」に映るが、未来の職業も同様に見える可能性
  • 新たな発見やイノベーション の速度が飛躍的に高まり、2035年には想像もできない進歩が期待
  • 一部の人は従来通りの生活を続けるが、「プラグイン」する人も現れる

シンギュラリティの体感と課題

  • 技術進歩は 徐々に、しかし確実に進行
  • 安全性・公平性・分配 などの社会的課題への対応が不可欠
  • アライメント問題 (AIが人類の長期的利益を学び行動する保証)の解決が最重要課題
  • 超知能の安価・広範な普及 と集中回避が理想
  • 社会全体での議論と合意形成 が今後の鍵

OpenAIと今後の展望

  • OpenAI は「超知能研究企業」としての使命を自覚
  • ほとんどの道筋が明るくなり、残された課題も急速に解消中
  • 「知能が極端に安価になる」 未来が視野に入りつつある
  • 2020年からの進歩を振り返れば、2030年の予測も現実味を帯びる
  • 安全かつスムーズな超知能社会への移行 を目指す決意

Hackerたちの意見

たくさんのミスをするし、いろいろうまくいかないこともあるけど、すぐに学んで適応していくよ。 有名な最後の言葉だね。

「君たちの中には死ぬかもしれないが、それは私が受け入れる犠牲だ。」

そうだね、AIに何でも質問する人が増えて、彼らが言うことを信じる世界では、「うまくいかないこと」が起こる可能性がすごく大きいよね。 それを簡単に無視するなんて…驚くべきことだとは言えないな。

「今のところ順調だ」と、その男はエンパイア・ステート・ビルの20階を過ぎて落ちていきながら言った。

この投稿に関するいくつかの理由付け: >「メーターで測るには安すぎる知能は手の届くところにある」 そして: >「知能のコストは最終的に電気のコストに近づくべきだ。」 これはメーターで測る価値のある資源だね。 だから、知能が人々の生活に与える影響は、現在の価値で言うと、毎日トースターを使うのと同じくらいのオーダーなんだ。 これを考えると、5年後にトースターの1秒で何ができるかな?

原子力発電所が提案されたとき、電気についても同じことが言われてたよね。 今の電気代はどうなってる?

データセンターによって生まれる需要のせいで電気代が上がるのを見てるよ。今、オフグリッドのソーラーシステムを作ってるけど、安くはない!消費者がデータセンターと電気を競う未来を考えると、将来的には安く感じるかもしれないね。

ライトの法則が続くなら、電気のメーターを測ることはないかもね。

タイトルは、マーク・スティーグラーの『The Gentle Seduction』への言及かもしれないね: http://www.skyhunter.com/marcs/GentleSeduction.html

誰が書いたのかも見ずに、記事をサクサク読んでたんだ。 言われていることをざっと見て、ふと思った。 誰が書いたんだろう? おそらくAI推進派の誰かで、利害関係がある人だろうな。 誰が書いたのか見たとき、思わず笑っちゃったよ。

私も同じことを思った。「この投稿は死後の手紙みたいだ」と。LLMの利用がテストや全体的な品質プロセスの向上を促進することを願ってる。もしAGIのようなものが本当に存在するなら、出力テストはまだ必要だよ。誰かがあなたのために何かをする時、その人があなたより賢いかどうかは関係ない。仕様が明確でテストされていなければ、それはただの推測と同じだからね。定義された問題がない人にはほとんど使えないAIが待ち遠しい。

これから数年のうちに、人間のように少ない例からリアルタイムで学習できるAIモデルが登場すると思いますか?これはAGIにとっての重要な壁のように感じます。もっと広く考えると、AGIやASIに必要な重要な洞察がどれだけ欠けていると思っているのか、ちょっと気になります。この記事では、すでに大きなハードルをクリアしたと示唆していますが、まだいくつかの重要な鍵が欠けていると思います。全体的に彼の予測はかなり安全な賭けのように見えますが、ほとんどの人が定義する「超知性」を示唆しているわけではないと思います。

これは、彼が(おそらく)考えるAIの約束についてのオルトマンのハイライトを凝縮したものです。その意味では新しいことはありません。目立つのは、あまり微妙でない再定義があることです。AGIがすぐそこにあるというわけではなく、OpenAIはすでにその先を見て何もないことを知っているような感じがします。これは、今後もっと出てくると思われる、少し冷静にさせるための公の声明の一つで、投資家の期待を再定義して、タイムラインが以前に示唆されていたよりも長くなることを伝えようとしているのだと思います。

この議論に入るのは嫌なんだけど、少ない例から学ぶことを「few-shot learning」と呼んでいて、実はGPT-3でもすでにできたことなんだよね。当時は大きなブレークスルーと考えられていたし。勾配降下法を「学習」と呼ぶからって、適切なプロンプトを使ったときのことが口語的な意味での「学習」でないわけじゃないよ。試してみて:今の最前線の推論モデルに軽いガイダンスといくつかの例を与えるだけで、かなり複雑な特定のドメインのタスクを教えられるよ。これがプロンプトエンジニアリングの本質だと思う。君はタスクの複雑さに関して区別をつけているかもしれないけど、それは全然問題ないし、もう少し正確に説明する必要があると思う。

人工知能は、育成されて教育を受けた人々のことだよ。あとはアデラールでも少し。これがその用語の唯一の科学的根拠を示す重要な洞察だと思う。すごいのは、よく作られた言語モデルが素晴らしい製品だってこと。男なら「うちの会社はインターネット全体を一つのAPIに圧縮したようなことをした」って言って満足すべきだし、その報酬を受け取ればいいのに。なぜ、地球上のすべての(経済的に登録可能な)問題を解決する特異点を発明したと自慢する必要があるの?

君が説明したことは、エージェントシステムのようなClaude Codeによって実現されているし、実際にそうなっているよ。タスクを与えると、ウェブ上のベストプラクティスを学び、君のコードベースで他の開発者が何をしているかを調べて、適応するんだ。そして、その学びをCLAUDE.mdファイルに凝縮して保存する。どの基盤のLLMが君のエージェントシステムを支えているかは関係ないよ。実際、好きな最先端モデルに入れ替えたり、自己ホストしたLLM APIにCursorを向けたりできるんだから。だから、ある意味では今のすべての高度なモデルがAGIなんだ。2023年にはGPT-4でAGIの「特異点」を超えていたし、今はAGIを社会のあらゆる角に統合する数十年にわたるプロセスを経ているんだ。それは純粋にインターフェースの問題だよ。コーディングエージェント製品は、LLMを現実世界に接続するために[web_search, exec_command, read_file, write_file, delegate_subtask, ...]ツールを使っている。他の職業は「attend_meeting」のように、はるかに複雑なインターフェースを必要とするかもしれないけど、確かにもっとエンジニアリングの努力が必要だけど、100%そのインターフェースは今後数年で必ず作られるよ。

すでに私たちは信じられないデジタルインテリジェンスと共に生活していて、初めのショックの後、ほとんどの人はそれに慣れてしまった。AIが美しく書かれた段落を生成できることに驚いていたのが、いつの間にか美しく書かれた小説を生成できるのはいつかと考えるようになった。機械学習に興味を持ち始めたのは7年くらい前だったと思う。その頃、私は粗いYouTubeのチュートリアルを見て、Redditのコメントダンプをダウンロードして、それを使って次の文字を予測するMLモデルを訓練していた。魔法のようだった。私はLLMをその進化だと見ている。次の文字の代わりに、今は次のトークンだし。GB単位のRedditのコメントの代わりに、今はTB単位の「すべて」だし。数百万のパラメータの代わりに、今は数十億のパラメータだ。年月が経つにつれて、その魔法は私から失われることはなかった。でも、私はLLMを「トークン予測マシン」以上のものとして見ることはできない。もっと計算力とデータを投入すれば、いつか「AGI」と呼ばれるに値するほど素晴らしいものになるかもしれないけど、それはわからない。まあ、いずれにせよ、誕生日にノスタルジーをありがとう!同じ楽観主義を持っているわけではないけど、楽観主義はCEOにとって必要な特性だよね?

「次のトークン予測」は気を散らすだけだよ。AIモデルの面白い部分はそこじゃない。トークン化を最後の方でシリアライザーとして考えると、オブジェクトモデルをJSONに変換するような感じで、もっと理解が深まると思う。OOPプログラムの面白い部分はJSONの中にはなくて、JSONが作成される前にメモリの中で何が起こるかにある。同じように、LLMやAlphaProteo、あるいは拡散ベースの動画モデルなどのニューラルネットモデルの面白い部分は、潜在空間で動作するステップの中にあって、これは多くの点で私たちの無意識の思考に似ている。そういう層の中で、AIモデルは現実のより深いパターンを検出していくんだ。テキストや画像、動画などの表面的なパターンよりもずっと深いところでね。また、これらのパターンは異なるモダリティが組み合わさると一般化することも多い。この潜在空間から、いくつかの異なる方法で出力を「シリアライズ」できる。テキストはその一つで、画像や動画はまた別のもの。今のところ、潜在空間はすべてを同じようにうまく扱えるほど一般的ではなくて、むしろ一つのモダリティに特化したモデルが作られていると思う。AGIへのステップは、モデルにもっと計算を投入することではなく、むしろ複数のモダリティをうまく跨ぐことが必要だと思う。特にこれらが重要だね: - Veo3レベルの物理世界モデリング(自己運転やロボティクスモデルからの教訓を取り入れるかもしれない) - 最高のLLMのシンボリック処理 - 目標指向で、目標に向かって反復する能力、Alpha*ファミリーのシステムに似ている - オプションとして:人型ロボットを含む特定のツールの使用に最適化されていること。これらすべてが同じ潜在空間に統合されれば、ほぼ人間の思考を置き換えるものができると思う。

もしアップルパイをゼロから作りたいなら、まず宇宙を発明しなきゃ。次のトークンを本当にうまく予測したいなら、まず宇宙をモデル化しなきゃ。

年を重ねるごとに、その魔法は決して失われなかった。でも、LLMを「トークン予測マシン」以上には見れないんだ。パールの「ディープラーニングはただの曲線フィッティングに過ぎない」という批判と同じで、「単なるトークン予測マシン」という批判は真実だけど、ポイントを見失ってる。AIは結局、人間に鏡を向けて、知性や意識がかなりシンプルな構成要素から生まれることを受け入れさせるんだ。深い意味で、私たちがやっていることは曲線フィッティングに過ぎない。それはT.S.エリオットの言葉を思い出させる。「…私たちの探求の終わりは、私たちが始めた場所に到達し、初めてその場所を知ることになる。」

「単なるトークン予測」というコメントは間違ってるけど、他のコメントはその理由をちゃんと説明してないと思う。次のトークン予測はAIがすることじゃなくて、その目標なんだ。サッカーは最終スコアしか見たことがないから退屈なスポーツだと言ってるようなもんだよ。LLMの重要な点は、内部で多様な複雑なアイデアを効率的かつ一貫して表現できること!これがさらなるトレーニングの素晴らしい出発点になる。今のところ、やり取りするどのLLMも純粋な次のトークン予測者ではなくて、さまざまなRLの段階を経て、実際に私たちが望むことをするようになってる。Anthropicの「回路」作業を見てると、本当にその魔法を感じる。これらのモデルが複雑で賢い内部処理/思考を持っていることがよくわかる。

Anthropicの「大規模言語モデルの思考を追跡する」についてどう思う? [0] > 2行目を書くために、モデルは同時に2つの制約を満たさなければならなかった。「grab it」と韻を踏む必要があること、そして意味を成す必要があること(なぜ彼はニンジンをつかんだのか?)。私たちの推測では、クロードはあまり考えずに単語を一つずつ書いていて、行の終わりで韻を踏む単語を選ぶことを確認していると思った。だから、意味を持つ最終単語を確保するための回路と、韻を踏むための回路が並行しているのを期待していた。 > ところが、クロードは先を見越して計画していることがわかった。2行目を始める前に、「grab it」と韻を踏む可能性のあるトピックに合った単語を「考え始めた」。その計画を念頭に置いて、計画した単語で終わる行を書くんだ。このモデルは古いもので(クロード3.5俳句)、テスト時間の計算はない。 [0]: https://www.anthropic.com/news/tracing-thoughts-language-mod...

いつ美しい小説を生成できるか気になってる まだその時期じゃないけど、頑張ってるよ。オリジナルのアイデアをLLMから引き出すのは~~難しい~~不可能だから、たぶん常に人間の助けが必要になるだろうね。

トランスフォーマーを使った全てのTBは違いを生むね。もしかしたら俺が無知すぎるのかもしれないけど、次のトークンを生成する際に考慮される意味的なコンテキストの量が本当にすごいことになってる。

これ、フィリップ・K・ディックの『ユービック』みたいな、ディストピア未来の広告みたいに読めた。2025年の企業リーダーによる実際のブログ投稿だなんて、ちょっと驚きだよ。サムとダリオはヒューゴー賞にノミネートされるべきかもね…

「シンギュラリティ」より「イベントホライズン」の方が好きなんだけど、何年か前にこの違いについてブログを書いた理由の一つは、ブラックホールに落ち込むとき、イベントホライズンが常に自分の前にあるように感じるからなんだ。ブログの内容はあまり古びてないけど、技術の変化のスピードにはもう少し懐疑的になったし、ここ数年の政治的な出来事も、政治の現実がどれだけ早く変わるかを意識させてくれた。* 変曲率の変化の速度がすごく高くなるまでは、自分の体からの光とほぼ同じ速度で移動してるから、イベントホライズンを越えても自分の足が見えるんだよね。光がその空間を通る速度よりも、光がある空間がシンギュラリティに向かって動いてる方が速いのにね。

そうかもね。AIモデルは急速にスケールアップしていて、ますます印象的なタスクをこなす能力が向上してる。確かに、OPの言葉は企業の宣伝みたいだけど、ここ数年でAIが見せた進歩を考えると、こういう発表を軽視するのは愚かだと思う。一方で、信頼性が高く正確なAIモデルを構築するためには、もっと実用的または理論的なブレークスルーが必要かもしれない。「気が向いたときに」適当なことを言わなくなるためにはね。残念ながら、ブレークスルーのタイミングは予測できない。数ヶ月かかるかもしれないし、10年かかるかもしれない。誰にも確実なことはわからない。

2025年になって、自動運転しない新車を買ったばかりなのに、なんか騙された気分だよ。化石燃料で動いてるし、まるで死んだ恐竜のエネルギーみたいだ。