深層学習は応用トポロジーである

355日前原文(theahura.substack.com)

概要

本記事は AIとトポロジー の関係性を解説します。
トポロジー は「形の変形に不変な性質」を扱う数学分野です。
ニューラルネットワーク はデータを高次元空間で分離・分類するため、トポロジー的変形を活用します。
埋め込みベクトル を用いて、あらゆる情報を高次元空間上の点として表現します。
AIの進化 は「推論マニフォールド」を歩む過程として捉えられます。

AIとトポロジー：ニューラルネットワークにおける形の科学

トポロジーの基本と直感的理解

トポロジー とは、「表面や空間の形状の変形に対して不変な性質」を研究する数学分野であることを確認。
粘土のような素材を 曲げたり伸ばしたり しても、破ったり穴を開けない限り、特定の性質（例：円の数）は変わらないという直感的説明をすること。
円を描いた粘土を変形しても、 円が直線や二重円、自己交差する形にはならない ことに着目すること。

トポロジーとデータサイエンスの関係

データ分類問題では、 2次元平面上で線引きによる分離が難しい場合 が多いことを確認。
トポロジー的変形（曲げ、ねじり、伸縮）をデータ空間に適用し、 分離可能な形に変換すること が重要であることを提案。
ニューラルネットワークの本質は、 線形代数による空間変換の積み重ね であり、各層が表面の変形を担うことを理解すること。

ニューラルネットワーク層のトポロジー的解釈

tanh層（tanh(Wx+b)）は、 重み行列Wによる線形変換、 ベクトルbによる平行移動、 tanh関数による非線形変形 で構成されることを確認。
各変換は連続的な空間変形として可視化でき、 複雑なデータ構造の分離 を可能にすることを説明。

高次元空間への拡張

2次元では分離不可能なデータ（例：円の中と外）も、 3次元へ拡張することで分離可能 となることを確認。
ニューラルネットワークは 任意の高次元空間 でデータを扱い、 複雑な分類や推論 を実現することを強調。

ニューラルネットワークはトポロジー生成器

ニューラルネットワークは、 損失関数によって定義された性質を持つトポロジー をデータ上に生成することを提案。
例として、画像分類なら「犬」と「猫」を異なる領域に分ける表面を学習し、 翻訳タスクや次トークン予測タスクにも同様のトポロジー生成 が適用されることを説明。

マニフォールド（多様体）としてのデータ表現

色空間や画像空間など、 あらゆるデータは高次元マニフォールド上の点として表現可能 であることを確認。
ニューラルネットワークは、 画像やテキストなどの情報を埋め込みベクトル として内部表現し、 数学的操作が可能 となることを強調。
例：「king」-「man」+「woman」=「queen」という 意味的演算 が可能であることを紹介。

あらゆるものはマニフォールド上に存在

家具のサイズ・形状、気象条件、感情と匂いの関係など、 全ての概念や情報は何らかのマニフォールド上に配置可能 であることを強調。
ニューラルネットワークは 普遍的なトポロジー発見器 として機能することを説明。

推論マニフォールドとAIの進化

推論自体も 良い推論と悪い推論が分離されたマニフォールド上 に存在すると仮定すること。
Instruction TuningやRLHF（報酬付き人間フィードバック）は、 次単語予測空間から推論空間への遷移 を実現する技術であることを説明。
Chain of Thought（思考連鎖）ファインチューニングは、 AIの推論能力向上の鍵 であることを強調。

推論トレースの選別とAIの限界

LLM（大規模言語モデル）の思考過程（reasoning trace）を大量に収集し、 良い推論例のみで再学習すること による性能向上手法を紹介。
「良い推論」の選別が限界となり、 AGI（汎用人工知能）には到達できてもASI（超知能）には至らない可能性 を指摘。
高品質な推論トレースの収集コストが高い点も 現実的な制約 として言及。

このように、ニューラルネットワークとトポロジーの関係を理解することで、 AIの本質的な仕組みや可能性、限界 について新たな視点を得ることができる。

Hackerたちの意見

トポロジーの話なら、類似検索のために多様体を歪めるなんてことはしないよね。いや、これは幾何学の話で、メトリックがあるんだ。現実と同じように、物事を比較できるようにしたいんだ。多様体のトポロジー変換はトレーニング中にも起こるよね。それを考えると、トレーニング中にトポロジーはどう進化するのか気になる。最初は激しく変わってから安定して、次に幾何学的な洗練が進むんじゃないかな。関連する論文をいくつか紹介するね： * 深層学習におけるデータ多様体のトポロジーと幾何学 (https://arxiv.org/abs/2204.08624) * 深層ニューラルネットワークのトポロジー (https://jmlr.org/papers/v21/20-345.html) * 大規模言語モデルにおける持続的トポロジー特徴 (https://arxiv.org/abs/2410.11042) * リッチフローとしての深層学習 (https://www.nature.com/articles/s41598-024-74045-9)

└

同意する、むしろ応用線形代数って感じだね…でもそれだとちょっと魅力に欠ける。

└

マニフォールドのトポロジー変換は、トレーニング中にも起こります。それを考えると、トレーニング中にトポロジーはどのように進化するのか気になりますよね？もしGANやVAEを使ったことがあるなら、この質問に答えられるかもしれません！答えは「はい」に近いです。トレーニング中のさまざまなチェックポイントでGANを見て、高次元空間の異なる点がどのように動くかを確認できます（UMAPやTSNEのようなツールを使って）。> 最初は激しく変化してから安定し、次に幾何学的に洗練されると想像します。それも正しいですが、最初の激しい変化は学習率やオプティマイザーの選択にも影響されます。

データは実際には多様体上に存在しないんだ。データを考えるための近似に過ぎない。深層学習で行われる有用なことのほとんど、100%ではないにしても、トポロジーを考えないことから来ている。深層学習は何かを応用するわけじゃなくて、主に試行錯誤によって進化してきた経験的な分野で、もちろん理論からのいくつかの直感もあるけど（それはトポロジーじゃない）。

└

自称実践者の間にあるこの理論に対する誇り高い反感が理解できない。既存の理論が不十分でも、運用理論が有益じゃないの？それとも、神秘的なものと推測＆確認の苦労が職の安定につながってるの？

└

理論からのいくつかの直感（それはトポロジーじゃなかった）。これらの「直感」は事後的なもので、つまり深層学習が手法を考案した後に、他の科学分野の研究者が深層学習のアプローチと彼らの（おそらく数十年前の）手法の類似点に気づくってことだと思う。著者がGPTが実際には彼が以前物理で解決した同じ計算問題であることを発見する例があるよ： https://ondrejcertik.com/blog/2023/03/fastgpt-faster-than-py...

└

これには全く同意できない。確かに試行錯誤はたくさんあるけど、実際にはトポロジー、幾何学、ゲーム理論、微積分、統計学など、多くの数学の分野からの理論の融合なんだ。基礎（つまりバックプロパゲーション）は重みへの連鎖律の適用に過ぎない。違いは、深層学習が非常にアクセスしやすい（利益を生む）分野になったことで、多くの実践者が形式主義の起源を学ばずにこの分野を学ぶ贅沢を享受できるようになったことだ。最終的には、彼らが他の分野でずっと前から存在していた理論や技術を利用したり「再発明」したりすることができるようになっている。

└

これは錬金術だ。現在の形の深層学習は、錬金術が化学に関係するように、仮説的な基礎理論に関連している。数百年後、私たちの後の文明のイヌクティトゥット語を話す高校生たちは、この奇妙な言葉「深層学習」が昔の共通語の名残であることを学ぶだろう。

└

データは実際には多様体上に存在しない。多くの場合、存在するよ（そしてそれは「シーブ」と呼ばれる）。

└

これはディープラーニングに10年以上関わってきた人間として言うけど、これはかなり間違っている。データは明らかに多様体上に存在するし、ディープラーニングへの応用に関しても（私の投稿にリンクされている2014年のクリス・オラのブログを参照）間違っている。埋め込み空間は「空間」と呼ばれる理由がある。GANやVAE、コントラスト損失など、これらはすべて異なる種類のデータを生成するために「歩く」ことができるベクトル多様体を構築することに関するものだ。

└

近似誤差を考慮して定義を緩めればそうなるよ。例えば、Intrinsic Dimensionality Explains the Effectiveness of Language Model Fine-Tuning (https://aclanthology.org/2021.acl-long.568.pdf)

└

MLがなぜこんなにうまくいくのか良い説明がないっていうのは、みんなが自分の専門分野から自分なりの解釈を作り出す余地を与えてる気がする。特に頭の良い人たちからもそういうのを見たことがある。ハンマーしか持ってないなら...

└

あなたの観察に対するちょっとした補足コメント：その原則は還元主義と呼ばれ、多くの分野で試みられてきました。物理学は応用数学、化学は応用物理学、生物学は応用化学に過ぎません。あまりうまくいかないですね。

└

深層学習で行われる有用なことのほぼ全て、あるいは100%は、トポロジーについて考えないことから来ています。もちろんです。これらの構造が何をしているのかを深く理解するために、トポロジーを使います。トポロジーの洞察は、間違いなくこの技術の次世代に影響を与えるでしょう。

「これでAGIに到達できる」と読んだ瞬間、信頼性がガタ落ちした。一般的にはいいアイデアだけど、ブログ記事はすごくふわふわしてる。特に推論に結びつけると、ここには真剣な技術的作業があって（例： https://arxiv.org/abs/1402.1869）、このアイデアを拡張してもっと具体的にしている。

この記事はすごく良かったけど、著者が二つのクラスの点の間に分離面を見つけるアイデアを「トポロジー」と呼んでいる理由がわからない。例えば、「英語からスペイン語への翻訳タスクを学ぼうとしているなら、モデルはパンがブレッドに近いとか、猫の写真が「cat」という言葉に近いというトポロジーを学ぶ」と書いている。これはトポロジーとは全く関係ないことで、「近い」や「遠い」といった点の概念についてだ。もし二つの点が「近い」トポロジー空間があれば、その空間を引き伸ばして、二つの点が「遠い」状態にすることもできる。それがコーヒーカップとドーナツが同じものだというジョークの本質だよ。むしろ、これは代数幾何学のようなものの実世界での応用に見える。点が近い代数多様体のようなものを探しているんだ。全ては幾何学と点の間のメトリクスに関することだと思う。

└

これはトポロジーとは全く関係ないことだ 100パーセントその通り。二つのこと、すなわちi) トポロジーとii) ディープラーニングについての記事で、明らかな混乱がそのうちの一つ、つまりトポロジーの中に収まっていることを願うばかりだ。

└

確かに、その文では「トポロジー」をもっと口語的に使っていました。「表面」と言うべきでしたね。

└

トポロジーのざっくりとした定義をあげると、実際には距離の概念がなくても、近いと遠いという感覚を持つ空間を研究することだと思う。点集合トポロジーの近傍の核心的なアイデアは、ある点が別の点の近くにあるという考えを捉えていて、連続性や列の収束のような、近さの概念を必要とするものを定義できるんだ。例えば、ウィキペディアから [0] 「近く」「任意に小さい」「遠く離れている」という用語は、開集合の概念を使うことで正確に定義できる。もし「開集合」の定義を変えれば、連続関数、コンパクト集合、連結集合が何であるかも変わる。各「開集合」の定義の選択はトポロジーと呼ばれる。トポロジーを持つ集合はトポロジカル空間と呼ばれる。距離（メトリック）を定義できるペアの点がある実際の非負の距離を持つトポロジカル空間の重要なクラスがメトリック空間なんだ。メトリックがあれば多くの証明が簡単になるし、最も一般的なトポロジカル空間の多くはメトリック空間なんだ。だから、トポロジーが必ずしもニューラルネットワークを理解するための最良のレンズであるとは限らないし、この記事の著者もコメントで考えが進んでいることを示している。ただ、誤解を解こうとしてるだけなんだ。 [0] https://en.wikipedia.org/wiki/General_topology

シェアしてくれてありがとう。私も学習を多様体の観点から見ることが多い。これは強力な表現だと思う。> 私は個人的に、高次元空間では、これは実際に私が広範に記録してきた推論と区別がつかないと確信しているし、確率的推論多様体についてHacker Newsでもいくつか書いたことがある。> この多様体は、与えられた入力セットに対してデコンテクスト化されたパターン空間を学ぶことで構築される。サンプリングの本質的な確率的性質を考えると、真の推論は公理ではなく確率の観点で表現される。固定点やアトラクタを多様体上で見つけることで公理を発見することは可能かもしれないが、最終的には入力セットから構築された確率的多様体を見ていることになる。> でも、この「推論」を入力データから切り離すことはできないと思う。「メタ推論」や、十分に進んだ推論多様体に見られるような構造を見つけることは可能かもしれないが、これらの高度にデコンテクスト化された構造は、適切な再コンテクスト化がなければ全く役に立たないかもしれない。もしその多様体がその種の入力を処理するために役立つのであれば、学習可能な基礎的ルールに従ったパターンを持つ入力で訓練される必要がある。> デコンテクスト化は学習であり、入力の側面をコンテクストに依存しない関係に分解することだ。でも再コンテクスト化はその反対で、高度に抽象的で、時には表現できないコンテクストに依存しない関係を、新しい領域で有用な分析に変換する方法を知ることだ。フルコメント: https://news.ycombinator.com/item?id=42871894

└

一般的な推論について話しているの？それとも、命題の（表現の）上で作用するそのメンタルプロセスとしての推論について？その場合、「真の推論は公理ではなく確率の観点で表現される」というのが理解できない。推論の特徴の一つは、こういう風には機能しないことだ。動物が彼らが表現する命題に対して非確率的に作用する能力を全く持っていないというのは非常にあり得ないことで、これは正しい推論にとって不可欠であり、比較的簡単に提供できる能力だ。例えば、「もしクモが箱Aにいるなら、他のどこにもいない」とか。

現在のタイトルは陳腐で間違っている。これについては後で詳しく話すけど、記事自体は読みやすい。トポロジーは、距離や角度、方向、さまざまな非破壊的なストレッチを捨てた後に幾何学に残るわずかな構造のことだ。それはそんな激しい変形の後でもまだ有効な最低限のものだ。トポロジーの概念は機械学習において確かに役立つけど、スケール、距離、角度などは、データに関する重要な情報を提供することが多い。タビー猫とトラを区別したいなら、スケールを無視するのは愚かな行為だ。トポロジーは、長さや距離、角度、任意の変形を信頼できないときに特に役立つ。それは起こり得るけど、ディープラーニングが応用されたトポロジーだと主張するのは馬鹿げていて、ほとんど愚かだ。

└

トポロジーは、特に長さ、距離、角度、任意の変形を信頼できない場合に役立ちます。でも…信頼できないんですよね。入力データは、信頼できないマニフォールド上に存在します。コカ・コーラの缶の画像と停止標識の画像がピクセル空間で近くにあることには、あまり意味がありません。ニューラルネットワークは、あなたが言っているような激しい変換をすべて適用します。

└

具体的なことに入っていくと、純粋なトポロジーだったら気にならないようなことが、層の数から量子化やFP解像度まで、結構重要になってくるよね。

└

「トポロジー」って言葉には、君が主張しているような要件がない正当な辞書の定義があるんだ。君が見落としているのは、実は二つの定義があるってことだと思う。

深層ニューラルネットワーク（DNN）で出会うもう一つのトポロジーのタイプはネットワークトポロジーです。これはネットワークの構造、つまりノードがどのように接続されていて、データがどのように流れるかを指します。オートエンコーダー、畳み込みニューラルネットワーク（CNN）、生成的敵対ネットワーク（GAN）など、すでにいくつかのよく知られた例がありますが、これらはすべて生物にインスパイアされたものです。しかし、脳のトポロジーや機能的接続性についてはまだ学ぶべきことがたくさんあります。今後数年で、個々の層やノード内の新しいアーキテクチャや、専門的なネットワークがどのように接続し、相互作用するかについて新しい発見があるでしょう。また、脳は単一のネットワークに依存するのではなく、しばしば「ビッグ7」と呼ばれるいくつかのネットワークに依存しており、これらは並行して動作し、深く相互接続されています。これにはデフォルトモードネットワーク（DMN）、中央実行ネットワーク（CEN）、または辺縁ネットワークなどが含まれます。実際、1つのニューロンは異なる機能を持つ複数のネットワークの一部になることがあります。この複雑さを人工システムで完全に再現することはまだできていませんし、この「ネットワークトポロジー」から学び、インスパイアされることはまだたくさんあります。だから、「トポロジーがあれば全てが必要」なんです :-)

この投稿は私の2014年のブログ投稿に基づいているので（https://colah.github.io/posts/2014-03-NN-Manifolds-Topology/）、コメントしようと思いました。ニューラルネットワークを理解するための手段としてトポロジーを使うことに本当に努力しました。例えば、以下のフォローアップで： - https://colah.github.io/posts/2014-10-Visualizing-MNIST/ - https://colah.github.io/posts/2015-01-Visualizing-Representa... トポロジーの視点が役立つところもありましたが、ニューラルネットワークの内部で何が起こっているのかを理解しようと10年格闘した結果、あまり進展がありませんでした。もっと成功したのは： * 線形表現仮説 - 「概念」（特徴）がニューラルネットワークの方向に対応するという考え。 * 回路のアイデア - つながった概念のネットワーク。関連するいくつかの選択された文書： - https://distill.pub/2020/circuits/zoom-in/ - https://transformer-circuits.pub/2022/mech-interp-essay/inde... - https://transformer-circuits.pub/2025/attribution-graphs/bio...

└

ニューラルネットワークの理解に関することなんだけど、よく見かける誤解みたいな意見があるんだ。たとえば、- LLMは基本的にちょっと良くなったn-gramモデルだとか - 次のトークンを「ただ」予測するっていう考え方、次のトークン予測がモデルをバカにすることを意味するかのように（この[1] KarpathyのRNNに対する人気のある反応が、言語ニューラルネットをn-gramモデルと同一視する原因の一部かもしれないね。確率的オウムの論文[3]もLLMとn-gramモデルをある程度同一視してるし、「彼女は主にn-gramモデルを考えていたけど、結論は適切で関連性がある」って言ってる。ネットが本当に良くなる前は、彼らがもっと同じだった時期もあったんだろうね）[1] https://nbviewer.org/gist/yoavg/d76121dfde2618422139 [2] https://karpathy.github.io/2015/05/21/rnn-effectiveness/ [3] https://dl.acm.org/doi/pdf/10.1145/3442188.3445922

└

ねえクリス、当時君の投稿はすごくインスパイアリングだったよ。詩的なアイデアがあって。ここでのフォローアップを見るのはクールだね！

└

物理学では、異なるグローバル対称性（トポロジカル多様体）が同じ計量構造（局所幾何学）を満たすことができるのが面白いと思う。たとえば、アインシュタインの場の方程式に対する同じ計量テンソルの解が、トポロジー的に異なる多様体上に存在することがある。逆に、イジングモデルの解を見てみると、同じ格子トポロジーが多くの異なる解を持つことができ、システムが臨界点に近づくと、格子トポロジーはほとんど関係なくなる。これは単なるアナロジーだけど、少なくともダイナミクスの興味深い詳細はシステムのトポロジーに埋め込まれていないことを示唆している。もっと複雑なんだ。

└

フォローアップありがとう。君の回路スレッドは数年にわたってフォローしてるよ。線形表現仮説はすごく魅力的だと思うし、トイモデルの重ね合わせに関するレビューのドラフトがノートにあるんだ。回路についてはあまり魅力を感じないけど、そこに関する分析は特にトランスフォーマーアーキテクチャに結びついている気がする。でも、俺が何を知ってるかは分からないけどね。線形表現仮説については、アーキテクチャによるんじゃないかな？GANやVAE、CLIPなどは明示的に多様体をモデル化しているように見えるし、単純なモデルでも最適化の圧力によって、似たような特徴を同じ線形方向にまとめることがあると思う。多様体仮説と、単純なモデルが似たような特徴を直交方向に配置するという経験的証拠を調和させるのは難しいかもしれないけど、それは最適化されている損失にもっと関係があるんじゃないかな？トイモデルの重ね合わせでは、MSEを使っていて、実質的にモデルがオートエンコーダーの回帰/圧縮タスクを学ぶようになってる。だから、共起する特徴間の干渉パターンが重要になるのは理解できる。でも、異なる設定、たとえばコントラスト損失の目的だと、同じ干渉最小化の振る舞いは見られないと思う。

└

俺の予想では、線形表現仮説は、俺の期待としては、リーベグループに近い意味でおおよそ正しいだけだと思う。局所的には平坦だけど、ある時点でその概念は崩れる。ちなみに、俺は大学で数クラスを受けただけの機械学習についてはほとんど知らない数学者なんだ。

└

これらの投稿が大好きで、俺の研究や博士課程の方向性にたくさん影響を与えたよ。これに興味がある人には、ノーマライズフローについても学ぶことをお勧めしたいな。（フローマッチングのより広いクラスだよ）これは座標変換を学習するネットワークなんだ。だから、幾何学やトポロジーとの関連がもっと明白になる。もちろん、フローの欠点は、一定の次元に縛られることだけど（まあ…ちょっとだけど）、それでももっと解釈しやすい環境で作業しているから、何が起こっているのかを理解するのに役立つと思うよ。

└

以前の投稿には、いくつかの小さなHNのディスカッションがあったよ（興味がある人のために）：Neural Networks, Manifolds, and Topology (2014) - https://news.ycombinator.com/item?id=19132702 - 2019年2月（コメント25件）Neural Networks, Manifolds, and Topology (2014) - https://news.ycombinator.com/item?id=9814114 - 2015年7月（コメント7件）Neural Networks, Manifolds, and Topology - https://news.ycombinator.com/item?id=7557964 - 2014年4月（コメント29件）

└

これは、2011年にトポロジーを初めて勉強して以来、リアルな世界の状況で「適用」しようとした私の経験を反映してる。今でも「リアルワールドデータは滑らかで低次元の多様体に近似される」という一般的なフレーズにためらってる。実際にこの主張がリアルワールドデータにどの程度当てはまるのか、また自然データセットに効率を促進するために適用する次元削減手法によってどの程度歪められているのかをじっくり調査したいんだけど、残念ながら、誰にそんな時間があるんだ？

└

線形表現仮説はかなり興味深いね。これの背後にある直感が気になる。

もう一つ関連する観察を共有したいんだけど、トポロジー数学は定義上、幾何学的なオブジェクトや変換を指すんだ。でも、抽象的なオブジェクト間の関係を定義する、もっとコンピュータっぽいトポロジーの定義も存在するんだよ。例えば、グラフデータ構造を見てみよう。グラフは保存されたオブジェクトの集合（頂点）と、頂点間の保存された関係の集合（辺）を持ってる。こういうふうに、グラフは離散的な形でトポロジーを定義してるんだ。グラフに密接に関連するネットワークデータ構造も見てみよう。基本的には同じアイデアだけど、各辺に値が保存されてるのが追加されてる。ネットワークはオブジェクトの集合（頂点）とオブジェクト間の関係の集合（辺）を持ってて、辺は辺の値も保持してる。だから、ネットワークも抽象的なオブジェクト間の関係を定義するから、トポロジーの一形態なんだ。この観点から見ると、グラフは重みが {0, 1} のニューラルネットワークとして見ることができる。グラフの辺は存在するか存在しないかだから、値は {0, 1} のみ。だけど、ネットワーク構造は各辺に任意の値を保持できるから、オブジェクト（ニューロン）間の接続は存在だけでなく、辺に割り当てられた値（重み）でも特徴づけられる。これでニューラルネットワークの完全なモデルが得られるんだ。そして、そう、これは離散的な形のトポロジーに基づいて構築されてるんだよ。

歴史上最も成功したクオンツトレーダーの一人、ジム・シモンズは60年代にトポロジーを勉強してたんだ。彼は流行る前に取引に深層ニューラルネットワークを使っていたという噂がある。この投稿は、私にとってその二つを理解するのに役立ったよ。

ハクソク