バックプロパゲーションを発明したのは誰か？

2025年8月19日原文(people.idsia.ch)

概要

バックプロパゲーション（BP） は、現代のニューラルネットワーク（NN）とディープラーニングの中心技術
1970年にSeppo Linnainmaa が現代的なBP（自動微分の逆モード）を初めて発表
BPの前身は1960年にHenry J. Kelley が発表し、以降多くの研究者が発展に寄与
ディープNNの効率的な訓練法としてBPが広く普及 したのは2010年代以降
歴史的経緯や誤解の訂正、主要な研究者や論文 についての要点整理

バックプロパゲーション（BP）の発明と発展

BPの現代的手法 は1970年、フィンランドの大学院生Seppo Linnainmaaによる発表
- 自動微分の逆モードとしても知られる
- 当初はNNに直接関連付けられていなかった
BPの前身 は1960年、Henry J. Kelleyによる最適飛行経路の勾配理論
- 1960年代から1970年代にかけてBryson、Pontryagin、Dreyfus、Amariらが関連研究を展開
勾配降下法 の歴史は19世紀に遡るが、NNへの応用は1960年代から
- 初期は変分法や動的計画法を基盤とした解析
効率的なBP は1970年のLinnainmaa論文・FORTRANコードで初めて明示
- 1971年Ostrovskiiらによる学術誌での初公開
- 2020年時点でTensorflow等全てのNNソフトウェアがLinnainmaa法を基礎に構築

ニューラルネットワークへの応用

コスト関数最小化へのBP応用 は1973年Dreyfusが明示
NN特化のBP は1982年Werbosによる初報告
- 1974年の彼の博士論文には未記載
Amari（1967） は多層パーセプトロン（MLP）をSGDでエンドツーエンド訓練する手法を提案
- 5層MLPで内部表現の獲得を実証
GMDHネットワーク（Ivakhnenko, 1965〜） は階層的な内部表現を学習する最初のディープNN
- 層ごとに回帰分析で訓練

BPの普及とその後

1985年頃 にはLeCunやParkerもBPの研究を発表
- 計算コストの低下とPC普及で実験が容易に
Rumelhartら（1986） の実験でBPがNNの隠れ層内部表現を有効に学習することを実証
2010年以前 は「ディープNNはBPだけで訓練できない」との誤解が一般的
- 無教師事前学習（Schmidhuber, 1991）が必要とされていた
2010年、Schmidhuberらの研究 でディープFNNが単純なBPのみで有用な結果を出せると示され、BPの重要性が再認識

よくある誤解と正しい理解

BP＝単なる連鎖律 という誤解
- 実際は「大規模ネットワークへの効率的な連鎖律適用法」
- 非効率な方法も多く存在し、BPの効率性が鍵
BPの発表は1970年
- それ以前の研究もあるが、「効率的なBP」の明示はLinnainmaaが初

参考文献・主要人物

Seppo Linnainmaa （1970年）：現代BPの発明
Henry J. Kelley （1960年）：BPの前駆研究
Amari, Saito, Bryson, Dreyfus, Werbos, Ivakhnenko, LeCun, Parker, Rumelhart ：関連分野の主要研究者
Schmidhuber ：ディープラーニング史の整理とBP普及の功績

ライセンス・連絡先

教育・非商用利用 を推奨（CC BY-NC-SA 4.0）
誤り指摘やフィードバック はjuergen@idsia.chまで

このまとめは、Jürgen Schmidhuberの2014年～2025年にわたるBP史の解説をもとに、要点を日本語で簡潔に整理したものです。

Hackerたちの意見

BPの現代版（自動微分の逆モードとも呼ばれる）ってことは…自動積分？比例、積分、微分。PIDループって、まさに彼らが話してることみたいだね。

└

逆モードの自動微分は積分じゃないよ。まだ微分だけど、手でやるのとは違う方法で導関数を計算してる。基本的には、直感とは逆の順序で連鎖律を適用してるだけ。関数を実行して値をキャッシュして、逆順で参照する必要があるから、通常の順方向モードの自動微分よりもオーバーヘッドが多いけど、入力がめちゃくちゃ多くて出力が少ない関数（例えば、高次元空間でスカラー関数の勾配を計算する場合）には、アルゴリズム的に効率的で、原始関数を一回通過するだけで済むのが利点だよ。一方、従来の順方向モードの導関数は、入力が少なくて出力が多い関数に対して最も効率的なんだ。要するに、双対関係みたいなもんだね。

└

順方向モードの自動微分は、各スカラー導関数のための式を作るんだ。もしパラメータが10億あったら、各導関数をゼロから計算しなきゃならない。名前の通り、計算は前に進む形で行われる。逆モードの自動微分は、記号表現の根元から始めて、各サブ表現の導関数を同時に計算する。二つの違いは、メモ化なしでフィボナッチ数列を再帰的に計算するのと、反復的に計算するのとの違いみたいなもんだ。無駄な作業を何度も繰り返さずに済むんだよ。

└

状態空間制御理論の最適化に関する研究がたくさんあって、AIとのクロスオーバーがあるんじゃないかと強く疑ってる。数学的構造もかなり似てるし。例えば、状態空間制御係数の最適化はLLMマトリックスのトレーニングに似てる感じがする…

そう言われてみると、いつもオイラー・ラグランジュの手法みたいな、微分幾何学の数値計算で使われる定式化から来てると思ってた。実際、アルゴリズムを再現したとき、運動学の勾配降下法を思い出したし、各層のヤコビ行列の計算が一般座標での反復的なポーズ計算に似てた。これが「新しい」ものだとは思わなかったな。

ずっと気になってる質問があるんだけど。2018年にマイケル・ジョーダン（UCバークレー）が面白いエッセイを書いてて - https://medium.com/@mijordan3/artificial-intelligence-the-re...（人工知能 — 革命はまだ起きていない）その中で彼はこう言ってた：> 確かに、1980年代初頭にデイビッド・ルメルハートによって再発見された有名な「バックプロパゲーション」アルゴリズムは、現在「AI革命」の核心と見なされていますが、1950年代と60年代の制御理論の分野で最初に生まれました。その初期の応用の一つは、アポロ宇宙船が月に向かう際の推力を最適化することでした。彼が言及していた論文や研究を知っている人がいたら教えてほしい。シュミットフーバーの作品には多くの引用があって、以前の試みでは論文に迷ってしまったんだ。

└

これを見つけたけど、役に立つかも： https://gwern.net/doc/ai/nn/1986-rumelhart-2.pdf

└

これかもね：ヘンリー・J・ケリー（1960年）。最適飛行経路の勾配理論。[1] https://claude.ai/public/artifacts/8e1dfe2b-69b0-4f2c-88f5-0...

└

多分、カルマンフィルタ（1961年）とLMSフィルタ（1960年）のことを言ってるんじゃないかな。

└

... 1950年代と1960年代に制御理論の分野で初めて登場しました。その初期の応用の一つは、アポロ宇宙船が月に向かう際の推力を最適化することでした。「それ」はバックプロパゲーションではなく、制御理論を指していると思います。

└

ウィドナルの概要をここで見てみて。バックプロパゲーションと関係がある部分について話してるよ。「アポロ月面モジュールの自動操縦装置における最小時間推力ベクトル制御法」（1970年）

└

これはブライソンとホーの「応用最適制御」（1969年）に載ってるよ。ヤン・ルカンは、彼の1989年のバックプロパゲーションに関する論文でこれを認めてるんだ。> 「このテーマに関する最初の研究以来、著者はA. ブライソンとY.-C. ホー [ブライソンとホー、1969] がラグランジュ形式を使ってバックプロパゲーションアルゴリズムを説明していることを発見した。彼らの説明は、もちろん機械学習ではなく最適制御の枠組みの中にあったが、結果として得られる手続きはバックプロパゲーションと同じである。」

Hacker Newsで議論の続きを見る

ハクソク