Backpropagation

Eine gesichtete Version dieser Seite, die am 11. Oktober 2016 freigegeben wurde, basiert auf dieser Version.

Backpropagation oder auch Backpropagation of Error bzw. auch Fehlerrückführung^[1] (auch Rückpropagierung) ist ein verbreitetes Verfahren für das Einlernen von künstlichen neuronalen Netzen. Es gehört zur Gruppe der überwachten Lernverfahren und wird als Verallgemeinerung der Delta-Regel auf mehrschichtige Netze angewandt. Dazu muss ein externer Lehrer existieren, der zu jedem Zeitpunkt der Eingabe die gewünschte Ausgabe, den Zielwert, kennt. Die Rückwärtspropagierung ist ein Spezialfall eines allgemeinen Gradientenverfahrens in der Optimierung, basierend auf dem mittleren quadratischen Fehler.

Geschichte

Nach verschiedenen Quellen^[2]^[3]^[4]^[5] wurden die Grundlagen des Verfahrens im Kontext der Steuerungstheorie hergeleitet durch Prinzipien dynamischer Programmierung, und zwar durch Henry J. Kelley^[6] im Jahre 1960 und Arthur E. Bryson im Jahre 1961.^[7] 1962 publizierte Stuart Dreyfus eine einfachere Herleitung durch die Kettenregel.^[8] Vladimir Vapnik zitiert einen Artikel aus dem Jahre 1963^[9] in seinem Buch über Support Vector Machines. 1969 beschrieben Bryson und Yu-Chi Ho das Verfahren als mehrstufige Optimierung dynamischer Systeme.^[10]^[11]

Seppo Linnainmaa publizierte im Jahre 1970 schließlich die allgemeine Methode für automatisches Differenzieren (AD) diskreter Netzwerke verschachtelter differenzierbarer Funktionen.^[12]^[13] Dies ist die moderne Variante des Backpropagation-Verfahrens, welche auch bei dünner Vernetzung effizient ist.^[14]^[15]^[4]^[5]

1973 verwendete Stuart Dreyfus Backpropagation, um Parameter von Steuersystemen proportional zu ihren Fehlergradienten zu adjustieren.^[16] Paul Werbos erwähnte 1974 die Möglichkeit, dieses Prinzip auf künstliche neuronale Netze anzuwenden,^[17] und im Jahre 1982 tat er dies auf die heute weit verbreitete Art und Weise.^[18]^[5] Vier Jahre später zeigten David E. Rumelhart, Geoffrey E. Hinton und Ronald J. Williams durch Experimente, dass diese Methode zu nützlichen internen Repräsentationen von Eingabedaten in tieferen Lagen neuronaler Netze führen kann.^[19] Eric A. Wan war 1993 der erste,^[4] der einen internationalen Mustererkennungswettbewerb durch Backpropagation gewann.^[20]

Fehlerminimierung

Beim Lernproblem wird für beliebige Netze eine möglichst genaue Abbildung von gegebenen Eingabevektoren auf gegebene Ausgabevektoren angestrebt. Dazu wird die Qualität der Abbildung durch eine Fehlerfunktion beschrieben, die hier durch den quadratischen Fehler definiert wird:

$E={\frac {1}{2}}\sum \limits _{i=1}^{n}(t_{i}-o_{i})^{2}$ .

Dabei ist

E

der Fehler,

n

die Anzahl der Muster, die dem Netz vorgestellt werden,

t_{i}

die gewünschte Soll-Ausgabe oder Zielwert (target) und

o_{i}

die errechnete Ist-Ausgabe (output).

Der Faktor ${\dfrac {1}{2}}$ wird dabei lediglich zur Vereinfachung bei der Ableitung hinzugenommen.

Das Ziel ist nun die Minimierung der Fehlerfunktion, wobei aber im Allgemeinen lediglich ein lokales Minimum gefunden wird. Das Einlernen eines künstlichen neuronalen Netzes erfolgt bei dem Backpropagation-Verfahren durch die Änderung der Gewichte, da die Ausgabe des Netzes – außer von der Aktivierungsfunktion – direkt von ihnen abhängig ist.

Algorithmus

Der Backpropagation-Algorithmus läuft in folgenden Phasen:

Ein Eingabemuster wird angelegt und vorwärts durch das Netz propagiert.
Die Ausgabe des Netzes wird mit der gewünschten Ausgabe verglichen. Die Differenz der beiden Werte wird als Fehler des Netzes erachtet.
Der Fehler wird nun wieder über die Ausgabe- zur Eingabeschicht zurück propagiert. Dabei werden die Gewichtungen der Neuronenverbindungen abhängig von ihrem Einfluss auf den Fehler geändert. Dies garantiert bei einem erneuten Anlegen der Eingabe eine Annäherung an die gewünschte Ausgabe.

Der Name des Algorithmus ergibt sich aus dem Zurückpropagieren des Fehlers (engl. error back-propagation).

Herleitung

Die Formel des Backpropagation-Verfahrens wird durch Differenziation hergeleitet: Für die Ausgabe eines Neurons abhängig zweier Eingaben $x_{1}$ und $x_{2}$ erhält man eine zweidimensionale Hyperebene, wobei der Fehler des Neurons abhängig von den Gewichtungen $w_{1}$ der Eingabe $x_{1}$ und $w_{2}$ der Eingabe $x_{2}$ ist. Diese Fehleroberfläche enthält Minima, die es zu finden gilt. Dies kann nun durch das Gradientenverfahren erreicht werden, indem von einem Punkt auf der Oberfläche aus in Richtung des stärksten Abfallens der Fehlerfunktion abgestiegen wird.

Neuronenausgabe

Für die Herleitung des Backpropagation-Verfahrens sei die Neuronenausgabe eines künstlichen Neurons kurz dargestellt. Die Ausgabe $o_{j}$ eines künstlichen Neurons $j$ lässt sich definieren durch

o_{j}=\varphi ({\mbox{net}}_{j})

und die Netzeingabe ${\mbox{net}}_{j}$ durch

{\mbox{net}}_{j}=\sum \limits _{i=1}^{n}x_{i}w_{ij}.

Dabei ist

\varphi

eine differenzierbare Aktivierungsfunktion deren Ableitung nicht überall gleich null ist,

n

die Anzahl der Eingaben,

x_{i}

die Eingabe

i

und

w_{ij}

die Gewichtung zwischen Neuron

i

und Neuron

j

.

Auf einen Schwellwert $\theta _{j}$ wird hier verzichtet. Dieser wird meist durch ein immer "feuerndes" on-Neuron realisiert und dessen Ausgabe mit dem konstanten Wert 1 belegt. Auf diese Weise entfällt eine Unbekannte.

Ableitung der Fehlerfunktion

Die partielle Ableitung der Fehlerfunktion $E$ ergibt sich durch Verwendung der Kettenregel:

{\dfrac {\partial E}{\partial w_{ij}}}={\frac {\partial E}{\partial o_{j}}}{\frac {\partial o_{j}}{\partial {\mbox{net}}_{j}}}{\frac {\partial {\mbox{net}}_{j}}{\partial w_{ij}}}

Aus den einzelnen Termen kann nun die folgende Formel berechnet werden. Dabei ist die Herleitung im Gegensatz zur einfachen Delta-Regel abhängig von zwei Fällen:

Liegt das Neuron in der Ausgabeschicht, so ist es direkt an der Ausgabe beteiligt,
liegt es dagegen in einer verdeckten Schicht, so kann die Anpassung nur indirekt berechnet werden.

Konkret:

\Delta w_{ij}=-\eta {\dfrac {\partial E}{\partial w_{ij}}}=\eta \delta _{j}x_{i}

mit

\delta _{j}={\begin{cases}\varphi '({\mbox{net}}_{j})(t_{j}-o_{j})&{\mbox{falls }}j{\mbox{ Ausgabeneuron ist,}}\\\varphi '({\mbox{net}}_{j})\sum _{k}\delta _{k}w_{jk}&{\mbox{falls }}j{\mbox{ verdecktes Neuron ist.}}\end{cases}}

Dabei ist

\Delta w_{ij}

die Änderung des Gewichts

w_{ij}

der Verbindung von Neuron

i

zu Neuron

j

,

\eta

eine feste Lernrate, mit der die Stärke der Gewichtsänderungen bestimmt werden kann,

\delta _{j}

das Fehlersignal des Neurons

j

, entsprechend zu

{\frac {\partial E}{\partial {\mbox{net}}_{j}}}

,

x_{i}

die Ausgabe des Neurons

i

,

t_{j}

die Soll-Ausgabe des Ausgabeneurons

j

,

o_{j}

die Ist-Ausgabe des Ausgabeneurons

j

und

k

der Index der nachfolgenden Neuronen von

j

.

Modifizierung der Gewichte

Die Variable $\delta _{j}$ geht dabei auf die Unterscheidung der Neuronen ein: Liegt das Neuron in einer verdeckten Schicht, so wird seine Gewichtung abhängig von dem Fehler geändert, den die nachfolgenden Neuronen erzeugen, welche wiederum ihre Eingaben aus dem betrachteten Neuron beziehen.

Die Änderung der Gewichte kann nun wie folgt vorgenommen werden:

w_{ij}^{\mbox{neu}}=w_{ij}^{\mbox{alt}}+\Delta w_{ij}

.

Dabei ist

w_{ij}^{\mbox{neu}}

der neue Wert des Gewichts,

w_{ij}^{\mbox{alt}}

der alte Wert des Gewichts und

\Delta w_{ij}

die oben berechnete Änderung des Gewichts (basierend auf

w^{\mbox{alt}}

)

Erweiterung

Die Wahl der Lernrate $\eta$ ist wichtig für das Verfahren, da ein zu hoher Wert eine starke Veränderung bewirkt, wobei das Minimum verfehlt werden kann, während eine zu kleine Lernrate das Einlernen unnötig verlangsamt.

Verschiedene Optimierungen von Rückwärtspropagierung, z. B. Quickprop, zielen vor allem auf die Beschleunigung der Fehlerminimierung; andere Verbesserungen versuchen vor allem die Zuverlässigkeit zu erhöhen.

Backpropagation mit variabler Lernrate

Um eine Oszillation des Netzes, d. h. alternierende Verbindungsgewichte zu vermeiden, existieren Verfeinerungen des Verfahrens, bei dem mit einer variablen Lernrate $\eta$ gearbeitet wird.

Backpropagation mit Trägheitsterm

Durch die Verwendung eines variablen Trägheitsterms (Momentum) $\alpha$ kann der Gradient und die letzte Änderung gewichtet werden, so dass die Gewichtsanpassung zusätzlich von der vorausgegangenen Änderung abhängt. Ist das Momentum $\alpha$ gleich 0, so hängt die Änderung allein vom Gradienten ab, bei einem Wert von 1 lediglich von der letzten Änderung.

Ähnlich einer Kugel, die einen Berg hinunter rollt und deren aktuelle Geschwindigkeit nicht nur durch die aktuelle Steigung des Berges, sondern auch durch ihre eigene Trägheit bestimmt wird, lässt sich der Backpropagation ein Trägheitsterm hinzufügen:

\Delta w_{ij}(t+1)=(1-\alpha )\eta \delta _{j}x_{i}+\alpha \Delta w_{ij}(t)

Dabei ist

\Delta w_{ij}(t+1)

die Änderung des Gewichts

w_{ij}(t+1)

der Verbindung von Neuron

i

zu Neuron

j

zum Zeitpunkt (t+1),

\eta

eine Lernrate,

\delta _{j}

das Fehlersignal des Neurons

j

und

x_{i}

die Eingabe des Neurons

i

,

\alpha

der Einfluss des Trägheitsterms

\Delta w_{ij}(t)

. Dieser entspricht der Gewichtsänderung zum vorherigen Zeitpunkt.

Damit hängt die aktuelle Gewichtsänderung $(t+1)$ sowohl vom aktuellen Gradienten der Fehlerfunktion (Steigung des Berges, 1. Summand), als auch von der Gewichtsänderung des vorherigen Zeitpunktes ab (eigene Trägheit, 2. Summand).

Durch den Trägheitsterm werden unter anderem Probleme der Backpropagation-Regel in steilen Schluchten und flachen Plateaus vermieden. Da zum Beispiel in flachen Plateaus der Gradient der Fehlerfunktion sehr klein wird, käme es ohne Trägheitsterm unmittelbar zu einem "Abbremsen" des Gradientenabstiegs, dieses "Abbremsen" wird durch die Addition des Trägheitsterms verzögert, so dass ein flaches Plateau schneller überwunden werden kann.

Sobald der Fehler des Netzes minimal wird, kann das Einlernen abgeschlossen werden und das mehrschichtige Netz ist nun bereit, die erlernten Muster zu klassifizieren.

Literatur

David E. Rumelhart, Geoffrey E. Hinton und Ronald J. Williams: Learning representations by back-propagating errors. In: Nature, 1986, Band 323, S. 533-536
Raúl Rojas Theorie der Neuronalen Netze, Springer 1996, ISBN 3-540-56353-9 E-Book der englischen Version (PDF; 4,6 MB), S. 151 ff
Burkhard Lenze, Einführung in die Mathematik neuronaler Netze. Logos-Verlag, Berlin, 2003, ISBN 3-89722-021-0
Robert Callan, Neuronale Netze im Klartext, Pearson Studium, München, 2003.
Andreas Zell, Simulation neuronaler Netze, R. Oldenbourg Verlag, München, 1997, ISBN 3-486-24350-0

Weblinks

Backpropagator's Review (lange nicht gepflegt)
Ein kleiner Überblick über Neuronale Netze (D. Kriesel) - Größtes kostenloses Skriptum in Deutsch zu Neuronalen Netzen. Sehr reich illustriert und anschaulich. Enthält ein Kapitel über Backpropagation samt Motivation, Herleitung und Variationen wie z.B. Trägheitsterm, Lernratenvariationen u.a.
Membrain: freier Neuronale-Netze-Editor-und-Simulator für Windows
Leicht verständliches Tutorial über Backpropagation mit Implementierungen (englisch)

Quellen

↑ Werner Kinnebrock: Neuronale Netze: Grundlagen, Anwendungen, Beispiele. R. Oldenbourg Verlag, München 1994, ISBN 3-486-22947-8
↑ Stuart Dreyfus (1990). Artificial Neural Networks, Back Propagation and the Kelley-Bryson Gradient Procedure. J. Guidance, Control and Dynamics, 1990.
↑ Eiji Mizutani, Stuart Dreyfus, Kenichi Nishio (2000). On derivation of MLP backpropagation from the Kelley-Bryson optimal-control gradient formula and its application. Proceedings of the IEEE International Joint Conference on Neural Networks (IJCNN 2000), Como Italy, July 2000. Online
↑ ^a ^b ^c Jürgen Schmidhuber (2015). Deep learning in neural networks: An overview. Neural Networks 61 (2015): 85-117. ArXiv
↑ ^a ^b ^c Jürgen Schmidhuber (2015). Deep Learning. Scholarpedia, 10(11):32832. Section on Backpropagation
↑ Henry J. Kelley (1960). Gradient theory of optimal flight paths. Ars Journal, 30(10), 947-954. Online
↑ Arthur E. Bryson (1961, April). A gradient method for optimizing multi-stage allocation processes. In Proceedings of the Harvard Univ. Symposium on digital computers and their applications.
↑ Stuart Dreyfus (1962). The numerical solution of variational problems. Journal of Mathematical Analysis and Applications, 5(1), 30-45. Online
↑ Bryson, A.E.; W.F. Denham; S.E. Dreyfus. Optimal programming problems with inequality constraints. I: Necessary conditions for extremal solutions. AIAA J. 1, 11 (1963) 2544-2550
↑ Stuart Russell, Peter Norvig: Artificial Intelligence A Modern Approach. S. 578: „The most popular method for learning in multilayer networks is called Back-propagation.“
↑ Applied optimal control: optimization, estimation, and control. Blaisdell Publishing Company or Xerox College Publishing, 1969, S. 481.
↑ Seppo Linnainmaa (1970). The representation of the cumulative rounding error of an algorithm as a Taylor expansion of the local rounding errors. Master's Thesis (in Finnish), Univ. Helsinki, 6-7.
↑ Seppo Linnainmaa (1976). Taylor expansion of the accumulated rounding error. BIT Numerical Mathematics, 16(2), 146-160.
↑ Griewank, Andreas (2012). Who Invented the Reverse Mode of Differentiation?. Optimization Stories, Documenta Matematica, Extra Volume ISMP (2012), 389-400.
↑ Griewank, Andreas and Walther, A.. Principles and Techniques of Algorithmic Differentiation, Second Edition. SIAM, 2008.
↑ Stuart Dreyfus (1973). The computational solution of optimal control problems with time lag. IEEE Transactions on Automatic Control, 18(4):383–385.
↑ Paul Werbos (1974). Beyond regression: New tools for prediction and analysis in the behavioral sciences. PhD thesis, Harvard University.
↑ Paul Werbos (1982). Applications of advances in nonlinear sensitivity analysis. In System modeling and optimization (pp. 762-770). Springer Berlin Heidelberg. Online
↑ David E. Rumelhart, Geoffrey E. Hinton und Ronald J. Williams: Learning representations by back-propagating errors. In: Nature, 1986, Band 323, S. 533-536
↑ Eric A. Wan (1993). Time series prediction by using a connectionist network with internal delay lines. In SANTA FE INSTITUTE STUDIES IN THE SCIENCES OF COMPLEXITY-PROCEEDINGS (Vol. 15, pp. 195-195). Addison-Wesley Publishing Co.

[1] Werner Kinnebrock: Neuronale Netze: Grundlagen, Anwendungen, Beispiele. R. Oldenbourg Verlag, München 1994, ISBN 3-486-22947-8

[dreyfus1990-2] Stuart Dreyfus (1990). Artificial Neural Networks, Back Propagation and the Kelley-Bryson Gradient Procedure. J. Guidance, Control and Dynamics, 1990.

[mizutani2000-3] Eiji Mizutani, Stuart Dreyfus, Kenichi Nishio (2000). On derivation of MLP backpropagation from the Kelley-Bryson optimal-control gradient formula and its application. Proceedings of the IEEE International Joint Conference on Neural Networks (IJCNN 2000), Como Italy, July 2000. Online

[schmidhuber2015-4] Jürgen Schmidhuber (2015). Deep learning in neural networks: An overview. Neural Networks 61 (2015): 85-117. ArXiv

[scholarpedia2015-5] Jürgen Schmidhuber (2015). Deep Learning. Scholarpedia, 10(11):32832. Section on Backpropagation

[kelley1960-6] Henry J. Kelley (1960). Gradient theory of optimal flight paths. Ars Journal, 30(10), 947-954. Online

[bryson1961-7] Arthur E. Bryson (1961, April). A gradient method for optimizing multi-stage allocation processes. In Proceedings of the Harvard Univ. Symposium on digital computers and their applications.

[dreyfus1962-8] Stuart Dreyfus (1962). The numerical solution of variational problems. Journal of Mathematical Analysis and Applications, 5(1), 30-45. Online

[9] Bryson, A.E.; W.F. Denham; S.E. Dreyfus. Optimal programming problems with inequality constraints. I: Necessary conditions for extremal solutions. AIAA J. 1, 11 (1963) 2544-2550

[10] Stuart Russell, Peter Norvig: Artificial Intelligence A Modern Approach. S. 578: „The most popular method for learning in multilayer networks is called Back-propagation.“

[11] Applied optimal control: optimization, estimation, and control. Blaisdell Publishing Company or Xerox College Publishing, 1969, S. 481.

[lin1970-12] Seppo Linnainmaa (1970). The representation of the cumulative rounding error of an algorithm as a Taylor expansion of the local rounding errors. Master's Thesis (in Finnish), Univ. Helsinki, 6-7.

[lin1976-13] Seppo Linnainmaa (1976). Taylor expansion of the accumulated rounding error. BIT Numerical Mathematics, 16(2), 146-160.

[grie2012-14] Griewank, Andreas (2012). Who Invented the Reverse Mode of Differentiation?. Optimization Stories, Documenta Matematica, Extra Volume ISMP (2012), 389-400.

[grie2008-15] Griewank, Andreas and Walther, A.. Principles and Techniques of Algorithmic Differentiation, Second Edition. SIAM, 2008.

[dreyfus1973-16] Stuart Dreyfus (1973). The computational solution of optimal control problems with time lag. IEEE Transactions on Automatic Control, 18(4):383–385.

[werbos1974-17] Paul Werbos (1974). Beyond regression: New tools for prediction and analysis in the behavioral sciences. PhD thesis, Harvard University.

[werbos1982-18] Paul Werbos (1982). Applications of advances in nonlinear sensitivity analysis. In System modeling and optimization (pp. 762-770). Springer Berlin Heidelberg. Online

[Rumelhart1986-19] David E. Rumelhart, Geoffrey E. Hinton und Ronald J. Williams: Learning representations by back-propagating errors. In: Nature, 1986, Band 323, S. 533-536

[wan1993-20] Eric A. Wan (1993). Time series prediction by using a connectionist network with internal delay lines. In SANTA FE INSTITUTE STUDIES IN THE SCIENCES OF COMPLEXITY-PROCEEDINGS (Vol. 15, pp. 195-195). Addison-Wesley Publishing Co.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

Backpropagation

Inhaltsverzeichnis

Geschichte

Fehlerminimierung

Algorithmus