Long short-term memory

aus Wikipedia, der freien Enzyklopädie
Wechseln zu: Navigation, Suche
Dieser Artikel oder Abschnitt ist nicht allgemeinverständlich formuliert. Die Mängel sind unter Diskussion:Long short-term memory beschrieben. Wenn du diesen Baustein entfernst, begründe dies bitte auf der Artikeldiskussionsseite und ergänze den automatisch erstellten Projektseitenabschnitt Wikipedia:Unverständliche Artikel#Long short-term memory um {{Erledigt|1=~~~~}}.

Long short-term memory (LSTM) bezeichnet im maschinellen Lernen einen Typ von rekurrenten neuronalen Netzen.

LSTM-Netze wurden 1997 von Sepp Hochreiter und Jürgen Schmidhuber in einer Veröffentlichung vorgestellt.[1] Im Gegensatz zu traditionellen rekurrenten Netzen können LSTMs längere zeitlich verzögerte Effekte z. B. für Klassifizierungsaufgaben berücksichtigen und effektiv trainiert werden.

Das Training von neuronalen Netzen funktioniert typischerweise über den Backpropagation-Algorithmus. Dieser fasst das neuronale Netz samt Daten und Fehlerfunktion als differenzierbare Funktion auf, deren Minimum bestimmt werden muss. Dafür wird der Fehler, welcher bei den Ausgabeneuronen einfach gemessen werden kann, im Netz zurückpropagiert und die Gewichte so aktualisiert. Bei rekurrenten Netzen fasst man das Netz selbst als unendlich tief auf. Da der Gradient der Sigmoid-Aktivierungsfunktionen im Wertebereich ]0, 1[[2] liegt und die Gradienten für jede Schicht multipliziert werden, verschwindet der zurückpropagierte Fehler mit steigender Netztiefe. Das Netz kann also keine längeren Zusammenhänge erlernen. Bei anderen Aktivierungsfunktionen besteht das Problem, dass der Gradient beliebig groß wird (man sagt, der Gradient explodiert). Während das Problem der verschwindenden Gradienten durch den Aufbau der LSTM Netze behoben wird, muss das Problem der explodierenden Gradienten durch sogenanntes Gradient-Clipping durch den Optimierer auf einen Maximalwert beschränkt werden.

Dies bewerkstelligen LSTMs, indem sie drei Gates (engl. forget gate, input gate, output gate) verwenden. Diese Gates bewirken, dass der Gradient beim Training mit dem Backpropagation-Algorithmus weder explodiert noch verschwindet. Das Problem des verschwindenden Gradienten, wenn der Gradient also gegen 0 geht, ist, dass sich das Netzwerk nicht ändert. Das Netzwerk ist dann also nicht in der Lage zu lernen.

LSTM-Netze werden insbesondere in der Spracherkennung für die Klassifikation von Phonemen eingesetzt.

Einzelnachweise[Bearbeiten | Quelltext bearbeiten]

  1. Sepp Hochreiter und Jürgen Schmidhuber: Long short-term memory. In: Neural Computation. 9, Nr. 8, 1997, S. 1735–1780. doi:10.1162/neco.1997.9.8.1735. PMID 9377276.
  2. Intervall-Schreibweise, die die Endpunkte ausschließt: Intervall (Mathematik)#Offenes Intervall