Diskussion:Long short-term memory
Was ist unverständlich?
[Quelltext bearbeiten]@Innobello: Du solltest schon sagen was im Artikel unverständlich ist. --Martin Thoma 14:27, 7. Jul. 2016 (CEST)
- Sorry, ich dachte, das läge auf der Hand, da wir ja für absolute Laien schreiben. Völlig unverständlich (und auch nicht verlinkt) ist mir des Wesen von rekurrenten neuronalen Netzen. Bei Diese Gates verhindern, dass der Gradient beim Training mit dem Backpropagation-Algorithmus weder explodiert noch verschwindet. stehe ich genauso im Regen. Backpropagation ist wenigstens verlinkt, erschlägt einen aber mit einem Wust an Formeln. Sicher bin ich da nicht ganz objektiv, da in anderen Disziplinen zu Hause, aber vielleicht kannst Du ja an der Allgemeinverständlichkeit noch etwas schrauben. Beste Grüße --Innobello (Diskussion) 14:50, 7. Jul. 2016 (CEST)
- Rekurrente neuronale Netze sind verlinkt. Was rekurrente neuronale Netze sind sollte auch nicht in diesem Artikel erklärt werden. In einem Artikel über BMW erklärt man ja auch nicht erst was ein Auto ist. Auch sollte man die Artikel nicht zusammenführen, da es weitere rekurrente Netze (z.B. GRU, Hopfield-Netze) gibt. Über alle kann man eigentlich recht viel schreiben.
- Backpropagation ist wenigstens verlinkt, erschlägt einen aber mit einem Wust an Formeln.
- Auch hier muss ich sagen, dass dann der "unverständlich"-Kommentar nicht zu diesem Artikel sondern zum Backpropagation-Artikel gehört. Wenn überhaupt.
- Das die Sache mit dem explodierenden / verschwindenden Gradienten nicht klar ist sehe ich ein. Gerade habe ich den Text noch etwas ergänzt, aber ich sehe dass es immer noch nicht zufriedenstellend ist. Mal schauen, vielleicht finde ich bald die Zeit das im Detail zu erklären. Danke fürs erklären!
- Viele Grüße, --Martin Thoma 18:45, 7. Jul. 2016 (CEST)
- Ich finde der Artikel ist auch für jemanden mit Fachkenntnis sehr ungünstig formuliert! Auch fehlt jeglicher Artikel bzw. Abschnitt über Backpropagation-Through-Time bei dem das vanishing gradient Problem ja gerade erst Auftritt. Ich würde mich ja selber daran versuchen aber dazu bin ich mir noch nicht sicher genug... --JackTemaki (Diskussion) 22:51, 16. Jul. 2016 (CEST)
- Backpropagation Trough Time gehört in Rekurrentes neuronales Netz. --Martin Thoma 11:51, 17. Jul. 2016 (CEST)
- Ich finde der Artikel ist auch für jemanden mit Fachkenntnis sehr ungünstig formuliert! Auch fehlt jeglicher Artikel bzw. Abschnitt über Backpropagation-Through-Time bei dem das vanishing gradient Problem ja gerade erst Auftritt. Ich würde mich ja selber daran versuchen aber dazu bin ich mir noch nicht sicher genug... --JackTemaki (Diskussion) 22:51, 16. Jul. 2016 (CEST)
- Rekurrente neuronale Netze sind verlinkt. Was rekurrente neuronale Netze sind sollte auch nicht in diesem Artikel erklärt werden. In einem Artikel über BMW erklärt man ja auch nicht erst was ein Auto ist. Auch sollte man die Artikel nicht zusammenführen, da es weitere rekurrente Netze (z.B. GRU, Hopfield-Netze) gibt. Über alle kann man eigentlich recht viel schreiben.
Ich finde auch nicht wirklich, dass der Artikel schlecht erklärt, wovon er spricht, jedoch ist er zu knapp gehalten um einem Laien ein vollständiges Bild der Implikationen des evozierten Themas zu ermöglichen. Das ist selbstverständlich schade aber durchaus nicht unüblich bei so speziellen Artikeln. Wenn mehr dazu kommt, umso besser, aber ich finde erstmal sollte man dem Artikel keinen Strick daraus drehen, dass er keine vollständige Abhandlung des Themas darstellt sondern manche Konzepte und Phänomene als bekannt vorraussetzt. Ich finde auch die Begriffe explodieren und verschwinden könnten womöglich in eine bekannte mathematische Formulierung übersetzt und verlinkt werden, falls das möglich ist. (nicht signierter Beitrag von 89.204.130.48 (Diskussion) 16:19, 4. Sep. 2016 (CEST))
- Es wäre in der Tag schön, mehr Informationen zu den drei Gates zu erhalten und wie diese konkret das "vanishing gradient"-Problem beheben. (nicht signierter Beitrag von 88.65.179.228 (Diskussion) 11:21, 2. Okt. 2016 (CEST))
Vielleicht ist hier die falsche Stelle um dieses Fass aufzumachen, aber ich halte dieses "Für den Laien verständlich"- Mantra bei gerade bei solchen sehr speziellen Artikeln für falsch. Ich hatte vor einiger Zeit den Fall bei einem Artikel über irgendein sehr Quantenmechanikthema bei dem ein Freund mehrere Stunden eine Herleitung in LATEX geschrieben hatte, die das Thema zumindest für den halbwegs versierten Leser auch besser beschrieben hatte und das wurde deshalb entfernt (ich habe ihm etwas geholfen, deshalb hat mich das geärgert), obwohl das Thema ansich so speziell war das kein Laie auch nur ansatzweise verstehen konnte um was es geht und stattdessen irgendein wischiwaschi-Text eingefügt. Meines Erachtens sind mehr Erläuterungen immer besser (solange sie korrekt sind). Ich habe den Eindruck das dieses Thema hier auch solch ein Spezielles ist. Trotzdem wären ein paar Erläuterungen hier nicht schlecht, z.B. wie diese drei Eingänge verschaltet sind und warum das dazu führt das die angesprochenen Probleme bei solch einem Netz damit nicht mehr (oder nur in geringerem Maße) auftreten. Schoenix (Diskussion) (18:41, 25. Nov. 2016 (CET), Datum/Uhrzeit nachträglich eingefügt, siehe Hilfe:Signatur)
- Bei irgendeinem sehr speziellen Quantenmechanik-Thema wäre ich bei dir. Ich bin hier jedoch als Mehr-oder-weniger-Laie gelandet, weil das ganze KI-Thema nun einmal mehr-oder-weniger Einzug in unseren Alltag hält (jaja, die Quantenphysik ist schon längst da, ich weiß...). Ich bin über einen Artikel über Schmidthuber bei RNN und dann bei LSTM gelandet. Ich bin auch bei dir, dass bei einem solchen Thema das "Oma-Prinzip" nicht mehr greifen muss, aber doch das "ich würde gerne mehr wissen!"-Prinzip, das einen neugierigen Laien abholt, statt ihn vor einer weißen Wand stehen zu lassen -- mit diesem gerade in der deutschen Wikipedia bei wissenschaftlichen Themen nicht ganz unüblichen "Sorry, du bist einfach noch nicht soweit!"-Duktus.
- "Motivieren statt Frustrieren!", das wäre doch mal ein guter Vorsatz für alle Autoren in 2017, oder? Die Wikipedia ist natürlich keine Sammlung von Schulbüchern, und ein Artikel über Integralrechnung muss niemanden im Artikel selbst (!) abholen, der gerade einmal die Grundrechenarten beherrscht, aber wie wäre es, wenn man ein paar relevante Links auf andere Themen ganz und gar didaktisch einfügt in der Art "Sorry, du bist einfach noch nicht soweit, aber lies dir das hier mal durch: ... und dann komm wieder!"?
- MfG. -MrScoville (Diskussion) 19:03, 18. Jan. 2017 (CET)
Verbesserungsvorschläge
[Quelltext bearbeiten]Alternativen
[Quelltext bearbeiten]GRU (Gated Recurrent Unit) sollten als Alternative erwähnt werden. Die beiden Typen werden in [Empirical Evaluation of Gated Recurrent Neural Networks on Sequence Modeling https://arxiv.org/pdf/1412.3555v1.pdf] und natürlich auch im Blog-Post von Colah verglichen --Martin Thoma 21:57, 16. Mär. 2018 (CET)
- Danke für die Hinweise!!!--Pacogo7 (Diskussion) 23:21, 16. Mär. 2018 (CET)
- Convolutionale LSTM-Netz : gibt es dieses deutsche Adjektiv? Oder besser: convolutional LSTM net ?
- Einleitung: Langes Kurzzeitgedächtnis? oder langes Kürzzeitgedächtnis?
- Gruss! Bikkit ! (Diskussion) 10:36, 18. Mär. 2018 (CET)
- Ja. Danke. Habe beides mal angepasst, weil es so keine großgeschriebenen Fachworte sind. Gruß--Pacogo7 (Diskussion) 12:44, 18. Mär. 2018 (CET)
Falsche Bildbeschreibung
[Quelltext bearbeiten]Im Beschreibungstext der zweiten Abbildung wird geschrieben dass es sich bei den Multiplikationsknoten um den Faltungsoperator handelt. Dabei handelt es sich allerdings um das Hadamard-Produkt (punktweises Produkt). Der Begriff der Faltung ist hier vermutlich irreführend. Gruß --TillHa (Diskussion) 14:38, 20. Mai 2021 (CEST)
Kategorisierung
[Quelltext bearbeiten]Hallo Pacogo7, denkst du nicht, dass LSTMs in die Kategorie:Künstliche Neuronale Netze gehören, die über Künstliche Intelligenz → Maschinelles Lernen → Künstliche Neuronale Netze sowohl in der KI- als auch der ML-Kategorie eingeordnet ist? Viele Grüße,--Cirdan ± 16:54, 30. Nov. 2018 (CET)
- Hallo Cirdan, doch. Du hast recht. Habe mein revertieren jetzt selbst revertiert. --Pacogo7 (Diskussion) 17:09, 30. Nov. 2018 (CET)
Falsche Abbildung
[Quelltext bearbeiten]Die in diesem Artikel als LSTM gezeigte Abbildung ist ein Peephole LSTM und kein standard LSTM. Bei der verlinkten png-Datei wird auch auch die originale svg-Datei verwiesen, die korrekterweise "Peephole Long Short-Term Memory.svg" heißt. Das heißt die verwendete png-Datei sollte entsprechend in Peephole LSTM umbenannt werden. Alle Artikel, die noch dieses png als "LSTM" verwenden, sollten also überprüft werden. In der englischen Wikipedia wird die Abbildung an der korrekten Stelle als Peephole LSTM verwendet. -- Qvid 15:41, 06. Nov. 2019 (CET)
Erklärweise
[Quelltext bearbeiten]Ich finde es zwar lobenswert, dass man hier auch absoluten Laien versucht die Hintergründe zu erklären, aber im Zusammenhang einer Enzyklopädie doch unpassend. Das Niveau ist wie in einem Spiegelarrikel. Ich musste mir aus der Beschreibung des Bergsteigers erst selber herleiten, dass es sich offenbar um einen Gradienten handelt.
Ich will mich direkt informieren, wenn von etwas nicht verstehe will ich direkt auf der entsprechenden Seite nachschlagen. Man vergleiche den englischen Artikel, der zwar auch nicht super ist, aber mir zumindest nicht das Gefühl gibt ein doofer junge zu sein. Anonymmaus (Diskussion) 10:36, 11. Jun. 2021 (CEST)
Faltung
[Quelltext bearbeiten]In dem englischen Parallelartikel wird mit * die Faltung dargestellt. Stimmt das denn hier? biggerj1 (Diskussion) 13:30, 17. Nov. 2021 (CET)
Fehlersignalabstieg
[Quelltext bearbeiten]"Beim Trainieren von künstlichen neuronalen Netzen werden Verfahren des Fehlersignalabstiegs genutzt"
Ernsthaft? Sorry, man muss in der Informatik nicht jeden Begriff krampfhaft eindeutschen. Macht die Sache aus meiner Sicht nur unverständlicher. Selbst der direkt verlinkte Artikel verwendet dieses merkwürdige Wort kein einziges Mal. --2A01:599:205:3C51:E00D:DBFF:FE77:DB95 10:46, 22. Jul. 2024 (CEST)