Diskussion:Bestärkendes Lernen

aus Wikipedia, der freien Enzyklopädie
Zur Navigation springen Zur Suche springen

Einfügen eines Beispiels[Quelltext bearbeiten]

Hallo, ich würde gerne ein Beispiel für bestärkendes Lernen in den Artikel einfügen. Ich habe schon einmal damit begonnen: Benutzer:Sandro M. Roch/Bestärkendes Lernen. Da ich ziemlich neu bei Wikipedia bin und mir noch etwas unsicher bin, fände ich es sehr erfreulich, wenn jemand sich das Beispiel anschauen könnte, und mir Anregungen / Kritik geben könnte. Das Beispiel ist einer Quelle entnommen (Buch: Reinforcement learning - an introduction), die ich noch hinzufügen werde. Vielen Dank schon einmal.

--Sandro M. Roch (Diskussion) 21:34, 1. Nov. 2014 (CET)[Beantworten]

Kategorie Neuroinformatik[Quelltext bearbeiten]

Bestärkendes Lernen ist für die Neuroinformatik bedeutend, ja offenbar bestandteil der Neuroinformatik. Benutzer:Zenogantner führt offenbar einen Kreuzzug gegen die Neuroinformatik und löscht über alle Verweise auf diesen Forschungsbereich.

siehe auch:

Habe mir erlaubt die Kategorie wieder einzutragen. --Ixitixel

Habe mir erlaubt, die Kategorie in Kategorie:Maschinelles Lernen zu ändern. Bestärkendes Lernen bezieht sich nicht nur auf das Lernen von neuronalen Netzen. --zeno 12:44, 26. Feb 2005 (CET)

Kreuzzug gegen die Neuroinformatik? Eher umgekehrt. Ich hätte nicht erwartet dass jemand den Begriff "Reinforcement Learning" mit Neuroinformatik assoziiert, und erst recht nicht dass es im Artikel um neuronale Netze geht. Den Artikel sollte jemand neuschreiben der das Gebiet gut kennt (ich noch nicht). Matumio 19:00, 6. Jan 2006 (CET)


Beleg: RL ist ein Teilgebiet des Machine Learnings, kein Teilgebiet der Neuroinformatik[Quelltext bearbeiten]

"Turing (1948, 1950) proposed the reinforcement learning approach [...]. Arthur Samuel's work (1959) was probably the earliest machine learning research. [...] it contained most of the modern ideas of reinforcement learning, [...]. Around the same time, researchers in adaptive control theory (Widrow and Hoff, 1960), building on work by Hebb (1949), were trained simple network using the delta rule. (This early connection between neural networks and reinforcement learning may have led to the misperception that the latter is a subfield of the former)."

Russel, Norvig. >Artificial Intelligence - A Modern Approach<. Seite 785, Zweite Auflage, 2003

(Das Standardwerk der KI überhaupt.) bslaught 1:50, 17. Jan 2006 (CET)(nicht signierter Beitrag von 141.70.115.203 (Diskussion) )


Ich habe mir erlaubt, die Kategorie Neuroinformatik zusätzlich hinzuzufügen. --Christian 12:24, 21. Jun. 2007 (CEST)[Beantworten]

Qualität und Neubeginn[Quelltext bearbeiten]

Der Artikel ist absolut schlecht und sollte dringend überarbeitet - nein wohl eher neu geschrieben werden. Wer etwas über Reinforcement Learning wissen will, sollte sich momentan den englischen Artikel anschauen. bslaught 21:00, 14. Jan 2006 (CET)(nicht signierter Beitrag von 129.143.13.82 (Diskussion) )

Ich möchte dazu anmerken, dass die aktuelle Literatur zu 2/3 aus einer Master sowie Bachelor Abschlussarbeit besteht. Diese "Literatur" wird weder unabhängig geprüft (peer-review) noch ist sie Teil eines anerkannten wissenschaftlichen Schriftwerks. Zur Qualitätsverbesserung sollte dringend auf wissenschaftliche Literatur geachtet werden, Prüfungsleistungen an einer Universität oder FH gehören sicherlich nicht dazu. (nicht signierter Beitrag von 141.2.196.215 (Diskussion) 11:57, 21. Feb. 2017 (CET))[Beantworten]

Ich habe einen neuen Versuch gestartet mit dem Artikel, da die alte Version IMHO schlichtweg falsch war. Vielleicht können meine drei Sätze als Gerüst für einen neuen Artikel dienen. Ich bin auch nicht traurig, wenn ihr meine Sätze komplett löscht und durch was besseres ersetzt! bslaught 2:51, 17. Jan 2006 (CET) (nicht signierter Beitrag von 141.70.115.203 (Diskussion) )

So, jetzt baue ich den von mir angefangenden Stub zu einen richtigen Artikel aus. Ich würde Euch bitten einige Tage zu warten, bevor Ihr mit großen Änderungen loslegt, bis ich den Artikel in meinem Sinne fertiggestellt habe. -- Bslaught 01:37, 3. Nov. 2006 (CET)[Beantworten]

Ich möchte diesen Artikel umschreiben, da er wichtige Erkenntnisse aussen vor lässt:

  • Zuerst ist Reinforcement Learning mehr als nur eine "Variante des maschinellen Lernens", man kann es als Erweiterung des "Supervised Learnings" verstehen.
  • Die benutzten Bezeichner entsprechen nicht den Standards. In Barto und Sutton sowie in Norwig und Russell werden bestimmte Zeichen verwendet, die auf der Theorie der Markov Decision Processes (MDP) aufsetzen
  • Für eine gute Reinforcement Learning Performance ist die Auswahl der Aktion sehr wichtig. Es sollte zumindest auf Greedy und Epsilon-Greedy eingegangen werden
  • Genauso wichtig sind die nicht-deterministischen Verfahren TD-, Q- und SARSA-Learning; Es wäre sinnvoll zuerst kurz auf Dynamic Programming als die klassische Methode für Decision Processes im Falle von bekannten Wahrscheinlichkeiten auszugehen. Barto und Sutton leiten dann über Monte Carlo zu TD-Learning weiter. Diese Abfolge hat mir beim Aneignen der Konzepte sehr geholfen!

Ich schlage diese Abfolge vor:

  • MDP (da steckt der Reward schon mit drin!)
  • Dynamic Programming
  • Monte Carlo
  • Temporal Difference
  • Q-Learning und SARSA
  • Unterliegende maschinelle Lernverfahren: Arrays, Neuronale Netze, Gaussprozesse, ... (Approximation!)
  • Problem der Generalisierung
  • Multi-Agenten Reinf. Learning

-- Molugan 15:42, 5. Mär. 2010 (CET)[Beantworten]

Hi Molugan. Das hört sich gut an. Wenn Du Hilfe brauchst, kannst Du Dich gerne bei mir melden. Denk ansonsten bitte beim Ausbau daran, WP:QA zu berücksichtigen und mindestens alles strittige zu belegen. Ich werde den Artikel weiter im Auge behalten und unter die Arme greifen, soweit es meine Kenntnisse und Zeit erlauben. Gruß und viel Erfolg/Spaß, --norro wdw 16:39, 5. Mär. 2010 (CET)[Beantworten]

RL versus MDP[Quelltext bearbeiten]

Autor:ts IMHO ist MDP vergleichbar mit einem *ausgelernten* (bzw. im Moment nicht in Lernphase befindlichen) NN. Denn es wird im MDP keine Aussage gemacht, wie die Rewards zugewiesen werden. Hingegen das RL ist genau das, was beschreiben sollte, *wie* die Rewards in einem MDP berechnet/verfeinert werden. Aber davon kann ich unter RL leider überhaupt nichts finden!? (Oder liege ich jetzt total daneben?) (nicht signierter Beitrag von 84.56.61.9 (Diskussion) 10:38, 14. Jan. 2011 (CET)) [Beantworten]

Scheint ein guter Link dazu zu sein: https://towardsdatascience.com/introduction-to-reinforcement-learning-markov-decision-process-44c533ebf8da biggerj1 (Diskussion) 12:17, 4. Feb. 2024 (CET)[Beantworten]
Ist aber im Artikel schon angesprochen biggerj1 (Diskussion) 12:20, 4. Feb. 2024 (CET)[Beantworten]

Aktives Lernen ist ein verwandtes Konzept[Quelltext bearbeiten]

Wäre schön, wenn es diskutiert wird. biggerj1 (Diskussion) 12:15, 4. Feb. 2024 (CET)[Beantworten]

Hallo, woher hast du diese Information? Ich kenne aktives Lernen als Teilgebiet des überwachten Lernens. Steht so mit Referenzen in anderen Artikeln, siehe Maschinelles_Lernen#Überwachtes_Lernen und "This type of iterative supervised learning is called active learning." in https://en.wikipedia.org/wiki/Active_learning_(machine_learning). Grüße, --Buecherdiebin (Diskussion) 12:31, 15. Mär. 2024 (CET)[Beantworten]