Diskussion:Bestimmtheitsmaß

aus Wikipedia, der freien Enzyklopädie
Zur Navigation springen Zur Suche springen
Archiv
Wie wird ein Archiv angelegt?
Zusammenhang von Korrelationskoeffizient und Bestimmtheitsmaß

Was genau soll diese Graphik aussagen? Weiß da wer weiter? Mir ist der Zusammenhang in Hinblick auf diese Graphik auch nicht ganz klar. Grüße.--JonskiC (Diskussion) 15:12, 16. Dez. 2017 (CET)[Beantworten]

Inwiefern wäre so ein Disclaimer sinnvoll?

Bestimmtheitsmaß

Dieser Artikel setzt folgende mathematischen und philosophischen Begriffe voraus:

Meinungen? (nicht signierter Beitrag von JonskiC (Diskussion | Beiträge) 14:47, 20. Jan. 2018 (CET))[Beantworten]

Ich würde keinen solchen Disclaimer einbauen, das machen wir bei anderen Artikeln auch nicht. Natürlich muss man immer ein paar Dinge vorraussetzen, es wird ja auch vorrausgesetzt dass der Leser mit arabischen Zahlen im Dezimalsystem rechnen kann, Rechenregeln wie Punkt vor Strich, Brüche, Klammern, Prozentzeichen... Er muss aber nicht alles wissen und verstanden haben was in den Artikeln wie Operatorrangfolge, Aussagenlogik usw. steht, gerade der Artikel Wahrheit enthält viele interressante philosophische Betrachtungen die ich nicht kenne und auch nicht kennen muss um den Artikel Bestimmtheitsmaß zu verstehen. Wenn jemand den Begriff Bestimmtheitsmaß nicht kennt, dann würde ich davon ausgehen dass er auch nicht genau weiß was Varianz ist und wie man eine Kurvenregression macht, vielleicht hat das ja ein Computerprogramm für ihn gemacht und er möchte wissen, was dieser R^2 Wert ist der dabei ausgegeben wird. Wie genau das Computerprogramm die Kurve berechnet hat will er offensichtlich nicht wissen, denn dazu würde er Artikel wie Kurvenregression lesen. Alles was er über Kurvernregression zwingend wissen muss um zu verstehen was der R^2 Wert aussagt würde ich versuchen in Nebensätzen oder ähnliches direkt im Artikel zu erläutern.--Debenben (Diskussion) 15:57, 1. Dez. 2018 (CET)[Beantworten]

Das Bestimmtheitsmaß, auch Determinationskoeffizient (von lat. determinatio „Abgrenzung, Bestimmung“ und coefficere „mitwirken“) ist in der Statistik eine wichtige Kennzahl zur Beurteilung der Anpassungsgüte einer Regression. In der multiplen linearen Regression ist es definiert als Quotient der durch die Regression erklärten Variation und der gesamten zu erklärenden Variation und zeigt somit, wie viel Variation in den Daten durch ein vorliegendes Regressionsmodell erklärt werden kann. Das Bestimmtheitsmaß entspricht bei Anwendung der einfachen linearen Regression und der multiplen linearen Regression dem Quadrat des Bravais-Pearson-Korrelationskoeffizient.

Ziel ist den Artikel irgendwann auf lesenswert zu bekommen. der Artikel wurde in letzter Zeit stark von Prof. Niehaus und mir bearbeitet. Um die Mängel bzgl. der Belege bin ich mir bewusst, aber die können ja relativ einfach nachgereicht werden; es eilt ja nicht;) Anmerkungen oder Verbesserungsvorschläge? -- JonskiC (Diskussion) 19:01, 26. Jan. 2018 (CET)[Beantworten]

HilberTraum vielleicht?--JonskiC (Diskussion) 15:16, 13. Feb. 2018 (CET)[Beantworten]
Huh, das ist ja eine Riesending mit über 60 kB. Aber ich schaue es mir die nächsten Tage gerne mal durch. Grüße -- HilberTraum (d, m) 19:14, 13. Feb. 2018 (CET)[Beantworten]

Zwei Sachen sind mir gerade aufgefallen:

  • Das mit dem möglicherweise negativen Bestimmtheitsmaß ist mir nicht klar geworden. Wenn die erste Gleichung im Abschnitt „Definition“ tatsächlich die Definition ist, dann kann es als Quotient zweier Quadratsummen ja eigentlich nicht negativ werden. Oder ist es in manchen Modellen anders definiert?
  • Die Liste nach „Übliche Missverständnisse sind“ halte ich für etwas ungünstig. Die Leser lesen ja nicht immer konzentriert von oben nach unten durch und darum halte ich eine so lange Liste mit lauter falschen Aussagen für gefährlich. Vielleicht könnte man das deutlicher lösen. P.S.: Und ich sehe gerade, dass dort weiter unten mit der gleichen Einrückung auch Aussagen kommen, die nicht falsch sind: „Es macht keine Aussage …“ ist ja kein Missverständnis.

-- HilberTraum (d, m) 19:35, 15. Feb. 2018 (CET)[Beantworten]

Zu deinem ersten genannten Punkt: Ich habe mal umformuliert und was ergänzt. Ich hoffe so ist es besser zu verstehen.--JonskiC (Diskussion) 21:01, 15. Feb. 2018 (CET)[Beantworten]

Ich habe den Artikel bisher nur kurz überflogen, was mir aufgefallen ist:

  • Die Summenzeichen im Fließtext werden leider standardmäßig mit \displaystyle gerendert und vergrößern daher unnötig den Zeilenabstand. Besser wäre ein explizites \textstyle: .
  • Es gibt ein paar Formulierungen mit Wörtern wie "häufig, oft, sehr, meist, natürlich" und ähnlichen Adjektiven und "also, daher" usw. bei denen der Bezug fehlt. Viele davon lassen sich einfach löschen, andere besser durch "häufiger als..." usw. ersetzen.

--Debenben (Diskussion) 18:19, 22. Mär. 2018 (CET)[Beantworten]

Hallo Debenben. Danke für deine Anmerkungen. Ich werde mal versuchen diese Füllwörter zu vermeiden. Ansonsten werde ich demnächst versuchen \textstyle zu benutzen und die restlichen Formeln anpassen. Beste Grüße.--Jonski (Diskussion) 15:34, 23. Mär. 2018 (CET)[Beantworten]
Ohne das im Detail angeschaut zu haben: Viele Formeln im Fließtext sind so oder so schwer zu lesen. Ich würde die Formeln mit den Summenzeichen eher absetzen. Dann passt auch \displaystyle. --Digamma (Diskussion) 17:56, 23. Mär. 2018 (CET)[Beantworten]

@JonskiC: was mir noch aufgefallen ist, ich aber nicht eingebaut habe:

  • Das mit dem "Fehlen des Achsenabschnittes" finde ich sehr verwirrend. Ich habe erst verstanden was damit gemeint ist, nachdem ich die Erläuterungen dazu im entsprechenden Abschnitt durchgelesen habe. Für mich haben die Geraden immer einen Achsenabschnitt (sofern man nicht den Definitionsbereich einschränkt), nur ist dieser in dem Fall "dass sie keinen haben" durch das Modell auf Null festgelegt.
  • Manchmal werden werden die Grenzen bei den Summen als ausgeschrieben, manchmal weggelassen. Wenn das ein System hat, dann sollte man es als Anmerkung erwähnen, ansonsten einheitlich machen.
  • Machmal wird , manchmal und manchmal nur für Definitionen verwendet, das könnte man auch vereinheitlichen

Ansonsten schöner Artikel.--Debenben (Diskussion) 19:54, 2. Apr. 2018 (CEST)[Beantworten]

Was mir gestern irgendwie nicht aufgefallen ist:

  • Die Grafiken sind teilweise sehr schlecht.
    • Die Achsenbeschriftung ist teilweise unvollständig, teilweise unnötig und meistens unlesbar klein,
    • die Bezeichnungen sind nicht immer die gleichen wie im Text,
    • die Formelzeichen in Erläuterungen sind nicht als mathematische Zeichen gesetzt,
    • die Grenzfälle und und das Problem beim "fehlen des Achsenabschnitts" könnten gut eine graphische Erläuterung gebrauchen,
    • bei der Scheinkorrelation mit Piraten und Durchschnittstemperatur ist die Frage, ob man eine solch absichtlich falsche Darstellung haben will (man beachte insbesondere die völlig unsinnige Schätzung der Piraten in Kombination mit der Wahl der Skalierung der X-Achse), zumal keine Regression durchgeführt und kein berechnet wird.
    • beim ersten Bild, was ja bei Artikel des Tages usw. als Hauptbild genommen wird steht stark das BIP usw. im Vordergrund und nicht die Regression, außerdem wird viel Platz verschenkt.

wenn klar ist, welche Bilder mit welchen Erläuterungen man haben will, dann kann ich auch helfen die zu erstellen.--Debenben (Diskussion) 18:00, 3. Apr. 2018 (CEST)[Beantworten]

Hallo Debenben. Erst einmal vielen Dank für deine hilfreichen Anmerkungen! Ich werde deine o.g. Aspekte natürlich berücksichtigen. Mit den Graphiken hast du Recht, die sind zum großen Teil schlecht. Das Piratenbild könnte man tatsächlich rausnehmen. Als erstes Bild könnte man ein Bild der Art [1] benutzen. Am besten sollte es zweigeteilt sein und oben sollte eine Gerade zu sehen, die ein hohes Bestimmtheitsmaß liefert und unten sollte eine Gerade zu sehen sein, die ein niedriges Bestimmtheitsmaß aufweist (am besten auch mit der R-Quadratangabe im Bild). Für die Streuungszerlegung bzw. den Abschnitt „Konstruktion“ hat mir ein Bild vorgeschwebt, wie es bei Greene hier [2] auf Seite 32 zu finden ist. Die Graphik bei „Einführung in die Problemstellung“ ist ebenfalls schlecht, da das Beispiel nicht zur Graphik passt. Die Werte sind unlogisch für das Beispiel. Weiterhin hatte ich noch vor eine Venn-Digramm-Graphik zu erstellen, da ich noch ein Abschnitt „Visualisierung mittels Venn-Diagrammen“ einfügen werden. Beste Grüße.--Jonski (Diskussion) Enso2 18:49, 5. Apr. 2018 (CEST)[Beantworten]
Für die ersten beiden habe ich mal Entwürfe gebalstelt.--Debenben (Diskussion) 20:02, 6. Apr. 2018 (CEST)[Beantworten]
Einleitung
Konstruktion
Krass, dass du das so schnell hinbekommen hast :o Perfekt! Die könnte man so eigentlich schon für den Artikel verwenden. Was mit bei der Kosntruktion nur aufgefallen ist, dass es m.E. statt -> sein müsste. Danke für deine Mühe und beste Grüße.--Jonski (Diskussion) 20:17, 6. Apr. 2018 (CEST)[Beantworten]
Kein Problem, b ist jetzt b_1. Was ich auf jeden Fall auch neu plotten sollte ist die Parabel / Sägezahn Grafik im Abschnitt Missverständnisse. Allerdings habe ich das Gefühl, dass man noch bessere Beispiele von Korrelationen ggf. mit echten Daten finden könnte, aber wirklich gute Ideen habe ich nicht. Als Alternative zu den Piraten könnte man die Storche-Geburten Statistik nehmen und echte absolute Zahlen für Türkei vs. Lichtenstein usw. nehmen, aber so gelungen, dass es den Aufwand lohnt die Daten dafür abzutippen fand ich das dann auch nicht.--Debenben (Diskussion) 20:39, 6. Apr. 2018 (CEST)[Beantworten]
Ja stimmt ist die Frage, ob sich der Aufwand lohnt. Ich habe bemerkt, dass jetzt ausversehen aus dem ein geworden ist^^ Ansonsten perfekt!--Jonski (Diskussion) 21:11, 6. Apr. 2018 (CEST)[Beantworten]
Danke, das hätte ich sonst übersehen. Zu Korrelation von Dingen die nichts miteinander zu tun haben habe ich übrigends eine interressante Webseite gefunden: [3], da finden sich haufenweise interressanter Beispiele.--Debenben (Diskussion) 23:04, 6. Apr. 2018 (CEST)[Beantworten]
@JonskiC: Ich habe gesehen, du hast die Grafik eingebaut. Die Korrelationen sind genauer 0.9892267403624233 und 0.5712795562421172, soll ich 98,92% und 57,13% in die Grafik schreiben?--Debenben (Diskussion) 23:19, 6. Apr. 2018 (CEST)[Beantworten]
Jo, wäre optimal.--Jonski (Diskussion) 00:00, 7. Apr. 2018 (CEST)[Beantworten]
Einführung

Hab gerade noch einen Entwurf für die Überarbeitung der Grafik im Einführungsabschnitt gemacht.--Debenben (Diskussion) 16:25, 8. Apr. 2018 (CEST)[Beantworten]

Perfekt! Jetzt gibt es nur noch die eine Graphik, die nicht ganz optimal ist...--Jonski (Diskussion) 00:12, 9. Apr. 2018 (CEST)[Beantworten]

@JonskiC: Ich bin mit dem Einführungsabschnitt inklusive der Grafik irgendwie noch nicht ganz zufrieden.

  • Das Beispiel Alter und Gewicht hat nichts mit der Grafik zu tun. Ich hab in dem Fall einfach 6 zufällig um die blaue Gerade gaußverteilte Punkte genommen. Ich könnte die Grafik auch noch mal mit echten Daten für irgendwas plotten (z.B. von der spurious-correlations webseite), und dann gleich Alter oder so an die Achse schreiben, das wäre weniger abstrakt.
  • Die Schätzfunktion heißt manchmal und manchmal , das ist irgendwie verwirrend. Kann man nicht auf eine von beiden Bezeichnungen verzichten?
  • Die "wahre Gerade" heißt , genauso wie die Achsenbeschriftung. Ich würde wahre Gerade vielleicht sogar komplett weglassen, denn zum Alter vs. Gewicht Beispiel passt sie nicht wirklich, denn das ist in Theorie und Praxis keine exakte lineare Abhängigkeit und sie verwirrt mehr als dass sie nützt. Ich habe sie nur erstmal reingemalt, weil sie im Vorgängerbild drin war und mit Incscape rauslöschen schneller geht als neu plotten.

Als nächstes hätte ich die von dir jetzt auskommentierte suboptimale Grafik neu gemacht. Ich hatte mir überlegt, dass es vielleicht Sinn macht, die gleichen Datenpunkte wie im Einführungsabschnitt zu verwenden, dann braucht der Leser nicht umzudenken. Weil ich mit der Einführungsgrafik noch nicht zufrieden bin (siehe obige Punkte) hab ich dazu noch keinen Entwurf gemacht, vielleicht hast du ja ein paar Ideen was man gegenüber der alten Version verbessern sollte.--Debenben (Diskussion) 23:13, 9. Apr. 2018 (CEST)[Beantworten]

@Debenben: Ich finde die Graphik im Einführungsabschnitt sehr gut. Auch die wahre Gerade finde ich für das Verständnis wichtig. Wie du gesagt hast könnte man höchstens noch echte Daten nehmen. Am besten welche die zum genannten Beispiel in der Einleitung passen, oder anderen aber dann müsste man die Einleitung entsprechend umschreiben. Das mit dem Schätzer und der Abkürzung wurde von Prof. Niehaus eingefügt. Ich denke er wollte damit andeuten, dass ein Schätzer für darstellt, also . Allerdings wäre diese Notation evtl. für einen Einführungsabschnitt zu speziell. Ja, die gleichen Datenpunkte für die Graphik zu verwenden wäre optimal. Ich habe auch noch einige Verbesserungsideen für die ausgeklammerte Graphik. Allerdings kann ich die Graphik schlecht verlinken. Ich müsste dann eine Zeichnung anfertigen und auf Commons hochladen. Beste Grüße.--Jonski (Diskussion) 10:55, 11. Apr. 2018 (CEST)[Beantworten]
@Debenben: Kannst du eigentlich auch Animationen anfertigen? Ich finde, die Streuungszerlegung könnte man sehr gut durch eine Animation veranschaulichen. Ist aber wahrscheinlich zu aufwendig, oder was meinst du?--Jonski (Diskussion) 20:03, 14. Apr. 2018 (CEST)[Beantworten]
  • Zu : Man kann gerne schreiben, dass ein Schätzer für den Erwartungswert einer Verteilung ist, aber die Andeutung versteht mMn niemand. Die kann man ersatzlos rauslöschen ohne dass irgendwas verloren geht.
  • Animationen sind aufwändiger, aber wenn es sich damit besser veranschaulichen lässt, kann ich gerne eine erstellen.
  • Zur "wahren Gerade": Aktuell finde ich nicht, dass sie beim Verständnis hilft, ehr im Gegenteil. Aus der Perspektive eines Physikers gibt es nur zwei Dinge: Messwerte und Theoriekurve. Messwerte sind "das höchste Gut" und per Definition "wahr". Eine Theorie, die nicht experimentell widerlegbar ist, ist keine physikalische Theorie. Wenn die Messwerte nicht auf der Theoriekurve liegen, dann kann die Abweichung drei Gründe haben: 1. einen statistischen Messfehler. Dieser muss immer in Form von Fehlerbalken eingezeichnet werden (und bei der Regression durch entsprechende Gewichtung berücksichtigt werden) sofern es irgendwie sinnvoll möglich ist. 2. einen systematischen Fehler, d.h. man misst jedes mal andere Effekte mit, die man garnicht messen möchte z.B. weil das Messgerät falsch eingestellt ist. 3. die Theorie ist falsch, beispielsweise zu stark vereinfacht oder nicht anwendbar. Bei dem Beispiel Größe und Gewicht einer Person wäre 3. der Fall, schließlich wäre das Gewicht nicht nur von der Größe sondern auch Ernährung usw. abhängig. Da ist es mehr als verwirrend, eine "wahre Gerade" einzuzeichnen und quasi zu behaupten, in Wahrheit sind die Messwerte falsch und das Gewicht eine lineare Funktion der Größe einer Person. Ich würde sie immer noch löschen, denn für das Verständnis von reicht es aus zu sagen: "wie gut passen Messwerte zu einer Theoriekurve".--Debenben (Diskussion) 16:28, 16. Apr. 2018 (CEST)[Beantworten]
Example of a cubic polynomial regression, which is a type of linear regression.
Die wahre Gerade wird in der Literatur oft eingezeichnet, wie es z.B. auch bei dieser Graphik deutlich wird. Aber ist kein Problem du kannst sie auch gerne entfernen, wenn sie für das Verständnis stört;) Das Problem was ich noch sehe ist, dass wenn das mit dem Schätzer für den Erwartungswert erwähnt wird, dann muss man auch die wahren Fehler erwähnen und dann spielt die wahre Gerade wieder eine Rolle. Wenn man keine Wahrheit annimmt, dann kann sich der Wahrheit m.E. auch nicht annähern. Wenn man dann die wahren Fehler erwähnt, dann sollte man auch erwähnen, dass die wahren Fehler im Mittel Null sind und man sich daher im Mittel der Wahrheit annähert:

Daher ist

Aber wäre das nicht zu viel für ein Einführungsabschnitt? Ich mache mir ggf. nochmal Gedanken wie man das besser formulieren könnte, oder vllt hast du ja eine Idee? Zu der Animation: Wir könnten es ja so machen, dass ich demnächst Zeichnungen für die einzelnen Sequenzen anfertige und bei Commons hochlade und dann kannst du ja sagen was du davon hältst? Beste Grüße.--Jonski (Diskussion) 17:40, 16. Apr. 2018 (CEST)[Beantworten]

Ich verstehe zwar was du meinst, aber ich halte das für unnötig kompliziert und es passt nicht zum Beispiel Alter/Größe, wobei ich inzwischen das Gefühl habe Alter/Größe verwirrt auch mehr als dass es hilft: Zunächst mal müsste man unterscheiden, ob man die Größe einer bestimmten Person oder die durchschnittliche Größe einer Gruppe von Personen messen will. In beiden Fällen ist es unrealistisch, dass die Relation in Wahrheit exakt eine lineare Funktion ist. Nehmen wir mal an, es wäre exakt eine lineare Funktion, dann wäre die Abweichung der Messpunkte von dieser Geraden ein statistischer Messfehler, der jedoch entgegen der Konventionen nicht als Fehlerbalken eingezeichnet ist. Im Fall dass man die durchschnittliche Größe einer Gruppe von Personen messen will, ist es ohne zusätzliche Annahmen nicht ausreichend, nur eine Person zu messen, denn der Messfehler wäre beliebig groß und damit das Messergebnis wertlos.
Ich würde das Einführungsbeispiel so umschreiben: Man hat quasi exakte Messwerte, also braucht man keine Fehlerbalken. Man möchte diese Messwerte, die offensichtlich keine vollständig lineare Abhängigkeit zeigen mit einem möglichst einfachen Modell beschreiben und nimmt daher eine Gerade - fertig. So kann man sich die ganzen Erklärungen mit Erwartungswerten und "wahren Geraden" sparen.
Was mich übrigends noch interressieren würde und worüber ich im Artikel nichts finde ist, was mit nicht-linearen Funktionen ist und wenn die Regressionsgerade keine least-squares Regressionsgerade ist sondern aufgrund von irgendwelchen anderen Überlegungen gewählt wurde. Die Berechnung müsste eigentlich genauso funktionieren, aber es sieht auf den ersten Blick zumindest so aus, als könnte dann sogar das adjustierte Bestimmtheitsmaß negativ werden.--Debenben (Diskussion) 22:41, 17. Apr. 2018 (CEST)[Beantworten]
Das mit den nicht-linearen Funktionen muss in der Tat noch ergänzt werden. Ich weiß nicht so Recht: wenn man das mit den Fehlerbalken weglässt, dann führt man ja nicht zum Bestimmtheitsmaß hin. Der Sinn der Einführungsabschnittes ist es ja die Notation mit den Schätzwerten und den Residuen zu erklären. Vielleicht verstehe ich dich auch aber falsch. Du kannst ja einfach mal einen Formulierungsforschlag machen:)--Jonski (Diskussion) 15:33, 19. Apr. 2018 (CEST)[Beantworten]
@Debenben: Jo, hab jetzt mal ein paar Skizzen für die Animation gemacht. Habe mir dabei diese 5 Bilder vorgestellt (Sorry für die schlechten schiefen Handybilder und das schlechte Licht). Was hältst du davon?--Jonski (Diskussion) 00:25, 21. Apr. 2018 (CEST)[Beantworten]
Datei:Draft1.jpg
Draft1
Datei:Draft 2.jpg
Draft2
Datei:Draft 3.jpg
Draft3
Danke für die Skizzen. Sollte kein Problem sein, ich schaffe es aber wahrscheinlich erst am nächsten Wochenende mich damit zu beschäftigen.--Debenben (Diskussion) 16:40, 22. Apr. 2018 (CEST)[Beantworten]
Alles klar, kein Stress. Haben ja auch keine Zeitnot:)--Jonski (Diskussion) 20:13, 23. Apr. 2018 (CEST)[Beantworten]

So, hier als Animation

evtl. sind aber auch einzelne Bilder sinnvoller. Ich hab sie mal alle hochgeladen, dann kann man sie einfacher diskutieren und anpassen.--Debenben (Diskussion) 21:45, 30. Apr. 2018 (CEST)[Beantworten]

Vielen Dank für deine Mühe Debenben! Die Animation ist perfekt. Gibt auf den ersten Blick nichts daran auszusetzen. Die einzige Sache, die mir aufgefallen ist, sind die Klammern um die Residuen (die können aber auch ruhig da bleiben ist nicht weiter schlimm). Beste Grüße.--Jonski (Diskussion) 00:17, 1. Mai 2018 (CEST)[Beantworten]
Mit den Klammern um die Residuen war ich auch nicht glücklich, aber fand sie dann doch die beste Lösung. Bei ist die niedriger als bei , sodass man in der Animation statt \hat \varepsilon_1^\vphantom{2} (leider in WP nicht darstellbar) oder schreiben müsste. Außerdem sieht etwas wie ein zweiter Index (etwa von einem Tensor) aus.--Debenben (Diskussion) 16:08, 3. Mai 2018 (CEST)[Beantworten]
Hallo Debenben, gibt es sonst noch Sachen, die dir aufgefallen sind, die man verbessern könnte? Noch einmal zum Körpergewicht-Körpergröße-Beispiel: Ich denke, dies ist für ein Einführungsbeispiel geeignet und wird beispielsweise hier [4] auch von der freien Universität Berlin verwendet. Die Sache mit den nicht-linearen Funktionen sind m.E. Gegenstand der Pseudo-Bestimmtheitsmaße, die ja einen eigenen Artikel haben. Beste Grüße.--Jonski (Diskussion) 15:22, 5. Mai 2018 (CEST)[Beantworten]
Übertragen von Wikipedia:Review/Naturwissenschaft und Technik durch --Krib (Diskussion) 10:12, 9. Mai 2018 (CEST)[Beantworten]

Auszeichnungskandidatur vom 08. Mai 2018 bis zum 30. Mai 2018[Quelltext bearbeiten]

Dieses Streudiagramm zeigt zwei konkrete empirische Regressionsgeraden einer linearen Einfachregression, die jeweils bestmöglich durch die „Punktwolke“ der Messung gelegt wurden. Zu erkennen ist, dass obige Gerade eine bessere Anpassung an die Daten liefert als die untere. Formal lässt sich dies anhand eines höheren R-Quadrat-Wertes erkennen ( vs. ).

Das Bestimmtheitsmaß, auch Determinationskoeffizient (von lateinisch determinatio „Abgrenzung, Bestimmung“, bzw. determinare „eingrenzen“, „festlegen“, „bestimmen“ und coefficere „mitwirken“), ist in der Statistik eine wichtige Kennzahl zur formalen Beurteilung der Anpassungsgüte einer Regression. Das Bestimmtheitsmaß beruht auf der Streuungszerlegung, bei der die gesamte Variation der abhängigen Variablen in die (durch das Regressionsmodell) erklärte Variation und in die Variation der Residuen zerlegt wird.

In der einfachen- und multiplen linearen Regression ist das Bestimmtheitsmaß definiert als Verhältnis der „durch die Regression erklärten Variation“ zur „gesamten zu erklärenden Variation“ und zeigt, wie viel Variation in den Daten durch ein vorliegendes lineares Regressionsmodell „erklärt“ werden kann. Das Bestimmtheitsmaß entspricht bei der einfachen linearen Regression und der multiplen linearen Regression dem Quadrat des Bravais-Pearson-Korrelationskoeffizienten. Ansonsten existieren unterschiedliche Definitionen, wie zum Beispiel bei den Pseudo-Bestimmtheitsmaßen. Das Bestimmtheitsmaß steht in enger Beziehung zu weiteren Gütemaßen zur Prüfung der Regressionsfunktion, wie z. B zum Standardfehler und zur F-Statistik.

Weil das Bestimmtheitsmaß durch die Aufnahme zusätzlicher Variablen wächst und die Gefahr der Überanpassung besteht, wird für praktische Anwendungen meist das adjustierte Bestimmtheitsmaß verwendet. Das adjustierte Bestimmtheitsmaß „bestraft“ im Gegensatz zum unadjustierten Bestimmtheitsmaß die Aufnahme jeder neu hinzugenommenen erklärenden Variable.

Ich schlage den (von mir in letzter Zeit stark bearbeiteten) Artikel Bestimmtheitsmaß zur Auszeichnung vor. Vielen Dank auch an Debenben, der optimale Graphiken und eine Animation bereitgestellt hat.--Jonski (Diskussion) 20:31, 8. Mai 2018 (CEST)[Beantworten]

Exzellent Eigentlich wollte ich nicht abstimmen, weil ich schon beim Review mitgeholfen habe. Es wäre aber zu schade wenn die Kandidatur daran scheitert, dass niemand den Artikel lesen will.--Debenben (Diskussion) 22:47, 13. Mai 2018 (CEST)[Beantworten]

Exzellent Mathematische Themen sind wohl nicht so populär. Trotzdem ein sehr schöner Artikel, der den "Laien" mitnimmt und trotzdem in die notwendige Tiefe geht.--Steffen 962 (Diskussion) 01:30, 14. Mai 2018 (CEST)[Beantworten]
Ich finde das Thema spannend und hatte noch keine Zeit zum genauen Lesen. Eine Einschätzung kommt noch. --WissensDürster (Diskussion) 08:26, 17. Mai 2018 (CEST)[Beantworten]
Exzellent Als Anwender multipler linearer Regressionen mit bis zu 10 Variablen für mehrere tausend Datensätze kann ich dem Artikel das gewählte Prädikat aus Erfahrung zusprechen. Insbesondere der Abschnitt "Grenzen und Kritik" kann dem Leser die Vorsicht beim Interpretieren der Datenanlyse erleichtern. --LoRo (Diskussion) 22:21, 17. Mai 2018 (CEST)[Beantworten]

Exzellent Chapeau! --Wibramuc 12:33, 20. Mai 2018 (CEST)[Beantworten]

Lesenswert Die Informationen sind super. Allerdings frage ich mich, ob man im Abschnitt Bestimmtheitsmaß#Missverständnisse,_Grenzen_und_Kritik nicht hätte Fließtext schreiben können. Die vielen Aufzählungspunkte machen es nicht unbedingt übersichtlicher. Wenn "Pseudo-Bestimmtheitsmaß" einen Abschnitt hat, wieso brauchen wir es dann nochmal unter "siehe auch"? Und die Idee von "Bestimmtheitsmaß in R" ist zwar gut, aber wird auch nirgends erklärt. Also war ist R? Und wieso braucht man nun die Statistiksoftware zur Veranschaulichung? Ich bin zwar ein großer Fan von R, allerdings hätte doch ein Link auf ein Wikibook-Kapitel oder ähnliches auch gereicht. Es fehlt insgesamt ein roter Faden in der Textstruktur, nicht umsonst wird immer wieder der Umstand mit den zusätzlichen erklärenden Variablen erwähnt. Zu Beginn, in der Geschichte, dann in der Adjustierung. Der Artikel scheint so aufgebaut, als würde der Leser sowieso nur abschnittweise nachschlagen. Wer aufmerksam ließt erinnert sich an Informationen auf vorangegangen Abschnitten. Es gibt auch noch sprachliche Kleinigkeiten, obwohl schon viele für Exzellent votierten steht immer noch "In einem solchen Fall kann[sic können] die unabhängigen Variablen unentdeckte Erklärungskraft enthalten". So, zusammenfassend: Ich bin absolut fasziniert von dem Artikel, sehr gute Arbeit! Vielleicht könnte sprachlich noch etwas nachgebessert werden. lg --WissensDürster (Diskussion) 12:47, 20. Mai 2018 (CEST)[Beantworten]
Danke für deine Anmerkungen und dein Lob WissensDürster! Ich werde versuchen sprachlich noch nachzubessern, falls mir noch etwas auffällt. Bzgl. des Siehe-auch-Abschnittes hast du Recht. Ich habe ihn entfernt. Den Kritik-Abschnitt im Fließtext zu schreiben halte ich für schwer, da doch sehr unterschiedliche Mängel dieses Maßes aufgezeigt werden, die nicht direkt in Verbindung miteinander stehen. R zur Veranschaulichung halte ich gerade für Anfänger für sinnvoll, die das Bestimmtheitsmaß im einfachen Fall und mit einem einfache Beispiel berechnen wollen. Außerdem bin ich ebenfalls ein großer Fan von R;) Beste Grüße.--Jonski (Diskussion) 11:51, 22. Mai 2018 (CEST)[Beantworten]
Solche Gründe könntest du im R-Abschnitt anführen. Denn ein einfaches, und wie ich finde anschauliches, Rechenbeispiel hattest du ja schon oben Bestimmtheitsmaß#Rechenbeispiel. Im Vergleich dazu wird nicht ganz klar, wieso das nun nochmal in einer Statistik-Software erklärt wird (PS: du könntest auch nochmal tatsächlich das zuvor erklärte in R umsetzen). "Wir machen das jetzt in R, weil in der Praxis immer mit großen Datenmenegen gearbeitet wird, und man dafür PC/Software braucht; weil R einach, leicht verständlich, gratis ist etc. lg --WissensDürster (Diskussion) 12:42, 23. Mai 2018 (CEST)[Beantworten]
  • Exzellent Ich war nach dem Lesen des Artikels beeindruckt, es ist mMn sehr gut gelungen, mathematische Inhalte anschaulich darzustellen. Auch mit den von WissensDürster genannten Kritikpunkten vor Augen, bleibe ich dabei, zum Teil wurden ja auch noch weitere Änderungen gemacht. Bei einem so langen Artikel mit schwer verdaubaren Inhalten finde ich es aus Sicht des Lesers nicht schlimm, wenn einige wichtige Punkte an mehreren Stellen erklärt werden. Der Abschnitt Missverständnisse, Grenzen und Kritik hat mir – von der Anwenderseite her betrachtet – sehr gut gefallen. Danke an den Autor für die Arbeit. Viele Grüße, --A doubt (Diskussion) 23:33, 26. Mai 2018 (CEST)[Beantworten]

Mit fünf Stimmen Exzellent und einer Stimme Lesenswert wird der Artikel in dieser Version als Exzellent augezeichnet. Tönjes 13:04, 30. Mai 2018 (CEST)[Beantworten]

Anwendbarkeit für exponentielle Regression[Quelltext bearbeiten]

Als ich mit Hilfe der hier angegebenen Formel ein Programm zur Berechnung von einer exponentiellen Regression erstellen wollte, erhielt ich nicht den tatsächlichen Wert (den ich mit geeigneter Software zuvor ermittelt habe). Mit der Formel funktionierte es dann. Für eine lineare Regression funktionierte auch die erste Formel. Kann es sein, dass die erste Formel für exponentielle Regression nicht geeignet ist? Falls ja, sollte im Text direkt bei diesen Formeln darauf eingegangen werden. (nicht signierter Beitrag von 194.118.16.47 (Diskussion) 23:09, 19. Dez. 2020 (CET))[Beantworten]

Habe ich ähnlich so beobachtet. Im Artikel sind die zwei Formeln ja mit einem Gleichheitszeichen versehen. Tatsächlich bekomme ich für fiktive Zufallsdaten keine Gleichheit. Gleichheit scheint nur für lineare Regression zu gelten. --Geschichte09 (Diskussion) 19:42, 29. Dez. 2020 (CET)[Beantworten]
Der Artikel hat ein Problem. Die Quadratsummenzerlegung (auch Streuungszerlegung genannt)
SQT = SQE + SQR
ist ein beweisbarer Satz, der unter bestimmten Voraussetzungen (z. B., falls die Parameterschätzung nach der Methode der kleinsten Quadrate in einem linearen Regressionsmodell mit geschätztem Absolutglied erfolgt) gültig ist, aber nicht allgemein gilt. In anderen Fällen, z. B. bei einer linearen Regression ohne Absolutglied (Regression durch den Ursprung, homogene lineare Regression) oder einer nichtlinearen Regression ist die Zerlegung im allgemeinen nicht gültig. In diesen Fällen gilt daher auch die in der Definition von R-Quadrat angegebene Gleichheit nicht. Der Artikel bezieht nicht Position, wie allgemein das Bestimmtheitsmaß definiert ist und was es messen soll. Im Fall der Regression ohne Absolutglied (Einfache lineare Regression durch den Ursprung) wird ein modifiziertes Bestimmtheitsmaß vorgeschlagen, das auf einer anderen Quadratsummenzerlegung beruht, und weder mit der rechten noch mit der linken Seite der 'allgemeinen Definition' übereinstimmt. Falls ich es nicht übersehen habe, wird der Fall nichtlinearer Regressionen oder anderer Schätzverfahren nicht im Artikel angesprochen, allerdings suggeriert eine Graphik die Gültigkeit für nichtlineare Zusammenhänge.--Sigma^2 (Diskussion) 15:53, 27. Jul. 2022 (CEST)[Beantworten]

Bestimmtheitsmaß negativ?[Quelltext bearbeiten]

Unter Wertebereich des Bestimmtheitsmaßes wird gesagt, das B. könne auch negativ werden.

Unter Definition wird B. als Quotient zweier Quadratsummen erklärt. Wenn ich von reellen Zahlen ausgehe, sind folglich Zähler wie Nenner >= 0 und damit R² positiv oder undefiniert. Wo liegt der Wurm? --95.114.124.145 14:27, 30. Jun. 2022 (CEST)[Beantworten]

Der Wurm ist schnell identifiziert. Unter Definition steht ein Gleichungswurm von mehreren Gleichungen, aber keine Definition, wobei die Gleichungen nicht allgemein gelten, so dass unklar ist, was die Definition sein soll. Siehe auch die Diskussion im Abschnitt 'Anwendbarkeit für exponentielle Regression'.--Sigma^2 (Diskussion) 16:02, 27. Jul. 2022 (CEST)[Beantworten]
Vielen Dank @Sigma^2:, habe die Anpassungen vorgenommen und das nicht allgemeingültige Gleichheitszeichen entfernt und diskutiert.
Dieser Abschnitt kann archiviert werden. biggerj1 (Diskussion) 08:55, 28. Jul. 2022 (CEST)

Bayesscher R2[Quelltext bearbeiten]

Fehlt, vergleiche http://www.stat.columbia.edu/~gelman/research/unpublished/bayes_R2_v3.pdf biggerj1 (Diskussion) 17:45, 8. Nov. 2023 (CET)[Beantworten]

Sind es nur 2 Varianten oder sollten die Unterabschnitte unter Variante 1 separat aufgeführt werden? biggerj1 (Diskussion) 07:56, 27. Nov. 2023 (CET)[Beantworten]