Diskussion:Streuungsmaß (Statistik)/Archiv

aus Wikipedia, der freien Enzyklopädie
Letzter Kommentar: vor 5 Monaten von Biggerj1 in Abschnitt Schlechte Graphik
Zur Navigation springen Zur Suche springen

Graphische Darstellung

Sind grafische Darstellungen hier angebracht?

absolut! -- kakau 10:17, 28. Mai 2004 (CEST)

Ich habe die Beschreibung des Boxplots entfernt und den zu diesem Thema exestierenden Artikel verlinkt. Ark0n 00:06, 28. Jun 2005 (CEST)

Archivierung dieses Abschnittes wurde gewünscht von: --Sigma^2 (Diskussion) 11:15, 25. Aug. 2023 (CEST)

Streuung, Varianz, Dispersion

sind die Begriffe Streuung, Varianz und Dispersion äquivalent? ferner: Steuungsmaß = Dispersionsgröße? --143.50.168.42 16:23, 23. Okt 2005 (CEST)

Archivierung dieses Abschnittes wurde gewünscht von: --Sigma^2 (Diskussion) 17:55, 21. Mai 2024 (CEST)

MAD und Standardabweichung

ich habe die Umrechnung zwischen MAD und Standardabweichung für MADs aus dem Median der absoluten Abweichungen ergänzt. Ich bin mit meinen Erläuterungen dazu etwas unzufrieden und würde mich freuen, wenn sie von jemandem überarbeitet würden die/der mehr davon versteht. --Rick Schroeder 21:15, 8. Mär 2006 (CET)

Meines erachtens heißt MAD median absolute deviation und wird auch so in der englischsprachigen Literatur gebraucht. Ich bin mir über die genaue Bedeutung von "medium absolute deviation" nicht im klaren, einem kurzen Google-Battle nach zu urteilen scheint diese Bezeichnung auch nicht sehr gebräuchlich zu sein. Meiner Meinung nach sollte man MAD also als "median ..." einführen, dessen Eigenschaften aufführen und evtl. herleiten ( was ich gerne übernehmen kann ) um dann anschließend eine kurze Bemerkung über den "medium..." zu erwähnen. Die momentena Priorität im Artikel gefällt mir so nicht. --Spring-Daniel 13:04, 21. Mär 2006 (CET)

Ich habe den Artikel nun so umgeschrieben das ich denke das der Unterschied zwischen MD und MAD und die Beziehungen zur Standardabweichung nachvollziehbarer sind. Ausserdem hab ich herausgestellt das die MD kein robuster Schätzer ist ( In der vorherigen Version war dazu eine nach meiner Meinung widersprüchliche Aussagen zu finden, zum einen die MD sei robuster als die Standardabweichung, zum anderen wird 2 Sätze später erwähnt das'die Mittelung auch wieder anfällig gegenüber Ausreißern in den Daten ist.'). Beim Zusammenhang zwischen MD und Standardabweichung bin ich mir nicht 100%ig sicher ob er stimmt, bei meinen Berechnungen bin ich auf gekommen. Wäre schön wenn das noch jemand nachrechnen könnte. --Spring-Daniel 10:36, 24. Mär 2006 (CET)

Archivierung dieses Abschnittes wurde gewünscht von: --Sigma^2 (Diskussion) 17:57, 21. Mai 2024 (CEST)

Definitionsklärung mittlere Abweichung / mittlere absolute Abweichung

Laut Schwarze "Grundlagen der Statistik I" und vielen anderen Quellen im Internet (zum Beispiel http://webrum.uni-mannheim.de/vwl/mschienl/folien3.pdf#search=%22mittlere%20absolute%20abweichung%22) ist die "Mittlere Absolute Abweichung" das, was im Artikel als "Mittlere Abweichung" bezeichnet wird (das arithemtische Mittel der absoluten Abweichungen einzelner Beobachtungswerte vom Median). Was ist die Quelle für die Definition im Artikel für "Mittlere Abweichung" und "Mittlere absolute Abweichung"? Dazu habe ich bislang nur http://mathworld.wolfram.com/MeanDeviation.html gefunden. Dort ist "Mean Deviation" als das definiert, was hier im Artikel "Mittlere Abweichung" heißt, die Übersetzung wäre dann "mittlere Abweichung", die allerdings in der Bedeutung im Deutschen nicht gebräuchlich zu sein scheint. Allerdings kann ich die dortige Definition "Mean Absolute Deviation" wiederum in diesem Artikel nicht wiederfinden. -- Man 11:19, 11. Okt. 2006 (CEST)

Ergänzung: Der MedMed wird wohl im Allgemeinen als "Median der absoluten Abweichungen vom (Stichproben–) Median" bezeichnet, und nicht, wie hier angegeben, als mittlere absolute Abweichung, siehe zum Beispiel http://www.statistik.tuwien.ac.at/public/dutt/vorles/inf_bak/node23.html oder http://www.boku.ac.at/statedv/statlbt/St1_Folie_2_4K.pdf. Falls keiner Einwände hat, korrigiere ich das demnächst. -- Man 11:00, 16. Okt. 2006 (CEST)

Bei der Berechnung der en:mean absolute deviation (MAD) werden im Englischen nicht die Beträge der Abweichungen vom Median, sondern die Beträge der Abweichungen vom arithmetischen Mittelwert gemittelt. (The mean absolute deviation is the average absolute deviation from the mean ..., siehe auch hier oder hier) Was wir momentan haben, haut nicht hin. -- Jayen466 18:32, 12. Feb. 2008 (CET)
Habe MAD als alternative Bez. für MedMed entfernt und dafür im Absatz darüber eingefügt. -- Jayen466 18:40, 12. Feb. 2008 (CET)
Archivierung dieses Abschnittes wurde gewünscht von: --Sigma^2 (Diskussion) 19:43, 21. Mai 2024 (CEST)

Mittlere absolute Differenz fehlt

Die mittlere absolute Differenz fehlt noch (siehe z.B. [1], Def 1.27). Sie steht mit dem Gini-Koeffizient in Zusammenhang. --Bertrus 14:09, 26. Jan. 2009 (CET)

Inzwischen ergänzt.--Sigma^2 (Diskussion) 20:54, 21. Mai 2024 (CEST)
Archivierung dieses Abschnittes wurde gewünscht von: --Sigma^2 (Diskussion) 20:54, 21. Mai 2024 (CEST)

Schlechte Graphik

Zu gegebenen Messwerten sind in einer zugehörige Wahrscheinlichkeitsverteilung verschiedene Streumaße eingezeichnet. Die Spannweite bezeichnet den Abstand zwischen maximalem und minimalem Messwert. Im Intervall des Interquartilsabstands liegt die Hälfte der Messwerten, wobei ein Viertel sowohl unterhalb als auch oberhalb zu liegen kommt. Die Standardabweichung überdeckt in der Wahrscheinlichkeitsverteilung eine Fläche von 0.682.

Die mit dem letzten - noch nicht gesichteten Edit (Stand 21.5.2024) – eingefügte nebenstehende Graphik ist eine seltsame Mischung aus Elementen der deskriptiven Statistik, der induktiven Statistik und der Wahrscheinlichkeitstheorie (aus der Normalverteilung abgeleitete Dichtefunktion und Wahrscheinlichkeiten) und sollte in dieser Form nicht in den Artikel.--Sigma^2 (Diskussion) 18:07, 21. Mai 2024 (CEST)

Meine Interpretation der Grafik ist: aus der gezeigten Wahrscheinlichkeitsdichte sind Stichproben entnommen, welche auf der x-Achse explizit als Punkte eingezeichnet sind. Die Verteilung hat einen Median, Quantile, eine Standandabweichung... Die konkrete Stichprobenrealisierung hat ein Min, Max-Wert und daher eine "Spannweite". (Diesen Begriff kannte ich nicht...)
Konkret würde ich vorschlagen die Y-Achse mir Wahrscheinlichkeitsdichte anstatt "Häufigkeit" zu benennen.
Die gemeinsame Darstellung einer Stichprobenrealisierung und der Wahrscheinlichkeitsdichte, der sie entstammt, finde ich nicht verwerflich. Dafür finden sich sicher Vorbilder in Büchern. Übersehe ich sonst eine Schwäche? biggerj1 (Diskussion) 19:13, 21. Mai 2024 (CEST)
Um welche konkreten Messpunkte das Intervall "50% der Messpunkte" gezeichnet ist, ist nicht erklärt. Zwar liegen 5/10 der Messpunkte in diesem Intervall. Das gleiche würde jedoch für ein Intervall gelten, welches die ersten 5 Punkte von links überdecken würde... von daher würde ich dieses komische Intervall entfernen, oder explizit darauf verweisen, wie es konstruiert ist. biggerj1 (Diskussion) 19:18, 21. Mai 2024 (CEST)
In der deskriptiven Statistik gibt es Beobachtungswerte (Physiker würden von Messwerten sprechen, es gibt aber allgemeinere Beobachtungen). Es gibt keine Wahrscheinlichkeitsverteilung aus der die Daten in irgendeinem Sinn kommen und die Beobachtungen müssen auch keine Stichprobenwerte sein. Sie können z. B. Werte irgendeiner Gesamtheit sein. Es gibt in der deskriptiven Statistik keine Stichprobenrealisierungen. Das ist vielmehr der Ausgangspunkt der induktiven Statistik, in der man von Stichprobenwerten auf Kennwerte irgendwelcher Grundgesamtheiten oder Wahrscheinlichkeitsverteilungen zurück schließen will. --Sigma^2 (Diskussion) 20:10, 21. Mai 2024 (CEST)
Vielen Dank für die konstruktive Kritik. Tatsächlich habe ich auf der X-Achse die als Stern eingezeichneten Messwerte derart platziert, dass der Überlapp des Kerndichtenschätzers zur dargestellten Verteilung maximiert wird.
Die Bezeichnung "Häufigkeit" resultiert daher, dass ich in anderer Version ein Histogramm hinterlegte und eine doppelte y-Achse vermeiden wollte. Dadurch war die Normierung nicht zu 1 gegeben, was mich von der Begrifflichkeit der Wahrscheinlichkeitsverteilung etwas abschreckte.
Bezüglich der "50% der Messwerte": Dies muss im Kontext der beidseits zugehörigen Quartilen betrachtet werden: Damit ist das Intervall bis auf eine Verschiebung um einen einzelnen Messwert klar definiert.
Insgesamt ist die zusätzliche Bebilderung meinem Ansinnen geschuldet, auch Leser mit geringerem fachlichen Verständnis abzuholen.
Die Grafik ist mit Wolfram Mathematica erstellt, das wohl nicht jedem zugänglich ist - entsprechende Änderungswünsche kann ich gerne einpflegen, sobald ein Konsens gefunden ist.
Ist eine detaillierte Beschreibung der Methodik in der Bildbeschreibung selbst sinnvoll oder eine Erweiterung des Artikel-Textes? --Dr.rer.nat. Rudolf Golubich (Diskussion) 20:10, 21. Mai 2024 (CEST)
Noch einmal der erste Satz des Artikels: Dieser Artikel behandelt Streuungsmaße in der deskriptiven Statistik. Da gibt es keine Wahrscheinlichkeitsverteilungen, keine Stichproben und und keine Kerndichteschätzer. Das kann man alles machen, aber nicht in diesem Artikel.--Sigma^2 (Diskussion) 20:15, 21. Mai 2024 (CEST)
mea culpa. Ich muss gestehen, dass ich - tatsächlich als Physiker - hier die fachliche Grenze wohl zu schwach ziehe. Daher überlasse ich Feld und Entscheidung gerne Qualifizierteren, als ich es bin. --Dr.rer.nat. Rudolf Golubich (Diskussion) 20:26, 21. Mai 2024 (CEST)
Ich habe nun bei diesem Artikel, die Frage: warum wird im Einleitungssatz von einer "Häufigkeitsverteilung" geredet, wenn die deskriptive Statistik davon nichts wissen will? Und: warum ist im Artikel Lageparameter (deskriptive Statistik) direkt von einer Stichprobe die Rede? Ich verstehe nicht ganz. Die deskriptive Statistik kenne doch keine Stichprobe sagtest du... ich bin etwas verwirrt. LG biggerj1 (Diskussion) 21:59, 21. Mai 2024 (CEST)
Deskriptive = beschreibende Statistik beschreibt Datensätze. Wenn Beobachtungswerte mehrfach vorkommen, kann man eine Häufigkeitsverteilung (mit relativen oder absoluten) Häufigkeiten der auftretenden Werte erstellen, das ist das erste elementare Instrument der deskriptiven Statistik. Die Häufigkeitsverteilung ist ein rein deskriptives Konzept und hat nichts induktiver = schließender Statistik zu tun. Zur zweiten Frage: es steht dort, aber es ist falsch dass es dort so steht, weil es viel zu eng ist. Die beobachteten Werte oder Daten können Stichprobenwerte sein oder nicht, das ist für deskriptive Methoden unerheblich. Deskriptive Methoden können natürlich auch auf Stichprobenwerte anwendet werden. --Sigma^2 (Diskussion) 22:41, 21. Mai 2024 (CEST)
okay, ich bin mir nicht sicher ob ich die nuancierte Unterscheidung zwischen Bobachtungswert und Stichprobenwert verstehe. (Schließlich kann eine Stichprobe auch aus einer endlichen Grundgesamtheit gezogen werden: https://www.google.de/search?sca_esv=cb0e66b39656e8e8&sca_upv=1&q=stichprobe+aus+einer+endlichen+Grundgesamtheit und sogar eine nicht zufällige Stichprobe ist möglich,...) biggerj1 (Diskussion) 08:10, 22. Mai 2024 (CEST)
Wenn der Einwand gestattet ist:
Welches Zielpublikum soll dem Artikel gegeben sein? - Wer bereits vom Fach ist oder (natur)wissenschaftlichen Hintergrund hat, sucht i.d.R Formeln und ist von fachlich nicht "perfekten" Erklärungen genervt. Wer aber nicht vom Fach ist, dem erschließt sich der Inhalt bei wohl angestrebter, fachlicher Perfektion allenfalls mit viel zusätzlichem Kontext. --Dr.rer.nat. Rudolf Golubich (Diskussion) 08:47, 22. Mai 2024 (CEST)
Wenn man ein Histogramm geeignet konstruiert, dann ist die Fläche unter dem Histogramm auf 1 normiert, so dass die Histogrammfläche formal die Eigenschaften einer Wahrscheinlichkeitsdichte hat, siehe Histogramm#Eigenschaften.
Falls die Abbildung wirklich das Ergebnis einer Kerndichteschätzung war, dann wurde wohl mit einem Normalverteilungskern (Gauß-Kern) mit extrem großer Bandbreite gearbeitet. Ich habe allerdings noch nie gesehen, dass mit einer Kerndichteschätzung eine so gleichmäßige und symmetrische Kurve resultiert. Realistische Abbildungen findet man im Artikel Kerndichteschätzung. Die Angabe der Wahrscheinlichkeit 0.682 ist in diesem Zusammenhang völlig sinnlos, da diese Wahrscheinlichkeit aus der Normalverteilung stammt und für andere Verteilungen – auch für Mischungen von Normalverteilungen – die Wahrscheinlichkeit im Intervall im Allgemeinen völlig andere Werte hat. Völlig sinnlos wird diese Angabe bei Verwendung eines Cauchy-Kerns, da in diesem Fall für die geschätzte Dichte weder Erwartungswert noch Standardabweichung existieren.
Wenn man will, dass die gezeichnete Dichtefunktion eine Normalverteilungsdichte ist, dann ist es naheliegender, die Beobachtungswerte als Stichprobenwerte von stochastisch unabhängig und identisch normalverteilten Stcihprobenvariablen aufzufassen, und die zu den Maximum-Likelihood-Schätzwerten gehörende Normalverteilungsdichte mit den Parametern darzustellen. Es liegen dann ungefähr 68 % der Stichprobenwerte im Intervall . --Sigma^2 (Diskussion) 10:05, 22. Mai 2024 (CEST)
Wie ein Beitrag von biggerj1 weiter oben zeigt, kann die Abbildung auch so missverstanden werden, dass nicht die Dichtefunktion mit Kerndichteschätzung an die Daten angepasst wurde, sondern dass eine Zufallsstichprobe unabhängig und identisch verteilter Stichprobenwerte aus einer Normalverteilung gezogen wurde, dessen Dichte gezeichnet wurde. Das suggeriert die Abbildung und die angegebene Wahrscheinlichkeit, die nur für eine Normalverteilung gültig ist.
Auch wenn die Beobachtungswerte Stichprobenwerte sind, gibt es drei Konzepte, die Dichtefunktion der Grundgesamtheit (in der Regel unbekannt), die Häufigkeitsdichte (normiertes Histogramm), eine geschätzte Dichtefunktion (z. B. parametrisch oder nichtparametrisch per Kerndichteschätzung). --Sigma^2 (Diskussion) 10:02, 22. Mai 2024 (CEST)
@Sigma^2, die Argumente sind für mich überzeugend: Meine Grafik kann mit der hier dargebotenen fachlichen Exaktheit schlicht nicht mithalten und sogar derart interpretiert werden, dass sie inhaltliche Fehler aufweist. Vielen Dank für diese ausführlichen Diskussionskommentare und - die auch für mich - aufgewandte Zeit. --Dr.rer.nat. Rudolf Golubich (Diskussion) 11:43, 22. Mai 2024 (CEST)
Danke für die Diskussion! :Archivierung dieses Abschnittes wurde gewünscht von: biggerj1 (Diskussion) 19:23, 22. Mai 2024 (CEST) --biggerj1 (Diskussion) 19:23, 22. Mai 2024 (CEST)