Diskussion:Empirisches Quantil

aus Wikipedia, der freien Enzyklopädie
Letzter Kommentar: vor 7 Monaten von Sigma^2 in Abschnitt Einleitungsabsatz präzisieren
Zur Navigation springen Zur Suche springen
Auf dieser Seite werden Abschnitte ab Überschriftenebene 2 automatisch archiviert, die seit 7 Tagen mit dem Baustein {{Erledigt|1=--~~~~}} versehen sind.

Einleitungsabsatz präzisieren[Quelltext bearbeiten]

Hallo alle zusammen,

den folgenden Text in der Eileitung des Artikels:

»Vereinfacht teilt ein empirisches p-Quantil die Stichprobe so, dass ein Anteil der Stichprobe von p kleiner als das empirische p-Quantil ist und ein Anteil von 1-p der Stichprobe größer als das empirische p-Quantil ist. Ist beispielsweise eine Stichprobe von Schuhgrößen gegeben, so ist das empirische 0,35-Quantil diejenige Schuhgröße , so dass 35 % der Schuhgrößen in der Stichprobe kleiner als sind und 65 % größer als sind.«

würde ich gerne in folgender Weise ändern:

»Vereinfacht teilt ein empirisches p-Quantil die Stichprobe so, dass ein Anteil der Stichprobe von (annähernd) p Werte aufweist, die kleiner oder gleich dem empirischen p-Quantil sind und ein Anteil von (annähernd) 1–p der Stichprobe Werte aufweist, die größer gleich dem empirischen p-Quantil sind. Bei dem unten angegeben Beispiel ist das 0,25-Quantil identisch mit dem Wert des dritten Falls. Da hier 10 Fälle vorliegen, gibt es zwei Fälle oder 20 Prozent der Verteilung, die im Vergleich zum 0,25-Quantil kleinere oder gleich große Werte aufweisen und 7 Fälle oder 70 Prozent der Verteilung, die im Vergleich zum 0,25-Quantil gleich große oder größere Werte aufweisen.
In diesem Beispiel teilt das 0,25-Quantil die Stichprobe also nicht exakt, sondern nur annähernd im Verhältnis zu . Das ist immer dann der Fall, wenn das jeweilige empirische p-Quantil der Wert eines real existierenden Falls ist, weil dieser Fall sowohl aus dem unteren als auch aus dem oberen Bereich, in die das empirische Quantil die Stichprobe teilt, herausfällt. Wenn das empirische p-Quantil ein Wert ist, der zwischen den Werten von zwei benachbarten Fällen liegt (wie im Beispiel unten das 0,5-Quantil), dann teilt ein empirisches p-Quantil die Stichprobe genau so, dass exakt np Fälle kleinere oder gleichroße Werte und n(1–p) Fälle gleich große oder größere Werte aufweisen. In dem Beispiel führt das 0,5-Quantil zu einer Aufteilung der Stichprobe in genau 5 untere und 5 obere Werte, also genau 50 Prozent zu 50 Prozent.«

Ist das in Ordnung? Über eine zeitnahe Antwort würde ich ich freuen.

Viele Grüße

--Jake2042 (Diskussion) 10:49, 18. Sep. 2019 (CEST)Beantworten

Hallo Jake2042,

meine Meinung:

  • Der Leser sollte in der Einleitung möglichst nicht schon mit einem Beispiel konfrontiert werden
  • die bisherige Einleitung ist nicht falsch, denn sie beginnt mit "vereinfacht"
  • die Einfügung von "(annähernd)" macht es nicht besser: tat der Text bisher so, als seien die Anteile exakt, tut er danach so, als seien die Anteile annähernd. Beides stimmt jedoch nicht allgemein, sondern je nach Fall mal das eine, mal das andere.
  • das Wort "Fall" sollte imho ersetzt werden durch "Stichprobenwert"
  • im bisherigen Text steht "größer als" und "kleiner als", bei Dir "größer gleich" und "kleiner gleich". Was ist richtig?
  • Du schreibst, ".., weil dieser Fall sowohl aus dem unteren als auch aus dem oberen Bereich [] herausfällt". Das widerspricht dem obigen "größer gleich" und "kleiner gleich", wonach die Werte eingeschlossen wären.
  • die Herausarbeitung, dass die Anteile nur annähernd exakt bzw. tatsächlich exakt sind, je nach dem, ob ein Sichprobenwert dem Quantil exakt entspricht oder nicht, finde ich gut und erwähnenswert
  • Vorschlag: man schreibt an den Schluss der Einleitung sowas wie: "Falls die Stichprobe einen Wert enthält, der dem p-Quantil exakt entspricht, teilt das p-Quantil die Stichprobe nur annähernd in Anteile der Größe p und 1-p; ansonsten jedoch exakt (siehe Unterabschnitt Exaktheit)." und erstellt einen solchen Unterabschnitt mit Erläuterung und Verweis auf die vorhandenen Beispiele.

Viele Grüße, Patagonier (Diskussion) 21:48, 29. Sep. 2019 (CEST)Beantworten

Stichprobe[Quelltext bearbeiten]

Der Einleitungsabsatz erweckt den Eindruck das empirische Quantil sei ein Konzept der induktiven Statistik. Tatsächlich ist es irrelevant, ob die Beobachtungswerte Stichprobenwerte aus einer Grundgesamtheit sind. Das Quantil ist genau so eine Konzept der deskriptiven Statistik oder Datenanalyse, bei dem Beobachtungswerte untersucht werden. Diese können auch Werte einer (Grund-)Gesamtheit sein. Natürlich können die Beobachtungswerte auch Stichprobenwerte sein.--Sigma^2 (Diskussion) 17:19, 20. Sep. 2023 (CEST)Beantworten

Definitionen[Quelltext bearbeiten]

Ich würde gerne die Perzentilberechnung verstehen, insbesondere die Berechnung, die SPSS bei FREQUENCIES /PERCENTILES macht. Da irre ich von einer Definition zur nächsten. Wenn ich nur diese vier Artikel nehme (es gibt offenbar noch mehr):

Empirisches Quantil (D1) <-> en:Percentile (E1)

Quantil (Wahrscheinlichkeitstheorie) (D2) <-> en:Quantile (E2)

Wenn eine Software so schlecht ist, dass die Dokumentation nicht verständlich ist, würde ich sie nicht verwenden. --Sigma^2 (Diskussion) 16:31, 20. Sep. 2023 (CEST)Beantworten

Als Unterschied zwischen (D1) und (D2) sehe ich, dass bei (D2) die dahinterliegende Verteilungsfunktion bekannt ist, also darüber ein Quantil in der Regel direkt und exakt berechnet werden kann. Dagegen ist bei (D1) keine Funktion bekannt, sodass man erst einmal nur die beiden dem Quantil "benachbarten" Fälle ermitteln kann und daraus dann einen Quantilwert ableitet. Bei SPSS FREQUENCIES, ebenso wie bei verwandten Funktionen in Excel, Python statistics, Pandas, die alle mit Datentabellen arbeiten, kann es dann nur um (D1) gehen. Aber die Interwiki-Zuordnung zu (E1) und (E2) ist so Quatsch, richtig?

Der wichtigste Unterschied ist, dass es einmal um das Quantil einer Wahrscheinlichkeitsverteilung geht (Anwendungsbereich: Wahrscheinlichkeitstheorie, theoretische Statistik) und dann um das Quantil aus gegebenen Beobachtungswerte (Anwedungsbereich: deskriptive (beschreibende) Statistik, Datenanalyse usw.). In der induktiven Statistik werden beide Konzepte benötigt, da man z. B. aus beobachteten Stichprobenwerte ein empirisches Quantil berechnet, um dieses als Schätzwert für ein unbekanntes Quantil einer Wahrscheinlichkeitsverteilung (Merkmalsverteilung in einer Grundgesamtheit) zu verwenden. Die Unterscheidung ist fundamental und in der englischen Wikipedia weitaus schlechter gelöst. --Sigma^2 (Diskussion) 14:27, 20. Sep. 2023 (CEST)Beantworten

Hier (D1) wird eine Definition geliefert, die zwischen gerader und ungerader Fallzahl unterscheidet. Gibt es irgendeine "gängige" Software, die diese Definition verwendet? Auf der verlinkten Seite werden neun alternative Berechnungsmethoden Q1 bis Q9 genannt, ebenso in (E2) neun alternative Berechnungsmethoden R-1 bis R-9. Ob es dieselben neun sind, kann ich nicht beurteilen, ich kann die Formeln alle nicht lesen. Findet sich die Definition von (D1) hier überhaupt irgendwo wieder? Im SPSS-Algorithmenhandbuch, S. 370 f. ist noch eine andere Formel angegeben, die ich ebenfalls nicht lesen kann. Auch die enthält eine Fallunterscheidung, da geht es aber wohl nicht um gerade und ungerade Fallzahl.

Bei einer allgemeinen Definition eines Quantils ist ein -Quantil nur in Spezialfällen eindeutig. In verschiedenen Anwendungsbereichen gibt es unterschiedliche Ansätze dazu, ein Quantil eindeutig festzulegen. Verschiedene Softwarepakete haben sich zu unterschiedlichen Lösungen entschieden, die nicht selten schlecht dokumentiert sind. Die Aussage "neun alternative Berechnungsmethoden" ist falsch. Diese Formulierung legt nahe, dass es um unterschiedliche Berechnungsmethoden gibt, die zum selben Wert führen. Tatsächlich geht es meistens um verschiedene, mehr oder weniger handgestrickte, unterschiedliche Konzepte und Definitionen, eine einzigen Wert als das p-Quantil auszuzeichnen. Ich halte die jetzige Form des Artikels für nicht befriedigend, da diese Problematik nicht ausreichend erklärt ist. --Sigma^2 (Diskussion) 14:12, 20. Sep. 2023 (CEST)Beantworten

Gibt es eigentlich dieselbe Vielfalt an Algorithmen bereits für den Median? Der ist doch auch ein Quantil?

Dieselbe Vielfalt gibt es schon beim Median. Was ist der Median der Beobachtungswerte (1,3,5,8)? Aus statistisch-theroretischer Sicht ist jeder Wert im Intervall [3,5] ein Median (1/2-Quantil). 3 ist der untere Median (unteres 1/2-Quantil), 5 ist der obere Median (oberes 1/2-Quantil). Wenn in bestimmten Anwendungsbereichen, die der Mathematik eher fern sind, Statistik untersichtet wird, besteht ein Bedürfnis auf Kosten der Exaktheit die statistischen Konzepte als möglichst einfach darzustellen. So kommt es dann zu angeblich eindeutigen Median- und Quantilkonzepten, die sich dann auch teilweise in Software niederschlagen.--Sigma^2 (Diskussion) 14:12, 20. Sep. 2023 (CEST)Beantworten

Was ich sagen will, ich würde mir eine Erklärung wünschen, die auf die verschiedenen Berechnungsmethoden eingeht und sinnvollerweise Pseudocode-Algorithmen und Beispielwerte zum Nachvollziehen mitliefert. --Redoute (Diskussion) 11:11, 25. Apr. 2021 (CEST)Beantworten

Weitere Erklärungen im Artikel sind notwendig. --Sigma^2 (Diskussion) 14:17, 20. Sep. 2023 (CEST)Beantworten

Ich möchte gleich noch eine (dumme) Frage zum Verständnis hinterherschieben: Nehmen wir an, ich habe zehn Werte x1 = 1 ... x10 = 10. In einer Häufigkeitstabelle mit kumulierten Prozentwerten kann ich dann ablesen: Wert 9: 90 % kumuliert. In meiner Naivität hätte ich dann behauptet: 9 ist das 90%-Perzentil. Nach der Definition in (D1) erhalte ich aber 9,5 als Ergebnis? Ergeben die kumulierten Prozente keine Perzentile? --Redoute (Diskussion) 11:21, 25. Apr. 2021 (CEST)Beantworten

Die Frage ist berechtigt. Natürlich ist im Beispiel der Wert 9 ein 90 %-Quantil (das untere 90 %-Quantil), in einigen Anwendungsbereichen das 90 %-Quantil, aber auch jeder Wert im Intervall [9,10] ist ein 90 %-Quantil. Sich für die Mitte zu entscheiden ist eine Möglichkeit, die aus bestimmten Anwendungsbereichen kommt, aber nicht unkritisch gesehen werden darf. Der Wert 10 ist ebenfalls ein 90 %-Quantil, weil für mindestens 90 % der Beobachtungswerte die Ungleichung gilt und für mindestens 10% der Beobachtungswerte die Ungleichung gilt.--Sigma^2 (Diskussion) 14:12, 20. Sep. 2023 (CEST)Beantworten
Die Sprechweise 90 %-Perzentil ist problematisch. Es gibt 99 Perzentile, das erste Perzentil ist das 1%-Quantil, das zweite Perzentil ist das 2%-Quantil usw. Das neunzigste Perzentil ist also das 90 %-Quantil. Analog: das erste Quartil ist das 25 %-Quantil, das zweite Quartil ist das 50 %-Quantil, das dritte Quartil ist das 75 %-Quantil.--Sigma^2 (Diskussion) 14:12, 20. Sep. 2023 (CEST)Beantworten

Definition[Quelltext bearbeiten]

Die im Artikel angegebene Definition ist nicht allgemein genug, sondern eine sehr spezielle Definition (die durchaus in der Literatur) zu finden ist.

Gegeben seien Beobachtungswerte mit für . Dann heißt eine reelle Zahl -Quantil der Beobachtungswerte, falls die Ungleichungen

gelten. Dabei bezeichnet für die Indikatorfunktion.

definiert die sogenannte empirische Verteilung, die formal eine diskrete Wahrscheinlichkeitsverteilung auf dem Messraum ist, wobei formal ein Wahrscheinlichkeitsraum ist. Hierbei bezeichnet die Potenzmenge einer Menge
  • Ein -Quantil ist im Allgemeinen nicht eindeutig.
  • Die Menge
der -Quantile bildet ein Intervall der Form , mit oder , wobei die geordneten Beobachtungswerte mit bezeichnen.
  • Es gibt verschiedene – mehr oder weniger willkürliche und sich widersprechende – Methoden, bei einem mehrdeutigen -Quantil einen Wert als das -Quantil auszuzeichnen. Beispielsweise wird vorgeschlagen, bei einem Intervall mit die Intervallmitte als eindeutiges -Quantil zu bezeichnen.

--Sigma^2 (Diskussion) 12:27, 20. Sep. 2023 (CEST)Beantworten