„Ordnungsstatistik“ – Versionsunterschied

aus Wikipedia, der freien Enzyklopädie
Zur Navigation springen Zur Suche springen
[gesichtete Version][gesichtete Version]
Inhalt gelöscht Inhalt hinzugefügt
→‎Eigenschaften: Geordnete Stichproben und etwas Statistikbezug ergänzt
Zeile 42: Zeile 42:


Es gibt eine Verallgemeinerung für eine [[Zufallsstichprobe]], bei der <math> (X_1,\dots,X_n) </math> ein Vektor stochastisch [[Unabhängig und identisch verteilt |unabhängiger und identisch verteilter]] reeller Zufallsvariablen ist. Der Vektor <math>(X_{1:n},\dots,X_{1:n})</math>, dessen <math>i</math>-te Komponente die <math>i</math>-te Ordnungsstatistik ist, heißt dann
Es gibt eine Verallgemeinerung für eine [[Zufallsstichprobe]], bei der <math> (X_1,\dots,X_n) </math> ein Vektor stochastisch [[Unabhängig und identisch verteilt |unabhängiger und identisch verteilter]] reeller Zufallsvariablen ist. Der Vektor <math>(X_{1:n},\dots,X_{1:n})</math>, dessen <math>i</math>-te Komponente die <math>i</math>-te Ordnungsstatistik ist, heißt dann
''geordnete Stichprobe'' oder ''vollständige Ordnungstatistik''.<ref name="HM" /><ref name="GW" /> Die geordnete Stichprobe heißt auch ''Positionsstichprobe'' oder ''Variationsreihe''.<ref name="HM" /> Die <math>i</math>-te Ordnungsstatistik heißt auch ''<math>i</math>-te Ranggröße'' oder ''Positionsstichprobenfunktion <math>i</math>-ten Rangs''.<ref name="HM" /> Die geordnete Stichprobe <math>(X_{1:n},\dots,X_{1:n})</math> spielt eine zentrale Rolle in der [[Nichtparametrische Statistik|nichtparametrischen Statistik]], da sie eine [[Suffiziente Statistik|suffizient]]e und [[Vollständigkeit (Statistik) |vollständige Statistik]] ist.<ref>{{Literatur |Herausgeber=[[P. Heinz Müller|P. H. Müller]] |Titel=Lexikon der Stochastik – Wahrscheinlichkeitsrechnung und mathematische Statistik |Verlag=Akademie-Verlag |Ort=Berlin |Datum=1991 |Auflage= 5 |ISBN=978-3-05-500608-1 |Fundstelle=''geordnete Stichprobe'', S. 142}}</ref>
''geordnete Stichprobe''<ref name="HM" /><ref name="GW" />, ''vollständige Ordnungsstatistik'' oder kurz ''Ordnungsstatistik''<ref>{{Literatur |Autor=Galen R. Shorack | Titel=Probability for Statisticians |Reihe=Springer Texts in Statistics |Auflage=2 |Verlag=Springer |Ort=Cham |Datum=2017 |ISBN=978-3-319-52206-7 |DOI=10.1007/978-3-319-52207-4 |Fundstelle=S.120}}</ref>. Die geordnete Stichprobe heißt auch ''Positionsstichprobe'' oder ''Variationsreihe''.<ref name="HM" /> Die <math>i</math>-te Ordnungsstatistik heißt auch ''<math>i</math>-te Ranggröße'' oder ''Positionsstichprobenfunktion <math>i</math>-ten Rangs''.<ref name="HM" /> Die geordnete Stichprobe <math>(X_{1:n},\dots,X_{1:n})</math> spielt eine zentrale Rolle in der [[Nichtparametrische Statistik|nichtparametrischen Statistik]], da sie eine [[Suffiziente Statistik|suffizient]]e und [[Vollständigkeit (Statistik) |vollständige Statistik]] ist.<ref>{{Literatur |Herausgeber=[[P. Heinz Müller|P. H. Müller]] |Titel=Lexikon der Stochastik – Wahrscheinlichkeitsrechnung und mathematische Statistik |Verlag=Akademie-Verlag |Ort=Berlin |Datum=1991 |Auflage= 5 |ISBN=978-3-05-500608-1 |Fundstelle=''geordnete Stichprobe'', S. 142}}</ref>


== Verteilung der Ordnungsstatistiken ==
== Verteilung der Ordnungsstatistiken ==

Version vom 2. März 2023, 13:15 Uhr

In der Statistik bezeichnet die -te Ordnungsstatistik (auch Ordnungsgröße genannt[1]) den -kleinsten Wert einer Stichprobe.[2] Ordnungsstatistiken sind damit spezielle Zufallsvariablen. Sie werden aus einer vorgegebenen Gruppe von Zufallsvariablen gewonnen und modifizieren diese so, dass die Realisierungen der Ordnungsstatistik den Realisierungen der zugrunde liegenden Zufallsvariablen entsprechen, aber immer der Größe nach geordnet sind.

Daher treten Ordnungsstatistiken insbesondere bei der Untersuchung von zufälligen Strukturen auf, die mit einer Ordnung versehen sind. Dazu zählt beispielsweise die Analyse von Wartezeitprozessen oder die Bestimmung von Schätzfunktionen für den Median oder Quantile.

Definition

Gegeben seien Zufallsvariablen . Sind die Zufallsvariablen bindungsfrei, nehmen also fast sicher nicht denselben Wert an, formell ausgedrückt

für alle ,

so definiert man

und

für . Dann heißen die Ordnungsstatistiken von .[2] Die Zufallsvariable wird dann auch die -te Ordnungsstatistik genannt. Als alternative Notation wird auch anstelle von verwendet.[3]

Sind die Zufallsvariablen nicht bindungsfrei, so lassen sich die Ordnungsstatistiken definieren als

.[2]

Hierbei bezeichnet die Indikatorfunktion auf der Menge . Im bindungsfreien Fall stimmen beide Definitionen überein. Nicht alle Autoren fordern wie oben, dass die Zufallsvariablen fast sicher ungleiche Werte annehmen. Die Eigenschaften der Ordnungsstatistiken variieren dann leicht.

Eigenschaften

Fordert man in der Definition

für alle ,

so gilt

fast sicher.[2]

Äquivalent dazu gilt für die Realisierungen

für fast alle Ergebnisse .

Die Realisierungen der Ordnungsstatistiken sind also (fast sicher) strikt aufsteigend.

Verzichtet man auf die Forderung, dass die Zufallsvariablen fast sicher nicht dieselben Werte annehmen sollen, so gilt entsprechend

fast sicher.[4]

Die Realisierungen sind dann nur noch (fast sicher) aufsteigend.

Geordnete Stichprobe

Die geordneten Stichprobenwerte entstehen, wenn die Werte einer Stichprobe einen Größenvergleich erlauben und der Größe nach angeordnet werden.[5][6] Meistens erfolgt die Anordnung nichtfallend, so dass gilt. Man nennt den Vektor oft kurz Stichprobe und den Vektor dann geordnete Stichprobe. Beispielsweise führt die Stichprobe zur geordneten Stichprobe . Die geordneten Stichprobenwerte werden auch mit bezeichnet.

Es gibt eine Verallgemeinerung für eine Zufallsstichprobe, bei der ein Vektor stochastisch unabhängiger und identisch verteilter reeller Zufallsvariablen ist. Der Vektor , dessen -te Komponente die -te Ordnungsstatistik ist, heißt dann geordnete Stichprobe[5][6], vollständige Ordnungsstatistik oder kurz Ordnungsstatistik[7]. Die geordnete Stichprobe heißt auch Positionsstichprobe oder Variationsreihe.[5] Die -te Ordnungsstatistik heißt auch -te Ranggröße oder Positionsstichprobenfunktion -ten Rangs.[5] Die geordnete Stichprobe Fehler beim Parsen (SVG (MathML kann über ein Browser-Plugin aktiviert werden): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „http://localhost:6011/de.wikipedia.org/v1/“:): {\displaystyle (X_{1:n},\dots,X_{1:n})} spielt eine zentrale Rolle in der nichtparametrischen Statistik, da sie eine suffiziente und vollständige Statistik ist.[8]

Verteilung der Ordnungsstatistiken

Die Zufallsvariablen seien stochastisch unabhängig und identisch verteilt mit der Verteilungsfunktion , dann lassen sich die Verteilungsfunktionen der Ordnungsstatistiken explizit angegeben.

Für die Verteilungsfunktion der -ten Ordnungsstatistik () gilt

Wichtige Spezialfälle der Verteilung ergeben sich für das Minimum () und Maximum () als

Die Zufallsvariablen seien stochastisch unabhängig und identisch verteilt mit der der Verteilungsfunktion und der Dichtefunktion , dann hat die -te Ordnungsstatistik die Dichtefunktion

Anwendung

In der nichtparametrischen Statistik lassen sich Rangstatistiken oder empirische Verteilungsfunktionen durch Ordnungsstatistiken ausdrücken. Zudem können aus Ordnungsstatistiken schwach konsistente Schätzer für Quantile abgeleitet werden. Weiter lassen sich durch oben genannte Verteilung über Faltungen und Transformationssätze die Verteilung von wichtigen Maßzahlen wie dem Median oder der Spannweite gewinnen.

Beispiel

Abbildung 1: Wahrscheinlichkeitsdichten der Ränge 10 (Gold), 9 (Silber) und 8 (Bronze)

Es wird das Finale eines Wettbewerbs der Leichtathletik, bestehend aus den besten Teilnehmern, ausgetragen. In diesem Beispiel wird angenommen, dass die Leistungsdichte im Finale des Wettkampfes sehr groß ist und es daher keine Favoriten für die Medaillen gibt. Für die zufällige Gesamtpunktzahl jedes Athleten wird daher dieselbe stetige Gleichverteilung im Punktebereich von bis angenommen. Es entscheidet demnach ausschließlich die Tagesform über die Gesamtpunktzahl, welche starken Schwankungen unterliegt, und alle Athleten besitzen das gleiche Leistungspotential. Setzt man die Dichtefunktion

und die Verteilungsfunktion

der stetigen Gleichverteilung in die obige Dichtefunktion der Ordnungsstatistik ein, erhält man die Verteilungen für die einzelnen Ränge. Da die Punktzahlen in der Ordnungsstatistik aufsteigend sortiert sind, erhält man für die Wahrscheinlichkeitsverteilung für die Goldmedaille, für die der Silbermedaille und für die der Bronzemedaille. Der nebenstehenden Grafik ist bereits zu entnehmen, dass für die Goldmedaille eine höhere Punktzahl zu erwarten ist als für die Silber- oder Bronzemedaille. Da die Punkte in diesem Beispiel als stetige Gleichverteilung modelliert wurden, ist die -te Ordnungsstatistik für (siehe Abbildung 1) jeweils Beta-verteilt (multipliziert mit ) mit den Parametern und . Der Erwartungswert einer solchen Betaverteilung ist . Für die Goldmedaille ist daher eine Punktzahl von , für Silber und für Bronze zu erwarten. Falls ein Athlet bereits Punkte erhalten hat und auf die Punktzahlen der anderen Sportler wartet, kann er unter den gemachten Annahmen seine eigenen Chancen für Gold berechnen. Die Wahrscheinlichkeit, dass die anderen Athleten alle schlechter abschneiden, beträgt . Falls der Athlet insgesamt Punkte erhält, wie für die Goldmedaille erwartet, wird er also trotzdem nur mit einer Wahrscheinlichkeit von die Goldmedaille bekommen.

Literatur

  • Herbert Büning und Götz Trenkler: Nichtparametrische statistische Methoden. 2. Auflage, de Gruyter, Berlin und New York 1994, ISBN 3-11-016351-9

Einzelnachweise

  1. Claudia Czado, Thorsten Schmidt: Mathematische Statistik. Springer-Verlag, Berlin Heidelberg 2011, ISBN 978-3-642-17260-1, S. 23, doi:10.1007/978-3-642-17261-8.
  2. a b c d Hans-Otto Georgii: Stochastik. Einführung in die Wahrscheinlichkeitstheorie und Statistik. 4. Auflage. Walter de Gruyter, Berlin 2009, ISBN 978-3-11-021526-7, S. 242–243, doi:10.1515/9783110215274.
  3. Norbert Henze: Stochastik für Einsteiger. Eine Einführung in die faszinierende Welt des Zufalls. 10. Auflage. Springer Spektrum, Wiesbaden 2013, ISBN 978-3-658-03076-6, S. 323, doi:10.1007/978-3-658-03077-3.
  4. David Meintrup, Stefan Schäffler: Stochastik. Theorie und Anwendungen. Springer-Verlag, Berlin Heidelberg New York 2005, ISBN 978-3-540-21676-6, S. 290, doi:10.1007/b137972.
  5. a b c d P. H. Müller (Hrsg.): Lexikon der Stochastik – Wahrscheinlichkeitsrechnung und mathematische Statistik. 5. Auflage. Akademie-Verlag, Berlin 1991, ISBN 978-3-05-500608-1, geordnete Stichprobe, S. 141.
  6. a b Guido Walz (Hrsg.): Lexikon der Mathematik. 2. Auflage. Band 2. Eig bis Inn. Springer Spektrum, Berlin 2017, ISBN 978-3-662-53503-5, geordnete Stichprobe, S. 277, doi:10.1007/978-3-662-53504-2.
  7. Galen R. Shorack: Probability for Statisticians (= Springer Texts in Statistics). 2. Auflage. Springer, Cham 2017, ISBN 978-3-319-52206-7, S.120, doi:10.1007/978-3-319-52207-4.
  8. P. H. Müller (Hrsg.): Lexikon der Stochastik – Wahrscheinlichkeitsrechnung und mathematische Statistik. 5. Auflage. Akademie-Verlag, Berlin 1991, ISBN 978-3-05-500608-1, geordnete Stichprobe, S. 142.