Portal Diskussion:Statistik/Archiv/2016

aus Wikipedia, der freien Enzyklopädie
Zur Navigation springen Zur Suche springen

Ausreißer aus einer Datenmenge ausschließen?

Hallo, ich suche eine statistisch „legale“ Methode Ausreißer aus einer Datenmenge ausschließen zu können. Ich habe einen Datensatz von Zeiten (Wettkampf). Wenn ich Klassen mit Wurzel(n) oder Wurzel(2n) bilde, bekomme ich eine schöne Gaußkurve. Links im Graf ist die schnellste Zeit. Rechts würde ich gerne einen Cut-Off setzten. Mein Gedanke ist, dass ich die schnellste Zeit um den Median spiegle und dort den Cut-Off setzte. Gibt es für diese art „Vorgang“ etwas Offizielles? Wenn ja ändert sich auch der Wert des Median -> muss ich den Cut-Off so lange wiederholen bis keine Zeit mehr ausgeschlossen wird? --Sk@te (Diskussion) 14:05, 28. Jun. 2016 (CEST)

Zunächst einmal sehe ich bei solchen Wettkampfzeiten keinen Grund, eine Normalverteilung zu erwarten. Wenn sie vorkommt, ist es wohl eher ein Zufall. Deshalb kann ich keine Rechtfertigung für deine Spiegelung erkennen. Ausreißer lässt man dann weg, wenn es klar ist, das sie für den Gegenstand der Analyse ohne Bedeutung sind. Im Zweifelsfall lässt man sie drin. Gruß. --Saidmann (Diskussion) 16:56, 28. Jun. 2016 (CEST)
Danke! Wenn ich eine Klassenbildung vornehme entsteht immer eine Normalverteilung (je mehr Athleten ums so eindeutiger)! Die schnellsten Athleten sind selten, dann kommt die erweiterte Spitze, dann kommt das Gro der Athleten, dann die nicht so qualifizierten und am Ende diejenigen die eigentlich nicht geeignet sind aber dennoch Teilnehmen. Letztere Gruppe verhindert, dass die Kurve Symmetrisch wird. Wenn Qualizeiten Bedingung sind, fallen diese von vornherein raus. Gibt es sie nicht hab ich rechts diesen "Rattenschwanz". Materialfehler, Stürze oder Zeitstraffen führen auch zu so etwas. Aus Ergebnislisten lässt sich das nicht ablesen. Vielleicht ist Normalverteilung auch der falsche Ausdruck für die Kurve. Grüße. --Sk@te (Diskussion) 11:32, 29. Jun. 2016 (CEST)
Ja, bei nur fünf Klassen redet man nicht von Kurve. Vielleicht bietet es sich an, statt mit Klassen mit gleitendem Durchschnitt zu arbeiten. Gruß. --Saidmann (Diskussion) 15:36, 29. Jun. 2016 (CEST)
Das war nur ein Beispiel mit den fünf Beschreibungen. Ab 100 Athleten sind es min 10 Klassen. Bsp.: N=117, Kl (Wurzel(2*N))= 15 - 1,1,4,4,10,13,16,19,14,15,11,1,3,3,(2-Cut-Off) --Sk@te (Diskussion) 10:28, 30. Jun. 2016 (CEST)
Danke Leute! Ich werde die Daten drin lassen und via Fußnote eine ergänzende Information anführen. --Sk@te (Diskussion) 12:18, 7. Jul. 2016 (CEST)
Archivierung dieses Abschnittes wurde gewünscht von: --Sigma^2 (Diskussion) 10:57, 16. Okt. 2022 (CEST)

Endliche diskrete Verteilung für die maximale Länge von Bitfolgen gesucht

Ich bin auf der Suche nach einer endlichen diskreten Verteilung und deren beschreibende Parameter, welche für jeweils N Bit lange Binärwerte die Wahrscheinlichkeiten für die jeweils längst mögliche Bitfolge bestehend nur aus Einsen (oder nur aus Nullen) angibt. Für (N <= 32) Bit lange Binärwerte kann man diese Wahrscheinlichkeiten zur Not noch vom Computer auszählen lassen, was aber mit wachsendem N sehr schnell sehr ineffizient wird.

Zum besseren Verständnis hier ein kleines Beispiel: Betrachten wir nur Bitfolgen von Einsen für alle (N=4) Bit lange Binärwerte: Von den hier möglichen Σ=2N=24=16 Werten {0000,0001,0010,0011,0100,0101,0110,0111,1000,1001,1010,1011,1100,1101,1110,1111} hat jeweils nur ein einzelner Wert hier {0000} die maximale Bitfolgenlänge von N-N=0 (p0=1/Σ) und auch jeweils nur ein einzelner Wert hier {1111} die maximale Bitfolgenlänge von N-0=N (pN=1/Σ). Jeweils nur zweimal wird die maximale Bitfolgenlänge N-1 erreicht (pN-1=2/Σ), hier für die Werte {0111,1110}, aber schon fünf Mal ergibt sich hier eine maximale Bitfolgenlänge von N-2 {0011,0110,1011,1011,1100} (also pN-2=5/Σ) und sogar sieben Mal {0001,0010,0100,0101,1000,1001,1010} ergibt sich hier eine maximale Bitfolgenlänge von N-3=1 (p1=7/16).

Nachfolgend eine tabellarische Übersicht für die Häufigkeiten aller maximalen Bitfolgen für alle (N <= 8) Bit langen Werte

N Σ 0 1 2 3 4 5 6 7 8
1 2 1 1 - - - - - - -
2 4 1 2 1 - - - - - -
3 8 1 4 2 1 - - - - -
4 16 1 7 5 2 1 - - - -
5 32 1 12 11 5 2 1 - - -
6 64 1 20 23 12 5 2 1 - -
7 128 1 33 47 27 12 5 2 1 -
8 256 1 54 94 59 28 12 5 2 1

Offensichtlich ist diese Verteilung ab (N > 2) unsymmetrisch, hat dann einen kurzen steilen Anstieg sowie einen längeren und flacheren Abgang ähnlich wie die Chi-Quadrat-Verteilung oder die Weibull-Verteilung nur eben für den diskreten Fall. Und eine einfache unsymmetrische Binomialverteilung mit (p < q) ist es meines Erachtens leider nicht. Hinweis: Die hintere Hälfte der Häufigkeiten einer jeden Zeile läßt sich effizient berechnen, nämlich als Summe aller Häufigkeiten der gesamten Spalte darüber plus alle schon ermittelten Häufigkeiten dieser Zeile weiter hinten minus dem Dreieck der Häufigkeiten dazwischen, also 2=(1)+(1)-(0) ; 5=(2+1)+(2+1)-(1) ; 12=(5+2+1)+(5+2+1)-(2+1+1) ; 28=(12+5+2+1)+(12+5+2+1)-(5+2+2+1+1+1) ; usw. Das gilt aber leider nicht für die Häufigkeitswerte in der vorderen Hälfte einer Zeile, z.B. 12, 23 oder 27 statt 28, 7 oder 11 statt 12, 4 statt 5 usw. --Aragorn321 (Diskussion) 23:07, 10. Jul. 2016 (CEST)

Mehr zum funktionalen Zusammenhang (woraus dann eine Wahrscheinlichkeitsverteilung ermittelt werden kann) findest du hier. --BrunosapiJens (Diskussion) 18:51, 11. Jul. 2016 (CEST)

Vielen Dank für den Link! Ganz offensichtlich haben schon andere Leute über 10 Jahre vorher dieses Problem gehabt, gelöst und darüber auch im Internet berichtet, nur gefunden habe ich es nicht, obwohl ich eigentlich nach der richtigen Zeichenfolge "1, 1, 1, 2, 1, 1, 4, 2, 1, 1, 7, 5, 2, 1" (mit und ohne Leerzeichen und was mir sonst noch als Trennzeichen einfiel) gesucht hatte. Aber eine Menge nichtgewollter angeblicher Sudoko-Lösungen (mit mehreren Einsen in einer Zeile!!!) habe ich dafür gefunden - verstehe einer die Suchlogik des Internets. Vermutlich muß man da die Logik erst einmal suchen. Erfreulich ist jedenfalls, das es auch eine effiziente Formel zu geben scheint, mit der man das ganze Zahlendreieck berechnen und somit bei Bedarf recht schnell eine Häufigkeitstabelle erstellen kann, welche eine konkrete Verteilung ja inhaltlich ziemlich vollständig beschreibt. Das hilft schon mal ordentlich weiter - Danke! Ach, und falls die Verteilung bisher noch keinen offiziellen Namen haben sollte, schlage ich hiermit den aussagekräftigen Namen "Diskrete OEIS-A048004-Verteilung" vor, dann weiß man wenigstens gleich, wo es anschauliche Zahlenbeispiele dazu gibt ... --Aragorn321 (Diskussion) 20:44, 12. Jul. 2016 (CEST)

Schön, dass ich helfen konnte. Hast du eine Idee, wie sich diese Verteilung am besten in einem Wikipediaartikel darstellen ließe? --BrunosapiJens (Diskussion) 20:43, 19. Jul. 2016 (CEST)
Die statistischen Fachbegriffe sind 'Iteration' (engl. run) für 'Bitfolge' und 'Iterationslänge (engl. run length) für 'Länge einer Bitfolge'. Verteilungen für Iterationen finden sich in Lehrbüchern zur Nichtparametrischen Statistik. Artikel zur problematisierten diskreten Wahrscheinlichkeitsverteilung (es gibt mehr):
--Sigma^2 (Diskussion) 12:58, 16. Okt. 2022 (CEST)
Und: Jean Dickinson Gibbons, Subhabrata Chakraborti: Nonparametric Statistical Inference. 6. Auflage. Chapman & Hall/CRC, Boca Raton 2021, ISBN 978-1-315-11047-9, Kap. 3.3 Tests Based on the Length of the Longest Runs, doi:10.1201/9781315110479. --Sigma^2 (Diskussion) 12:04, 17. Okt. 2022 (CEST)
Archivierung dieses Abschnittes wurde gewünscht von: --Sigma^2 (Diskussion) 22:45, 20. Feb. 2023 (CET)