Ausreißertest nach Walsh

aus Wikipedia, der freien Enzyklopädie
Zur Navigation springen Zur Suche springen

Der Ausreißertest nach Walsh ist ein statistischer Test, mit dem Ausreißer in einer Stichprobe erkannt werden können. Er setzt keine bestimmte Häufigkeitsverteilung der Daten voraus und zählt deshalb zu den nichtparametrischen Verfahren. Entwickelt wurde der Test vom amerikanischen Statistiker John E. Walsh, der ihn 1950 erstmals beschrieb.

Der Ausreißertest nach Walsh ist nicht von dem Problem der meisten anderen Ausreißertests betroffen, die auf der Annahme einer Normalverteilung basieren und bei Stichproben, deren Werte beispielsweise lognormalverteilt sind, zu falsch-positiven Ergebnissen führen können. Voraussetzung für die Testanwendung ist allerdings ein Stichprobenumfang von mehr als 60 Werten für ein Signifikanzniveau von α=0,10 und von mehr als 220 Werten für α=0,05.

Darüber hinaus muss zur Durchführung des Tests die Zahl der angenommenen Ausreißer a priori angegeben werden. Die Nullhypothese des Tests ist die Annahme, dass alle Beobachtungen zur Stichprobe gehören und die Stichprobe somit keine Ausreißer enthält. Die Alternativhypothese ist demgegenüber, dass die der zur Testdurchführung angegebenen Zahl der angenommenen Ausreißer entsprechenden höchsten beziehungsweise niedrigsten Einzelwerte tatsächlich Ausreißer sind.

Testdurchführung

[Bearbeiten | Quelltext bearbeiten]
Nullhypothese Alternativhypothese
Die kleinsten Werte gehören zu einer Verteilung. Die kleinsten Werte gehören nicht zu einer Verteilung; sind also Ausreißer.
Die größten Werte gehören zu einer Verteilung. Die größten Werte gehören nicht zu einer Verteilung; sind also Ausreißer.

Folgende Berechnungsschritte werden durchgeführt:

  • mit die größte ganze Zahl kleiner als (abrunden),
  • ,
  • und
  • .

Gilt nun

  • dann kann die Nullhypothese zum Signifikanzniveau verworfen werden oder
  • dann kann die Nullhypothese zum Signifikanzniveau verworfen werden.

Der Wert gibt dabei die kleinste Beobachtung der Stichprobe an; siehe auch Rang (Statistik).

Da der Wert sein muss, muss gelten: . Daher sind für ein Signifikanzniveau von mindestens 61 Beobachtungen erforderlich, für ein Signifikanzniveau von mindestens 221 Beobachtungen.

Wenn , und dann ist , , , . D.h. wenn

  • dann wird verworfen bzw.
  • dann wird verworfen.

Mathematischer Hintergrund

[Bearbeiten | Quelltext bearbeiten]

Walsh betrachtet eine lineare Kombination von Ordnungsstatistiken der Form

mit und .

Wenn die Nullhypothese gilt, dann folgt , wenn die minimal sein soll. Gilt des Weiteren , so folgt mittels der Tschebyscheff-Ungleichung:

.

Einige, nicht sehr restriktive, Voraussetzungen müssen jedoch erfüllt sein:

  1. Wenn die inverse Verteilungsfunktion der Grundgesamtheit bzw. deren erste Ableitung ist, dann muss für (allenfalls mit ) unter gelten
    • ,
    • ,
    • ,
    • sowie
    • analogen Bedingungen für und .
  2. Für können die Terme vernachlässigt werden und es ergibt sich dann .
  • John Edward Walsh: Some Nonparametric Tests of whether the Largest Observations of a Set are too Large or too Small. In: Annals of Mathematical Statistics. Band 21, Nr. 4, 1950, ISSN 0003-4851, S. 583–592, doi:10.1214/aoms/1177729753.
  • John Edward Walsh: Correction to "Some Nonparametric Tests of Whether the Largest Observations of a set are too Large or too Small". In: Annals of Mathematical Statistics. Band 24, Nr. 1, 1953, S. 134–135, doi:10.1214/aoms/1177729095.
  • John Edward Walsh: Large Sample Nonparametric Rejection of Outlying Observations. In: Annals of the Institute of Statistical Mathematics. 10/1958. The Institute of Statistical Mathematics, S. 223–232, ISSN 0020-3157
  • Large Sample Outlier Detection. In: Douglas M. Hawkins: Identification of Outliers. Chapman & Hall, London und New York 1980, ISBN 0-41-221900-X, S. 83/84