Wald-Test

aus Wikipedia, der freien Enzyklopädie
Wechseln zu: Navigation, Suche

Der Wald-Test ist ein statistischer Test, der 1943 von Abraham Wald vorgestellt worden ist. Ist \theta ein unbekannter Parameter in der Grundgesamtheit und \theta_0 ein vorgegebener Wert, so prüft er die Hypothesen:

H_0\colon \theta=\theta_0  vs.  H_1\colon \theta\neq\theta_0.

Das Problem ist, die Verteilung einer geeigneten Teststatistik unter Gültigkeit der Nullhypothese zu bestimmen. Der Wald-Test basiert auf der Tatsache, dass der Maximum-Likelihood-Schätzer \hat{\theta} für den unbekannten Parameter für große Beobachtungszahlen in Verteilung gegen eine Normalverteilung strebt. Viele Tests lassen sich daher als Spezialfälle des Wald-Tests auffassen.

Beispiele[Bearbeiten]

Einstichproben Gauß-Test als Spezialfall des Wald-Tests[Bearbeiten]

Wenn eine Variable in einer Grundgesamtheit normalverteilt ist mit X\sim N(\mu_X; \sigma_X^2) mit unbekanntem Parameter \mu_X und bekanntem \sigma_X, dann ist der Stichprobenmittelwert

\bar{X}=\frac1n \sum_{i=1}^n X_i \sim N(\mu_X, \sigma_X^2/n)

auch der Maximum-Likelihoodschätzer für \mu_X. Eine der Hypothesen für den Einstichproben-Gauß-Test lautet:

H_0\colon \mu_X=\mu_0  vs.  H_1\colon \mu_X\neq\mu_0

und die Teststatistik nach Wald wäre

T=\frac{\bar{X}-\mu_0}{\sigma_X/\sqrt{n}}\approx N(0,1).

Somit kann der Einstichproben-Gauß-Test als Spezialfall des Wald-Tests aufgefasst werden.

Anwendung in der Regressionsanalyse[Bearbeiten]

Mit dem Wald-Test kann z. B. geprüft werden, ob eine oder alle unabhängigen Variablen einen signifikanten Beitrag zu einem generalisierten linearen Regressionsmodell liefern:

y=G(\beta_0+\beta_1 x_1 + \dotsb + \beta_p x_p).

Sowohl die abhängige Variable als auch die unabhängigen Variablen können binär (kategoriell) oder metrisch sein, der Wald-Test kann dann die Hypothesen testen:

  • H_0\colon \beta_i=0  vs.  H_1\colon \beta_i\neq0 bzw.
  • H_0\colon \beta_0=\beta_1=\dotsb=\beta_p=0  vs.  H_1\colon mindestens ein \beta_i\neq 0.

Wenn der Wald-Test für eine oder mehrere unabhängige Variablen die Nullhypothese ablehnt, dann können wir davon ausgehen, dass die zugehörigen Parameter ungleich Null sind, so dass die Variable(n) in das Modell mit einbezogen werden sollten. Wenn es nur um eine unabhängige Variable geht, dann wird ein T-Test benutzt, um zu überprüfen, ob der Parameter signifikant ist. Für einen einzelnen Parameter stimmt das Ergebnis der Wald-Statistik mit dem Ergebnis des Quadrates der T-Statistik überein.

Im klassischen linearen Regressionsmodell (G(\eta)=\eta) ist jedoch z. B. der F-Test auch bei kleinen (endlichen) Stichproben exakt und daher bei bekannter Verteilung des Schätzers vorzuziehen (so z. B. im klassischen linearen Regressionsmodell oder bei der Paneldatenanalyse mit festen Effekten – fixed effects).

Mathematischer Hintergrund[Bearbeiten]

Univariater Fall[Bearbeiten]

Aus der Maximum-Likelihood-Theorie weiß man, dass der Maximum-Likelihood-Schätzer des unbekannten Parameters in Verteilung für große Beobachtungszahlen gegen eine Normalverteilung strebt:

\lim_{n\rightarrow \infty} \hat{\theta} \longrightarrow N(\theta, \sigma^2_{\hat{\theta}}).

Im univariaten Fall ergibt sich die Wald-Teststatistik für die Hypothesen H_0\colon \theta=\theta_0 vs. H_1\colon \theta\neq\theta_0 zu

T_W = \frac{\hat{\theta}-\theta_0}{\sigma_{\hat{\theta}}} \approx N(0, 1).

\sigma_{\hat{\theta}} wird auch als der Standardfehler des Maximum-Likelihood-Schätzers bezeichnet. Betrachtet man die quadrierte Teststatistik, so gilt:

T_W^2 = \frac{(\hat{\theta}-\theta_0)^2}{\operatorname{Var}({\hat{\theta}})} \approx \chi^2_1,

d.h. sie ist bei großen Stichproben asymptotisch Chi-Quadrat-verteilt.

Multivariater Fall[Bearbeiten]

Im multivariaten Fall gilt

\lim_{n\rightarrow \infty} \hat{\theta} \longrightarrow N(\theta, \Sigma_{\hat{\theta}})\,,

wobei \hat{\theta}=(\hat{\theta_1},\hat{\theta_2}, \dotsc, \hat{\theta_k}) der Vektor der Schätzfunktionen ist und \Sigma_{\hat{\theta}} die asymptotisch nichtsinguläre Kovarianzmatrix des Maximum-Likelihood-Schätzers bezeichnet. Die Teststatistik

T_W^2 = (\hat{\theta}-\theta_0)^T \Sigma_{\hat{\theta}}^{-1} (\hat{\theta}-\theta_0) \approx \chi^2_k

ist dann asymptotisch Chi-Quadrat-verteilt mit k Freiheitsgraden. Die Restriktionsfunktion r(\hat{\theta})=( \hat{\theta}-\theta_0 ) muss hierzu unter H_0 vollständig differenzierbar sein und vollen Rang haben.

Alternativen[Bearbeiten]

Eine Alternative zum Wald-Test bietet der Likelihood-Ratio-Test. Dieser ist zwar rechenaufwändiger, dafür zeigt er in kleinen Stichproben jedoch auch bessere Eigenschaften. Eine weitere Alternative ist der sogenannte Lagrange-Multiplikator-Tests (LM-Tests, siehe auch Lagrange-Multiplikator). Asymptotisch sind diese drei Tests jedoch identisch.

Literatur[Bearbeiten]

  • Wald's W-Statistics: Encyclopedia of Statistical Sciences, Hoboken: Wiley, 2006, Seiten 9028-9029.
  • Wald, Abraham: Tests of Statistical Hypotheses Concerning Several Parameters When the Number of Observations is Large; in: Transactions of the American Mathematical Society, Vol. 54, No. 3 (Nov., 1943), Seiten 426-482.
  • Liao, Tim F. (2004): Comparing Social Groups: Wald Statistics for Testing Equality Among Multiple Logit Models, in: International Journal of Comparative Sociology, Vol. 45, No. 1-2, 2004, Seite 3-16.
  • Davidson, Russell/MacKinnon, James G. (2004): Econometric Theory and Methods, 1. Aufl., New York: Oxford University Press, 2004, Seite 422ff. Siehe hier: [1]
  • Engle, Robert F. (1984): Wald, Likelihood Ratio and Lagrange Multiplier Tests in Econometrics, in: Griliches, Zvi/Intriligator, Michael D. (Hrsg.): Handbook of Econometrics Vol. 2, Amsterdam et al.: Elsevier, 1984, Seite 775-826.