M-Schätzer

aus Wikipedia, der freien Enzyklopädie
Wechseln zu: Navigation, Suche

M-Schätzer (von Maximum-Likelihood-Artig) stellen eine Klasse von Schätzfunktionen dar, die als Verallgemeinerung der Maximum-Likelihood-Methode angesehen werden können. M-Schätzer sind im Vergleich zu anderen Schätzern wie z. B. den Maximum-Likelihood-Schätzern robuster gegen Ausreißer.

Dieser Artikel behandelt M-Schätzer zur Ermittlung des Lageparameters.

Herleitung durch Verallgemeinerung der Maximum-Likelihood-Methode[Bearbeiten]

Das Prinzip von Maximum-Likelihood-Schätzern beruht darauf, die Funktion


\sum_{i=1}^n -\ln f_{X_i}(x_i;\Theta)

mit entsprechender Dichte- bzw. Wahrscheinlichkeitsfunktion f_X(x) in Abhängigkeit von \Theta zu minimieren.

Die Idee bei M-Schätzern ist, die Funktion -\ln f_{X_i}(x_i;\Theta) durch eine Funktion \rho(x;\Theta) zu ersetzen, welche weniger empfindlich auf Ausreißer reagiert. Aufgabe ist es, den Ausdruck


\sum_{i=1}^n \rho(x_i;\Theta)

in Abhängigkeit von \Theta zu minimieren, bzw. die Gleichung


\sum \psi(x_i;\Theta) = 0

mit

\psi(x_i;\Theta) = \frac{\partial \rho}{\partial \Theta}(x_i;\Theta)

zu lösen.

Jede Lösung dieser Gleichung wird M-Schätzer genannt.

Implizite Definition[Bearbeiten]

Sei F eine beliebige Verteilungsfunktion und \psi eine gerade und monoton wachsende Funktion ungleich 0. Dann ist \mu_{\psi}(F) definiert als die Lösung \mu = \mu_{\psi}(F) der Gleichung


E(\psi(x - \mu)) = \int \psi(x - \mu)dF(x) = 0

Beachtet werden muss, dass abhängig von der Wahl von \psi und F es entweder keine, eine oder mehrere Lösungen geben kann. Im Falle einer konkreten Stichprobe wird \mu = \mu_{\psi}(F_n), die Lösung von


\frac{1}{n} \sum_{i=1}^n \psi(x_i - \mu) = \int \psi(x - \mu)dF_n(x) = 0

M-Schätzer genannt.

Geeignete Funktionen \rho[Bearbeiten]

Im Folgenden sind die x_i gemäß


z_i = \frac{x_i - \Theta}{S_n}

standardisiert, um Skaleninvarianz zu erreichen. S_n stellt hierbei einen Streuungschätzer dar, für den meist der MAD (Median Absolute Deviation) verwendet wird.

Methode \rho(z) \psi(z) w(z)
Kleinste-Quadrate-Methode  \rho_{LS}(z) = \frac{z^2}{2}  \psi_{LS}(z) = z  w_{LS}(z) = 1
Huber-k-Schätzer 
\rho_H(z) =  \begin{cases}
\frac{1}{2}z^2 & |z| \leq{} k \\
k|z| - \frac{1}{2}k^2 & |z| > k 
\end{cases}

\psi_H(z) =  \begin{cases}
z & |z| \leq{} k \\
k \operatorname{sgn}(z)  & |z| > k 
\end{cases}

w_H(z) =  \begin{cases}
1 & |z| \leq{} k \\
\frac{k}{|z|}  & |z| > k 
\end{cases}
Hampel-Schätzer 
\rho_{Ha}(z) =  \begin{cases}
\frac{z^2}{2} & |z| \leq{} a \\
a|z| - \frac{a^2}{2} & a < |z| \leq b \\
ab - \frac{a^2}{2}+(c-b)\frac{a}{2} \left(1-\left( \frac{c-|z|}{c-b}\right)^2\right) & b < |z| \leq c\\
ab-\frac{a^2}{2}+(c-b)\frac{a}{2} & |z|>c
\end{cases}

\psi_{Ha}(z) =  \begin{cases}
z & |z| \leq{} a \\
a\,\operatorname{sgn}(z) & a < |z| \leq b \\
a\frac{c-|z|}{c-b} \operatorname{sgn}(z) & b < |z| \leq c\\
0 & |z|>c
\end{cases}

w_{Ha}(z) = \begin{cases}
1 & |z| \leq{} a \\
a\frac{1}{|z|} & a < |z| \leq b \\
a\frac{c-|z|}{c-b} \frac{1}{|z|}& b < |z| \leq c\\
0 & |z|>c
\end{cases}
Andrews wave 
\rho_{Aw}(z) =  \begin{cases}
\frac{a^2}{\pi^2} \left(1-\cos\left( \frac{\pi z}{a} \right)\right)& |z| \leq{} a \\
\frac{2a^2}{\pi^2} & |z|>a
\end{cases}

\psi_{Aw}(z) =  \begin{cases}
\frac{a}{\pi} \sin\left( \frac{\pi z}{a} \right)& |z| \leq{} a \\
0 & |z|>a
\end{cases}

w_{Aw}(z) = \begin{cases}
\frac{a}{\pi z} \sin\left( \frac{\pi z}{a} \right)& |z| \leq{} a \\
0 & |z|>a
\end{cases}
Tukey's biweight 
\rho_{Tb}(z) =  \begin{cases}
\frac{a^2}{6} \left(1-\left(1-\frac{z^2}{a^2}\right)^3\right)& |z| \leq{} a \\
\frac{a^2}{6} & |z|>a
\end{cases}

\psi_{Tb}(z) =  \begin{cases}
z \left(1-\frac{z^2}{a^2}\right)^2 & |z| \leq{} a \\
0 & |z|>a
\end{cases}

w_{Tb}(z) = \begin{cases}
\left(1-\frac{z^2}{a^2}\right)^2 & |z| \leq{} a \\
0 & |z|>a
\end{cases}


Die Gewichtsfunktionen im folgenden Bild zeigen die Unterschiede zwischen den Schätzern auf: bei Huber-k haben auch extreme Beobachtungen ein geringes Gewicht, beim Hampel-, Andrews wave- und Tukey's biweight-Schätzer wird extremen Beobachtungen das Gewicht Null zugeordnet.


Gewichtsfunktionen w(z) für verschiedene M-Schätzer. Die Parameterwerte entsprechen den Standardwerten von SPSS.

Robustheit[Bearbeiten]

Bei geeigneter Wahl von \psi (gerade, beschränkt und monoton steigend) haben M-Schätzer einen Bruchpunkt von \epsilon^* = 0.5

Numerische Lösungsmethode[Bearbeiten]

Für viele Funktionen \rho lässt sich keine explizite Lösung angeben, sie muss daher numerisch berechnet werden. Wie üblich zur Berechnung von Nullstellenproblemen bietet sich auch hier das Newton-Raphson-Verfahren an, und es ergibt sich folgende Iterationsvorschrift, wobei wiederum z_i = \frac{x_i - \mu}{S_n} :


\mu_{k+1} = \mu_k + \frac{S_n \sum_{i=1}^n \psi(z_i)}{\sum_{i=1}^n \psi^\prime(z_i)}

Als geeigneter Startwert \mu_0 wird meist der Median verwendet. Dieses Iterationsverfahren konvergiert sehr schnell, meist sind zwei bis drei Iterationsschritte ausreichend.

W-Schätzer[Bearbeiten]

W-Schätzer sind M-Schätzern sehr ähnlich und liefern im Normalfall gleiche Ergebnisse. Der einzige Unterschied liegt in der Lösung des Minimierungsproblems. W-Schätzer werden meist bei der robusten Regression eingesetzt.

Es wird die Wichtungsfunktion

w(z) = \frac{\psi(z)}{z}

mit

\psi(x_i;\Theta) = \frac{\partial \rho}{\partial \Theta}(x_i;\Theta)

eingeführt, mit deren Hilfe das Minimierungsproblem umgeschrieben werden kann in

 \sum_{i=1}^n z_iw(z_i) = 0

Einsetzen der Definition von z_i, ausmultiplizieren und umstellen ergibt schließlich über die Fixpunktgleichung

 \Theta = \frac{\sum_{i=1}^n x_iw(\frac{x_i - \Theta}{S_n})}{\sum_{i=1}^n w(\frac{x_i - \Theta}{S_n})}

die Iterationsvorschrift

 \Theta_{t+1} = \frac{\sum_{i=1}^n x_iw(\frac{x_i - \Theta_t}{S_n})}{\sum_{i=1}^n w(\frac{x_i - \Theta_t}{S_n})}

Siehe auch[Bearbeiten]

  • Sogenannte RANSAC-Algorithmen

Literatur[Bearbeiten]

  • Robert G. Staudte: Robust estimation and testing. Wiley, New York 1990. ISBN 0-471-85547-2
  • Rand R. Wilcox: Introduction to robust estimation and hypothesis testing. Academic Press, San Diego Cal 1997. ISBN 0-12-751545-3