Diskussion:Schätzmethode (Statistik)

Ich habe einen großen Teil (Schätzfunktionen) aus Schätzen und Testen übernommen. eine Liste der Autoren findet sich unter [1] bzw. [2] --Chrisqwq 01:06, 21. Mai 2006 (CEST)Beantworten

Wenn hier noch irgendeine Liste von Autoren fehlt bitte melden oder vieleicht selbst reinstellen, war keine Absicht --Chrisqwq 13:36, 15. Jun 2006 (CEST)

Inhalt von Schätzer (Zwischenlager)[Quelltext bearbeiten]

Letzter Kommentar: vor 17 Jahren1 Kommentar1 Person ist an der Diskussion beteiligt

(MFE entfernt, --Cjesch 16:06, 26. Dez. 2006 (CET))Beantworten

Ein Schätzer bzw. eine Schätzfunktion ist in der Statistik eine Funktion auf bekannten Daten, die dazu verwendet wird einen unbekannten Parameter zu schätzen. Eine Schätzung ist dann das Ergebnis der konkrete Anwendung der Funktion auf eine ausgewählte Datenmenge. Für jeden vorgegebenen Parameter existieren viele verschiedene Schätzer. Es wird deshalb ein Kriterium verwendet um einen der Schätzer auszuwählen. Trotzdem kommt es oft vor, dass sich an Hand der Kriterien kein Schätzer als eindeutig überlegen erweist. Das Ergebnis eines Schätzers wird als Schätzwert bezeichnet, wobei dieser im Gegensatz zu den Messwerten unbekannt ist.

Man unterscheidet zwei Arten von Schätzern: Punktschätzer und Intervallschätzer.

Zu den gewünschten Eigenschaften eines Schätzers zählen Konsistenz, Erwartungstreue (Unverzerrtheit) und ein minimaler Schätzfehler. In der robusten Statistik kommt noch die Eigenschaft der Robustheit hinzu, die z.B. über den Bruchpunkt des Schätzers gemessen werden kann.

Eigenschaften[Quelltext bearbeiten]

Erwartungstreu: Der Erwartungswert des Schätzers ist exakt der gewünschte Parameter. Siehe: Erwartungstreue.
Konsistent: Bei größerem Stichprobenumfang liegt der Schätzwert näher am gewünschten Parameter. Siehe: Konsistenz (Statistik).
Wirksam oder Effizient: Der Schätzer weist die kleinst mögliche Varianz auf.
Robustheit: ...

Methoden zur Gewinnung von Schätzfunktionen[Quelltext bearbeiten]

Maximum-Likelihood-Methode: Der Schätzer wird so gewählt, dass die Wahrscheinlichkeit, dass der geschätzte Kennwert die beobachteten Ergebnisse in der Stichprobe verursacht hat, maximiert wird.
Ordinary Least Squares: ...
Momentenmethode: ...

Siehe auch[Quelltext bearbeiten]

Schätzen und Testen, Statistisches Schätzverfahren

[[Kategorie:Statistik]] [[Kategorie:Regelungstechnik|Beobachter]] [[en:Estimator]] [[pl:Estymator]]

alter Inhalt von Statistisches Schätzverfahren (Zwischenlager)[Quelltext bearbeiten]

Letzter Kommentar: vor 17 Jahren1 Kommentar1 Person ist an der Diskussion beteiligt

(MFE entfernt. --Cjesch 16:11, 26. Dez. 2006 (CET))Beantworten

Statistische Schätzverfahren sind Methoden, die die Ermittlung von Parametern einer theoretischen Wahrscheinlichkeitsverteilung (der Verteilung der Grundgesamtheit) anhand von Stichproben zum Ziel haben. Schätzverfahren werden auch als Konklusionsverfahren bezeichnet, weil dort von der Stichprobe auf die Grundgesamtheit geschlossen wird. Man unterscheidet

parametrische Schätzung (1)
nicht-parametrische Schätzung

Solche zu schätzenden Parameter sind beispielsweise der Erwartungswert und die Varianz (1).

Generell unterscheidet man zwei Arten von Schätzverfahren, die sich in Ihrem Aussagegehalt unterscheiden:

Punktschätzungen
Intervallschätzungen

Punktschätzungen geben für einen Parameter genau den Wert an, der aufgrund der Stichprobe statistisch am wahrscheinlichsten erscheint. Intervallschätzungen hingegen geben einen Wertebereich (Konfidenzintervall) an, in dem sich der Parameter nach vorzugebenden Wahrscheinlichkeiten (Konfidenzniveau) am ehesten befindet.

Zur Ermittlung der Parameter werden so genannte Schätzfunktionen verwendet. Sie sind die Berechnungsvorschriften, mit denen man die Schätzung erhält.

Punktschätzverfahren[Quelltext bearbeiten]

Ein Punktschätzverfahren zur Schätzung des Erwartungswertes einer Verteilung ist das Verfahren der kleinsten Quadratsumme. Es sucht analytisch den Wert ${\bar {x}}$ , zu dem die Werte $x_{i}$ der Stichprobe des Umfangs $n$ den kleinsten summierten quadratischen Abstand haben:

${\frac {\mathrm {d} \sum _{i=1}^{n}(x_{i}-{\bar {x}})^{2}}{\mathrm {d} {\bar {x}}}}=0\to {\bar {x}}={\frac {\sum _{i=1}^{n}x_{i}}{n}}$

Eigenschaften von Schätzungen[Quelltext bearbeiten]

Die Eigenschaften von Schätzungen werden unterteilt in Klein-Stichproben-Eigenschaften und Asymptotische Eigenschaften. Während die Klein-Stichproben-Eigenschaften schon bei kleinen Stichprobenumfängen erfüllt sein können, werden die Asymptotischen Eigenschaften erst bei großen Stichprobenumfängen erreicht. Diese Eigenschaften werden auch als Gütekriterien bezeichnet.

Klein-Stichproben-Eigenschaften:
- Erwartungstreue / Durchschnittseigenschaft: Der Erwartungswert für einen Schätzwert entspricht dem wahren Wert.
- Effiziente Schätzungen: Es wird die Schätzung ausgewählt, die bei gleichem Stichprobenumfang die kleinere Varianz aufweist.
- Suffiziente Schätzungen: Von suffizienten Schätzungen spricht man, wenn alle zu Grunde liegenden Stichprobeninformationen für die Schätzung genutzt werden.

Asymptotische Eigenschaften:
- Konsistente Schätzungen: Schätzungen, bei denen das Gesetz der großen Zahlen gilt (Minimalanforderung).
- Asymptotisch erwartungstreue Schätzungen: Wenn Schätzungen erst mit einem gegen unendlich gehenden Stichprobenumfang erwartungstreu werden.
- Asymptotisch effiziente Schätzungen: Wenn Effizienz der Schätzung erst mit einem gegen unendlich gehenden Stichprobenumfang eintritt.
- Asymptotisch normalverteilte Schätzungen: Mit größer werdendem Stichprobenumfang tendiert die Schätzung in Richtung einer Normalverteilung.

Schätzfunktion[Quelltext bearbeiten]

Man betrachtet ein quantitatives statistisches Merkmal x. Modelltheoretisch wird dieses Merkmal idealisiert: Man geht davon aus, dass es sich in Wahrheit um eine Zufallsvariable X handelt, deren tatsächliche, „wahre“ Verteilung und „wahre“ Verteilungsparameter unbekannt sind. Man nennt dies die Grundgesamtheit des Merkmals.

Diese Informationen erhofft man sich durch eine Stichprobe: Man entnimmt der Grundgesamtheit zufällig n viele Elemente. Mit Hilfe dieser Stichprobenelemente schätzt man dann die Parameter.

Definition der Schätzfunktion[Quelltext bearbeiten]

Um einen Parameter γ einer Verteilung zu schätzen, nimmt man aus der Grundgesamtheit eine uneingeschränkte Zufallsstichprobe vom Umfang n, es werden also n Realisationen x_i (i = 1, ... , n) der Zufallsvariablen X beobachtet. Man fasst die n Realisationen wahrscheinlichkeitstheoretisch als unabhängige Folge von n Zufallsvariablen X_i auf. Um den Parameter γ zu schätzen, werden die X_i in geeigneter Weise zusammengefasst. Sie bilden eine Schätzfunktion g(X₁, X₂, ..., X_n) oder Stichprobenfunktion. Da die Stichprobe zufällig erfolgt, ist die Schätzfunktion wiederum eine Zufallsvariable.

Ausgewählte Schätzfunktionen[Quelltext bearbeiten]

Metrisches Merkmal[Quelltext bearbeiten]

Der Erwartungswert wird mit dem arithmetischen Mittel der Stichprobe geschätzt,

{\widehat {EX}}={\bar {X}}={\frac {1}{n}}\sum _{i=1}^{n}X_{i}

.

Ist die Verteilung symmetrisch, kann auch der Median der Stichprobe als Schätzer für den Erwartungswert verwendet werden:

{\widehat {EX}}=Z=X_{[{\frac {n+1}{2}}]}

,

wobei $[{\frac {n+1}{2}}]$ die Position des Medians in der Mitte einer der Größe nach geordneten Liste bezeichnet.

Für die Varianz der Grundgesamtheit verwendet man die Stichprobenvarianz als Schätzfunktion

{\widehat {varX}}=S^{2}={\frac {1}{n-1}}\sum _{i=1}^{n}(X_{i}-{\bar {X}})^{2}

.

Die Verteilung der Schätzfunktionen hängt von der Verteilung des Merkmals in der Grundgesamtheit ab.

Das Merkmal ist normalverteilt mit Erwartungswert μ und Varianz σ ²:

Es ist als lineare Transformation der X_i der Schätzer ${\bar {X}}$ normalverteilt,

{\bar {X}}\sim N(\mu ;{\frac {\sigma ^{2}}{n}})

.

Der Varianzschätzer S² enthält eine Quadratsumme von bezüglich ${\bar {X}}$ zentrierten normalverteilten Zufallsvariablen. Deshalb ist der Ausdruck

{\frac {(n-1)S^{2}}{\sigma ^{2}}}

zentral χ²-verteilt mit n-1 Freiheitsgraden.

Ist die Verteilung des Merkmal unbekannt, kann bei genügend großem Stichprobenumfang die Verteilung der Schätzfunktion näherungsweise mit der Normalverteilung angegeben werden.

Dichotome Grundgesamtheit[Quelltext bearbeiten]

Man betrachtet hier das Urnenmodell mit zwei Sorten Kugeln. Es soll der Anteilswert der Kugeln erster Sorte in der Grundgesamtheit geschätzt werden. Als Schätzfunktion verwendet man den Anteil der Kugeln erster Sorte in der Stichprobe,

P={\frac {X}{n}}

mit X: Zahl der Kugeln erster Sorte in der Stichprobe. Die Verteilung von P ist die gleiche wie die der entsprechenden Zufallsvariablen X, also eine Binomialverteilung im Modell mit Zurücklegen und eine hypergeometrische Verteilung im Modell ohne Zurücklegen.

Wünschenswerte Eigenschaften von Schätzfunktionen[Quelltext bearbeiten]

Konsistenz[Quelltext bearbeiten]

Die Schätzfunktion soll konsistent sein.

Konsistenz, mit einfachen Worten, besagt, dass sich die Schätzfunktion mit wachsendem n immer mehr dem wahren Parameter γ nähert.

Die formale Definition lautet:

Eine Schätzfunktion ist konsistent, wenn für jedes ε>0 gilt:

\lim _{n\to \infty }P(|g_{n}-\gamma |>\epsilon )=0

.

mit g_n. = g(X₁, X₂, ..., X_n).

Man spricht hier von stochastischer Konvergenz.

Erwartungstreue[Quelltext bearbeiten]

Die Schätzfunktion soll im Mittel gleich dem wahren Parameter $\gamma$ sein:

Eg=\gamma

Weicht $Eg$ systematisch von $\gamma$ ab, ist der Schätzer verzerrt (“biased“). Die Verzerrung $b$ ist

b=Eg-\gamma

.

Effizienz (oder Minimale Varianz)[Quelltext bearbeiten]

Die Schätzfunktion soll eine möglichst kleine Varianz haben. Die Schätzfunktion g* aus allen erwartungstreuen Schätzfunktionen g_k , die die kleinste Varianz hat, wird als effizienteste, beste oder wirksamste Schätzfunktion bezeichnet.

Mittlerer quadratischer Fehler: Eine Schätzfunktion, die nicht notwendigerweise erwartungstreu ist, soll einen kleinen mittleren quadratischen Fehler aufweisen. Der mittlere quadratische Fehler ist die erwartete quadratische Abweichung vom Parameter:

$E[(g-\gamma )^{2}]=(E[g-\gamma ])^{2}+E[(g-Eg)^{2}]=b^{2}+V^{2}$

Der mittlere quadratische Fehler ist die Summe des quadrierten Bias und der Varianz. Die Genauigkeit eines Schätzers bzw. einer Schätzfunktion wird oft mit dem mittleren quadratischen Fehler gemessen.

Suffizienz[Quelltext bearbeiten]

Suffizienz ist ein Begriff aus der mathematischen Statistik, der als Eigenschaft messbaren Funktionen zukommen kann, die aus dem Stichprobenraum in einen beliebigen Maßraum abbilden. Man charakterisiert dabei solche Abbildungen als suffizient, die einen hochdimensionalen Datenvektor in eine einfachere Form transformieren, ohne dabei wesentliche Informationen über die zu Grunde liegende Wahrscheinlichkeitsverteilung zu verlieren.

Weitere Stichworte[Quelltext bearbeiten]

Beispiel[Quelltext bearbeiten]

Die Ausführungen sollen zum besseren Verständnis anhand eines (frei erfundenen) Beispiels erläutert werden.

In einem privat betriebenen medizinischen Labor ist eine neue Methode zur Vermehrung von Gewebezellen entwickelt worden. Dieses Gewebe soll vor allem bei großflächigen Verbrennungen auf die beschädigte Haut transplantiert werden. Um weiter planen zu können, braucht man nähere Informationen über die Schnelligkeit des Zellwachstums. Man interessiert sich für die Frage: “Wie schwer ist ein Zellklumpen bestimmten Gewichts nach vier Wochen Zucht?“.

Man definiert nun die Zufallsvariable X: Gewicht eines Zellklumpens [g]. Da es sich dabei um ein natürliches Phänomen handelt, kann man nach dem zentralen Grenzwertsatz vermuten, dass X normalverteilt ist. Es geht nun aber darum, Informationen über die Parameter der Verteilung zu erhalten: Wie schwer ist so ein Zellklumpen im Mittel und wie sehr schwanken die einzelnen Gewichte? Man sucht Informationen über den Erwartungswert und die Varianz der Zufallsvariablen.

Tatsächlich ist das Gewicht eines Zellklumpens normalverteilt mit dem Erwartungwert μ = 10 [g] und der Varianz σ² = 4 [g²]. Diese "wahren" Parameter regieren also die Stichprobe, sie sind den Laborbetreibern aber unbekannt.

Ergebnis des iten Röhrchens	x₁	x₂	x₃	x₄	x₅
Gewicht der Zellen x	7,4	9,4	10,2	9,6	11,7

Man kann nun den Erwartungswert schätzen, z.B. mit dem arithmetischen Mittel als Schätzfunktion g₁,

{\bar {x}}={\frac {1}{5}}(7,4+9,4+...+11,7)=9,7.

Da jede Stichprobe vom Umfang 5 anders ausfallen kann, ist das Mittel selbst eine Zufallsvariable.

Es wäre aber als Schätzer g₂ für μ auch der Median z denkbar. Es ist der drittgrößte Wert:

z=9,6.

Zur Veranschaulichung wurde 1000 mal eine solche Stichprobe per Zufallszahlen erzeugt. Die ersten 18 Stichproben werden in der unten folgenden Tabelle gezeigt. Die ersten fünf Spalten zeigen die einzelnen Ergebnisse, dann folgen einige Schätzfunktionen.

Nr.      x₁     x₂     x₃     x₄     x₅   arithm.  Median  min+max  x₁^0,5
                                          Mittel             2
------------------------------------------------------------------------
  1     7,4    9,4   10,2    9,6   11,7      9,7     9,6      9,5    2,7
  2    10,7   12,4   11,4    8,8   11,4     11,0    11,4     10,6    3,3
  3    11,8    7,1    8,1    9,7   10,2      9,4     9,7      9,5    3,4
  4    11,3    8,2   10,0   12,1   10,4     10,4    10,4     10,1    3,4
  5    10,1    8,8    8,9    9,4   10,8      9,6     9,4      9,8    3,2
  6     8,1   12,0   10,7   10,1    7,0      9,6    10,1      9,5    2,8
  7     9,3   11,3   10,3   11,2   11,4     10,7    11,2     10,4    3,1
  8     8,2   13,2   11,6    7,1   15,7     11,2    11,6     11,4    2,9
  9     8,2   11,1   13,0    9,4   11,7     10,7    11,1     10,6    2,9
 10    10,8    2,7    6,9   10,5    7,7      7,7     7,7      6,7    3,3
 11    11,5   11,2    8,9    9,8    7,1      9,7     9,8      9,3    3,4
 12    11,6    8,2    7,5   11,4   11,2     10,0    11,2      9,6    3,4
 13     7,6    9,4   14,1    8,8   10,1     10,0     9,4     10,9    2,8
 14     6,8    6,1    6,5    7,7    8,2      7,0     6,8      7,1    2,6
 15    11,9   11,9   11,2    8,7    9,5     10,6    11,2     10,3    3,4
 16     9,9    9,4   11,9    9,4    9,5     10,0     9,5     10,6    3,1
 17    15,7    8,4   10,1    9,3    8,9     10,5     9,3     12,0    4,0
 18    10,0    8,9    8,5   12,1    6,3      9,1     8,9      9,2    3,2

Man sieht, dass beispielsweise der arithmetische Mittelwert von 7 bis 11,2 schwankt. Auch die Mediane variieren stark.

Wir könnten noch weitere Schätzfunktionen für μ vorschlagen, etwa

g_{3}={\frac {1}{2}}(x_{[1]}+x_{[5]}),

den Durchschnitt zwischen der kleinsten und größten Beobachtung, oder

g_{4}={\sqrt {x_{1}}}.

Welche Schätzfunktion soll man nun verwenden? Ein Kriterium ist die Erwartungstreue. Erwartungstreu sind vermutlich das arithmetische Mittel und der Median, aber auch die Schätzfunktion g₃. g₄ ist offensichtlich Unsinn, wie auch ein Blick auf die Tabelle zeigt.

Aus den drei akzeptablen Schätzfunktionen wird nun die mit der kleinsten Varianz ausgewählt, denn da ist der Schätzwert am verlässlichsten. Man kann zeigen, dass das arithmetische Mittel die kleinste Varianz hat. ${\bar {x}}$ ist also ein bester Schätzer.

Die nächste Tabelle zeigt die Durchschnitte der vier Schätzfunktionen und auch ihre Varianz.

Schätzfunktion für μ	Arithmetisches Mittel	Median	((min(x) + max(x))/2	Wurzel(x₁)
Mittelwert der 1000 Schätzer	10,00	9,97	10,02	3,15
Varianz der 1000 Schätzer	0,79	1,22	1,01	0,10

Das Labor schätzt also den Erwartungswert mit 9,7 (1. Stichprobe) und die Varianz mit

s^{2}={\frac {1}{5-1}}((7,4-9,7)^{2}+(9,4-9,7)^{2}+...+(11,7-9,7)^{2})=1,552.

Neue Aufteilung: Statistisches Schätzverfahren, Schätzfunktion[Quelltext bearbeiten]

zum Verständnis siehe [3] Wenn wir beide Artikel brauchen dann wäre mir eine Artikelunterscheidung zu Anfang recht: "Der Artikel beschäftigt sich mit... für ... siehe..." Mir wird nämlich nicht klar warum wir beide brauchen und anderen Lesern denke ich auch nicht. --Chrisqwq 17:27, 16. Jun 2006 (CEST)

Bin gerade drüber. --Philipendula 17:40, 16. Jun 2006 (CEST)

Ich sehe bei der jetzigen Aufteilung überhaupt keine Überschneidungen mehr. Für meinen Geschmack kann der Baustein raus. --Scherben 09:29, 17. Jun 2006 (CEST)

Ich sehe auch keine Überschneidungen, mir wärenur recht, wenn ein unterscheidender Satz zu beginn auf den jeweils anderen Artikel aufmerksam machen würde. "Dieser Artikel befasst sich mit..., wärend ... unter ... zu finden ist." --Chrisqwq 12:46, 17. Jun 2006 (CEST)

Hau rein, it's a wiki. Ich nehme den Baustein mal raus, dafür ist der ja nicht da. --Scherben 17:43, 17. Jun 2006 (CEST)

Unklar: Wann ist welches Verfahren vorzuziehen?[Quelltext bearbeiten]

Letzter Kommentar: vor 13 Jahren2 Kommentare2 Personen sind an der Diskussion beteiligt

Wann ist welches Verfahren vorzuziehen?
Welche wird am häufigsten genutzt? Wird die "alte" Momentenmethode noch genutzt?
Wenn das ML-Verfahren überlegen ist, warum werden die anderen dann noch genutzt?
Wann liefern sie die gleichen Ergebnisse? --Zulu55 10:49, 5. Aug. 2010 (CEST)Beantworten

Je mehr Information ein Verfahren verwendet, desto besser ist es in Hinblick auf Effizienz, Erwartungstreue etc. In dieser Hinsicht ist die Maximum-Likelihood-Methode das beste Schätzverfahren.

Das Problem ist jedoch die Richtigkeit der verwendeten Information. Jeder Beobachtung

x_{i}

wird ja eine Stichprobenvariable

X_{i}

zugeordnet. Die ML-Methode funktioniert jedoch nur, wenn die Verteilungsform der Zufallsvariablen

X_{i}

bekannt ist und nur die Verteilungsparameter unbekannt sind. Was passiert jedoch, wenn man annimmt die

X_{i}

sind normalverteilt und in Wirklichkeit sind sie uniform verteilt? Dann liefert die ML-Methode mit der angenommenen Normalverteilung einen falschen Schätzwert.

Die Minimum-Quadrate-Methode braucht nur eine funktionale Verknüpfung zwischen

E(X_{i})

und den unbekannten Parametern. Dafür sind die resultierenden Schätzfunktion seltener erwartungstreu. Im Kern läuft es darauf hinaus, dass man sich die Voraussetzungen/Anforderungen für die Schätzmethoden anschauen muss und sich dann für eine entscheidet. Leider kann man jedoch nicht alle Voraussetzungen/Anforderungen empirisch überprüfen. --Sigbert 21:29, 5. Aug. 2010 (CEST)Beantworten