Mathematische Statistik

aus Wikipedia, der freien Enzyklopädie
Wechseln zu: Navigation, Suche

Als mathematische Statistik bezeichnet man das Teilgebiet der Statistik, das die Methoden und Verfahren der Statistik mit mathematischen Mitteln analysiert beziehungsweise mit ihrer Hilfe erst begründet. Gemeinsam mit der Wahrscheinlichkeitstheorie bildet die mathematische Statistik das als Stochastik bezeichnete Teilgebiet der Mathematik. Meist weitgehend synonym werden die Begriffe induktive Statistik und Inferenzstatistik (schließende Statistik) gebraucht, die den zur beschreibenden Statistik komplementären Teil der Statistik charakterisieren.

Die mathematische Grundlage der mathematischen Statistik ist die Wahrscheinlichkeitstheorie.

Womit beschäftigt sich Statistik?[Bearbeiten]

Gegenstand der Statistik sind Grundgesamtheiten, deren Mitglieder allesamt ein bestimmtes Merkmal aufweisen. Gesucht sind Aussagen darüber, wie häufig dieses Merkmal innerhalb der Grundgesamtheit seine möglichen Werte annimmt. Oft beschränken sich die Aussagen auf abgeleitete Größen wie zum Beispiel den Durchschnitt der Merkmalswerte, die die Mitglieder der Grundgesamtheit besitzen.

Alterspyramide: Verteilung der Merkmale Geschlecht und Alter in der deutschen Bevölkerung (2010)

Ein Beispiel ist die häufig als Alterspyramide grafisch dargestellte Altersverteilung, wobei es sich bei der Grundgesamtheit beispielsweise um die deutsche Bevölkerung handeln kann. Da eine präzise Bestimmung der Altersverteilung der Deutschen eine aufwändige Vollerhebung wie eine Volkszählung voraussetzt, sucht man nach Methoden, mit denen weitgehend zuverlässige Aussagen bereits auf Basis von Teilerhebungen möglich sind. Wie im Beispiel des Politbarometers werden dazu nur die Mitglieder zufällig ausgewählter Teilmengen der Grundgesamtheit, sogenannte Stichproben, auf das interessierende Merkmal untersucht.

Methodik der mathematischen Statistik[Bearbeiten]

Wäre die Altersverteilung in der Grundgesamtheit bekannt, könnten mit Formeln der Wahrscheinlichkeitstheorie Wahrscheinlichkeiten für die innerhalb von Stichproben beobachtbaren Altersverteilungen berechnet werden, die aufgrund der Zufallsauswahl der Stichproben zufälligen Schwankungen unterworfen sind. In der mathematischen Statistik nutzt man solche Berechnungen, um umgekehrt vom Stichprobenergebnis auf die Grundgesamtheit schlussfolgern zu können: Dabei werden auf Basis der konkret für eine Stichprobe beobachteten Merkmalswerte jene Häufigkeitsverteilungen innerhalb der Grundgesamtheit charakterisiert, mit denen das gemachte Beobachtungsergebnis in plausibler Weise erklärbar wird. Im Blickpunkt theoretischer Untersuchungen stehen nicht nur die getroffenen Schlussfolgerungen selbst, sondern auch Abschätzungen darüber, wie numerisch genau und wie sicher solche Prognosen sind.

Die einen Anwender interessierenden Häufigkeitsverteilungen sind nur indirekt Gegenstand der Methoden der mathematischen Statistik. Stattdessen beziehen sich diese Methoden auf Zufallsvariablen. Dabei werden insbesondere solche Zufallsvariablen betrachtet, deren Wahrscheinlichkeitsverteilung den relativen Häufigkeiten der Merkmalswerte entspricht. Speziell für das angeführte Beispiel der Altersverteilung ist ein realisierter Wert der Zufallsvariablen gleich dem Alter eines zufällig ausgewählten Deutschen. Auf diese Weise können die einer Stichprobe ermittelten Beobachtungswerte als sogenannte Realisierungen stochastisch unabhängiger und identisch verteilter Zufallsvariablen aufgefasst werden. Das Vorwissen wird in diesem Fall durch eine Familie von Wahrscheinlichkeitsverteilungen beziehungsweise durch eine entsprechende Familie von Wahrscheinlichkeitsmaßen repräsentiert. Man spricht von einer Verteilungsannahme. Diese kann sowohl Aussagen über mögliche Merkmalswerte, etwa in Bezug auf deren Ganzzahligkeit, als auch über den Typ der Verteilung, zum Beispiel „die Werte sind normalverteilt“, beinhalten.

Das zentrale Gebiet der mathematischen Statistik ist die Schätztheorie, innerhalb der geeignete Schätzverfahren entwickelt werden. Methodisch wird dabei so vorgegangen, dass man ausgehend von der Verteilungsannahme bestimmte Klassen von Schätzfunktionen untersucht und hinsichtlich verschiedener Qualitätskriterien (etwa Suffizienz oder Effizienz) vergleicht. Bei einer solchen Schätzfunktion kann es sich sowohl um eine einwertige Näherung eines gesuchten Parameters der Grundgesamtheit handeln als auch um eine Bereichsschätzung in Form eines sogenannten Konfidenzintervalls. Konkrete Vermutungen über die Grundgesamtheit können durch geeignete statistische Tests überprüft werden. Dabei wird ausgehend von einer Hypothese auf Basis des Stichprobenergebnisses eine 0-1-Entscheidung über die Verwerfung beziehungsweise Beibehaltung der Hypothese herbeigeführt.

Statistische Modelle[Bearbeiten]

Eine gänzliche Formalisierung auf Basis mathematischer Objekte wird mit dem Begriff des statistischen Modells erzielt, oft auch als statistischer Raum bezeichnet. Abweichend vom bisher beschriebenen, eher anwendungsorientierten Szenario kann dabei auf die Festlegung einer Grundgesamtheit verzichtet werden:

Die möglichen Stichprobenergebnisse x werden zu einer Menge \mathcal{X}, dem Stichprobenraum, zusammengefasst. Die darin beobachtbaren Ereignisse werden formal durch eine zum Stichprobenraum \mathcal{X} definierte σ-Algebra \mathcal{F} charakterisiert. Die Verteilungsannahme, das heißt die in Frage kommenden Wahrscheinlichkeitsverteilungen, entsprechen einer Familie (P_\vartheta)_{\vartheta \in \Theta} von Wahrscheinlichkeitsmaßen auf (\mathcal{X}, \mathcal{F}). Ein statistisches Modell ist damit formal ein Tripel (\mathcal{X}, \mathcal{F}, P_\vartheta : \vartheta \in  \Theta). Ist \vartheta ein reeller Parametervektor, also \Theta \subseteq \R^d, so spricht man von einem parametrischen Modell mit Parameterraum \Theta. Den Fall d=1 eines reellen Parameters nennt man einparametriges Modell.

Eine messbare Funktion S von (\mathcal{X},\mathcal{F}) in einen weiteren Messraum (\mathcal{S}, \Sigma) heißt Stichprobenfunktion oder Statistik. Eine Schätzfunktion oder kurz ein Schätzer für eine Kenngröße \tau(\vartheta) \in \mathcal S des Parameters ist eine Stichprobenfunktion T : \mathcal{X} \to \mathcal{S}.

Beispiel[Bearbeiten]

Eine (möglicherweise gezinkte) Münze wird n=100 Mal geworfen. Die Wahrscheinlichkeit p, dass bei einem Wurf Kopf fällt, sei unbekannt. Es wird beobachtet, wie oft die Münze Kopf zeigt. Das zugehörige statistische Modell (\mathcal{X}, \mathcal{F}, P_\vartheta : \vartheta \in  \Theta) dafür ist gegeben durch

  • \mathcal{X} = \{0,1,\ldots,n\} als Stichprobenraum,
  • \mathcal{F} die Potenzmenge von \mathcal{X},
  • \Theta = [0,1] als Menge der möglichen Werte des unbekannten Parameters \vartheta = p,
  • P_\vartheta ist die Binomialverteilung mit den Parametern n=100 und \vartheta.

Ein naheliegender Schätzer für den Parameter \tau(\vartheta)=\vartheta ist in diesem Fall gegeben durch die relative Häufigkeit T(x) = \frac{x}{n} = \frac{x}{100} für x \in \mathcal{X}.

Literatur[Bearbeiten]

Siehe auch[Bearbeiten]

Weblinks[Bearbeiten]