Maximum-Likelihood-Methode

aus Wikipedia, der freien Enzyklopädie
Wechseln zu: Navigation, Suche

Die Maximum-Likelihood-Methode (von engl. maximale Wahrscheinlichkeit) bezeichnet in der Statistik ein parametrisches Schätzverfahren. Dabei wird vereinfacht so vorgegangen, dass derjenige Parameter als Schätzung ausgewählt wird, gemäß dessen Verteilung die Realisierung der beobachteten Daten am plausibelsten erscheint.

Im Falle einer von einem Parameter \vartheta abhängigen Wahrscheinlichkeitsfunktion

\rho\colon \Omega \to [0;1], \quad x \mapsto \rho(x \mid \vartheta)

wird zu einem beobachteten Ausgang x also die folgende Likelihoodfunktion für verschiedene Parameter betrachtet:

L\colon \Theta \to [0;1]\quad  \vartheta \mapsto \rho(x \mid \vartheta)\,.

Dabei bezeichnet \Omega den Raum aller Ergebnisse und \Theta den Raum aller möglichen Parameterwerte.

Für einen bestimmten Wert \vartheta des Parameters bezeichnet die Likelihood also die Wahrscheinlichkeit, das Ergebnis x zu beobachten. Als Maximum-Likelihood-Schätzung wird entsprechend dasjenige \vartheta bezeichnet, für das die Likelihood-Funktion maximal wird. Im Falle stetiger Verteilungen gilt eine analoge Definition, nur wird die Wahrscheinlichkeitsfunktion in dieser Situation durch die zugehörige Wahrscheinlichkeitsdichte ersetzt.

Motivation[Bearbeiten]

Einfach gesprochen bedeutet die Maximum-Likelihood-Methode Folgendes: Wenn man statistische Untersuchungen durchführt, untersucht man in der Regel eine Stichprobe mit einer bestimmten Anzahl von Objekten einer Population. Da die Untersuchung der gesamten Population in den meisten Fällen hinsichtlich der Kosten und des Aufwandes unmöglich ist, sind die wichtigen Kennwerte der Population unbekannt. Solche Kennwerte sind z. B. der Erwartungswert oder die Standardabweichung. Da man diese Kennwerte jedoch zu den statistischen Rechnungen, die man durchführen möchte, benötigt, muss man die unbekannten Kennwerte der gesamten Population anhand der bekannten Stichprobe schätzen.

Die Maximum-Likelihood-Methode wird nun in Situationen benutzt, in denen die Elemente der Population als Realisierung eines Zufallsexperiments interpretiert werden können, das von einem unbekannten Parameter abhängt, bis auf diesen aber eindeutig bestimmt und bekannt ist. Entsprechend hängen die interessanten Kennwerte ausschließlich von diesem unbekannten Parameter ab, lassen sich also als Funktion von ihm darstellen. Als Maximum-Likelihood-Schätzer wird nun derjenige Parameter bezeichnet, der die Wahrscheinlichkeit, die Stichprobe zu erhalten, maximiert.

Die Maximum-Likelihood-Methode ist aufgrund ihrer Vorteile gegenüber anderen Schätzverfahren (beispielsweise Kleinste-Quadrate- und Momentenmethode) das wichtigste Prinzip zur Gewinnung von Schätzfunktionen für die Parameter einer Verteilung.

Eine heuristische Herleitung[Bearbeiten]

Es wird nun folgendes Beispiel betrachtet: Es gibt eine Urne mit einer großen Anzahl von Kugeln, die entweder schwarz oder rot sind. Da die Untersuchung aller Kugeln praktisch unmöglich erscheint, wird eine Stichprobe von zehn Kugeln (etwa mit Zurücklegen) gezogen. In dieser Stichprobe seien nun eine rote und neun schwarze Kugeln. Ausgehend von dieser einen Stichprobe soll nun die wahre Wahrscheinlichkeit, eine rote Kugel in der Gesamtpopulation (Urne) zu ziehen, geschätzt werden.

Drei Likelihood-Funktionen für Parameter p einer Binomialverteilung für verschiedene Anzahlen k von roten Kugeln in einer Stichprobe von n=10 Kugeln

Die Maximum-Likelihood-Methode versucht diese Schätzung nun so zu erstellen, dass das Auftreten unserer Stichprobe damit am wahrscheinlichsten wird. Dazu könnte man „herumprobieren“, bei welchem Schätzer die Wahrscheinlichkeit für unser Stichprobenergebnis maximal wird.

„Probiert“ man beispielsweise 0,2 als Schätzer für die Wahrscheinlichkeit p einer roten Kugel, so kann man mit Hilfe der Binomialverteilung B(10; 0,2; 1) die Wahrscheinlichkeit des beobachteten Ergebnisses (genau eine rote Kugel) berechnen: das Ergebnis ist 0,2684.

„Probiert“ man es mit 0,1 als Schätzer für p, berechnet also B(10; 0,1; 1) für die Wahrscheinlichkeit, dass genau eine rote Kugel gezogen wird, ist das Ergebnis 0,3874.

Die Wahrscheinlichkeit, dass das beobachtete Ergebnis (genau eine rote Kugel) in der Stichprobe durch eine Populationswahrscheinlichkeit für rote Kugeln von p = 0,1 verursacht wurde, ist also größer als bei p = 0,2. Damit wäre nach der Maximum-Likelihood-Methode 0,1 ein besserer Schätzer für den Anteil p roter Kugeln in der Population. Es erweist sich, dass für p = 0,1 (siehe rote Linie für k = 1 in der Grafik) die Wahrscheinlichkeit des beobachteten Ergebnisses am größten ist. Deshalb ist 0,1 die Maximum-Likelihood-Schätzung von p. Man kann zeigen, dass sich allgemein bei k roten Kugeln in der Stichprobe k/10 als Maximum-Likelihood-Schätzung von p ergibt.

Definition[Bearbeiten]

Bei der Maximum-Likelihood-Methode wird von einer Zufallsvariablen X ausgegangen, deren Dichte- bzw. Wahrscheinlichkeitsfunktion f von einem Parameter q abhängt. Liegt eine einfache Zufallsstichprobe mit n unabhängigen und identisch verteilten Realisierungen vor, so lässt sich die Dichtefunktion bzw. Wahrscheinlichkeitsfunktion wie folgt faktorisieren:


f(x_1,x_2,...,x_n;q)=\prod_{i=1}^n {f_X}_i(x_i;q)

Statt nun für einen festen Parameter q die Dichte für beliebige Werte x_1,\ldots,x_n auszuwerten, kann umgekehrt für beobachtete und somit feste Realisierungen x_1,\ldots,x_n die Dichte als Funktion von q betrachtet werden. Dies führt zur Likelihood-Funktion


L(q)=\prod_{i=1}^n {f_X}_i(x_i;q)

Wird diese Funktion in Abhängigkeit von q maximiert, so erhält man die Maximum-Likelihood-Schätzung für q. Es wird also der Wert von q gesucht, bei dem die Stichprobenwerte x_1,\ldots,x_n die größte Dichte- bzw. Wahrscheinlichkeitsfunktion haben. Der Maximum-Likelihood-Schätzer ist in diesem Sinne der plausibelste Parameterwert für die Realisierungen x_1,\ldots,x_n der Zufallsvariablen X. Die Maximierung dieser Funktion erfolgt, indem man die erste Ableitung nach q bildet und diese dann Null setzt. Da dieses bei Dichtefunktionen mit komplizierten Exponentenausdrücken sehr aufwändig werden kann, wird häufig die logarithmierte Likelihood-Funktion (kurz: Log-Likelihood-Funktion) verwendet, da sie auf Grund der Monotonie des Logarithmus ihr Maximum an derselben Stelle wie die nicht-logarithmierte Dichtefunktion besitzt, jedoch einfacher zu berechnen ist:


\ell(q)=\ln\left(\prod_{i=1}^n {f_X}_i(x_i;q)\right)= \sum_{i=1}^n \ln f_{X_i}(x_i;q)

Beispiele[Bearbeiten]

Diskrete Verteilung, kontinuierlicher Parameterraum[Bearbeiten]

Die Zahl der Anrufe bei zwei Telefonisten in einer Stunde in einem Call-Center kann mit einer Poisson-Verteilung

X_1 \sim Po(\lambda)\, und X_2 \sim Po(\lambda)\,

modelliert werden. Beim ersten Telefonisten gehen drei und beim zweiten fünf Anrufe pro Stunde unabhängig voneinander ein. Die Likelihoodfunktion für den unbekannten Parameter \lambda ergibt sich als

L(\lambda)=P(\{X_1=3\} \cap \{X_2=5\})=P(X_1=3) P(X_2=5)
Likelihoodfunktion im nebenstehenden Beispiel

Setzt man die Werte in die Wahrscheinlichkeitsfunktion

P(X=x) = \frac{\lambda^x}{x!} \exp(-\lambda)

ein, so folgt

L(\lambda)=\frac{\lambda^3}{3!}\exp(-\lambda)\;\frac{\lambda^5}{5!}\exp(-\lambda)=\frac{\lambda^8}{3!5!}\exp(-2\lambda)

Die erste Ableitung der Likelihoodfunktion ergibt sich zu

\frac{d L(\lambda)}{d \lambda} = \frac{1}{3!5!}\left(8 \lambda^7 \exp(-2\lambda) -2 \lambda^8 \exp(-2\lambda)\right) = \frac{2\lambda^7 \exp(-2\lambda)}{3!5!} (4 - \lambda) = 0

und die Nullstellen zu \hat{\lambda}=0\,, \hat{\lambda}=\infty und \hat{\lambda}=4. Nur für \hat{\lambda}=4 hat die Likelihoodfunktion ein Maximum und dies ist der Maximum-Likelihood-Schätzwert.

Im allgemeinen Fall, mit n Telefonisten, die jeweils x_i Anrufe pro Stunde erhalten, ergibt sich die Likelihoodfunktion als

L(\lambda)=\frac{\lambda^{(x_1+\cdots+x_n)}}{x_1!\ldots x_n!}\exp(-n\lambda)

und die Log-Likelihoodfunktion als

\log(L(\lambda))=(x_1+\cdots+x_n)\log(\lambda)-\log(x_1!\ldots x_n!)-n\lambda\,.

Die Ableitung nach \lambda ergibt

\frac{d \log(L(\lambda))}{d \lambda} = \frac{x_1+\cdots+x_n}{\lambda}-n = 0

und nach Umformen ergibt sich die Maximum-Likelihood-Schätzung als

\hat{\lambda} = \frac{x_1+\cdots+x_n}{n}=\bar{x}

und die zugehörige Schätzfunktion als

\Lambda = \frac{X_1+\cdots+X_n}{n}=\bar{X}.

Diskrete Verteilung, endlicher Parameterraum[Bearbeiten]

Eine Urne enthält N=8 Kugeln, die entweder rot oder schwarz sind. Die genaue Anzahl M \in \{0,1,\dotsc,8\} der roten Kugeln ist nicht bekannt. Nacheinander werden n=4 Kugeln gezogen und jeweils wieder zurück in die Urne gelegt. Beobachtet werden x_1=1 (erste Kugel ist rot), x_2=1 (zweite Kugel ist rot), x_3=0 (dritte Kugel ist schwarz) und x_4=1 (vierte Kugel ist rot).

Gesucht ist nun die nach dem Maximum-Likelihood-Prinzip plausibelste Zusammensetzung der Kugeln in der Urne.

In jedem Zug ist die Wahrscheinlichkeit, eine rote Kugel zu ziehen, gleich \frac{M}{N}. Wegen der Unabhängigkeit der Ziehungen ist die Wahrscheinlichkeit des beobachteten Ergebnisses und damit die zugehörige Likelihood-Funktion in Abhängigkeit vom unbekannten Parameter M gegeben durch


L(M) = \left(\frac{M}{N}\right)^3\left(1-\frac{M}{N}\right) = \frac{1}{N^4}M^3(N-M) = \frac{1}{8^4}M^3(8-M)\,.

Es ergeben sich folgende Funktionswerte:

  M 0 1 2 3 4 5 6 7 8
L(M) 0 0,002 0,012 0,033 0,063 0,092 0,105 0,084 0

Daraus ergibt sich dass die Likelihood-Funktion L(M) maximal ist für M=6. Damit ist M=6 der plausibelste Parameterwert für die Realisierung drei roter Kugeln bei vier Ziehungen und somit der Schätzwert nach der Maximum-Likelihood-Methode.

Stetige Verteilung, kontinuierlicher Parameterraum[Bearbeiten]

Die Artikel Varianzschätzung (Schätzung der Varianz der Grundgesamtheit), Normalverteilung#Maximum-Likelihood-Schätzung der Verteilungsparameter und Maximum-Likelihood-Methode#Stetige Verteilung, kontinuierlicher Parameterraum überschneiden sich thematisch. Hilf mit, die Artikel besser voneinander abzugrenzen oder zusammenzuführen (→ Anleitung). Beteilige dich dazu an der betreffenden Redundanzdiskussion. Bitte entferne diesen Baustein erst nach vollständiger Abarbeitung der Redundanz und vergiss nicht, den betreffenden Eintrag auf der Redundanzdiskussionsseite mit {{Erledigt|1=~~~~}} zu markieren. Zulu55 (Diskussion) Unwissen 11:20, 31. Mai 2013 (CEST)

Zu der Normalverteilung \mathcal{N}(\mu, \sigma^2) mit der Wahrscheinlichkeitsdichte

f\left(x\mid \mu,\sigma^2\right) = \frac{1}{\sqrt{2\pi\sigma^2}} \exp{\left(-\frac {(x-\mu)^2}{2\sigma^2} \right)}

lautet die Likelihoodfunktion einer Stichprobe vom Umfang n

L(m,s) = f\left(x_1,\ldots,x_n \mid m,s^2\right) = \prod_{i=1}^{n} f\left( x_{i}\mid  m, s^2\right) = \left( \frac{1}{2\pi s^2} \right)^{n/2} \exp\left( -\frac{ \sum_{i=1}^{n}(x_i-m)^2}{2 s^2}\right)\,.

Diese Familie von Verteilungen hat zwei Parameter: q =( m, s).

Als Log-Likelihoodfunktion ergibt sich

 \ell(m,s) = \log L(m,s) = -\frac{n}{2}\cdot\log\left(2\pi s^2\right) - \frac{ \sum_{i=1}^{n}(x_i-m)^2}{2 s^2}\,.

Die partiellen Ableitungen von \ell nach m und s lauten

\frac{\partial}{\partial m} \ell(m,s) = 0 - \frac{-2\sum_{i=1}^{n}(x_i-m)}{2 s^2} = \frac{\sum_{i=1}^{n}(x_i-m)}{s^2} = \frac{\sum_{i=1}^{n}x_i - n\cdot m}{s^2}

und

  \frac{\partial}{\partial s} \ell(m,s) = -\frac{n}{s} + \frac{ \sum_{i=1}^{n}(x_i-m)^2}{s^3}\,.

Setzt man beide Ausdrücke gleich null und löst das entstandene nichtlineare Gleichungssystem, so erhält man

m= \bar{x} = \frac{1}{n}\sum^{n}_{i=1}x_i

und

s^2 = \frac{1}{n}\sum_{i=1}^n(x_i-m)^2\,.

Tatsächlich hat die Funktion  L an dieser Stelle ihr Maximum.

Für den Erwartungswert von m ergibt sich

 E \left[ m \right] = \mu\,,

das heißt, der Maximum-Likelihood-Schätzer m für \mu ist erwartungstreu.

Aber wie im Artikel korrigierte Stichprobenvarianz gezeigt wird, gilt

E \left[ s^2  \right]= \frac{n-1}{n}\sigma^2\,.

Der Schätzer s^2 für \sigma^2 ist also nicht erwartungstreu.

Historische Entwicklung[Bearbeiten]

Die Maximum-Likelihood-Methode geht auf R. A. Fisher zurück, der sie zunächst in relativer Unkenntnis von Vorarbeiten durch Gauß in Arbeiten von 1912, 1921 und schließlich 1922 unter dem später bekannten Namen entwickelte. Die Hauptergebnisse wurden auch bereits 1908 von F. Y. Edgeworth hergeleitet. [1][2]

Maximum-Likelihood-Schätzung[Bearbeiten]

Als Maximum-Likelihood-Schätzung bezeichnet man in der Statistik eine Parameterschätzung, die nach der Maximum-Likelihood-Methode berechnet wurde. In der englischen Fachliteratur ist die Abkürzung MLE (maximum likelihood estimate) dafür sehr verbreitet. Eine Schätzung, bei der Vorwissen in Form einer A-priori-Wahrscheinlichkeit einfließt, wird Maximum-A-Posteriori-Schätzung (MAP) genannt.

Eigenschaften von Maximum-Likelihood-Schätzern[Bearbeiten]

Die besondere Qualität von Maximum-Likelihood-Schätzern äußert sich darin, dass sie in der Regel die effizienteste Methode zur Schätzung bestimmter Parameter darstellt.

Existenz[Bearbeiten]

Unter bestimmten Regularitätsannahmen lässt sich beweisen, dass Maximum-Likelihood-Schätzer existieren, was aufgrund ihrer impliziten Definition als eindeutiger Maximalstelle einer nicht näher bestimmten Wahrscheinlichkeitsfunktion nicht offensichtlich ist. Die für diesen Beweis benötigten Voraussetzungen bestehen im Prinzip ausschließlich aus Annahmen zur Vertauschbarkeit von Integration und Differentiation, was in den meisten betrachteten Modellen erfüllt ist.

Asymptotische Eigenschaften[Bearbeiten]

Wenn Maximum-Likelihood-Schätzer existieren, dann sind sie asymptotisch effizient, d. h. sie konvergieren in Verteilung gegen eine normalverteilte Zufallsvariable, deren Varianz das Inverse der Fisher-Information ist. Formal gesprochen sei \hat{\vartheta} der Maximum-Likelihood-Schätzer für einen Parameter \vartheta und I_{1}(\vartheta) die Matrix der Fisher-Information von f_{\vartheta}(x). Dann gilt die folgende Konvergenzaussage \sqrt n \left(\hat{\vartheta} - \vartheta\right) \rightarrow \mathcal N \left(0, I_{1}(\vartheta)^{-1}\right).

Dieser Grenzwertsatz ist speziell deswegen von Bedeutung, weil als Konsequenz aus der Cramer-Rao-Ungleichung das Inverse der Fisher-Information die bestmögliche Varianz für die Schätzung eines unbekannten Parameters darstellt. In dieser Hinsicht ist die Maximum-Likelihood-Methode bezüglich asymptotischer Betrachtungen optimal.

Allgemeine Tests[Bearbeiten]

Arbeitsweise der drei Tests im Rahmen der Maximum-Likelihood Methode.

Die Konvergenz der Maximum-Likelihood-Schätzfunktion \hat{\theta} gegen eine Normalverteilung erlaubt die Ableitung allgemeiner Tests zur Prüfung von Modellen und Koeffizienten:

  • Likelihood-Quotienten-Test (engl. Likelihood-ratio),
  • Wald-Test und
  • Score- oder Langrange-Multiplier-Test.

Die Grafik rechts zeigt die Arbeitsweise der Tests auf: Der Likelihood-Quotienten-Test vergleicht die Werte der Likelihood-Funktionen miteinander, der Wald-Test prüft den Abstand zwischen dem geschätzten Parameter und dem vorgegebenen Parameter und der Score-Test, ob die Ableitung der Likelihood-Funktion Null ist.

Da diese Tests nur asymptotisch gültig sind, gibt es für „kleine“ Stichprobenumfänge oft Tests mit besseren Optimalitätseigenschaften.

Likelihood-Quotienten-Test[Bearbeiten]

Im Likelihood-Quotienten-Test wird geprüft, ob sich zwei geschachelte Modelle signifikant voneinander unterscheiden. Ist \theta ein Parametervektor, sind \Theta_0 \subset \Theta_1 zwei Parameterräume (\Theta_0 reduziertes Modell, \Theta_1 volles Modell) sowie L(\theta) die Likelihoodfunktion, dann gilt unter der Nullhypothese (H_0: \theta \in \Theta_0 vs. H_1: \theta \in \Theta_1)

LR = -2\log\left(\frac{\max_{\Theta_0} L(\theta)}{\max_{\Theta_1} L(\theta)}\right) \approx \chi^2_{dim(\Theta_1)-dim(\Theta_0)}.

Eine Ablehnung der Nullhypothese bedeutet, dass das „volle“ Modell eine signifikant bessere Erklärung liefert als das „reduzierte“ Modell.

Hauptartikel: Likelihood-Quotienten-Test

Wald-Test[Bearbeiten]

Während der Likelihood-Quotienten-Test Modelle vergleicht, zielt der Wald-Test auf einzelne Koeffizienten (univariat) oder Koeffizientengruppen (multivariat). Aus den asymptotischen Eigenschaften folgt \lim_{n\rightarrow \infty} \hat{\theta} \rightarrow N(\theta, \sigma^2_{\hat{\theta}}), d.h. unter Gültigkeit der Nullhypothese (H_0: \theta=\theta_0\, vs. H_1: \theta\neq\theta_0) folgt

T_W = \frac{\hat{\theta}-\theta_0}{\sigma_{\hat{\theta}}} \approx N(0, 1).
Hauptartikel: Wald-Test

Akaike-Informationskriterium[Bearbeiten]

Die Maximum-Likelihood Methode ist auch eng mit dem Akaike Informationskriterium (AIC) verknüpft. Hirotsugu Akaike zeigte, dass das Maximum der Likelihoodfunktion ein verzerrter Schätzer für die Kullback-Leibler-Divergenz, die Entfernung zwischen dem wahren Modell und dem Maximum-Likelihood-Modell, ist. Je größer der Wert der Maximum-Likelihoodfunktion ist, desto näher liegt das ML-Modell am wahren Modell, d.h. gewählt wird das Modell, das den kleinsten AIC hat. Die asymptotische Verzerrung ist gerade die Zahl der zu schätzenden Parameter. Mit dem AIC kann man, im Gegensatz zum Likelihood-Quotienten-, Wald- und Score-Test, auch nicht-geschachtelte ML Modelle vergleichen.

Hauptartikel: Informationskriterium

Nachteil[Bearbeiten]

Diese wünschenswerten Eigenschaften des Maximum-Likelihood-Ansatzes beruhen jedoch auf der entscheidenden Annahme über den datenerzeugenden Prozess, das heißt auf der unterstellten Dichtefunktion der untersuchten Zufallsvariable. Der Nachteil von Maximum-Likelihood besteht darin, dass eine konkrete Annahme über die gesamte Verteilung der Zufallsvariable getroffen werden muss. Wenn diese jedoch verletzt ist, kann es sein, dass die Maximum-Likelihood-Schätzer inkonsistent sind. Nur in einigen Fällen ist es unerheblich, ob die Zufallsvariable tatsächlich der unterstellten Verteilung gehorcht, allerdings gilt dies nicht im Allgemeinen. Per Maximum-Likelihood gewonnene Schätzer, die konsistent sind, auch wenn die zu Grunde gelegte Verteilungsannahme verletzt wird, sind sogenannte Pseudo-Maximum-Likelihood-Schätzer. Diese Schätzer können Effizienzprobleme in kleinen Stichproben aufweisen.

Anwendungsbeispiel: Maximum-Likelihood in der molekularen Phylogenie[Bearbeiten]

Das Maximum-Likelihood-Kriterium gilt als eine der Standardmethoden zur Berechnung von phylogenetischen Bäumen, um Verwandtschaftsbeziehungen zwischen Organismen – meist anhand von DNA- oder Proteinsequenzen – zu erforschen. Als explizite Methode ermöglicht Maximum-Likelihood die Anwendung verschiedener Evolutionsmodelle, die in Form von Substitutionsmatrizen in die Stammbaumberechnungen einfließen. Entweder werden empirische Modelle verwendet (Proteinsequenzen) oder die Wahrscheinlichkeiten für Punktmutationen zwischen den verschiedenen Nukleotiden werden anhand des Datensatzes geschätzt und hinsichtlich des Likelihood-Wertes (-\ln L) optimiert (DNA-Sequenzen). Allgemein gilt ML als die zuverlässigste und am wenigsten Artefakt-anfällige Methode unter den phylogenetischen Baumkonstruktionsmethoden. Dies erfordert jedoch ein sorgfältiges Taxon-„Sampling“ und meist ein komplexes Evolutionsmodell.

Literatur[Bearbeiten]

  • Schwarze, Jochen: Grundlagen der Statistik – Band 2: Wahrscheinlichkeitsrechnung und induktive Statistik, 6. Auflage, Berlin; Herne: Verlag Neue Wirtschaftsbriefe, 1997
  • Blobel, Volker und Lohrmann, Erich: Statistische und numerische Methoden der Datenanalyse. Teubner Studienbücher, Stuttgart; Leipzig 1998, ISBN 978-3519032434.
  • Felsenstein, Joseph: Inferring Phylogenies (Englisch). Sinauer Associates, 2003, ISBN 978-0878931774.

Einzelnachweise[Bearbeiten]

  1. R. A. Fisher: An absolute criterion for fitting frequency curves. In: Messenger of Math. Nr. 41, S. 155, 1912. (PDF)
  2. John Aldrich: R. A. Fisher and the Making of Maximum Likelihood 1912 – 1922. In: Statistical Science. Band 12, Nr. 3, S. 162-176, 1997. [1]