Informationskriterium

aus Wikipedia, der freien Enzyklopädie
(Weitergeleitet von Akaike Information Criterion)
Zur Navigation springen Zur Suche springen

Ein Informationskriterium ist ein Kriterium zur Auswahl eines Modells in der Statistik. Man folgt dabei der Idee von Ockhams Rasiermesser, dass ein Modell nicht unnötig komplex sein soll und balanciert die Anpassungsgüte des geschätzten Modells an die vorliegenden empirischen Daten (Stichprobe) und dessen Komplexität, gemessen an der Anzahl der Parameter, aus. Die Anzahl der Parameter wird dabei „strafend“ berücksichtigt, da sonst komplexe Modelle mit vielen Parametern bevorzugt würden. In diesem Sinne ist das korrigierte Bestimmtheitsmaß, das auf Henri Theil (1970) zurückgeht, ein Vorläufer der heute bekannten Informationskriterien.

Allen heute verwendeten Informationskriterien ist gleich, dass sie in zwei verschiedenen Formulierungen vorliegen. Entweder ist das Maß für die Anpassungsgüte als die maximale Plausibilität oder als die minimale Varianz der Residuen formuliert. Hieraus ergeben sich unterschiedliche Interpretationsmöglichkeiten. Beim Ersteren ist das Modell „am besten“, bei dem das jeweilige Informationskriterium den höchsten Wert hat (die „strafende“ Anzahl der Parameter muss dabei abgezogen werden). Beim Letzteren ist das Modell mit dem niedrigsten Wert des Informationskriteriums am besten (die Anzahl der Parameter muss „strafend“ addiert werden).

Akaikes Informationskriterium[Bearbeiten | Quelltext bearbeiten]

Das historisch älteste Kriterium wurde 1973 von Hirotugu Akaike als an information criterion vorgeschlagen und ist heute als Akaikes Informationskriterium, oder Informationskriterium nach Akaike (englisch Akaike information criterion, AIC) bekannt.

In der Grundgesamtheit liegt eine Verteilung einer Variablen mit unbekannter Dichtefunktion vor. Bei der Maximum-Likelihood-Schätzung (ML-Schätzung) geht man von einer bekannten Verteilung mit einem unbekannten Parameter aus; man nimmt also an, dass sich die Dichtefunktion als schreiben lässt. Die Kullback-Leibler-Divergenz wird als Entfernungsmaß zwischen und genutzt. Dabei ist der geschätzte Parameter aus der Maximum-Likelihood-Schätzung Je besser das ML-Modell ist, desto kleiner ist die Kullback-Leibler-Divergenz .

Akaike konnte zeigen, dass die negative log-Likelihood-Funktion ein verzerrter Schätzer für die Kullback-Leibler-Divergenz ist und dass die Verzerrung asymptotisch (Stichprobenumfang gegen unendlich) gegen die Zahl der zu schätzenden Parameter konvergiert. Daher ergibt sich das AIC mit der logarithmierten Likelihood-Funktion als

Bei einer Auswahl von möglichen Kandidaten für Modelle für die Daten ist das bevorzugte Modell dasjenige mit dem minimalen AIC-Wert. Das AIC belohnt die Anpassungsgüte (beurteilt durch die Likelihood-Funktion), aber es enthält auch einen Strafterm, der eine zunehmende Funktion in Abhängigkeit von der Anzahl der geschätzten Parameter ist. Der Strafterm verhindert Überanpassung, denn die Erhöhung der Anzahl der Parameter im Modell verbessert fast immer die Anpassungsgüte. Im klassischen linearen Regressionsmodell mit normalverteilten Störgrößen lässt sich die negative log-Likelihood mit Hilfe der Varianz der Störterme schreiben:

mit dem Stichprobenumfang. Die Varianz der Störgrößen wird mittels der Residuen aus dem Regressionsmodell geschätzt.

Bayessches Informationskriterium[Bearbeiten | Quelltext bearbeiten]

Der Nachteil des Informationskriteriums nach Akaike ist, dass der Strafterm von der Stichprobengröße unabhängig ist. Bei großen Stichproben sind Verbesserungen der log-Likelihood bzw. der Residualvarianz „leichter“ möglich, weshalb das Kriterium bei großen Stichproben tendenziell Modelle mit verhältnismäßig vielen Parametern vorteilhaft erscheinen lässt. Deshalb empfiehlt sich die Verwendung des durch Gideon Schwarz 1978 vorgeschlagenen Bayesschen Informationskriteriums bzw. Bayesianischen Informationskriteriums (engl. Bayesian Information Criterion (BIC) oder Schwarz-Bayes Criterion (SBC)):

bzw.

Bei diesem Kriterium wächst der Faktor des Strafterms logarithmisch mit der Anzahl der Beobachtungen . Bereits ab acht Beobachtungen () bestraft das SBC zusätzliche Parameter schärfer als das AIC.

Letzteres Modell wird vor allem in der Soziologie häufig verwendet. Kuha (2004) weist auf die unterschiedlichen Ziele der beiden Kenngrößen hin: Während das BIC das wahre Modell zeigen soll, wird beim AIC die Existenz eines wahren Modells ausgeschlossen und man versucht, möglichst gute Vorhersagen zu treffen.

Weitere Informationskriterien[Bearbeiten | Quelltext bearbeiten]

Daneben existieren weitere, seltener verwendete Informationskriterien, wie:

Ein auf Informationskriterien basierender statistischer Test ist der Vuong-Test.

Literatur[Bearbeiten | Quelltext bearbeiten]

  • Hirotugu Akaike: Information theory and an extension of the maximum likelihood principle. In: B. N. Petrov (Hrsg.) u.A.: Proceedings of the Second International Symposium on Information Theory Budapest: Akademiai Kiado 1973. S. 267–281
  • Kenneth P. Burnham und David R. Anderson: Model Selection and Multimodel Inference: A Practical Information-Theoretic Approach. Springer-Verlag, New York 2002, ISBN 0-387-95364-7
  • Kenneth P. Burnham/David R. Anderson (2004): Multimodel Inference: Understanding AIC and BIC in Model Selection, in: Sociological Methods and Research, Vol. 33, 2004, Seite 261–304
  • Jouni Kuha (2004): AIC and BIC: Comparisons of Assumptions and Performance, in: Sociological Methods and Research, Vol. 33, 2004, Seite 188–229
  • Gideon Schwarz: Estimating the Dimension of a Model. In: Annals of Statistics. 2/6/1978. S. 461–464
  • David L. Weakliem (2004): Introduction to the Special Issue on Model Selection, in: Sociological Methods and Research, Vol. 33, 2004, Seite 167–187

Einzelnachweise[Bearbeiten | Quelltext bearbeiten]