G-Test

aus Wikipedia, der freien Enzyklopädie
Wechseln zu: Navigation, Suche

In der Statistik dient der G-Test der Prüfung, ob die Häufigkeiten in einer Kontingenztafel durch den Zufall zustande gekommen sind oder nicht. Der G-Test löst in vielen Bereichen, insbesondere aber in der Computerlinguistik, den älteren Chi-Quadrat-Test ab.

Die Formel zur Berechnung der Prüfstatistik G lautet wie folgt:

 G = 2\sum_{i} {O_{i} \cdot \ln\left(\frac{O_i}{E_i}\right)}

Oi ist die beobachtete Häufigkeit in einer Zelle der Kontingenztafel, Ei ist die erwartete Häufigkeit derselben Zelle unter Annahme der Nullhypothese, und ln ist der natürliche Logarithmus. Das Summenzeichen addiert die Ergebnisse aus allen Zellen der Kontingenztafel. Die Prüfstatistik G ist annähernd Chi-Quadrat-verteilt.

Vergleich mit dem Chi-Quadrat-Test[Bearbeiten]

Beide Tests lösen dasselbe statistische Problem, der Chi-Quadrat-Test besitzt jedoch als aufwändigsten Rechenschritt eine Quadrierung, während der G-Test den Logarithmus berechnet. Der Chi-Quadrat-Test verdankt seine Beliebtheit somit der einfachen Berechnung, die bei kleinen Kontingenztafeln ohne Weiteres von Hand vorgenommen werden kann. Hinzu kommt, dass der Chi-Quadrat-Test schon seit jeher in grundlegenden Statistik-Lehrbüchern behandelt wird.

Für Chi-Quadrat-Tests gilt die Faustregel, dass der Häufigkeitswert pro Zelle mindestens 5 betragen muss. Der G-Test ist bei kleinen Stichproben robuster.