Korrelationskoeffizient

aus Wikipedia, der freien Enzyklopädie
(Weitergeleitet von Fisher-Transformation)
Wechseln zu: Navigation, Suche

Der Korrelationskoeffizient (auch: Korrelationswert) oder die Produkt-Moment-Korrelation (von Bravais und Pearson, daher auch Pearson-Korrelation genannt) ist ein dimensionsloses Maß für den Grad des linearen Zusammenhangs zwischen zwei mindestens intervallskalierten Merkmalen. Er kann Werte zwischen −1 und +1 annehmen. Bei einem Wert von +1 (bzw. −1) besteht ein vollständig positiver (bzw. negativer) linearer Zusammenhang zwischen den betrachteten Merkmalen. Wenn der Korrelationskoeffizient den Wert 0 aufweist, hängen die beiden Merkmale überhaupt nicht linear voneinander ab. Allerdings können diese ungeachtet dessen in nicht-linearer Weise voneinander abhängen. Damit ist der Korrelationskoeffizient kein geeignetes Maß für die (reine) stochastische Abhängigkeit von Merkmalen.

Je nachdem, ob der lineare Zusammenhang zwischen zeitgleichen Messwerten zweier verschiedener Merkmale oder derjenige zwischen zeitlich verschiedenen Messwerten eines einzigen Merkmals betrachtet wird, spricht man entweder von der Kreuzkorrelation oder von der Autokorrelation (siehe Zeitreihenanalyse).

Korrelationskoeffizienten wurden mehrfach – so schon von Tönnies – entwickelt, heute wird allgemein der von Pearson verwendet.

Definitionen[Bearbeiten]

Korrelationskoeffizient für Zufallsvariablen[Bearbeiten]

Für zwei quadratisch integrierbare Zufallsvariablen X und Y mit jeweils positiver Standardabweichung \sigma und Kovarianz \operatorname{Cov}(X,Y) ist der Korrelationskoeffizient (Pearsonscher Maßkorrelationskoeffizient) definiert durch

 \varrho(X,Y) =\frac{\operatorname{Cov}(X,Y)}{\sigma(X)\sigma(Y)}

Weitere übliche Schreibweisen sind  \operatorname{Kor}(X,Y) und  r_{XY} .

Ferner heißen X,Y unkorreliert, falls \operatorname{Cov}(X,Y)=0.

Empirischer Korrelationskoeffizient[Bearbeiten]

Für eine Messreihe von gepaarten Ausprägungen (x_1, y_1), (x_2, y_2), \ldots, (x_n,y_n) wird der empirische Korrelationskoeffizient berechnet durch

\operatorname{Kor}_e(x,y) := \varrho_e(x,y) := r_{xy} := \frac{
  \sum_{i=1}^n(x_i-\bar x)(y_i-\bar y)
 }{
  \sqrt{
    \sum_{i=1}^n(x_i-\bar x)^2\cdot
    \sum_{i=1}^n(y_i-\bar y)^2
  }
}.

Dabei sind

\bar x = \frac 1n\sum_{i=1}^n x_i und \bar y = \frac 1n\sum_{i=1}^n y_i

die empirischen Mittelwerte anhand der Messreihe.

Im Rahmen der induktiven Statistik ist man an einer erwartungstreuen Schätzung \varrho_e der wahren, unbekannten Korrelation \varrho in der Grundgesamtheit interessiert. Daher werden in die Formel der Korrelation erwartungstreue Schätzer der Varianzen und der Kovarianz eingesetzt. Dies führt zur Formel:


\operatorname{Kor}_e(x,y) := \varrho_e(x,y) := \frac{
  \frac{1}{n-1}\sum_{i=1}^n(x_i-\bar x)(y_i-\bar y)
 }{
  \sqrt{
    \frac{1}{n-1}\sum_{i=1}^n(x_i-\bar x)^2
  }\cdot\sqrt{
    \frac{1}{n-1}\sum_{i=1}^n(y_i-\bar y)^2
  }}
.

Sind diese Messreihenwerte z-transformiert, also  z_i:= \tfrac{x_i - \bar x} {s_x} , wobei s_x die erwartungstreue Schätzung der Streuung bezeichnet, gilt auch:

\operatorname{Kor}_e(x,y) := \varrho_e(x,y) := \frac{1}{n-1}\sum z_x z_y.

Da man in der deskriptiven Statistik nur den Zusammenhang zwischen zwei Variablen, als normierte mittlere gemeinsame Streuung, in der Stichprobe beschreiben will, wird die Korrelation auch berechnet als

r_{xy} := \frac{
  \frac{1}{n}\sum_{i=1}^n(x_i-\bar x)(y_i-\bar y)
 }{
  \sqrt{
    \frac{1}{n}\sum_{i=1}^n(x_i-\bar x)^2
  }\cdot\sqrt{
    \frac{1}{n}\sum_{i=1}^n(y_i-\bar y)^2
  }}
.

Da sich die Werte \tfrac{1}{n} bzw. \tfrac{1}{n-1} aus den Formeln herauskürzen, ergibt sich in beiden Fällen der gleiche Wert des Koeffizienten.

Eigenschaften[Bearbeiten]

Mit der Definition des Korrelationskoeffizienten gilt unmittelbar

  • \operatorname{Kor}(X,Y)=\operatorname{Kor}(Y,X) bzw. r_{xy} = r_{yx}
  • \operatorname{Kor}(X,X)=1.
  • \operatorname{Kor}(X,-X)=-1.

Mit der Cauchy-Schwarzschen Ungleichung sieht man, dass

  • \operatorname{Kor}(X,Y)\in[-1,1].

Durch Optimieren ergibt sich, dass Y=aX+b fast sicher genau dann, wenn |\operatorname{Kor}(X,Y)|=1.

Sind die Zufallsgrößen X und Y stochastisch voneinander unabhängig, dann gilt:

  • \operatorname{Kor}(X,Y)=0.

Der Umkehrschluss ist allerdings nicht zulässig, denn es können Abhängigkeitsstrukturen vorliegen, die der Korrelationskoeffizient nicht erfasst. Für die multivariate Normalverteilung gilt jedoch: Die Zufallsvariablen X und Y sind genau dann stochastisch unabhängig, wenn sie unkorreliert sind. Wichtig ist hierbei die Voraussetzung, dass X und Y gemeinsam normalverteilt sind. Es reicht nicht aus, dass X und Y jeweils normalverteilt sind.

Voraussetzungen für die Pearson-Korrelation[Bearbeiten]

Der Korrelationskoeffizient nach Pearson erlaubt Aussagen über statistische Zusammenhänge unter folgenden Bedingungen:

Skalierung[Bearbeiten]

Der Pearsonsche Korrelationskoeffizient liefert korrekte Ergebnisse bei intervallskalierten und bei dichotomen Daten. Für niedrigere Skalierungen existieren andere Korrelationskonzepte (z. B. Rangkorrelationskoeffizienten).

Normalverteilung[Bearbeiten]

Für die Durchführung von standardisierten Signifikanztests über den Korrelationskoeffizienten in der Grundgesamtheit müssen beide Variablen annähernd normalverteilt sein. Bei zu starken Abweichungen von der Normalverteilung muss auf den Rangkorrelationskoeffizienten zurückgegriffen werden. (Alternativ kann man auch, falls die Verteilung bekannt ist, angepasste (nichtstandardisierte) Signifikanztests verwenden.)

Linearitätsbedingung[Bearbeiten]

Zwischen den Variablen x und y wird ein linearer Zusammenhang vorausgesetzt. Diese Bedingung wird in der Praxis häufig ignoriert; daraus erklären sich mitunter enttäuschend niedrige Korrelationen, obwohl der Zusammenhang zwischen x und y bisweilen trotzdem hoch ist. Ein einfaches Beispiel für einen hohen Zusammenhang trotz niedrigem Korrelationskoeffizienten ist die Fibonacci-Folge. Alle Zahlen der Fibonacci-Folge sind durch ihre Position in der Reihe durch eine mathematische Formel exakt determiniert (siehe die Formel von Jacques-Philippe-Marie Binet in Fibonacci-Folge). Der Zusammenhang zwischen der Positionsnummer einer Fibonacci-Zahl und der Größe der Zahl ist vollkommen determiniert. Dennoch beträgt der Korrelationskoeffizient zwischen den Ordnungsnummern der ersten 360 Fibonacci-Zahlen und den betreffenden Zahlen nur 0,20; das bedeutet, dass in erster Näherung nicht viel mehr als 4 % (= 0{,}2^2) der Varianz durch den Korrelationskoeffizienten erklärt werden und 96 % der Varianz „unerklärt“ bleiben. Der Grund ist die Vernachlässigung der Linearitätsbedingung, denn die Fibonacci-Zahlen wachsen progressiv an: In solchen Fällen ist der Korrelationskoeffizient nicht korrekt interpretierbar. Eine mögliche Alternative, welche ohne die Voraussetzung der Linearität des Zusammenhangs auskommt, ist die Transinformation.

Signifikanzbedingung[Bearbeiten]

Ein Korrelationskoeffizient > 0 bei positiver Korrelation bzw. < 0 bei negativer Korrelation zwischen x und y berechtigt nicht a priori zur Aussage, es bestehe ein statistischer Zusammenhang zwischen x und y. Eine solche Aussage ist nur gültig, wenn der ermittelte Korrelationskoeffizient signifikant ist. Der Begriff 'signifikant' bedeutet hier 'signifikant von Null verschieden'. Je höher die Anzahl der Wertepaare (x, y) und das Signifikanzniveau sind, desto niedriger darf der Absolutbetrag eines Korrelationskoeffizienten sein, um zur Aussage zu berechtigen, zwischen x und y gebe es einen linearen Zusammenhang. Ein t-Test zeigt, ob die Abweichung des ermittelten Korrelationskoeffizienten von Null auch signifikant ist.

Bildliche Darstellung und Interpretation[Bearbeiten]

Verschiedene Punktwolken zusammen mit dem für sie jeweils berechenbaren Pearson'schen Korrelationskoeffizienten. Man beachte, dass letzterer zwar die Streuung der Punktwolke sowie die generelle Richtung der linearen Abhängigkeit von x und y widerspiegelt (obere Zeile), nicht aber deren Steilheit (mittlere Zeile). Verläuft die Punktwolke beispielsweise exakt waagerecht (mittleres Bild), kann aufgrund von Var(Y) = 0 gar kein Korrelationskoeffizient berechnet werden. Ein weiterer Schwachpunkt des Pearson'schen Korrelationskoeffizienten sind nichtlineare Abhängigkeiten (untere Zeile), die mit Hilfe dieses Koeffizienten meist gar nicht oder nur unzureichend erfasst werden können.

Sind zwei Merkmale vollständig miteinander korreliert (d. h. |r| = 1), so liegen alle Messwerte in einem 2-dimensionalen Koordinatensystem auf einer Geraden. Bei einer perfekten positiven Korrelation (r = +1) steigt die Gerade. Wenn die Merkmale perfekt negativ miteinander korreliert sind (r = -1), sinkt die Gerade. Besteht zwischen zwei Merkmalen eine sehr hohe Korrelation, sagt man oft auch, sie erklären dasselbe.

Je näher der Betrag von  r bei 0 liegt, desto kleiner der lineare Zusammenhang. Für  r = 0 kann der statistische Zusammenhang zwischen den Messwerten nicht mehr durch eine eindeutig steigende oder sinkende Gerade dargestellt werden. Dies ist z. B. der Fall, wenn die Messwerte rotationssymmetrisch um den Mittelpunkt verteilt sind. Dennoch kann dann ein nicht-linearer statistischer Zusammenhang zwischen den Merkmalen gegeben sein. Umgekehrt gilt jedoch: Wenn die Merkmale statistisch unabhängig sind, nimmt der Korrelationskoeffizient stets den Wert 0 an.

Der Korrelationskoeffizient ist kein Indiz eines ursächlichen (d. h. kausalen) Zusammenhangs zwischen den beiden Merkmalen: Die Besiedlung durch Störche im Süd-Burgenland korreliert zwar positiv mit der Geburtenzahl der dortigen Einwohner, doch das bedeutet noch keinen „kausalen Zusammenhang“, trotzdem ist ein „statistischer Zusammenhang“ gegeben. Dieser leitet sich aber aus einem anderen, weiteren Faktor ab, wie dies im Beispiel durch Industrialisierung oder der Wohlstandssteigerung begründet sein kann, die einerseits den Lebensraum der Störche einschränkten und andererseits zu einer Verringerung der Geburtenzahlen führten. Korrelationen dieser Art werden Scheinkorrelationen genannt.

Der Korrelationskoeffizient kann kein Indiz über die Richtung eines Zusammenhanges sein: Steigen die Niederschläge durch die höhere Verdunstung oder steigt die Verdunstung an, weil die Niederschläge mehr Wasser liefern? Oder bedingen sich beide gegenseitig, also möglicherweise in beiderlei Richtung?

Ob ein gemessener Korrelationskoeffizient als groß oder klein interpretiert wird, hängt stark von der Art der untersuchten Daten ab. Bei psychologischen Fragebogendaten werden z. B. Werte bis ca. 0,3 häufig als klein angesehen, ab ca. 0,5 als gut, während man ab ca. 0,7–0,8 von einer (sehr) hohen Korrelation spricht.

Das Quadrat des Korrelationskoeffizienten r² nennt man Bestimmtheitsmaß. Es gibt in erster Näherung an, wie viel Prozent der Varianz, d. h. Streuung, der einen Variable durch die Streuung der anderen Variable erklärt werden können. Beispiel: Bei r = 0,3 werden 9 % (= 0,3² = 0,09) der gesamten auftretenden Varianz im Hinblick auf einen statistischen Zusammenhang erklärt.

Fisher-Transformation[Bearbeiten]

Empirische Korrelationskoeffizienten sind nicht normalverteilt. Vor der Berechnung von Konfidenzintervallen muss daher erst eine Korrektur der Verteilung mit Hilfe der Fisher-Transformation vorgenommen werden. Wenn die Daten x und y aus einer zumindest annähernd bivariat normalverteilten Grundgesamtheit stammen, dann ist der empirische Korrelationskoeffizient \varrho_e rechtssteil unimodal verteilt.

Die transformierte Variable

f(\varrho_e)=0{,}5\ln\left(\frac{1+\varrho_e}{1-\varrho_e}\right)\,

ist annähernd normalverteilt mit der Standardabweichung 1/\sqrt{n-3}. Das auf Basis dieser Normalverteilung errechnete 1-\alpha-Konfidenzintervall der Form

z_1=f(r)-\frac{z_{1-\alpha/2}}{\sqrt{n-3}} \leq\mu\leq f(r)+\frac{z_{1-\alpha/2}}{\sqrt{n-3}}=z_2

wird sodann retransformiert zu


\begin{align}
  r_1    &=(e^{2z_1}-1)/(e^{2z_1}+1)\\
  r_2    &=(e^{2z_2}-1)/(e^{2z_2}+1).
\end{align}

Das Konfidenzintervall für die Korrelation lautet sodann

r_1\leq \varrho_e \leq r_2.

Konfidenzintervalle von Korrelationen liegen in aller Regel unsymmetrisch bezüglich ihres Mittelwerts.

Test des Korrelationskoeffizienten / Steigers Z-Test[Bearbeiten]

Folgende Tests (Steigers Z-Test[1]) können durchgeführt werden, wenn die Variablen X und Y annähernd bivariat normalverteilt sind:

H_0\colon \varrho=\varrho_0 vs. H_1\colon \varrho\neq\varrho_0 (zweiseitige Hypothese)
H_0\colon \varrho\leq\varrho_0 vs. H_1\colon \varrho>\varrho_0 (rechtsseitige Hypothese)
H_0\colon \varrho\geq\varrho_0 vs. H_1\colon \varrho<\varrho_0 (linksseitige Hypothese)

Die Teststatistik ist

T(r) = \frac{f(r) - f(\varrho_0) - \varrho_0/(n-2)}{1/\sqrt{n-3}} \approx N(0,1)

verteilt (f(\bullet) ist die Fisher-Transformation, siehe vorherigen Abschnitt).

Im Spezialfall der Hypothese H_0\colon \varrho=0 vs. H_1\colon \varrho\neq 0 ergibt sich die Teststatistik als

T_0(r) = \frac{r\sqrt{n-2}}{\sqrt{1-r^2}} \sim t_{n-2}

verteilt.

Partieller Korrelationskoeffizient[Bearbeiten]

Eine Korrelation zwischen zwei Zufallsvariablen X und Y kann unter Umständen auf einen gemeinsamen Einfluss einer dritten Zufallsvariablen U zurückgeführt werden. Um solch einen Effekt zu messen, gibt es das Konzept der partiellen Korrelation (auch Partialkorrelation genannt). Die „partielle Korrelation von X und Y unter U“ ist gegeben durch


r_{(X,Y)/U} = \frac{r_{XY} - r_{XU} \cdot r_{YU}}
{ \sqrt{(1-r_{XU}^2)(1-r_{YU}^2)} }.


Das folgende Bild zeigt ein Beispiel:

.

Zwischen X und Y besteht eine merkliche Korrelation. Betrachtet man die beiden rechten Punktwolken, so erkennt man, dass X und Y jeweils stark mit U korrelieren. Die beobachtete Korrelation zwischen X und Y basiert nun fast ausschließlich auf diesem Effekt.

Robuste Korrelationskoeffizienten[Bearbeiten]

Der Korrelationskoeffizient nach Pearson ist empfindlich gegenüber Ausreißern. Deswegen wurden verschiedene robuste Korrelationskoeffizienten entwickelt, z. B.

Quadrantenkorrelation[Bearbeiten]

Die Quadrantenkorrelation ergibt sich lediglich aus den Anzahlen der Daten in den vier vom Medianenpaar bestimmten Quadranten. Dazu wird aufgezählt, wie viele der Daten in den Quadranten I und III liegen (N_+) und einen positive Beitrag liefern, und wie viele sich in den Quadranten II und IV befinden (N_-) und negativ beitragen.

r_\text{quad} = \frac{N_+-N_-}{N_++N_-} = \frac{1}{n} \sum_{i=1}^n \sgn(x_i - \tilde{x}) \sgn(y_i-\tilde{y}),

mit \sgn die Signumfunktion, n die Zahl der Beobachtungen und \tilde{x} und \tilde{y} die Mediane der Beobachtungen. Da jeder Wert von \sgn(x_i-\tilde{x}) \sgn(y_i-\tilde{y}) entweder -1, 0 oder +1 ist, spielt es keine Rolle wie weit eine Beobachtung von den Medianen entfernt ist.

Über die Quadrantenkorrelation kann mit Hilfe des Median-Tests die Hypothesen H_0: r_\text{quad}=0\, vs. H_1: r_\text{quad}\neq 0 überprüft werden. Ist n_+ die Zahl der Beobachtungen mit \sgn(x_i-\tilde{x}) \sgn(y_i-\tilde{y})=+1, n_- die Zahl der Beobachtungen mit \sgn(x_i-\tilde{x}) \sgn(y_i - \tilde{y}) = -1 und n_e = (n_+ + n_-)/2>5, dann ist die Teststatistik

\frac{(n_+ - n_e)^2+(n_- - n_e)^2}{n_e} \approx \chi^2_1

verteilt.

Schätzung der Korrelation zwischen nicht-metrischen Variablen[Bearbeiten]

Die Schätzung der Korrelation mit dem Korrelationskoeffizient nach Pearson setzt voraus, dass beide Variablen intervallskaliert und normalverteilt sind. Dagegen können die Rangkorrelationskoeffizienten immer dann zur Schätzung der Korrelation verwendet werden, wenn beide Variablen mindestens ordinalskaliert sind. Die Korrelation zwischen einer dichotomen und einer intervallskalierten und normalverteilten Variablen kann mit der punktbiserialen Korrelation geschätzt werden. Die Korrelation zwischen zwei dichotomen Variablen kann mit dem Vierfelderkorrelationskoeffizienten geschätzt werden. Hier kann man die Unterscheidung treffen, dass bei zwei natürlich dichotomen Variablen die Korrelation sowohl durch den Odds Ratio (OR) als auch durch den Phi-Koeffizient berechnet werden kann. Eine Korrelation aus zwei ordinal oder einer intervall und einer ordinal gemessenen Variablen ist mit Spearmans Rho oder Kendalls Tau berechenbar.

Siehe auch[Bearbeiten]

Literatur[Bearbeiten]

  •  Francis Galton: Co-relations and their measurement, chiefly from anthropometric data. In: Proceedings of the Royal Society. 45, Nr. 13, 5. Dezember 1888, S. 135–145 (http://galton.org/essays/1880-1889/galton-1888-co-relations-rsoc.pdf, abgerufen am 12 Sep 2012).
  • Hartung, Joachim: Statistik, 12. Auflage, Oldenbourg Verlag 1999, S. 561 f, ISBN 3-486-24984-3
  • Zöfel, Peter: Statistik für Psychologen, Pearson Studium 2003, München, S. 154.

Weblinks[Bearbeiten]

 Wiktionary: Korrelationskoeffizient – Bedeutungserklärungen, Wortherkunft, Synonyme, Übersetzungen

Einzelnachweise[Bearbeiten]

  1. Steiger, J.H. (1980), Tests for comparing elements of a correlation matrix, Psychological Bulletin, 87, 245–251.