Rangkorrelationskoeffizient

aus Wikipedia, der freien Enzyklopädie
Wechseln zu: Navigation, Suche

Ein Rangkorrelationskoeffizient ist ein parameterfreies Maß für Korrelationen, das heißt, er misst, wie gut eine beliebige monotone Funktion den Zusammenhang zwischen zwei Variablen beschreiben kann, ohne irgendwelche Annahmen über die Wahrscheinlichkeitsverteilung der Variablen zu machen.

Anders als Pearsons Korrelationskoeffizient benötigt er nicht die Annahme, dass die Beziehung zwischen den Variablen linear ist. Der Rangkorrelationskoeffizient ist robust gegenüber Ausreißern.

Es gibt zwei bekannte Rangkorrelationskoeffizienten: Spearmans Rangkorrelationskoeffizient (Spearmans Rho) und Kendalls Tau. Zur Ermittlung der Übereinstimmung zwischen mehreren Beobachtern (Interrater-Reliabilität) auf Ordinalskalenniveau wird dagegen auf den mit den Rangkorrelationskoeffizienten verwandten Konkordanzkoeffizient W nach Kendall zurückgegriffen.

Konzept[Bearbeiten]

Wir beginnen mit N Paaren von Messungen (x_i, y_i). Das Konzept der nichtparametrischen Korrelation besteht darin, den Wert x_i einer jeden Messung durch den Rang relativ zu allen anderen x_j in der Messung zu ersetzen, also 1, 2, 3, \dots , N. Nach dieser Operation stammen die Werte von einer wohlbekannten Verteilung, nämlich einer Gleichverteilung von Zahlen zwischen 1 bis N. Falls die x_i alle unterschiedlich sind, kommt jede Zahl genau einmal vor. Falls manche x_i identische Werte haben, wird ihnen der Mittelwert der Ränge zugewiesen, die sie erhalten hätten, wenn sie leicht unterschiedlich gewesen wären. In diesem Fall wird von Bindungen oder Ties gesprochen.[1] Dieser gemittelte Rang ist manchmal eine ganze Zahl, manchmal ein „halber“ Rang. In allen Fällen ist die Summe aller zugewiesenen Ränge gleich der Summe aller Zahlen von 1 bis N, nämlich  N (N+1)/2.

Anschließend wird genau dieselbe Prozedur mit den y_i durchgeführt und jeder Wert durch seinen Rang unter allen y_j ersetzt.

Durch das Ersetzen intervallskalierter Messwerte durch die entsprechenden Ränge geht Information verloren. Die Anwendung bei intervallskalierten Daten kann aber dennoch sinnvoll sein, da eine nichtparametrische Korrelation robuster ist als die lineare Korrelation, widerstandsfähiger gegen ungeplante Fehler und Ausreißerwerte in den Daten, genau wie der Median robuster ist als der Mittelwert. Liegen als Daten nur Rangreihen, also Daten auf Ordinalniveau vor, gibt es zudem keine Alternative zu Rangkorrelationen.

Spearmans Rangkorrelationskoeffizient[Bearbeiten]

Spearmans Rangkorrelationskoeffizient ist benannt nach Charles Spearman und wird oft mit dem griechischen Buchstaben ρ (rho) oder – in Abgrenzung zum Pearson’schen Produkt-Moment-Korrelationskoeffizienten – als r_s bezeichnet.

Im Prinzip ist ρ ein Spezialfall von Pearsons Produkt-Moment-Korrelationskoeffizient, bei dem die Daten in Ränge konvertiert werden, bevor der Korrelationskoeffizient berechnet wird:

 r_s = \frac{\sum_{i}(rg(x_i)-\overline{rg}_x)(rg(y_i)-\overline{rg}_y)} {\sqrt{\sum_{i}(rg(x_i)-\overline{rg}_x) ^2}\sqrt{\sum_{i}(rg(y_i)-\overline{rg}_y)^2}} = \frac { \frac{1}{n} \sum_{i}(rg(x_{i})  rg(y_{i})) - \overline{rg_x rg_y}  }{s_{rg_x} s_{rg_y}} = \frac {\operatorname{Cov}(rg_{x},rg_{y} )} { s_{rg_x} s_{rg_y} }
.

Dabei ist

rg(x_i) der Rang von x_i,
\overline{rg}_x der Mittelwert der Ränge von x,
s_{rg_x} die Standardabweichung der Ränge von x und
\operatorname{Cov}(rg(x),rg(y)) die Kovarianz von rg(x) und rg(y).

In der Praxis wird meistens eine einfachere Formel zur Berechnung von ρ benutzt, die aber nur korrekt ist, wenn alle Ränge genau einmal vorkommen.

Die Rohdaten werden in Ränge konvertiert und die Differenz d_i zwischen den Rängen beider Variablen werden für jede Beobachtung berechnet. ρ ist dann gegeben durch:


r_s = 1 - \frac{6 \sum_{i} d_i^2} { n \cdot (n^2 - 1)} \qquad \text{mit} \quad d_i = rg(x_i)-rg(y_i)
,

mit:

d als der Differenz zwischen den Rängen von x und y einer Beobachtung und
n als der Anzahl der Wertepaare.

Sind alle Ränge verschieden, ergibt diese einfache Formel exakt dasselbe Ergebnis.

Bei Bindungen[Bearbeiten]

Die Formel wird etwas komplizierter, wenn identische Werte für X oder Y (also Bindungen) existieren, aber solange nicht sehr viele Werte identisch sind, ergeben sich nur kleine Abweichungen:[2]

r_s = \frac{n^3-n- \frac12 T_x- \frac12 T_y-6\sum_{i} d_i^2}{\sqrt{\left(n^3-n- T_x\right)\left(n^3-n-T_y\right)}}

mit \textstyle T_{\bullet} = \sum_k (t_{\bullet,k}^3- t_{\bullet,k}). Dabei ist t_{\bullet,k} die Anzahl der Beobachtungen mit gleichem Rang; wobei \bullet entweder für X oder für Y steht.

Beispiele[Bearbeiten]

Beispiel 1[Bearbeiten]

Als Beispiel sollen Größe und Körpergewicht verschiedener Menschen untersucht werden. Die Paare von Messwerten seien 175 cm, 178 cm und 190 cm und 65 kg, 70 kg und 98 kg.

In diesem Beispiel besteht die maximale Rangkorrelation: Die Datenreihe der Körpergröße wird nach Rang geordnet, und die Rangzahlen der Körpergrößen entspricht auch den Rangzahlen der Körpergewichte. Eine niedrige Rangkorrelation herrscht, wenn etwa die Körpergröße im Verlauf der Datenreihe größer wird, das Gewicht jedoch abnimmt. Dann kann man nicht „Der schwerste Mensch ist der größte“ sagen. Der Rangkorrelationskoeffizient ist der zahlenmäßige Ausdruck des Zusammenhanges zweier Rangordnungen.

Beispiel 2[Bearbeiten]

Dieser Artikel oder Abschnitt bedarf einer Überarbeitung. Näheres ist auf der Diskussionsseite angegeben. Hilf mit, ihn zu verbessern, und entferne anschließend diese Markierung.

Gegeben sind acht Beobachtungen zweier Variablen a und b:

i 1 2 3 4 5 6 7 8
a_i 2,0 3,0 3,0 5,0 5,5 8,0 10,0 10,0
b_i 1,5 1,5 4,0 3,0 1,0 5,0 5,0 9,5


Um den Rang für die Beobachtungen von b zu ermitteln, wird folgendermaßen vorgegangen: Zunächst wird nach dem Wert sortiert, dann wird der Rang vergeben (d. h. neu durchnummeriert) und normiert, d. h. bei gleichen Werten, wird der Mittelwert gebildet. Zuletzt wird die Eingangsreihenfolge wiederhergestellt, damit dann die Differenzen der Ränge gebildet werden können.

Eingang Sort(Wert) Rang ermitteln Sort(Index)

\begin{array}{c|c}
  \text{Index} & \text{Wert}\\
\hline
  1  & 1{,}5 \\
  2  & 1{,}5 \\
  3  & 4{,}0 \\
  4  & 3{,}0 \\
  5  & 1{,}0 \\
  6  & 5{,}0 \\
  7  & 5{,}0 \\
  8  & 9{,}5 \\
\end{array}

\begin{array}{c|c}
  \text{Index} & \text{Wert}\\
\hline
  5  & 1{,}0 \\
  1  & 1{,}5 \\
  2  & 1{,}5 \\
  4  & 3{,}0 \\
  3  & 4{,}0 \\
  6  & 5{,}0 \\
  7  & 5{,}0 \\
  8  & 9{,}5 \\
\end{array}

\begin{array}{c|c|c||c}
  \text{Index} & \text{Wert} & \text{Rang} & \text{Normiert}\\
\hline
  5  & 1{,}0 & 1 & 1\\
\hline
  1  & 1{,}5 & 2 & (2+3)/2 \\
  2  & 1{,}5 & 3 &  =2{,}5 \\
\hline
  4  & 3{,}0 & 4 & 4\\
\hline
  3  & 4{,}0 & 5 & 5\\
\hline
  6  & 5{,}0 & 6 & (6+7)/2\\
  7  & 5{,}0 & 7 &  =6{,}5\\
\hline
  8  & 9{,}5 & 8 &  8\\
\end{array}

\begin{array}{c|c|c}
  \text{Index} & \text{Wert} & \text{Rang Normiert}\\
\hline
  1  & 1{,}5 & 2{,}5 \\
  2  & 1{,}5 & 2{,}5 \\
  3  & 4{,}0 & 5{,}0 \\
  4  & 3{,}0 & 4{,}0 \\
  5  & 1{,}0 & 1{,}0 \\
  6  & 5{,}0 & 6{,}5 \\
  7  & 5{,}0 & 6{,}5 \\
  8  & 9{,}5 & 8{,}0 \\
\end{array}

Aus den zwei Datenreihen a und b ergibt sich folgende Zwischenrechnung:

Werte von a Werte von b Rang von a Rang von b d=Rg(a)-Rg(b) (Rg(a)-Rg(b))^2
2,0 1,5 1,0 2,5 −1,5 2,25
3,0 1,5 2,5 2,5 0,0 0,00
3,0 4,0 2,5 5,0 −2,5 6,25
5,0 3,0 4,0 4,0 0,0 0,00
5,5 1,0 5,0 1,0 4,0 16,00
8,0 5,0 6,0 6,5 −0,5 0,25
10,0 5,0 7,5 6,5 1,0 1,00
10,0 9,5 7,5 8,0 −0,5 0,25
        \sum = 26

Die Tabelle ist nach der Variablen a geordnet. Wichtig ist, dass sich Einzelwerte einen Rang teilen können. In der Reihe a gibt es zweimal „3“, und sie haben jeweils den „durchschnittlichen“ Rang (2+3)/2 = 2,5. Dasselbe geschieht bei der Reihe b.

Werte von a Werte von b t_{a,k} t_{a,k}^3-t_{a,k} t_{b,k} t_{b,k}^3-t_{b,k}
2,0 1,5 1 0 2 6
3,0 1,5 2 6 - -
3,0 4,0 - - 1 0
5,0 3,0 1 0 1 0
5,5 1,0 1 0 1 0
8,0 5,0 1 0 2 6
10,0 5,0 2 6 - -
10,0 9,5 - - 1 0
    T_a=12 T_b=12

Mit der Korrektur nach Horn ergibt sich schließlich

r_s = \frac{8^3-8 - 6 - 6 - 6\cdot 26}{\sqrt{\left({8^3-8}-12\right)\left(8^3-8-12\right)}} = \frac{336}{492} \approx 0{,}6829 .

Bestimmung der Signifikanz[Bearbeiten]

Der moderne Ansatz für den Test, ob der beobachtete Wert von ρ sich signifikant von null unterscheidet führt zu einem Permutationstest. Dabei wird die Wahrscheinlichkeit berechnet, dass ρ für die Nullhypothese größer oder gleich dem beobachteten ρ ist.

Dieser Ansatz ist traditionellen Methoden überlegen, wenn der Datensatz nicht zu groß ist, um alle notwendigen Permutationen zu erzeugen, und weiterhin, wenn nicht klar ist, wie man für die gegebene Anwendung sinnvolle Permutationen für die Null-Hypothese erzeugt (was aber normalerweise recht einfach ist).

Kendalls Tau[Bearbeiten]

Im Gegensatz zu Spearmans \rho nutzt Kendalls \tau nur den Unterschied in den Rängen und nicht die Differenz der Ränge. In der Regel ist der Wert von Kendalls \tau etwas kleiner als der Wert von Spearmans \rho. \tau erweist sich darüber hinaus auch für intervallskalierte Daten als hilfreich, wenn die Daten nicht normalverteilt sind, die Skalen ungleiche Teilungen aufweisen oder bei sehr kleinen Stichprobengrößen.

Berechnung[Bearbeiten]

Um \tau zu berechnen, betrachten wir Paare von nach x sortierten Beobachtungen (x_i,y_i) und (x_j,y_j) mit i=1,\ldots,n-1 und j=i+1,\ldots,n. Es gilt also:

x_1\leq x_2 \leq \ldots \leq x_n .

Dann wird das Paar 1 mit allen folgenden Paaren (2,3,\ldots,n) verglichen, das Paar 2 mit allen folgenden Paaren (3,\ldots,n), usw. Es werden also insgesamt n(n-1)/2 Paarvergleiche durchgeführt. Gilt für ein Paar:

  • x_i < x_j und y_i < y_j, so heißt es konkordant oder übereinstimmend,
  • x_i < x_j und y_i > y_j, so heißt es diskonkordant oder uneinig,
  • x_i \ne x_j und y_i = y_j, so ist es eine Bindung in Y,
  • x_i = x_j und y_i \neq y_j, so ist es eine Bindung in X und
  • x_i = x_j und y_i = y_j, so ist es eine Bindung in X und Y.

Die Anzahl der Paare, die

  • konkordant oder übereinstimmend sind, wird mit C,
  • diskonkordant oder uneinig sind, wird mit D,
  • die Bindungen in Y sind, wird mit T_Y,
  • die Bindungen in X sind, wird mit T_X und
  • die Bindungen in X und Y sind, wird mit T_{XY} bezeichnet.

Kendalls \tau Werte vergleicht nun die Zahl der konkordanten und der diskonkordanten Paare:

\tau = \frac{C-D}{\sqrt{(C+D+T_X)\cdot (C+D+T_Y)}}

Ist Kendalls \tau positiv, so gibt es mehr konkordante Paare als diskonkordante, d. h. es ist wahrscheinlich, dass wenn x_i\leq x_j ist, dann auch y_i\leq y_j gilt. Ist Kendalls \tau negativ, so gibt es mehr diskonkordante Paare als konkordante, d. h. es ist wahrscheinlich, dass wenn x_i\leq x_j ist, dann auch y_i\geq y_j gilt. Der Wert \sqrt{(C+D+T_X)\cdot (C+D+T_Y)} normiert Kendalls \tau, so dass gilt:

-1\leq \tau\leq +1 .

Test von Kendalls Tau[Bearbeiten]

Betrachtet man die Zufallsvariable \Tau, so hat Kendall herausgefunden, dass für den Test

H_0: \tau=0 vs. H_1:\tau\neq 0

diese unter Nullhypothese approximativ normalverteilt ist: \Tau\approx N\left(0; \frac{4n+10}{9n(n-1)}\right). Neben dem approximativen Test kann auch ein exakter Permutationstest durchgeführt werden.

Weitere τ Koeffizienten[Bearbeiten]

Mit den obigen Definitionen hatte Kendall insgesamt drei \tau Koeffizienten definiert:

\text{Kendalls } \tau_a = \frac{C-D}{n(n-1)/2}
\text{Kendalls } \tau_b = \frac{C-D}{\sqrt{C+D+T_x}\sqrt{C+D+T_y}} (siehe oben)
\text{Kendalls } \tau_c = \frac{2m(C-D)}{(m-1)n^2}

Kendalls \tau_a kann nur auf Daten ohne Bindungen angewandt werden. Kendalls \tau_b erreicht auf nicht quadratischen Kontingenztabellen nicht die Extremwerte +1 bzw. -1 und berücksichtigt, da T_{xy} nicht einfließt, keine Bindungen in X und Y. Bei Vierfeldertafeln ist \tau_b mit dem Vierfelderkoeffizienten \Phi (Phi) und, wenn die Ausprägungen der beiden dichotomen Variablen jeweils mit 0 und 1 kodiert sind, auch mit Pearsons Korrelationskoeffizient identisch.

Tetra- und polychorische Korrelation[Bearbeiten]

Im Zusammenhang mit Likert-Skalen wird oft auch die tetra- (bei zwei binären Variablen) oder polychorische Korrelation berechnet. Dabei geht man davon aus, dass z. B bei einer Frage mit der Antwortform (Trifft überhaupt nicht zu, …, Trifft vollständig zu) die Befragten eigentlich in einem metrischen Sinn geantwortet hätten, aber aufgrund der Antwortform sich für eine der Alternativen entscheiden mussten.

D. h. hinter den beobachteten Variablen X_i\,, die ordinal sind, stehen also unbeobachtete intervallskalierte Variablen X_i^*. Die Korrelation zwischen den unbeobachteten Variablen heißt tetra- oder polychorische Korrelation.

Die Anwendung der tetra- bzw. polychorischen Korrelation bei Likert-Skalen empfiehlt sich, wenn die Zahl der Kategorien bei den beobachteten Variablen kleiner als sieben ist.[3] In der Praxis wird stattdessen oft der Bravais-Pearson-Korrelationskoeffizient zu Berechnung der Korrelation benutzt, jedoch kann man zeigen, dass damit die wahre Korrelation unterschätzt wird. [4]

Schätzverfahren für die tetra- oder polychorische Korrelation[Bearbeiten]

Unter der Annahme, dass die unbeobachteten Variablen X_i^* paarweise bivariat normalverteilt sind, kann man mit Hilfe der Maximum-Likelihood-Methode die Korrelation zwischen den unbeobachteten Variablen schätzen. Dafür gibt es zwei Verfahren:

  1. Man schätzt zuerst die Intervallgrenzen für jede Kategorie für jede unbeobachtete Variable X_i^* (unter Annahme der univariaten Normalverteilung für die jeweilige unbeobachtete Variable). Danach wird in einem zweiten Schritt die Korrelation mit den zuvor geschätzten Intervallgrenzen nur noch die Korrelation mit der Maximum-Likelihood-Methode geschätzt (twostep Methode).
  2. Sowohl die unbekannten Intervallgrenzen als auch die unbekannte Korrelation gehen als Parameter in die Maximum-Likelihood-Funktion ein. Sie werden dann in einem Schritt geschätzt.

Approximationsformel für die tetrachorische Korrelation[Bearbeiten]

X_1\X_2 0 1
0 n_{00} n_{10}
1 n_{01} n_{11}

Für zwei binäre Variablen kann mit Hilfe der Kreuztabelle rechts eine Näherungsformel für die tetrachorische Korrelation angegeben werden:

r_{tet} = \cos\left( \frac{\pi} {1+\sqrt{\frac{n_{00}n_{11}}{n_{01}n_{10}}}}\right)

Eine Korrelation von r_{tet}=-1 liegt genau dann vor, wenn n_{00}=n_{11}=0. Entsprechend liegt eine Korrelation von r_{tet}=+1 genau dann vor, wenn n_{01}=n_{10}=0.

Einzelnachweise[Bearbeiten]

  1. Vgl. Fahrmeir et al. (2004):Statistik, S. 142
  2. Horn, D. (1942), A correction for the effect of tied ranks on the value of the rank difference correlation coefficient. Educational and Psychological Measurement, 3, 686-690.
  3. D. J. Bartholomew, F. Steele , J. I. Galbraith, I. Moustaki (2002), The Analysis and Interpretation of Multivariate Data for Social Scientists, Chapman & Hall/CRC
  4. K. G. Jöreskog, D. Sorbom (1988) PRELIS, a program for multivariate data screening and data summarization. Scientific Software, Mooresville