Benutzer:Sigbert/Korrespondenzanalyse

Kontigenztafeln und Unabhängigkeit

Die Basis für die Korrespondenzanalyse ist eine Kontigenztafel $H$ (auch: Kontingenztabelle oder Kreuztabelle) mit den absoluten Häufigkeiten des gemeinsamen Auftretens von zwei Merkmalen $Z$ und $S$ , jeweils mit $J$ Merkmalsausprägungen (oder Zeilenkategorien) $z_{1},z_{2},\ldots ,z_{J}$ bzw. mit $K$ Merkmalsausprägungen (oder Spaltenkategorien) $s_{1},s_{2},\ldots ,s_{K}$ .

$n_{jk}$ ist die absolute Häufigkeit mit der die Merkmalskombination $(z_{j},s_{k})$ in den Daten mit $N$ Datenpunkten aufgetreten ist. $n_{1\bullet },n_{2\bullet },\ldots ,n_{J\bullet }$ sind die Zeilensummen (oder Randhäufigkeit von $Z$ ) bzw. $n_{\bullet 1},n_{\bullet 2},\ldots ,n_{\bullet K}$ sind die Spaltensummen (oder Randhäufigkeiten von $S$ ).

Im ersten Schritt wird die Kontingenztafel $P$ mit den relativen Häufigkeiten mit $p_{jk}=n_{jk}/N$ , $r_{j}=n_{j\bullet }/N$ und $c_{k}=n_{\bullet k}/N$ berechnet. Wenn die Variablen $Z$ und $S$ unabhängig sind, dann gilt für alle Zellen der Kontingenztafeln

n_{ij}={\frac {n_{i\bullet }n_{j\bullet }}{N}}\;

bzw.

\;p_{ij}=r_{i}c_{j}

.

Kontigentztafel $H$ mit absoluten Häufigkeiten
$Z\setminus S$	$s_{1}$	$s_{2}$	$\ldots$	$s_{K}$	Randhäufig- keit von $Z$
$z_{1}$	$n_{11}$	$n_{12}$	$\ldots$	$n_{1K}$	$n_{1\bullet }$
$z_{2}$	$n_{21}$	$n_{22}$	$\ldots$	$n_{2K}$	$n_{2\bullet }$
$\vdots$	$\vdots$	$\vdots$	$\ddots$	$\vdots$	$\vdots$
$z_{J}$	$n_{J1}$	$n_{J2}$	$\ldots$	$n_{JK}$	$n_{J\bullet }$
Randhäufig- keit von $S$	$n_{\bullet 1}$	$n_{\bullet 2}$	$\ldots$	$n_{\bullet K}$	$n_{\bullet \bullet }=N$

Kontigentztafel $P$ mit relativen Häufigkeiten
$Z\setminus S$	$s_{1}$	$s_{2}$	$\ldots$	$s_{K}$	Randhäufig- keit von $Z$
$z_{1}$	$p_{11}$	$p_{12}$	$\ldots$	$p_{1K}$	$r_{1}$
$z_{2}$	$p_{21}$	$p_{22}$	$\ldots$	$p_{2K}$	$r_{2}$
$\vdots$	$\vdots$	$\vdots$	$\ddots$	$\vdots$	$\vdots$
$z_{J}$	$p_{J1}$	$p_{J2}$	$\ldots$	$p_{JK}$	$r_{J}$
Randhäufig- keit von $S$	$c_{1}$	$c_{2}$	$\ldots$	$c_{K}$	$1$

Die quadratische Kontingenz $\chi ^{2}$ ist die Basis um den Zusammenhang zwischen zwei nomial skalierten Variablen zu messen. Ist quadratische Kontingenz gleich Null sind die beiden Variablen unabhängig.

\chi ^{2}=\sum _{j=1}^{J}\sum _{k=1}^{K}{\frac {\left(n_{jk}-{\frac {n_{j\bullet }n_{\bullet k}}{N}}\right)^{2}}{\frac {n_{j\bullet }n_{\bullet k}}{N}}}=N\sum _{j=1}^{J}\sum _{k=1}^{K}{\frac {\left(p_{jk}-r_{j}c_{k}\right)^{2}}{r_{j}c_{k}}}

.

Der Beitrag jeder Zelle zu quadratischen Kontingenz wird dem Residuum

e_{jk}={\frac {\left(n_{jk}-{\frac {n_{j\bullet }n_{\bullet k}}{N}}\right)}{\sqrt {\frac {n_{j\bullet }n_{\bullet k}}{N}}}}={\frac {N\left(p_{jk}-r_{j}c_{k}\right)}{\sqrt {r_{j}c_{k}}}}

und es gilt $\chi ^{2}=\sum _{j=1}^{J}\sum _{k=1}^{K}e_{jk}^{2}$ .

Je stärker des Residuum $e_{jk}$ von Null abweicht desto größer ist der Beitrag der Zelle zur quadratischen Kontingenz. Ist das Residuum negativ, dann hat man in den Daten eine geringes Auftreten der entsprechenden Merkmalskombination als unter Unabhäbngigkeit zu erwarten wäre. Ist das Residuum positiv, dann hat man in den Daten eine höheres Auftreten der entsprechenden Merkmalskombination als unter Unabhäbngigkeit zu erwarten wäre.

Die Terminologie in der Korrespondenzanalyse verwendet wegen formaler Analogien zur Physik (Baryzentrum, Trägheit, usw.) folgende Begrifflichkeiten:

Zeilen- und Spaltenkategorien sind gegeben durch die Vektoren $(n_{j1},n_{j2},\ldots ,n_{jK})$ ( $j$ te Zeilenkategorie) bzw. $(n_{1k},n_{2k},\ldots ,n_{Jk})$ ( $k$ te Spaltenkategorie)
Zeilen- und Spaltenmassen für die Zeilensummen $r_{k}$ und Spaltensummen $c_{j}$ ,
Zeilen- und Spaltenprofile sind die Vektoren der bedingten Häufigkeiten der Kontigenztafel mit dem $j$ ten Zeilenprofil $\textstyle \left({\frac {p_{j1}}{r_{j}}},{\frac {p_{j2}}{r_{j}}},\ldots ,{\frac {p_{jK}}{r_{j}}}\right)=\left({\frac {n_{j1}}{n_{j\bullet }}},{\frac {n_{j2}}{n_{j\bullet }}},\ldots ,{\frac {n_{jK}}{n_{j\bullet }}}\right)$ und dem $k$ ten Spaltenprofil $\textstyle \left({\frac {p_{1k}}{c_{k}}},{\frac {p_{2k}}{c_{k}}},\ldots ,{\frac {p_{Jk}}{c_{k}}}\right)=\left({\frac {n_{1k}}{n_{\bullet k}}},{\frac {n_{2k}}{n_{\bullet k}}},\ldots ,{\frac {n_{Jk}}{n_{\bullet k}}}\right)$
das mittlere Zeilen- und Spaltenprofil sind die Vektoren $(c_{1},c_{2},\ldots ,c_{K})$ bzw. $(r_{1},r_{2},\ldots ,r_{J})$
$\chi ^{2}/N$ heißt Gesamtträgheit oder Gesamt-Inertia der Kontigenztafel
die Zeilen- und die Spaltenträgheit sind gegeben durch

{\frac {\chi _{j\bullet }^{2}}{N}}=\sum _{k=1}^{K}{\frac {\left(p_{jk}-r_{j}c_{k}\right)^{2}}{r_{j}c_{k}}}

(

j

te Zeilenträgheit) und

{\frac {\chi _{\bullet k}^{2}}{N}}=\sum _{k=1}^{J}{\frac {\left(p_{jk}-r_{j}c_{k}\right)^{2}}{r_{j}c_{k}}}

(

k

te Spaltenträgheit

und es gilt

sind die beiden Variablen $Z$ und $S$ unabhängig, dann müssen alle Zeilenprofile identisch zum mittleren Zeilenprofil bzw. alle Spaltenprofile identisch zum mittleren Spaltenprofil sein.
für Zeilen- und die Spaltenträgheiten $\textstyle {\frac {\chi ^{2}}{N}}=\sum _{j=1}^{J}{\frac {\chi _{j\bullet }^{2}}{N}}=\sum _{k=1}^{K}{\frac {\chi _{\bullet k}^{2}}{N}}$

Visualisierung

Um die Ergebnisse der Korrespondenzanalyse zu visualisieren, wird eine grafische Darstellung der Zeilen und Spalten als Punkte in einem niedrig-dimensionalen Raum gesucht. Dabei sollen die Punkte ähnlicher Zeilen- und Spalten nahe beieinander liegen und die Punkte unähnlicher Zeilen- und Spaltenprofile weit voneinander entfernt liegen.

Biplot (Singulärwertzerlegung)

Multidimensionaler Skalierung

Liegen die Distanzen $d(z_{j},z_{j'})$ zwischen zwei Zeilenprofilen vor, so kann man z.B. mit der multidimensionalen Skalierung eine niedrigdimensionale Punktekonfiguration finden, die alle Distanzen $d(z_{j},z_{j'})$ möglichst gut approximiert.

Im allgemeinen kann eine Distanzmatrix mit $J$ Zeilen und $K$ Spalte in einen Raum der Dimension $min(J,K)-1$ repräsentiert werden, so das die Distanzen zwischen den Profilen erhalten bleiben. Handelt es sich um euklidische Distanzen, dann ist die Dimension der Rang der Gram-Matrix $G$ mit $rang(G)\leq min(J,K)-1$ .

Hauptkomponenten oder Faktorenanalyse

Da auch die hochdimensionalen Koordinaten $f_{jk}$ vorliegen kann mit der Hauptkomponentenanalyse oder auch der Faktorenanalyse eine niedrigdimensionale Punktekonfiguration gefunden werden. Die Hauptkomponentenanalyse versucht jedoch die Distanzen zwischen den Zeilenprofilen und dem mittlere Zeilenprofil möglichst gut zu approximieren und nur indirekt die Distanzen zwischen den Zeilenprofilen. Die Faktorenanalyse versucht die Korrelation zwischen den Punkten für die Zeilenprofilen zu approximieren.

Chi Quadrat Distanz

Je ähnlicher sich nun die Profile zweier Zeilen (oder Spalten) sind, desto näher sollten die die Zeilenkategorien repräsentierenden Punkte in dem Koordinatensystem, das die $K$ latenten Variablen abbildet, liegen. Wenn die Koordinaten der $K$ -dimensionalen Punkte mit $(f_{j1},f_{j2},\ldots ,f_{jK})$ und $(f_{j'1},f_{j'2},\ldots ,f_{j'K})$ bezeichnet werden, dann ist der euklidische Abstand

d(z_{j},z_{j'})={\sqrt {\sum _{k=1}^{K}\left(f_{jk}-f_{j'k}\right)^{2}}}

.

Wählt man $f_{jk}={\frac {p_{jk}}{r_{j}{\sqrt {c_{k}}}}}$ mit $l=1,\ldots ,K$ , so ergibt sich ein geeignetes Distanzmaß. Für das mittlere Zeilenprofil, da die Zeilensumme $c_{1}+c_{2}+\ldots +c_{K}=1$ , gilt

f_{ck}={\frac {c_{k}}{1\cdot {\sqrt {c_{k}}}}}

.

Setzt man das mittlere Zeilenprofil in das Distanzmaß ein, so ergibt sich:

{\begin{aligned}d(z_{j},c)&={\sqrt {\sum _{k=1}^{K}\left({\frac {p_{jk}}{r_{j}{\sqrt {c_{k}}}}}-{\frac {c_{k}}{1\cdot {\sqrt {c_{k}}}}}\right)^{2}}}\\&={\sqrt {{\frac {1}{r_{j}}}\sum _{k=1}^{K}{\frac {\left(p_{jk}-r_{j}c_{k}\right)^{2}}{r_{j}c_{k}}}}}.\\\end{aligned}}

Sind die Variablen $Z$ und $S$ unabhängig, dann entspricht die beobachtete Häufigkeit $p_{jk}$ der erwarteten Häufigkeit $r_{j}c_{k}$ , d.h. $d(z_{j},c)=0$ .

Das Distanz misst nicht nur die Distanz zwischen zwei Zeilenprofilen, sondern auch den Abstand zum Zeilenprofil, das unter Unabhängigkeit erwartet wird.

Die $j$ te Zeilenträgheit lässt sich schreiben als $\chi _{j\bullet }^{2}/N=r_{j}d^{2}(z_{j},c)$ und die Gesamträgheit als $\chi ^{2}/N=\sum _{j=1}^{J}r_{j}d^{2}(z_{j},c)$ .

Für die Spaltenprofile kann analog vorgegangen werden.

Ergebnisse für das Beispiel

Für das Beispiel von oben mit den Klassen und Schulfächern ergeben sich folgende Kontingenztafeln mit den absoluten und relativen Häufigkeiten.

Absolute Häufigkeiten
Klasse	Mathe	Deutsch	Englisch	Kunst	$\Sigma$
5	20	15	10	5	50
6	25	20	8	7	60
7	18	22	12	6	58
8	12	18	15	10	55
$\Sigma$	75	75	45	28	223

Relative Häufigkeiten $P$
Klasse	Mathe	Deutsch	Englisch	Kunst	$\Sigma$
5	0,009	0,067	0,045	0,022	0,224
6	0,112	0,090	0,036	0,031	0,289
7	0,081	0,099	0,054	0,025	0,260
8	0,054	0,081	0,067	0,045	0,247
$\Sigma$	0,336	0,336	0,202	0,126	1,000

Damit folgen die Zeilen- und Spaltenprofile mit dem mittleren Zeilenprofil $c$ und dem mittleren Spaltenprofil $r$ :

Zeilenprofile (bedingte Häufigkeiten)
Klasse	Mathe	Deutsch	Englisch	Kunst	$\Sigma$
5	0,400	0,300	0,300	0,100	1,000
6	0,417	0,333	0,133	0,117	1,000
7	0,310	0,379	0,207	0,103	1,000
8	0,218	0,328	0,273	0,182	1,000
c	0,336	0,336	0,202	0,126	1,000

Spaltenprofile (bedingte Häufigkeiten)
Klasse	Mathe	Deutsch	Englisch	Kunst	r
5	0,257	0,200	0,222	0,179	0,224
6	0,333	0,267	0,178	0,250	0,289
7	0,240	0,293	0,267	0,214	0,260
8	0,160	0,240	0,333	0,357	0,247
$\Sigma$	1,000	1,000	1,000	1,000	1,000

Benutzer:Sigbert/Korrespondenzanalyse

Inhaltsverzeichnis

Kontigenztafeln und Unabhängigkeit

Visualisierung

Biplot (Singulärwertzerlegung)

Multidimensionaler Skalierung

Hauptkomponenten oder Faktorenanalyse

Chi Quadrat Distanz

Ergebnisse für das Beispiel

Navigationsmenü

Benutzer:Sigbert/Korrespondenzanalyse

Kontigenztafeln und Unabhängigkeit

Visualisierung

Biplot (Singulärwertzerlegung)

Multidimensionaler Skalierung

Hauptkomponenten oder Faktorenanalyse

Chi Quadrat Distanz

Ergebnisse für das Beispiel

Navigationsmenü

Suche