Benutzer:Sigbert/Korrespondenzanalyse

aus Wikipedia, der freien Enzyklopädie
Zur Navigation springen Zur Suche springen

Korrespondenzanalyse Kontingenztabelle

Kontigenztafeln und Unabhängigkeit

[Bearbeiten | Quelltext bearbeiten]

Die Basis für die Korrespondenzanalyse ist eine Kontigenztafel (auch: Kontingenztabelle oder Kreuztabelle) mit den absoluten Häufigkeiten des gemeinsamen Auftretens von zwei Merkmalen und , jeweils mit Merkmalsausprägungen (oder Zeilenkategorien) bzw. mit Merkmalsausprägungen (oder Spaltenkategorien) .

ist die absolute Häufigkeit mit der die Merkmalskombination in den Daten mit Datenpunkten aufgetreten ist. sind die Zeilensummen (oder Randhäufigkeit von ) bzw. sind die Spaltensummen (oder Randhäufigkeiten von ).

Im ersten Schritt wird die Kontingenztafel mit den relativen Häufigkeiten mit , und berechnet. Wenn die Variablen und unabhängig sind, dann gilt für alle Zellen der Kontingenztafeln

bzw. .
Kontigentztafel mit absoluten Häufigkeiten
Randhäufig-
keit von
Randhäufig-
keit von
Kontigentztafel mit relativen Häufigkeiten
Randhäufig-
keit von
Randhäufig-
keit von

Die quadratische Kontingenz ist die Basis um den Zusammenhang zwischen zwei nomial skalierten Variablen zu messen. Ist quadratische Kontingenz gleich Null sind die beiden Variablen unabhängig.

.

Der Beitrag jeder Zelle zu quadratischen Kontingenz wird dem Residuum

und es gilt .

Je stärker des Residuum von Null abweicht desto größer ist der Beitrag der Zelle zur quadratischen Kontingenz. Ist das Residuum negativ, dann hat man in den Daten eine geringes Auftreten der entsprechenden Merkmalskombination als unter Unabhäbngigkeit zu erwarten wäre. Ist das Residuum positiv, dann hat man in den Daten eine höheres Auftreten der entsprechenden Merkmalskombination als unter Unabhäbngigkeit zu erwarten wäre.

Die Terminologie in der Korrespondenzanalyse verwendet wegen formaler Analogien zur Physik (Baryzentrum, Trägheit, usw.) folgende Begrifflichkeiten:

  • Zeilen- und Spaltenkategorien sind gegeben durch die Vektoren (te Zeilenkategorie) bzw. (te Spaltenkategorie)
  • Zeilen- und Spaltenmassen für die Zeilensummen und Spaltensummen ,
  • Zeilen- und Spaltenprofile sind die Vektoren der bedingten Häufigkeiten der Kontigenztafel mit dem ten Zeilenprofil und dem ten Spaltenprofil
  • das mittlere Zeilen- und Spaltenprofil sind die Vektoren bzw.
  • heißt Gesamtträgheit oder Gesamt-Inertia der Kontigenztafel
  • die Zeilen- und die Spaltenträgheit sind gegeben durch
(te Zeilenträgheit) und (te Spaltenträgheit

und es gilt

  • sind die beiden Variablen und unabhängig, dann müssen alle Zeilenprofile identisch zum mittleren Zeilenprofil bzw. alle Spaltenprofile identisch zum mittleren Spaltenprofil sein.
  • für Zeilen- und die Spaltenträgheiten

Um die Ergebnisse der Korrespondenzanalyse zu visualisieren, wird eine grafische Darstellung der Zeilen und Spalten als Punkte in einem niedrig-dimensionalen Raum gesucht. Dabei sollen die Punkte ähnlicher Zeilen- und Spalten nahe beieinander liegen und die Punkte unähnlicher Zeilen- und Spaltenprofile weit voneinander entfernt liegen.

Biplot (Singulärwertzerlegung)

[Bearbeiten | Quelltext bearbeiten]

Multidimensionaler Skalierung

[Bearbeiten | Quelltext bearbeiten]

Liegen die Distanzen zwischen zwei Zeilenprofilen vor, so kann man z.B. mit der multidimensionalen Skalierung eine niedrigdimensionale Punktekonfiguration finden, die alle Distanzen möglichst gut approximiert.

Im allgemeinen kann eine Distanzmatrix mit Zeilen und Spalte in einen Raum der Dimension repräsentiert werden, so das die Distanzen zwischen den Profilen erhalten bleiben. Handelt es sich um euklidische Distanzen, dann ist die Dimension der Rang der Gram-Matrix mit .

Hauptkomponenten oder Faktorenanalyse

[Bearbeiten | Quelltext bearbeiten]

Da auch die hochdimensionalen Koordinaten vorliegen kann mit der Hauptkomponentenanalyse oder auch der Faktorenanalyse eine niedrigdimensionale Punktekonfiguration gefunden werden. Die Hauptkomponentenanalyse versucht jedoch die Distanzen zwischen den Zeilenprofilen und dem mittlere Zeilenprofil möglichst gut zu approximieren und nur indirekt die Distanzen zwischen den Zeilenprofilen. Die Faktorenanalyse versucht die Korrelation zwischen den Punkten für die Zeilenprofilen zu approximieren.

Chi Quadrat Distanz

[Bearbeiten | Quelltext bearbeiten]

Je ähnlicher sich nun die Profile zweier Zeilen (oder Spalten) sind, desto näher sollten die die Zeilenkategorien repräsentierenden Punkte in dem Koordinatensystem, das die latenten Variablen abbildet, liegen. Wenn die Koordinaten der -dimensionalen Punkte mit und bezeichnet werden, dann ist der euklidische Abstand

.

Wählt man mit , so ergibt sich ein geeignetes Distanzmaß. Für das mittlere Zeilenprofil, da die Zeilensumme , gilt

.

Setzt man das mittlere Zeilenprofil in das Distanzmaß ein, so ergibt sich:

Sind die Variablen und unabhängig, dann entspricht die beobachtete Häufigkeit der erwarteten Häufigkeit , d.h. .

Das Distanz misst nicht nur die Distanz zwischen zwei Zeilenprofilen, sondern auch den Abstand zum Zeilenprofil, das unter Unabhängigkeit erwartet wird.

Die te Zeilenträgheit lässt sich schreiben als und die Gesamträgheit als .

Für die Spaltenprofile kann analog vorgegangen werden.

Ergebnisse für das Beispiel

[Bearbeiten | Quelltext bearbeiten]

Für das Beispiel von oben mit den Klassen und Schulfächern ergeben sich folgende Kontingenztafeln mit den absoluten und relativen Häufigkeiten.

Absolute Häufigkeiten
Klasse Mathe Deutsch Englisch Kunst
5 20 15 10 5 50
6 25 20 8 7 60
7 18 22 12 6 58
8 12 18 15 10 55
75 75 45 28 223
Relative Häufigkeiten
Klasse Mathe Deutsch Englisch Kunst
5 0,009 0,067 0,045 0,022 0,224
6 0,112 0,090 0,036 0,031 0,289
7 0,081 0,099 0,054 0,025 0,260
8 0,054 0,081 0,067 0,045 0,247
0,336 0,336 0,202 0,126 1,000

Damit folgen die Zeilen- und Spaltenprofile mit dem mittleren Zeilenprofil und dem mittleren Spaltenprofil :

Zeilenprofile (bedingte Häufigkeiten)
Klasse Mathe Deutsch Englisch Kunst
5 0,400 0,300 0,300 0,100 1,000
6 0,417 0,333 0,133 0,117 1,000
7 0,310 0,379 0,207 0,103 1,000
8 0,218 0,328 0,273 0,182 1,000
c 0,336 0,336 0,202 0,126 1,000
Spaltenprofile (bedingte Häufigkeiten)
Klasse Mathe Deutsch Englisch Kunst r
5 0,257 0,200 0,222 0,179 0,224
6 0,333 0,267 0,178 0,250 0,289
7 0,240 0,293 0,267 0,214 0,260
8 0,160 0,240 0,333 0,357 0,247
1,000 1,000 1,000 1,000 1,000