Dummy-Variable

aus Wikipedia, der freien Enzyklopädie
Wechseln zu: Navigation, Suche

Als Dummy-Variable (selten Scheinvariable[1] oder Stellvertreter-Variable, engl.: dummy variable, auch kurz Dummy) bezeichnet man in der statistischen Datenanalyse eine binäre Variable mit den Ausprägungen 1 und 0 (ja-nein-Variable), die als Indikator für das Vorhandensein einer Ausprägung einer mehrstufigen Variablen dient. Diese der Dummy-Variable zugrunde liegende Variable kann ein beliebiges Skalenniveau haben.

Anwendungen und Beispiele[Bearbeiten | Quelltext bearbeiten]

Bei statistischen Auswertungen kann es hilfreich sein zu wissen, ob eine Untersuchungseinheit eine bestimmte Ausprägung einer kategorialen Variablen aufweist oder nicht. Zu diesem Zweck bildet man eine Dummy-Variable mit den Ausprägungen 1 und 0:

  • 1 = Ausprägung liegt vor
  • 0 = Ausprägung liegt nicht vor

Die Überführung einer kategorialen Variable in eine künstliche numerische Variable nennt man Kodierung (s. u.).

Beispiel: Bei einer Wahlumfrage gibt eine kategoriale Variable an, welche Partei der Befragte wählen würde. Um den Anteil der CDU-Wähler zu ermitteln, benutzt man eine Dummy-Variable mit den Ausprägungen 1 = CDU-Wähler und 0 = kein CDU-Wähler.

Bei intervallskalierten Variablen werden Dummys oft benutzt, um anzuzeigen, ob ein Wert dichotom unter oder über einer bestimmten Grenze liegt.

Beispiel: Die Dummy-Variable bekommt den Wert 1, wenn die befragte Person jünger als 50 Jahre ist, und ansonsten den Wert 0.

Dummykodierung[Bearbeiten | Quelltext bearbeiten]

Die Dummykodierung wird zur Erzeugung von Indikatorvariablen (neben der Effektkodierung und Kontrastkodierung) verwendet. Diese Indikatorvariablen werden zur Abbildung eines mehrstufigen nominalskalierten Merkmals (insbesondere im Rahmen des Allgemeinen Linearen Modells) verwendet. Über das oben gezeigte (zweistufige) Beispiel hinaus, können k Ausprägungen einer kategorialen Variable mit k Dummy-Variablen abgebildet werden. In der Regel werden jedoch (k-1) Dummys verwendet, um die k Ausprägungen vollständig abzubilden: die (ausgelassene) k-te Ausprägung wird durch den Wert 0 auf allen Dummys dargestellt.

Beispiel[Bearbeiten | Quelltext bearbeiten]

Wird das obige Beispiel durch die Hinzunahme von anderen Parteien erweitert, ergibt sich folgende Kodierung (d1 entspricht der ersten Dummy-Variable, d2 der zweiten, usw.):

Partei d1 d2 d3
CDU 1 0 0
SPD 0 1 0
Die Linke 0 0 1
Die Grünen 0 0 0

Mit der Dummy-Variable d1 wird codiert, ob eine Person die CDU präferiert oder nicht, mit der zweiten ob eine Person die SPD präferiert oder nicht und mit der dritten, ob eine Person die Linke präferiert. Wird keine der Parteien bevorzugt, ergibt sich automatisch, dass die Grünen präferiert werden. Aus der Dummykodierung in diesem Beispiel folgt, dass eine Präferenz für keine Partei, mehrere Parteien oder eine nicht aufgeführte Partei nicht abgebildet werden kann.

Anwendung[Bearbeiten | Quelltext bearbeiten]

Für die logistische Regressionsanalyse kann es von Interesse sein, die Wahrscheinlichkeit für die Ausprägung einer Variablen zu operationalisieren, die zuvor dummykodiert werden muss. Dummykodierte Variablen können ebenfalls als Prädiktoren in einer (multiple) Regression verwendet werden. Die b-Gewichte in einer Regression mit dummykodierten Prädiktorvariablen entsprechen den Abweichungen der Gruppenmittelwerte von der durchgängig mit Null codierten Referenzgruppe. Damit bietet sich die Dummykodierung für den Vergleich mehrerer Experimentalbedingungen gegenüber einer Kontrollbedingung an.

Problematisch ist, dass die Wahl der Kodierung beliebig und einer geeigneten Referenzgruppe nicht evident ist (welche Referenz wird beim Vergleich von fünf verschiedenen Ländern gewählt?). Ebenfalls korrelieren die Dummy-Variablen, da die Referenzgruppe jeweils den gleichen Wert aufweist. Dies führt dazu, dass nicht voneinander unabhängige Varianzanteile kodiert werden.

Literatur[Bearbeiten | Quelltext bearbeiten]

  • C. Reinboth: Multivariate Analyseverfahren in der Marktforschung, LuLu-Verlagsgruppe, Morrisville, 2006.
  • Brosius, F. (2002). SPSS 11. Bonn: mitp-Verlag.
  • Bortz, J. Schuster, C. (2010). Statistik für Human- und Sozialwissenschaftler (7. Auflage). Heidelberg: Springer Medizin Verlag
  • Wentura, D. Pospeschill, M. (2015). Multivariate Datenanalyse - Eine kompakte Einführunge. Heidelberg: Springer

Weblinks[Bearbeiten | Quelltext bearbeiten]

Einzelnachweise[Bearbeiten | Quelltext bearbeiten]

  1. Bernd Rönz, Hans G. Strohe (1994), Lexikon Statistik, Gabler Verlag, S. 90.