Diskussion:Imputation (Statistik)

aus Wikipedia, der freien Enzyklopädie
Zur Navigation springen Zur Suche springen

Kleinere Unklarheiten[Quelltext bearbeiten]

Ein schöner Artikel. Folgendes wurde mir nicht ganz deutlich:

Deck-Verfahren[Quelltext bearbeiten]

Die Vorgehensweise beim sequentiellen Hot-Deck finde ich etwas verwirrend. Vieleicht kann jemand ein Zahlenbeispiel geben. Was für Merkmale nutzt man üblicherweise für Imputationsklassen? Metrische oder Kategoriale? --Zulu55 09:07, 29. Jul. 2010 (CEST)[Beantworten]

Vergleich von Deck- und Regressionsverfahren[Quelltext bearbeiten]

Wie hängen Deck- und Regressionsverfahren zusammen? Sind das sich aussschließende Begriffe? Sind Regressionsverfahren Deckverfahren überlegen? --Zulu55 09:07, 29. Jul. 2010 (CEST)[Beantworten]

Natürlich kann man beim Hot Deck sowohl metrische als auch kategoriale Merkmale zur Einteilung verwenden. Die zweite Frage kann ich irgendwie nicht wirklich nachvollziehen, die Vorgehensweisen sind bei beiden Techniken doch gänzlich anders; bei der Regression werden Schätzwerte aus Ausprägungen eines anderen Merkmals gebildet, bei Hot Deck hingegen wird immer auf das gleiche Merkmal (genauer gesagt auf den Startwert bzw. auf bereits vorhandene Datensatzwerte) zurückgegriffen. --S[1] 10:34, 29. Jul. 2010 (CEST)[Beantworten]
Danke, das ist schon mal recht erhellend. Wenn ich nun ein Hotdeck-Verfahren benutze, dann bilde ich doch die Klassen anhand einer anderen Variablen. Wo ist dann der große Unterschied zum Regressionsverfahren (mit einer unabhängigen und einer abhängigen Variablen)? und: wann ist ein Hotdeckverfahren einem Regressionsverfahren vorzuziehen, bzw. ein Regressionsverfahren garnicht möglich?--Zulu55 13:10, 29. Jul. 2010 (CEST)[Beantworten]
Der Unterschied besteht sicherlich darin, dass die Imputationswerte anders bestimmt werden (bei Regression durch eine Regressionsgleichung, bei Deck-Verfahren durch bloße Hinzuziehung anderer Ausprägungen), der Vorteil eines Hot Deck im Vergleich zur Regression ggf. darin, dass es einfacher ist, ansonsten ist die Regression bei Vorhandensein einer Korrelation natürlich weniger fehleranfällig. Allerdings können dabei andere Probleme auftreten, z.B. wenn unplausible Werte herauskommen. --S[1] 15:07, 29. Jul. 2010 (CEST)[Beantworten]