Zensierte Daten

aus Wikipedia, der freien Enzyklopädie
Wechseln zu: Navigation, Suche

Zensierten Daten (auch trunkierte (gestutzte) Daten, Eckdaten (engl: Censored, Truncated Data))[1] sind Daten, bei denen nicht alle Werte einer statistischen Variablen bekannt sind.

Geschichte[Bearbeiten]

Daniel Bernoulli befasste sich bereits im Jahre 1766 mit dem Problem der zensierten Daten, als er versuchte, die Wirksamkeit der Pockenimpfung durch Kuhpocken nachzuweisen.[2]

Arten zensierter Daten[Bearbeiten]

Rechtszensierte Daten[Bearbeiten]

Ist das Ereignis bis zum Ende des Experiments nicht beobachtet worden, nennt man die Daten rechts zensiert.

Man kann drei Haupttypen der rechts zensierten Daten definieren:

Typ I: In Experimenten mit festem Start- und Endpunkt werden alle Beobachtungen am Ende des Experiments zensiert, falls bei diesem Versuchsobjekt das Ereignis noch nicht eingetreten ist. Das heißt beim Typ I sind alle zensierten Beobachtungen gleich der Länge des Experiments.

Typ II: In Experimenten, in welchen der Endpunkt durch das Erreichen einer bestimmten Anzahl von Ereignissen festgelegt ist, spricht man vom Typ II.

Typ III: Sind die Start- und Endpunkte der Versuchsobjekte im Experiment nicht festgelegt, befinden sich aber innerhalb des durch das Experiment beschriebenen Zeitraums, so spricht man vom Typ III. Beobachtungen werden zensiert, wenn man den Endpunkt nicht kennt oder das Ereignis zum letzten bekannten Zeitpunkt noch nicht eingetreten ist.

Links zensierte und intervall-zensierte Daten[Bearbeiten]

  • Ist das Ereignis an einem unbekannten Zeitpunkt in der Vergangenheit bereits eingetreten, spricht man von links zensierten Daten.
  • Tritt das Ereignis unbeobachtet zwischen zwei Zeitpunkten a und b so spricht man von intervall-zensierten Daten.

Beispiele und Anwendungen[Bearbeiten]

Einfaches Beispiel in einem Fragebogen ist die Frage nach dem Alter. Wird unter oder über einem bestimmten Alter nicht das genaue Alter sondern lediglich „jünger als… Jahre“ oder „älter als … Jahre“ abgefragt, spricht man von zensierten Daten.

Zensierte Daten werden beispielsweise verwendet, wenn der Zeitpunkt des Eintretens eines bestimmten Ereignisses beobachtet werden soll (engl.: time-to-event), da das betreffende Ereignis beispielsweise vor Beginn der Beobachtung schon eingetreten sein kann oder bis zum Ende des Experiments noch nicht eingetreten ist.

Umgang mit zensierten Daten[Bearbeiten]

Um Schlüsse aus einer Stichprobe mit zensierten Daten ziehen zu können, gibt es grundsätzlich zwei Möglichkeiten:

  • Fehlende Werte: die Datensätze werden weggelassen und als fehlende Werte behandelt
  • Schätzung: die Daten zum Ereignis, das nicht beobachtet wurde, werden geschätzt, üblicherweise durch eine Regression auf die beobachteten Werte.
  • Ein Spezielles Verfahren für zensierte Daten ist das Tobit-Modell.

Siehe auch[Bearbeiten]

Literatur[Bearbeiten]

  • Elisa T. Lee, John Wenyu Wang: Statistical Methods for Survival Data Analysis. 3. Auflage, John Wiley & Sons, 2003, ISBN 0-471-36997-7.

Einzelnachweise[Bearbeiten]

  1. Artikel "Zensierte, trunkierte (gestutzte) Daten, Eckdaten (engl: Censored, Truncated Data)" in: ILMES – Internet-Lexikon der Methoden der empirischen Sozialforschung
  2. L. Bradley: Smallpox Inoculation: An Eighteenth Century Mathematical Controversy. Nottingham 1971.