Cox-Regression

aus Wikipedia, der freien Enzyklopädie
Wechseln zu: Navigation, Suche

Die Cox-Regression ist eine nach David Cox benannte Regressionsanalyse zur Modellierung von Überlebenszeiten. Sie basiert auf dem Konzept der Ausfallrate.

Modell[Bearbeiten]

Das von Cox vorgeschlagene Regressionsmodell wird zur Untersuchung des Verhaltens der Ausfallraten in Abhängigkeit von Umwelteinflüssen benutzt. Grundlage des Modells sind Einflussvektoren z_i \; mit i = 1, \ldots, n\;, die für jedes Individuum i\; der Studie beobachtet werden können. Der Zusammenhang zwischen diesen Einflüssen und der Ausfallfunktion wird dann über die Relation

h(t;z_i) = h_{0}(t) \exp(z_i' \beta)\;

hergestellt. h_{0}\; bezeichnet dabei eine unbekannte Ausfallfunktion, die im Ausgangsfall ohne Einflüsse (also z_i = 0\;) die zugehörige Ausfallfunktion darstellt. \beta\; ist ein unbekannter Parameter, ebenfalls q-dimensional. Aufgabe der Statistik ist die Schätzung dieses Parameters.

Die Beobachtungen[Bearbeiten]

Die Beobachtungen bestehen im Modell der Cox-Regression aus einem Tripel (t_i, z_i, \delta_i)\;, wobei z_i \; wie oben den Einflussvektor für das Individuum i\; bezeichnet.

t_i\; ist (wie im Falle der Untersuchung zensierter Daten üblich) als das Minimum von zwei Zufallsvariablen x_i\; und y_i\; definiert. Im Falle des tatsächlich beobachteten Todes eines Individuums gibt x_i\; den Todeszeitpunkt von i\; an. Falls dagegen nur die Studie beendet wurde, gibt y_i\; den Zeitpunkt der Beendigung an. Es ist offensichtlich, dass nur bei einer Beobachtung des Todes Rückschlüsse auf die Form der Hazardfunktion geschlossen werden können. Daher gibt \delta_i = I\{x_i \leq y_i\} an, ob der Tod oder das Ende der Studie beobachtet wurde. I bezeichnet hierbei die Indikatorfunktion.

Die Schätzung von \beta\;[Bearbeiten]

Aufgrund der Struktur von h(t;z_i)\; ergibt sich das Problem, dass in Intervallen ohne Todesfall keine Rückschlüsse auf \beta\; gezogen werden können. Es ist schließlich möglich, dass die unbekannte baseline-Hazardfunktion h_0(t)\; in diesem Intervall verschwindet und also a priori keine Todesfälle stattfinden können. Man greift daher auf einen Trick zurück und betrachtet bedingte Wahrscheinlichkeiten.

Wenn ausschließlich dann Informationen über \beta\; erhalten werden können, wenn ein Todesfall stattgefunden hat, bietet sich zum Zeitpunkt des Todes von Individuum i\; die Berechnung der folgenden Wahrscheinlichkeit an: Wie wahrscheinlich ist es, dass von allen noch lebenden Individuen nun ausgerechnet i\; stirbt? Formal lässt sie sich als

p_i(\beta) := \frac{\exp(z_i' \beta)}{\sum_{j \in R_i} \exp(z_j' \beta)}

berechnen. R_i\; bezeichnet dabei diejenigen Individuen, die zum Zeitpunkt des Todes von i\; noch leben.

Um eine Art Maximum-Likelihood-Schätzer für \beta\; zu finden, wird nun in Abhängigkeit von \gamma\; die Likelihood-Funktion

p(\gamma) := \prod_{i=1}^{n} p_i(\gamma)^{\delta_i}

maximiert. Dabei wird durch das Potenzieren der einzelnen bedingten Wahrscheinlichkeiten mit \delta_i\; der Tatsache Rechnung getragen, dass nur die Beobachtung eines Todesfalls und nicht die des Endes der Studie Informationen über \beta\; liefert.

Literatur[Bearbeiten]

  • David Cox: Regression models and life tables. Journal of the Royal Statistical Society B, 34 (1972), S. 187 - 220.