Cox-Regression

aus Wikipedia, der freien Enzyklopädie
Wechseln zu: Navigation, Suche

Die Cox-Regression ist ein Regressionsmodell aus der mathematischen Statistik. Es wird zur Modellierung von Überlebenszeiten in der Survival Analysis benutzt und basiert auf dem Konzept der Hazardrate. Benannt wurde die Cox-Regression nach dem britischen Statistiker David Cox.

Inhaltsverzeichnis

[Bearbeiten] Das Regressionsmodell

Das von Cox vorgeschlagene Regressionsmodell wird zur Untersuchung des Verhaltens der Hazardfunktion in Abhängigkeit von Umwelteinflüssen benutzt. Grundlage des Modells sind q-dimensionale Einflussvektoren z_i \; mit i = 1, \ldots, n\;, die für jedes Individuum i\; der Studie beobachtet werden können. Der Zusammenhang zwischen diesen Einflüssen und der Hazardfunktion wird dann über die Relation

h(t;z_i) = h_{0}(t) \exp(z_i' \beta)\;

hergestellt. h_{0}\; bezeichnet dabei eine unbekannte baseline-Hazardfunktion, die im Ausgangsfall ohne Einflüsse (also z_i = 0\;) die zugehörige Hazardfunktion darstellt. \beta\; ist ein unbekannter Parameter, ebenfalls q-dimensional. Aufgabe der Statistik ist die Schätzung dieses Parameters.

[Bearbeiten] Die Beobachtungen

Die Beobachtungen bestehen im Modell der Cox-Regression aus einem Tripel (t_i, z_i, \delta_i)\;, wobei z_i \; wie oben den Einflussvektor für das Individuum i\; bezeichnet.

t_i\; ist (wie im Falle der Untersuchung zensierter Daten üblich) als das Minimum von zwei Zufallsvariablen x_i\; und y_i\; definiert. Im Falle des tatsächlich beobachteten Todes eines Individuums gibt x_i\; den Todeszeitpunkt von i\; an. Falls dagegen nur die Studie beendet wurde, gibt y_i\; den Zeitpunkt der Beendigung an. Es ist offensichtlich, dass nur bei einer Beobachtung des Todes Rückschlüsse auf die Form der Hazardfunktion geschlossen werden können. Daher gibt \delta_i = I\{x_i \leq y_i\} an, ob der Tod oder das Ende der Studie beobachtet wurde. I bezeichnet hierbei die Indikatorfunktion.

[Bearbeiten] Die Schätzung von \beta\;

Aufgrund der Struktur von h(t;z_i)\; ergibt sich das Problem, dass in Intervallen ohne Todesfall keine Rückschlüsse auf \beta\; gezogen werden können. Es ist schließlich möglich, dass die unbekannte baseline-Hazardfunktion h_0(t)\; in diesem Intervall verschwindet und also a priori keine Todesfälle stattfinden können. Man greift daher auf einen Trick zurück und betrachtet bedingte Wahrscheinlichkeiten.

Wenn ausschließlich dann Informationen über \beta\; erhalten werden können, wenn ein Todesfall stattgefunden hat, bietet sich zum Zeitpunkt des Todes von Individuum i\; die Berechnung der folgenden Wahrscheinlichkeit an: Wie wahrscheinlich ist es, dass von allen noch lebenden Individuen nun ausgerechnet i\; stirbt? Formal lässt sie sich als

p_i(\beta) := \frac{\exp(z_i' \beta)}{\sum_{j \in R_i} \exp(z_j' \beta)}

berechnen. R_i\; bezeichnet dabei diejenigen Individuen, die zum Zeitpunkt des Todes von i\; noch leben.

Um eine Art Maximum-Likelihood-Schätzer für \beta\; zu finden, wird nun in Abhängigkeit von \gamma\; die Likelihood-Funktion

p(\gamma) := \prod_{i=1}^{n} p_i(\gamma)^{\delta_i}

maximiert. Dabei wird durch das Potenzieren der einzelnen bedingten Wahrscheinlichkeiten mit \delta_i\; der Tatsache Rechnung getragen, dass nur die Beobachtung eines Todesfalls und nicht die des Endes der Studie Informationen über \beta\; liefert.

[Bearbeiten] Literatur

  • David Cox: Regression models and life tables. Journal of the Royal Statistical Society B, 34 (1972), S. 187 - 220.
Meine Werkzeuge
Namensräume
Varianten
Aktionen
Navigation
Mitmachen
Drucken/exportieren
Werkzeuge
In anderen Sprachen