Generalisierte Lineare Modelle

aus Wikipedia, der freien Enzyklopädie
Wechseln zu: Navigation, Suche

Generalisierte Lineare Modelle (GLM, auch Verallgemeinerte lineare Modelle) sind eine 1972 von John Nelder und Robert Wedderburn eingeführte Verallgemeinerung des klassischen linearen Regressionsmodells in der Regressionsanalyse.[1] Während man in linearen Modellen annimmt, dass die Zielvariable normalverteilt ist, kann sie in GLMs eine Verteilung aus der Klasse der exponentiellen Familien besitzen. Diese Verteilungsklasse beinhaltet neben der Normalverteilung auch die Binomial-, Poisson-, Gamma- und inverse Gaußverteilung.

Modellkomponenten[Bearbeiten]

Die GLMs bestehen aus drei Komponenten:

  • Zufallskomponente: Wie bei den klassischen linearen Modellen ist man an einem Response \underline{Y}=(Y_1,\ldots,Y_n)^T und einem unabhängigen Kovariablenvektoren \underline{X}_k=(x_{1k},x_{2k},\ldots,x_{nk})^T, wobei k=1,\ldots,p, interessiert. Hierbei sind die Y_i unabhängig und besitzen eine Verteilung aus der exponentiellen Familie.
  • Systematische Komponente: Gegeben sind Kovariablenvektoren \underline{x}_1,\ldots,\underline{x}_p \in \mathbb{R}^{n \times 1}, welche die Verteilung von \underline{Y} nur durch eine lineare Funktion beeinflussen. Diese lineare Funktion heißt Linearer Prädiktor und ist in folgender Form gegeben:
\underline{\eta}:=\beta_0^T+\beta_1^T \underline{X}_1+\cdots+\beta_p^T\underline{X}_p=\underline{\beta}^T\underline{X}. Hier erkennt man, dass der lineare Prädiktor die Regressionsparameter \underline{\beta}=(\beta_0,\ldots, \beta_p)^T in das Modell miteinführt.
  • Parametrische Link-Komponente: Der Erwartungsvektor \underline{\mu}=(\mu_1,\ldots,\mu_n)^T ist eine differenzierbare, monotone und damit invertierbare Funktion des linearen Prädiktors \underline{\eta}. Dabei wird der Erwartungswert \underline{\mu} über eine Responsefunktion m mit dem linearen Prädiktor \underline{\eta} verknüpft:
\underline{\mu}=m(\underline{\eta}) , \quad \underline{\eta}=m^{-1}(\underline{\mu})=:g(\underline{\mu}), wobei g: \mathbb{R} \rightarrow \mathbb{R} als Linkfunktion bezeichnet wird.

Exponentielle Familie[Bearbeiten]

Die Verteilung einer Zielvariablen gehört zur exponentiellen Familie, wenn sich die Dichtefunktion bzw. Wahrscheinlichkeitsfunktion in folgender Form schreiben lässt:

f(y,\theta,\psi)=\exp\left(\frac{y\theta-b(\theta)}{a(\psi)}+c(y,\psi)\right)

Für alle Verteilungen der exponentiellen Familie gilt:

  1. E(Y) = \mu = b^\prime(\theta)
  2. Var(Y) = \sigma^2 = b^{\prime\prime}(\theta)a(\psi)

Beispiele für Verteilungen, die zur exponentiellen Familie gehören:

Verteilung
E(Y)=\mu
\theta \psi a(\psi) b(\theta) c(y,\psi) f(y)
Normalverteilung \mu \sigma \psi^2 \frac{\theta^2}{2} \frac{-y^2}{2\psi}-\log\left(\sqrt{2\pi\psi}\right) \frac{1}{\sqrt{2\pi\sigma^2}} \exp\left(-\frac{(y-\mu)^2}{2\sigma^2}\right)
Bernoulli-Verteilung \log\left(\frac{\mu}{1-\mu}\right) - 1 \log(1+e^\theta) 0 \mu^y(1-\mu)^{1-y}\,
mit y=0\text{ oder }1
Binomialverteilung \log\left(\frac{\mu}{n-\mu}\right) - 1 n\log(1+e^\theta) \log\binom{n}{y} \binom{n}{y}\left(\frac{\mu}{n}\right)^y\left(1-\frac{\mu}{n}\right)^{n-y}\,
mit y=0, 1, ..., n
Poisson-Verteilung \log(\mu) - 1 \exp(\theta) -\log(y!) \frac{\mu^y}{y!} \exp(-\mu)
mit y=0, 1, ...

Literatur[Bearbeiten]

  • John Nelder, Peter McCullagh: Generalized Linear Models, Chapman and Hall/CRC Press, 2. Auflage 1989

Einzelnachweise[Bearbeiten]

  1. John Nelder, Robert Wedderburn: Generalized Linear Models, Journal of the Royal Statistical Society, Series A (General), Band 135, 1972, S. 370–384