Verallgemeinerte lineare Modelle

aus Wikipedia, der freien Enzyklopädie
(Weitergeleitet von Generalisierte Lineare Modelle)
Zur Navigation springen Zur Suche springen

Verallgemeinerte lineare Modelle (VLM), auch generalisierte lineare Modelle (GLM oder GLiM) sind in der Statistik eine von John Nelder und Robert Wedderburn (1972) eingeführte wichtige Klasse von nichtlinearen Modellen, die eine Verallgemeinerung des klassischen linearen Regressionsmodells in der Regressionsanalyse darstellt.[1] Während man in klassischen linearen Modellen annimmt, dass der Fehlerterm (die unbeobachtbare Zufallskomponente) normalverteilt ist, kann er in GLMs eine Verteilung aus der Klasse der Exponentialfamilie besitzen. Diese Verteilungsklasse beinhaltet neben der Normalverteilung auch die Binomial-, Poisson-, Gamma- und inverse Gaußverteilung. Damit bietet die Verwendung der Exponentialfamilie in verallgemeinerten linearen Modellen ein einheitliches Rahmenwerk für diese Verteilungen. Die große Klasse von vektorverallgemeinerten linearen Modellen (englisch vector generalized linear models, kurz VGLMs) beinhaltet die Klasse der verallgemeinerten linearen Modelle als Spezialfall.

Begriffsklärung[Bearbeiten | Quelltext bearbeiten]

Verallgemeinerte lineare Modelle sind nicht mit dem allgemeinen linearen Modell zu verwechseln, dessen natürliche englische Abkürzung ebenfalls GLM ist, aber im Gegensatz zu verallgemeinerten linearen Modellen von der Voraussetzung einer normalverteilten Antwortvariablen ausgeht. In vielen statistischen Pogrammpaketen werden – da die Abkürzung GLM schon für das allgemeine linearen Modell belegt ist – zur besseren Unterscheidung andere Abkürzungen wie VLM bzw. GLZ für englisch GeneraLiZed linear models (in STATISTICA) oder GzLM für englisch GeneraLiZed Linear Models (in SPSS) verwendet. Manche Autoren verwenden zu besseren Unterscheidung statt der Abkürzung GLM die Abkürzung GLiM.

Ebenso sind verallgemeinerte lineare Modelle nicht mit dem verallgemeinerten linearen Regressionsmodell der verallgemeinerten Kleinste-Quadrate-Schätzung (VKQ-Schätzung) zu verwechseln, bei der jedoch eine verallgemeinerte Struktur bzgl. der Störgrößen vorliegt.

Modellkomponenten[Bearbeiten | Quelltext bearbeiten]

Die verallgemeinerten linearen Modelle bestehen aus drei Komponenten:

  • Zufallskomponente: Wie bei den klassischen linearen Modellen ist man an einer Zielgröße und unabhängigen Kovariablenvektoren , wobei , interessiert. Hierbei sind die unabhängig und besitzen eine Verteilung aus der Exponentialfamilie.
  • Systematische Komponente: Gegeben sind Kovariablenvektoren , welche die Verteilung von nur durch eine lineare Funktion beeinflussen. Diese lineare Funktion heißt linearer Prädiktor und ist in der multiplen linearen Regression in folgender Form gegeben:
. Hier erkennt man, dass der lineare Prädiktor die Regressionsparameter in das Modell miteinführt.
  • Parametrische Verknüpfungskomponente: Der Erwartungswertvektor ist eine differenzierbare, monotone und damit invertierbare Funktion des linearen Prädiktors . Dabei wird der Erwartungswert über eine Antwortfunktion mit dem linearen Prädiktor verknüpft:
, wobei als Kopplungsfunktion oder Verknüpfungsfunktion (englisch link function) bezeichnet wird. Geeignete Antwortfunktionen sind alle Verteilungsfunktionen kontinuierlicher Zufallsvariablen, z. B. die der Standardnormalverteilung oder die der logistischen Verteilung.

Exponentialfamilie[Bearbeiten | Quelltext bearbeiten]

Die Verteilung einer Antwortvariablen gehört zur eindimensionalen Exponentialfamilie, wenn sich die Dichtefunktion bzw. Wahrscheinlichkeitsfunktion in folgender Form schreiben lässt:[2]

,

wobei:

  • der sogenannte kanonische (natürliche) Parameter ist
  • eine vorspezifizierte Funktion ist
  • ein vom Erwartungswert unabhängiger Skalenparameter (auch Streuungsparameter genannt) ist, der für die Varianz relevant ist
  • spezifizierte Gewichte sind
  • und eine Normalisierungskonstante darstellt.

Für die Funktion ist notwendig, dass normalisiert werden kann und die erste und zweite Ableitung existiert. Die zweite Ableitung bestimmt neben dem Skalenparameter die Varianz der Verteilung und wird daher als Varianzfunktion bezeichnet. Für alle Verteilungen der Exponentialfamilie gilt:[3]

Beispiele für Verteilungen, die zur Exponentialfamilie gehören:

Verteilung
Kanonischer Parameter
Skalenparameter
vorspezifizierte Funktion
vorspezifizierte Funktion
Normalisierungskonstante
Wahrscheinlichkeitsfunktion
Normalverteilung
Bernoulli-Verteilung
mit
Binomialverteilung
mit
Poisson-Verteilung
mit

Siehe auch[Bearbeiten | Quelltext bearbeiten]

Literatur[Bearbeiten | Quelltext bearbeiten]

  • John Nelder, Peter McCullagh: Generalized Linear Models, Chapman and Hall/CRC Press, 2. Auflage 1989

Einzelnachweise[Bearbeiten | Quelltext bearbeiten]

  1. John Nelder, Robert Wedderburn: Generalized Linear Models. In: Journal of the Royal Statistical Society, Series A (General). 135, 1972, S. 370–384. doi:10.2307/2344614.
  2. Ludwig Fahrmeir, Thomas Kneib, Stefan Lang, Brian Marx: Regression: models, methods and applications. Springer Science & Business Media, 2013, ISBN 978-3-642-34332-2, S. 301.
  3. Ludwig Fahrmeir, Thomas Kneib, Stefan Lang, Brian Marx: Regression: models, methods and applications. Springer Science & Business Media, 2013, ISBN 978-3-642-34332-2, S. 302.