„Scheinkorrelation“ – Versionsunterschied

aus Wikipedia, der freien Enzyklopädie
Zur Navigation springen Zur Suche springen
[gesichtete Version][ungesichtete Version]
Inhalt gelöscht Inhalt hinzugefügt
Zeile 16: Zeile 16:


== Beispiel ==
== Beispiel ==
Ein bekanntes Beispiel ist die Korrelation zwischen der Zahl der Kindergeburten und der Zahl der Storchenpaare in verschiedenen europäischen Ländern.<ref>Matthews, R. (2000). Storks deliver babies (p= 0.008). ''Teaching Statistics'', 22(2), 36-38, {{DOI|10.1111/1467-9639.00013}}.</ref> Obwohl es eine Korrelation zwischen der Zahl der Geburten und der Zahl der Storchenpaare gibt, gibt es keinen kausalen Zusammenhang. Die Korrelation zwischen der Zahl der Geburten und Storchpaaren kann durch eine weitere Variable erklärt werden, nämlich die Größe der Länder, die mit beiden Zahlen korreliert.

Ein bekanntes Beispiel ist die Korrelation zwischen der Zahl der Kindergeburten und der Zahl der Storchenpaare in verschiedenen europäischen Ländern.<ref>Matthews, R. (2000). Storks deliver babies (p= 0.008). Teaching Statistics, 22(2), 36-38.</ref> Obwohl es eine Korrelation zwischen der Zahl der Geburten und der Zahl der Storchenpaare gibt, gibt es keinen kausalen Zusammenhang. Die Korrelation zwischen der Zahl der Geburten und Storchpaaren kann durch eine weitere Variable erklärt werden, nämlich die Größe der Länder, die mit beiden Zahlen korreliert.


== Scheinregression ==
== Scheinregression ==

Version vom 8. Oktober 2018, 10:15 Uhr

Die Anzahl der Störche und die menschliche Geburtenrate in einem Land: Beispiel für eine Scheinkorrelation

Scheinkorrelation oder (engl.) spurious relationship bezeichnet (missverständlicherweise) eine Korrelation zwischen zwei Größen, der kein Kausalzusammenhang zu Grunde liegt.

Dies ist z. B. der Fall, wenn konfundierende Variablen (Störvariablen) oder andere intervenierende Variablen einen Einfluss haben. Das Phänomen ist seit den Anfangstagen der Statistik bekannt; der Begriff spurious correlation wurde 1954 von Herbert A. Simon geprägt. Der deutsche Begriff ist irreführend, da nicht nur scheinbar, sondern tatsächlich eine Korrelation vorliegt (aber eben keine Kausalität, siehe Korrelation zur Abgrenzung der Konzepte). Ohnehin ist eine Korrelation ein rein statistischer Begriff (der weder Kausalität impliziert, noch von ihr impliziert wird). (Auch der englische Begriff ist irreführend, weil die Korrelation keineswegs unecht ist und erhebliche Größe haben kann.) Scheinkorrelation ist die statistische Entsprechung des in der Philosophie betrachteten Fehlschlusses Cum hoc ergo propter hoc (gemeinsames Auftreten impliziert keine Kausalität).

Beispiel

Ein bekanntes Beispiel ist die Korrelation zwischen der Zahl der Kindergeburten und der Zahl der Storchenpaare in verschiedenen europäischen Ländern.[1] Obwohl es eine Korrelation zwischen der Zahl der Geburten und der Zahl der Storchenpaare gibt, gibt es keinen kausalen Zusammenhang. Die Korrelation zwischen der Zahl der Geburten und Storchpaaren kann durch eine weitere Variable erklärt werden, nämlich die Größe der Länder, die mit beiden Zahlen korreliert.

Scheinregression

Die Scheinregression ist ein Spezialfall der Regression, bei der ein statistisch signifikanter Zusammenhang zwischen einer Variablen und einer Variablen festgestellt werden kann, der sachlogisch nicht zu begründen ist. Scheinregressionen sind auf einen gemeinsamen Trend in den beteiligten Variablen zurückzuführen. Ein Hinweis auf Scheinregression ist ein hohes Bestimmtheitsmaß und ein Durbin-Watson-Koeffizient von nahezu Null (hohe positive Autokorrelation erster Ordnung). Darüber hinaus liefert der Dickey-Fuller-Test, insofern dieser eine Zeitreihe als nichtstationär identifiziert, ein Indiz für eine Scheinregression.

Regressionsgerade zwischen zwei unabhängigen AR(1)-Prozessen mit Einheitswurzel inklusive -Statistik.

Ein Beispiel in den Anwendungen ist das spurious regression problem der Ökonometrie, auf welches Clive W. J. Granger und Paul Newbold 1974 hingewiesen haben, nach dem auch zwei unabhängige Random walks ohne deterministische Trendkomponente (oder andere Formen von stochastischen Prozessen mit Einheitswurzel) korrelieren, obwohl sogar stochastische Unabhängigkeit vorliegt.[2] Genauer formuliert führen solche durch Autokorrelation verursachte Verletzungen der Voraussetzungen eines Regressionsmodells dazu, dass zum Beispiel die Teststatistiken für die Hypothese, dass der Steigungsparameter der Regressionsgeraden gleich Null ist (t-Statistik), mit wachsendem Datenumfang divergieren, also wenn nur genügend Daten erhoben werden, immer ein Zusammenhang festgestellt wird.

Siehe auch

Literatur

Allgemeine Literatur

  • Günter Bamberg, Franz Baur, Michael Krapp: Statistik. Oldenbourg Wissenschaftsverlag, 2007, Ausgabe 13, ISBN 3-486-58188-0.
  • Udo Kelle: Die Integration qualitativer und quantitativer Methoden in der empirischen Sozialforschung: theoretische Grundlagen und methodologische Konzepte. VS Verlag, 2007, ISBN 3-531-15312-9, S. 203.

Originalarbeiten

  • Herbert A. Simon: Spurious correlation: a causal interpretation. In: Journal of the American Statistical Association. Vol. 49, 1954, S. 467–479.
  • Clive W. J. Granger & Paul Newbold: Spurious regressions in econometrics. In: Journal of Econometrics. Nr. 2, 1974, S. 111–120.

Einzelnachweise

  1. Matthews, R. (2000). Storks deliver babies (p= 0.008). Teaching Statistics, 22(2), 36-38, doi:10.1111/1467-9639.00013.
  2. Christopher Dougherty: Introduction to Econometrics. Oxford University Press, 3. Ausgabe, 2007, ISBN 0-19-928096-7, S. 388. Google-Books-Link.