Regressions-Diskontinuitäts-Analyse

aus Wikipedia, der freien Enzyklopädie
Wechseln zu: Navigation, Suche

Die Regressions-Diskontinuitäts-Analyse (engl. regression discontinuity design) ist ein Verfahren der schließenden Statistik und der Ökonometrie, das dazu angewandt wird, um kausale Effekte der Veränderung einer Variablen auf die Veränderung anderer Variablen zu identifizieren. Die grundlegende Idee ist dabei, eine Diskontinuität oder Unstetigkeit in einer beobachteten Kontrollvariable zu nutzen, die zu einer fast zufälligen Zuteilung in die Behandlungs- oder Kontrollgruppe führt. Die Regressions-Diskontinuitäts-Analyse gehört, wie der Instrumentenvariablen-Ansatz und Difference-in-Differences zu den Verfahren, die sogenannte „natürliche“ oder „Quasi-Experimente“ ausnutzen.

Idee[Bearbeiten]

In vielen Situationen, in denen kausale Effekte untersucht und quantifiziert werden sollen, besteht eine Korrelation zwischen der erklärenden Variable und dem Fehlerterm, was zu Endogenität und damit zu Inkonsistenz der Methode der kleinsten Quadrate führt: Selbst für große Stichproben wird der Kleinste-Quadrate-Schätzer nicht unverzerrt sein. Die Regressions-Diskontinuitäts-Analyse kann dazu verwendet werden, dieses Problem zu überwinden.

Die Grundidee der Regressions-Diskontinuitätsanalyse ist, eine Unstetigkeit in einer beobachtbaren Kontrollvariable zu finden, die einen Einfluss darauf hat, ob ein Individuum die Behandlung erhält oder nicht. Dies kann am besten anhand eines Beispiels illustriert werden. In einer 1999 veröffentlichten Studie untersuchten die Ökonomen Joshua Angrist und Viktor Lavy den Effekt von Klassengrößen auf die Leistungen von Schülern. Dabei nutzten sie die „Regel von Maimonides“, die noch heute in Israel benutzt wird, um die Klassengröße an öffentlichen Schulen zu regulieren. Gemäß dieser Regel darf eine Klasse maximal 40 Schüler haben. Hat sie mehr, so muss eine zweite Klasse gebildet werden. Hier entsteht eine starke Diskontinuität zwischen der Anzahl der Schüler eines Jahrgangs an einer Schule und der Klassengröße: Hat die Schule 39 Schüler, so gibt es eine Klasse von 39 Schülern; hat die Schule 40 Schüler, so gibt es zwei Klassen mit je 20 Schülern. Ob eine Schule nun 39 oder 40 Schüler hat, liegt nicht komplett unter der Kontrolle der beteiligten Individuen, sondern ist zumindest teilweise dem Zufall geschuldet. Aus diesem Grund kann es als eine exogene Variation angesehen werden, die eine konsistente Schätzung des Effekts der Klassengröße auf die Leistung der Schüler erlaubt.

Unterschieden werden muss bei der RD-Analyse zwischen der klassischen „scharfen“ RD-Analyse (sharp Regression discontinuity design) und der „unscharfen“ (fuzzy) RD-Analyse. Bei der scharfen RD-Analyse ist die „Behandlung“ eine deterministische Funktion der zugrundeliegenden Kontrollvariable, d.h. die Kontrollvariable [1] bestimmt die Behandlung perfekt (wie im obigen Beispiel). Bei der unscharfen RD-Analyse bestimmt die Kontrollvariable die Behandlung nicht perfekt, beeinflusst aber ihre Wahrscheinlichkeit oder ihren Erwartungswert[2].

Mathematischer Hintergrund[Bearbeiten]

Scharfe RD-Analyse[Bearbeiten]

Das zugrundeliegende Modell sei

 Y=\beta_0 +\beta_D D +\beta_X X +U

wobei D eine Indikatorvariable ist, die angibt, ob eine Person „behandelt“ wurde oder nicht. Im obigen Beispiel wäre D also „ist in einer kleinen Klasse“, X wäre „Anzahl Schüler an der Schule“. X=c sei die Stelle, an der die Diskontinuität liege, also im obigen Beispiel 40. Dann sind

 E(Y|X=c)= \beta_0 +\beta_D  +\beta_X c +E(U|X=c)

Unter der Annahme dass  E(U|X) stetig ist, gilt ferner für den linksseitigen Grenzwert:

 \lim_{x \to c^{-}} E(Y|X=c)= \beta_0  +\beta_X c +E(U|X=c)

(wobei \lim_{x \to c^{-}} den Grenzwert links der Diskontinuität darstellen soll) Dann ist

 E(Y|X=c)- \lim_{x \to c^{-}} E(Y|X=c)= \beta_D, der Effekt der Behandlung kann also als Differenz der beiden Erwartungswerte ausgedrückt werden.

Geschätzt werden können diese Erwartungswerte zum Beispiel, indem die Daten umskaliert werden, sodass c der Nullpunkt ist und anschließend links und rechts davon zwei Kleinste-Quadrat-Schätzungen durchgeführt werden. Die Differenz der Erwartungswerte kann dann als Differenz der beiden Konstanten der Kleinste-Quadrat-Schätzungen berechnet werden. Alternativ ist auch eine Schätzung durch eine einzige Kleinste-Quadrat-Schätzung mit entsprechenden Interaktionstermen möglich.

Falls der Effekt der Behandlung für verschiedene Individuen unterschiedlich ist, kann gezeigt werden, dass die scharfe RD-Analyse den durchschnittlichen Behandlungseffekt (average treatment effect),  E(\beta_{Di}) angibt.

Unscharfe RD-Analyse[Bearbeiten]

Das zugrundeliegende Modell sei wieder

 Y=\beta_0 +\beta_D D +\beta_X X +U

Allerdings ist nun

 D=\gamma_Z Z +\gamma_X X + V

Wobei Z keinen direkten Effekt auf Y hat. Dann kann berechnet werden

E(Y|X=c)- \lim_{x \to c^{-}}E(Y|X=c)= \beta_D (E(D|X=c)- \lim_{x \to c^{-}}E(D|X=c))

und folglich

 \beta_D = \frac{E(Y|X=c)-\lim_{x \to c^{-}}E(Y|X=c)}{E(D|X=c)- \lim_{x \to c^{-}}E(D|X=c)}.

Geschätzt werden kann die unscharfe RD-Analyse wie eine Instrumentvariablen-Schätzung, mit Z als Instrument für D. Dabei wird zuerst D auf Z regressiert. Die dadurch gewonnenen geschätzten Werte  \hat{D} werden dann in einer zweiten Regression als erklärende Variablen für Y benutzt (siehe auch Mathematischer Hintergrund zu Instrumentvariablen).

Vorteile[Bearbeiten]

Die Anwendung der Regressions-Diskontinuitäts-Analyse hat zahlreiche Vorteile. Wenn die beobachtenden Individuen keinen Einfluss auf die Zuteilungsvariable (X im obigen Beispiel) haben, ist die Zuteilung in Behandlungs- und Kontrollgruppe zufällig und erlaubt eine Vorgehen analog zu einem tatsächlichen auf Zufallsauswahl basierenden Experiment, ohne ein solches durchgeführt zu haben. Tatsächlich genügt hierfür sogar schon, wenn die Individuen keine perfekte Kontrolle über die Zuteilungsvariable haben. Selbst wenn die „Probanden“ X bis zu einem gewissen Grad bestimmen können, ist die schlussendliche Verteilung um die Diskontinuitätsstelle zufällig. Dies ist ein besonderer Vorteil von RDD gegenüber anderen quasi-experimentellen Forschungsansätzen, wo die quasi-zufällige Zuteilung oft angenommen und mit Hilfe von verbalen Argumenten verteidigt werden muss.[3]

RDD ist darüber hinaus wichtiger Bestandteil einer ganzen quasi-experimentellen Forschungsagenda, die auch als „Glaubwürdigkeitsrevolution“ (credibility revolution) in der Angewandten Ökonomie bekannt ist. Vertreter dieser Agenda betonen, dass die vermehrte Anwendung von experimentellen und quasi-experimentellen Forschungsansätzen zu glaubwürdigeren Forschungsergebnissen geführt hat.[4]

Nachteile[Bearbeiten]

Ein potentielles Problem bei der Anwendung von RDD-Schätzern ist die Gefahr einer Misspezifikation der zugrunde liegenden funktionalen Form. Folgt das „wahre“, zugrundeliegende Modell beispielsweise keinem linearen Zusammenhang, so wäre eine wie oben beschriebene Schätzung im Allgemeinen verzerrt und nicht erwartungstreu. Mögliche Abhilfen hierfür sind das Einfügen höherer Polynome (zum Beispiel :X^2, X^3, X^4,...) oder das Zurückgreifen auf nichtparametrische Schätzungen.[5]

Als Teil der „quasi-experimentellen“ Forschungsmethode ist RDD darüber hinaus auch der Kritik an dieser ausgesetzt. Christopher Sims sieht RDD und verwandte Forschungsansätze als „nützlich, aber [...] keine Allheimittel“ an[6], während Angus Deaton befürchtet, die Aufmerksamkeit der Forscher könnte sich dahingehend verlagern, dass die Durchführbarkeit einer Studie gegenüber ihrer Relevanz wichtiger wird.[7]

Geschichte[Bearbeiten]

Die Regressions-Diskontinuitäts-Analyse wurde erstmals 1960 von den Psychologen Donald L. Thistlewaite und Donald T. Campbell benutzt. In der Ökonomie und Ökonometrie fand sie jedoch erst deutlich später, Ende der 90er und Anfang der 2000er Jahre breitere Anwendung. Erste wichtige Studien waren dabei unter anderem der bereits genannte Artikel von Angrist und Lavy sowie ein Artikel von Wilbert van der Klaauw aus dem Jahr 2002. Seither ist die RD-Analyse zu einem weit verbreiteten Instrument in der empirischen Ökonomie geworden. [8]

Literatur[Bearbeiten]

  • Angrist, Joshua D./Pischke, Jörn-Steffen: Mostly Harmless Econometrics: An Empiricist's Companion, Princeton University Press, 2008
  • Angrist, Joshua D./Lavy, Victor: Using Maimonides' Rule To Estimate The Effect Of Class Size On Scholastic Achievement, Quarterly Journal of Economics 114.2, Mai 1999, S.533-575
  • Lee, David S. / Lemieux, Thomas: Regression Discontinuity Designs in Economics, Journal of Economic Literature 48, Juni 2010, S. 281-355
  • Donald L. Thistlewaite, Donald T. Campbell: Regression-Discontinuity Analysis: An alternative to the ex post facto experiment, 1960, Journal of Educational Psychology 51: 309-317
  • van der Klaauw, Wilbert: Estimating the Effect of Financial Aid Offers on College Enrollment: A Regression-Discontinuity Approach, International Economic Review, 43.4, November 2010, S.1249-1287

Anmerkungen[Bearbeiten]

  1. Angrist & Pischke, Mostly Harmless Econometrics, 2008, S.137
  2. Angrist & Pischke, Mostly Harmless Econometrics, 2008, S. 142
  3. Lee & Lemieux, Regression Discontinuity Designs in Economics, 2010, S. 283, S. 295
  4. Siehe z.B Joshua D. Angrist und Jörn-Steffen Pischke: The Credibility Revolution in Empirical Economics: How Better Research Design is Taking the Con out of Econometrics, Journal of Economic Perspectives, 24.2, Sommer 2010, S. 3-30. In ähnlicher Weise Imbens, Guido W.: Better LATE than nothing: Some Comments on Deaton (2009) and Heckman and Urzua (2009), NBER Working Paper 14896, April 2009
  5. Lee & Lemieux, Regression Discontinuity Designs in Economics, 2010, S. 316
  6. Sims, Christopher: But Economics Is Not an Experimental Science, Journal of Economic Perspectives, 24.2, Sommer 2010, S. 59
  7. Deaton, Angus: Instruments of Development: Randomization in the Tropics, and the Search for the Elusive Keys to Economic Development, NBER Working Paper 14690, Januar 2009, S. 9f.
  8. Lee & Lemieux, Regression Discontinuity Designs in Economics, 2010, S.281f.