Sollten wir gestaffelten Differenz-in-Differenzen-Schätzungen vertrauen? – Gesundheitsökonom

Das ist die Frage, die in einem Artikel von Baker, Larcker und Wang (2022) gestellt wird. Im Folgenden fasse ich ihre wichtigsten Argumente zusammen.

Die Gültigkeit von …[the DiD]…Ansatz beruht auf der zentralen Annahme, dass der beobachtete Trend in den Ergebnissen der Kontrolleinheiten den Trend in den Ergebnissen der Behandlungseinheiten nachahmt, wenn sie keine Behandlung erhalten hätten. Wie die Autoren schreiben:

Erstens sind DiD-Schätzungen in Umgebungen mit einer einzigen Behandlungsperiode unverzerrt, selbst wenn es dynamische Behandlungseffekte gibt. Zweitens sind DiD-Schätzungen auch in Umgebungen mit gestaffeltem Zeitpunkt der Behandlungszuweisung und homogenem Behandlungseffekt über Unternehmen und über die Zeit hinweg unverzerrt. Schließlich sind gestaffelte DiD-Schätzungen wahrscheinlich verzerrt, wenn Forschungsumgebungen gestaffelte zeitliche Abfolge von Behandlungseffekten und Behandlungseffekt-Heterogenität kombinieren.

Häufig wird DiD unter Verwendung eines Regressionsmodells der gewöhnlichen kleinsten Quadrate (OLS) wie folgt implementiert:

Wenn es mehr als zwei Gruppen und mehr als zwei Zeiträume gibt, verlassen sich regressionsbasierte DiD-Modelle typischerweise auf den Zwei-Wege-Festeffekt (TWFE) der Form:

Wobei die ersten beiden Koeffizienten feste Einheits- und Zeitdauereffekte sind. Beachten Sie, dass frühere Untersuchungen von Goodman-Bacon (2021) zeigen, dass statische Formen der TWFE-DiD tatsächlich ein „gewichteter Durchschnitt aller möglichen Zwei-Gruppen-/Zwei-Perioden-DiD-Schätzer in den Daten“ sind.

Wenn sich Behandlungseffekte im Laufe der Zeit ändern können („dynamische Behandlungseffekte“), können gestaffelte Schätzungen des DiD-Behandlungseffekts tatsächlich das entgegengesetzte Vorzeichen des wahren ATT erhalten, selbst wenn der Forscher in der Lage wäre, die Behandlungszuweisung zu randomisieren (daher gilt die Annahme paralleler Trends). ).

Der Grund dafür ist, dass Goodman-Bacon (2021) zeigt, dass die statische TWFE DiD tatsächlich aus 3 Komponenten besteht:

Lesen Sie auch  Bombay HC willigt ein, den Kampf von ED, PNB um die beschlagnahmten Besitztümer von Nirav Modi zu hören

  • Varianzgewichteter durchschnittlicher Behandlungseffekt auf die Behandelten (VWATT)
  • Varianzgewichteter Durchschnitt kontrafaktischer Trends (VWCT)
  • Gewichtete Summe der Änderung der durchschnittlichen Behandlung der Behandelten innerhalb der Nachperiode einer Behandlungszeitpunktgruppe und um das Behandlungsfenster einer später behandelten Einheit herum (ΔATT)

Der erste Term ist der interessierende Term. Wenn die parallelen Trends auftreten, dann ist VWCT = 0. Der letzte Begriff entsteht, weil unter statischem TWFE DiD bereits behandelte Gruppen ebenso effektiv als Vergleichsgruppen für später behandelte Gruppen verwendet werden. Wenn DiD jedoch in einem Zwei-Perioden-Modell geschätzt wird, verschwindet dieser Term und es gibt keine Verzerrung. Wenn die Behandlungseffekte alternativ statisch sind (dh sich nach der Intervention nicht im Laufe der Zeit ändern), dann ist ΔATT = 0 und TWFE DiD ist gültig.

Die Herausforderungen treten jedoch auf, wenn Behandlungseffekte dynamisch sind. In diesem Fall ist ΔATT ≠ 0 und die TWFE DiD ist vorgespannt.

Was kann man also tun? Die Autoren bieten 3 Lösungen an:

  • Callaway und Santa’Anna (2021). Hier erlauben die Autoren, den Behandlungseffekt für eine bestimmte Gruppe (Behandlung zum Zeitpunkt g) abzuschätzen, indem sie Beobachtungen zum Zeitpunkt τ und g-1 aus einem sauberen Satz von Kontrollen verwenden. Dies sind grundsätzlich noch nicht behandelte, zuletzt behandelte oder nie behandelte Gruppen.
  • Sonne und Abraham (2021). Es wird eine ähnliche Methodik wie bei CS verwendet, aber immer behandelte Einheiten werden fallen gelassen, und die einzigen Einheiten, die als wirksame Kontrollen verwendet werden können, sind diejenigen, die nie behandelt oder zuletzt behandelt wurden. Außerdem ist dieser Ansatz vollständig parametrisch.
  • Gestapelte Regressionsschätzer. Cengiz (2019) setzt diesen Ansatz um. Das Ziel besteht darin, „ereignisspezifische „saubere 2 × 2“-Datensätze zu erstellen, einschließlich der Ergebnisvariablen und Kontrollen für die behandelte Kohorte und alle anderen Beobachtungen, die „saubere“ Kontrollen innerhalb des Behandlungsfensters sind (z -, oder nie behandelte Einheiten). Für jeden sauberen 2 × 2-Datensatz generiert der Forscher eine datensatzspezifische Identifizierungsvariable. Diese ereignisspezifischen Datensätze werden dann zusammengestapelt, und eine TWFE-DiD-Regression wird auf dem gestapelten Datensatz geschätzt, mit datensatzspezifischen einheiten- und zeitfesten Effekten … Im Wesentlichen schätzt die gestapelte Regression die DiD von jedem der sauberen 2 × 2 Datensätze und wendet dann eine Varianzgewichtung an, um die Behandlungseffekte über Kohorten hinweg effizient zu kombinieren.“

Obwohl in diesem Beitrag viel Mathematik enthalten war, empfehlen die Autoren, wenn Forscher diese alternativen DiD-Schätzer anwenden, klugerweise, dass „Forscher ihre Wahl von ‚sauberen‘ Vergleichsgruppen begründen sollten – noch nicht behandelt, zuletzt behandelt oder nie behandelt – und artikulieren Sie, warum die Annahme paralleler Trends wahrscheinlich zutrifft“.

Lesen Sie auch  Auf zu den US-Halbjahresberichten (Erwartungen um 7,2 % gesunken): Das sollten Sie im Auge behalten

Sie können den vollständigen Artikel lesen Hier.

Leave a Reply

Your email address will not be published. Required fields are marked *

This site uses Akismet to reduce spam. Learn how your comment data is processed.