Was die "StopptCOVID"-Studie des RKI aussagt – und was nicht

Effektivität von Maßnahmen nicht nachgewiesen. Aussagekräftiges Studiendesign politisch kaum durchsetzbar. Zur Bewertung der Corona-Politik und der Rolle des RKI dabei.

Waren die vielfältigen Maßnahmen zur Eindämmung des Corona-Virus wirksam? Dabei handelt es sich um eine zentrale Frage, die nach wie vor kontrovers diskutiert wird. Dies ist verständlich, da diese Maßnahmen auch mit erheblichen gesellschaftlichen, gesundheitlichen und wirtschaftlichen Risiken verbunden waren.

Schließlich blieb die Einschränkung des öffentlichen Lebens in Deutschland nicht ohne Konsequenzen: Während Schulschließungen zu sozialen und psychischen Problemen der Kinder führten, breiteten sich durch die Einstellung der geschäftlichen Aktivitäten in verschiedenen Wirtschaftsbereichen erhebliche Existenzängste aus.

Die Autoren:

Dr. Werner Baumgarten, Dipl.-Phys.; Fachliche Schwerpunkte: Biophysik, Nichtlinearität und Strukturbildung.

Dr. Oliver Beige, Ph.D. (UC Berkeley); Fachliche Schwerpunkte: Dynamische Ausbreitungsprozesse in Netzwerken, Ökonometrie, Kausalinferenz.

Daniel Haake, M.Sc. in Data Science, Senior Data Scientist; Fachliche Schwerpunkte: Prognosemodelle, Datenanalyse, Datenqualität.

Dr. Johannes Merkl, M.Sc. Betriebswirtschaft, Fachliche Schwerpunkte: Ökonometrie, Risikoquantifizierung, Inferenzstatistik, Zeitreihen.

Dr. Thomas Wieland, Dipl.-Geogr.; Fachliche Schwerpunkte: Wirtschaftsgeographie, medizinische Geographie, Ökonometrie (insb. räumliche Modelle), GIS.

Der Umgang mit den Maßnahmen zur Bekämpfung der Pandemie erforderte somit eine sorgfältige Abwägung zwischen dem Nutzen und den damit verbundenen Risiken. In diesem Zusammenhang ist auch die bedeutende Frage aufzuwerfen, wie mit ähnlich schweren Pandemien künftig umgegangen werden sollte. Eine entsprechende Aufarbeitung der Wirksamkeit dieser Maßnahmen ist somit unerlässlich.

Der Sachverständigenausschuss zur Pandemiepolitik nahm 2022 in seinem Evaluationsbericht eine erste Einschätzung zu dieser Fragestellung vor. Dort wird unter anderem festgehalten, dass es zur Wirksamkeit von Infektionspräventionsmaßnahmen "aufgrund fehlender Kausalanalysen in vielen Bereichen nicht die Möglichkeit [gibt], klare Aussagen zu treffen."

Am 20.07.2023 veröffentlichte das Robert-Koch-Institut einen Projektabschlussbericht zum StopptCOVID-Projekt, in dem anhand des bekannten "R-Wertes" (Beschleunigungsrate des Infektionsgeschehens) untersucht werden soll, inwieweit verschiedene nicht-pharmazeutische Interventionen – wie die oben genannten Schul- und Betriebsschließungen – sowie die Corona-Impfung wirksam waren. Bei einem ersten Blick auf die Diskussion in dieser Studie stellen sich die verschiedenen Maßnahmen zunächst als sehr vielversprechend dar.

Sowohl die Impfung als auch die nicht-pharmazeutischen Interventionen konnten, gemäß der Studie, den R-Wert mindern und damit nach Aussage des RKI auch eine Überlastung des Gesundheitssystems verhindern.

Allerdings wirft eine tiefergehende Analyse dieser Studie einige schwerwiegende Ungereimtheiten auf: Die Änderung des R-Wertes tritt bereits vor der Implementierung einer Maßnahme auf, was durch das RKI mit einer vorzeitigen Verhaltensanpassung der Bevölkerung an die jeweilige Verordnung begründet wird. Die eigentlich interessierende Wirkung der Maßnahmen auf die spätere Veränderung der Infektionszahlen kann hingegen nicht belegt werden.

Auch gibt es erklärungsbedürftige Teilergebnisse: So führt etwa der Einsatz von Masken im öffentlichen Nahverkehr und in Verkaufsräumen in mehreren Altersgruppen zu einer Erhöhung des R-Wertes und damit zu einem weiteren paradoxen Ergebnis, das auch seitens des RKI als solches anerkannt wird.

Was ist hier geschehen? Eine eingehende Untersuchung des vom RKI verwendeten Studiendesigns macht deutlich, dass es die Frage nach der Wirksamkeit der Maßnahmen überhaupt nicht beantworten konnte. Es liefert die falsche Antwort auf die richtige Frage!

Zunächst ist diese Studie – bereits von ihrem Konzept her – nur in der Lage zu beurteilen, ob das Infektionsgeschehen nach der Einführung einer Maßnahme geringer war. Jedoch kann sie keinesfalls die Frage beantworten, ob die Maßnahme auch verantwortlich für diese Verringerung war, da die Ergebnisse empirisch nicht mit einem möglichen Rückgang des Infektionsgeschehens ohne Interventionen verglichen werden.

Es lässt sich also aus dem Studiendesign selbst heraus gar nicht beantworten, ob die Maßnahmen für den Rückgang verantwortlich waren.

Doch selbst die Untersuchung von reinen Zusammenhängen, die nicht unbedingt kausal sein müssen, erfordert in einer komplexen Welt der Virusausbreitung umfangreiche Modellannahmen. Dies ist vor allem deshalb erforderlich, weil ein Modell nicht alle Variablen des Infektionsgeschehens erfassen kann und die Effekte der Maßnahmen von nicht modellierten Einflüssen strikt zu trennen sind.

Auch diese Bedingung kann das verwendete Studiendesign nicht erfüllen. Im Gegenteil: Es zeigt sich sogar, dass das Modelldesign bereits die Wirkung von Maßnahmen voraussetzt, anstatt sie ergebnisoffen zu überprüfen. Daraus schlussfolgern wir, dass die RKI-Studie dem eigenen wissenschaftlichen Anspruch, Aussagen zur Wirkung von Corona-Maßnahmen zu treffen, in mehrerlei Hinsicht nicht genügt.

Die RKI-Studie haben wir im Hinblick auf ihren statistischen Modellierungsansatz und ihre damit verbundene inhaltliche Aussagekraft geprüft und einen ausführlichen Kommentar hierzu verfasst. Wir möchten an dieser Stelle auf die hauptsächlichen Kritikpunkte eingehen.

RKI kann kausalen Einfluss der Maßnahmen auf Infektionsgeschehen nicht nachweisen

Wie können mit Hilfe von Statistik und Modellierung überhaupt kausale Einflüsse von Interventionen nachgewiesen werden? Der "Goldstandard" hierfür ist eine sogenannte Randomisierte kontrollierte Studie (englisch: randomized controlled trial, kurz: RCT). Solche Studien werden insbesondere in der evidenzbasierten Medizin zur Prüfung des Einflusses von z.B. Behandlungsmethoden eingesetzt.

RCTs basieren auf einem Experiment, in dem es eine Interventionsgruppe gibt, in der die Intervention vollzogen wird, und eine Kontrollgruppe ohne die betreffende Intervention. Sie sind "randomisiert", was bedeutet, dass die Untersuchungsobjekte (z.B. Personen, Regionen) zufällig der Interventions- bzw. Kontrollgruppe zugeordnet werden.

Ein wirkliches "experimentelles" Design haben wir in puncto Corona-Maßnahmen in Deutschland natürlich nicht. Abgesehen davon, dass wir sehr große Unterschiede in der Datengrundlage haben (z.B. durch sich verändernde Testvorschriften), fehlt auch noch die Randomisierung.

Um die zu gewährleisten, hätte man die Corona-Maßnahmen zufällig auf die deutschen Landkreise aufteilen müssen. Das wäre aus wissenschaftlicher Sicht höchst interessant, aber gesellschaftlich nicht wünschenswert und politisch wohl kaum durchsetzbar gewesen.

Wichtig bei wirklichen Experimenten ist auch, dass das Forschungsteam Einflussgrößen selber verändern kann – und nicht nur eine Entwicklung "beobachtet". Auch das ist nicht möglich, denn unsere Landkreise bzw. Bundesländer sind so, wie sie sind.

In solchen Fällen gibt es, um kausale Einflüsse zu analysieren, eine "zweitbeste" Möglichkeit, und zwar auf der Grundlage eines sogenannten Quasi-Experiments. Auch hier haben wir eine Interventions- und Kontrollgruppe, die verglichen werden, aber wir haben keine Randomisierung und keine vollständige Kontrolle über die Eigenschaften unserer Untersuchungsobjekte.

Der Modellansatz, um kausale Effekte in solchen Fällen nachzuweisen, heißt Differenz-von-Differenzen-Ansatz (englisch Difference-In-Differences approach, kurz: DiD) und kommt häufig auch bei wirtschaftswissenschaftlichen Fragestellungen zum Einsatz (z.B. Einflüsse von Mindestlöhnen oder arbeitsmarktpolitischen Maßnahmen).

Wie könnte beispielhaft die Wirkung einer Intervention im Sinne des o.g. DiD-Ansatzes kausal nachgewiesen werden? Angenommen, wir haben zwei Schulklassen A und B derselben Stufe, die beide gehörige Defizite im Fach Mathematik aufweisen bzw. deren Leistungen in diesem Fach immer schlechter werden. Nun bekommt eine der beiden Schulklassen (Klasse A) zusätzliche Mathematik-Förderstunden – das ist unsere Intervention – die andere (Klasse B) bekommt die Förderstunden nicht.

Klasse A ist also die Interventionsgruppe, Klasse B ist die Kontrollgruppe. Wir wollen nun herausfinden, ob die zusätzliche Förderung einen kausalen Effekt hat, in diesem Fall: ob sich die Mathematik-Leistungen durch die Mathematik-Förderstunden verbessern.

Damit dieser kausale Effekt besteht, müssen zwei Kriterien erfüllt sein: Erstens muss die Wirkung – also die Verbesserung der Mathematik-Leistungen in Klasse A über die nächsten Schulmonate – nach Beginn der Förderstunden eintreten. Wenn sich die Mathenoten in Klasse A schon Monate vorher deutlich verbessern, kann das naturgemäß nicht – oder zumindest nicht nur – auf die Förderung zurückzuführen sein. Zweitens muss nachgewiesen werden, dass sich die Leistungen durch die Förderstunden verbessern.

Ein DiD-Ansatz stellt nun mehrere Fragen: Wie haben sich die Mathematik-Leistungen in beiden Klassen A und B entwickelt, bevor Klasse A die zusätzliche Förderung bekommen hat? Wie haben sich die Leistungen in beiden Klassen A und B entwickelt, nachdem Klasse A die Förderung bekommt? Und: Wie hätten sich die Leistungen in Klasse A entwickelt, wenn es diese Intervention (Förderstunden) nicht gegeben hätte?

Der Ansatz vergleicht nun, wie sich die Mathenoten in Klasse A ohne Intervention entwickelt hätten mit der Entwicklung der tatsächlichen Noten in Klasse A nach Beginn der Förderstunden. Wir können natürlich nicht direkt "beobachten", wie sich Klasse A ohne die Intervention entwickelt hätte – denn die Intervention findet ja statt.

Wir haben aber zwei Anhaltspunkte, wie wir die Entwicklung von Klasse A ohne Intervention recht sauber annehmen können: Wir wissen, wie sie sich vor Beginn der Förderstunden entwickelt hat – und wir wissen, wie sich Klasse B (also die Kontrollgruppe) ohne Intervention entwickelt.

Aus der Differenz zwischen der echten und der hypothetischen Entwicklung von Klasse A ergibt sich "Kausalität" im Sinne des Modellansatzes: Nur wenn die Verbesserung in Klasse A nach Beginn der Förderstunden beginnt und sich die Leistungen in Klasse A über die Zeit verbessern, die in Klasse B sich aber nicht oder nur in wesentlich geringerem Umfang verbessern, wissen wir: die Förderstunden helfen, die Intervention hat also einen nachweisbaren kausalen Effekt.

Kommen wir zurück zur RKI-Studie: Hierbei werden eine Reihe von Corona-Maßnahmen als erklärende Variablen (auch: unabhängige Variablen genannt) in das Modell eingefügt, wobei deren Einfluss auf den R-Wert untersucht werden soll. Hier kommt ein zentrales Problem: Dieses Modelldesign untersucht nur, ob der R-Wert in Gegenwart einer bestimmten Maßnahme X geringer war als er in Abwesenheit dieser Maßnahme war. Es wird nicht untersucht, ob der R-Wert durch diese Maßnahme gesunken ist.

Um eine tatsächliche "kausale" Wirkung zu prüfen, müsste auch der zweitgenannte Punkt Berücksichtigung finden, was dem o.g. DiD-Ansatz entspricht. Die Frage, ob das Infektionsgeschehen durch die Interventionen gedrosselt wird, lässt sich also bereits anhand des nicht-kausalen Studiendesigns gar nicht beantworten.

Die erste Frage in Kausalanalysen – nämlich ob die Wirkung nach der angenommenen Ursache einsetze – kann die RKI-Analyse allerdings beantworten – und muss dies verneinen, da sie selbst nachweist, dass eine Abschwächung des Infektionsgeschehens bereits einige Tage vor Etablierung vieler Maßnahmen einsetzte – was im obigen Beispiel der Klasse A und B bedeuten würde, dass in Klasse A schon bessere Mathenoten erreicht wurden, bevor sie besonders gefördert wurde.

Die Studie versucht also nur die erste der o.g. Fragen, nämlich nach der zeitlichen Reihenfolge, zu beantworten, und scheitert dabei, zum Teil nach eigener Erkenntnis, ohne allerdings die Schlussfolgerungen dementsprechend anzupassen (siehe unten).

Die zweite Frage nach dem Kausalzusammenhang wird weder angesprochen noch beantwortet. Es sei an dieser Stelle darauf hingewiesen, dass kausalanalytische Ansätze in Corona-Maßnahmenstudien bereits angewendet wurden, zum Beispiel in der offiziellen Evaluation der nicht-pharmazeutischen Interventionen in der Schweiz. Die RKI-Studie verzichtet darauf. Damit ist die Schlussfolgerung der Kausalität überhaupt nicht aus den Studienergebnissen ableitbar.