Warum die Wirksamkeit des Lockdowns wissenschaftlich nicht bewiesen ist

Effektivität der Maßnahme Gegenstand von Fachdebatten. Kein Effekt von Frühjahrs-Lockdown. Studiendesign bei Prognosen versagt. (Teil 1)

Der folgende Beitrag ist vor 2021 erschienen. Unsere Redaktion hat seither ein neues Leitbild und redaktionelle Standards. Weitere Informationen finden Sie hier.

Ab dem 16. Dezember wurde von Bund und Ländern ein "harter Lockdown" verhängt, der zunächst bis zum 10. Januar gelten soll. In einer Serie von drei Artikeln werden die wissenschaftlichen Begründungen genauer beleuchtet. Im ersten Artikel werden die fehlenden wissenschaftlichen Beweise für die Wirksamkeit von Lockdowns thematisiert. Im zweiten Artikel werden die in den Regierungserklärungen ignorierten Kollateralschäden von Lockdowns beschrieben, welche inzwischen durch zahlreichen Studien belegt sind. Im dritten Artikel wird anhand einer kritischen Beleuchtung der vom Robert-Koch-Institut (RKI) veröffentlichten Corona-Fallzahlen diskutiert, inwiefern eine Angst in der Größenordnung, wie sie von den Regierungen, den Medien und manchen Wissenschaftlern vermittelt wird, wirklich gerechtfertigt ist.

Es folgen:
Teil 2: Die ignorierten Kollateralschäden von Lockdowns
Teil 3: Warum wir eigentlich keine extremen Ängste haben müssen

Ab dem 16. Dezember wird das öffentliche Leben in Deutschland erneut drastisch heruntergefahren. Der Einzelhandel mit Ausnahme der Geschäfte für den täglichen Bedarf muss schließen, Schulen und Kindergärten werden geschlossen, weiterhin gelten strikte Kontaktbeschränkungen. Empfohlen hatte einen solchen "harten Lockdown" die Nationale Akademie der Wissenschaften Leopoldina in ihrer 7. Ad-hoc-Stellungnahme. Konkret heißt es dort:

Die aktuelle Entwicklung der Coronavirus-Pandemie gibt Anlass zu großer Sorge. Trotz Aussicht auf einen baldigen Beginn der Impfkampagne ist es aus wissenschaftlicher Sicht unbedingt notwendig, die weiterhin deutlich zu hohe Anzahl von Neuinfektionen durch einen harten Lockdown schnell und drastisch zu verringern. Die Einführung des Lockdowns sollte bundesweit einheitlich in zwei Schritten erfolgen. Ab dem 14. Dezember 2020 sollte die Schulpflicht aufgehoben und nachdrücklich zur Arbeit im Homeoffice aufgefordert werden. Ab dem 24. Dezember 2020 sollten zusätzlich alle Geschäfte schließen, die nicht der Versorgung mit Lebensmitteln, Medikamenten und anderen lebensnotwendigen Waren dienen. Soziale Kontakte sollten auf einen sehr eng begrenzten Kreis reduziert werden.

Die Regierungen sind dieser Empfehlung nicht nur gefolgt, sondern haben die Schließung der Geschäfte sogar bereits ab dem 16. Dezember verordnet, gelten sollen die Regelungen bis zum 10. Januar. Begründet wird dies damit, dass der Anfang November verordnete Teil-Lockdown nicht gereicht habe, es seit einigen Tagen wieder ein exponentielles Wachstum gäbe, mehrere hundert Todesfälle pro Tag zu verzeichnen seien, das Gesundheitssystem überlastet sei und nur mittels eines harten Lockdowns wieder eine Kontrolle über die Virusausbreitung zu erreichen sei.

Liest man als Wissenschaftler die Stellungnahme der Leopoldina und hört sich die darauf aufbauenden Begründungen in den Regierungserklärungen an, stellt sich ein großes Befremden ein. Die Empfehlungen einer "Nationalen Akademie der Wissenschaften" und das Handeln von Regierungen sollte eigentlich zum einen den Prinzipien der Wissenschaft und der evidenzbasierten Medizin verpflichtet sein. Zum anderen sollten Empfehlungen und Entscheidungen zur Verordnung von Maßnahmen den wissenschaftlichen Diskurs nicht nur in Bezug auf die gesundheitlichen Folgen eines spezifischen Virus, sondern auch in Bezug auf die Kollateralschäden der Maßnahmen abbilden.

Aus der Perspektive eines solchen Selbstverständnisses verletzt die 7. Ad-hoc-Stellungnahme der Leopoldina und das Handeln der Regierungen die Prinzipien wissenschaftlicher und ethischer Redlichkeit. Wie ich im Folgenden aufzeigen werde, wird die Empfehlung eines harten Lockdowns in der Stellungnahme der Leopoldina anstatt mittels wissenschaftlicher Studien mittels arbiträr gewählter – und zudem falsch interpretierter – Fallbeispiele begründet, welche die angebliche Wirksamkeit eines harten Lockdowns stützen, ohne dass diese Auswahl nachvollziehbar gemacht oder wissenschaftlich begründet wird. Das ist umso problematischer, als dass keine belastbare wissenschaftliche Evidenz existiert, welche die Wirksamkeit von Lockdowns nachweisen würde.

Wissenschaftlich fragwürdige Begründung des harten Lockdowns

In der Stellungnahme (S. 3) wird die Empfehlung eines harten Lockdowns folgendermaßen begründet:

Die Erfahrungen aus vielen anderen Ländern (z.B. Irland) im Umgang mit der Pandemie zeigen: schnell eingesetzte, strenge Maßnahmen über einen kurzen Zeitraum tragen erheblich dazu bei, die Infektionszahlen deutlich zu senken.

Als "Beleg" wird folgende Abbildung präsentiert:

Zahl täglicher Neuinfektionen (pro Mio. Einwohner) in Deutschland und Irland im Zeitraum 1. März bis 6. Dezember 2020. Grafik entnommen am 8. Dezember von Our World in Data / CC-BY-4.0

Anstatt auf die existierenden wissenschaftlichen Studien zur Wirksamkeit von Lockdowns einzugehen, in welche die Daten aus zahlreichen Ländern einfließen (siehe unten), wird hier auf das Einzelbeispiel eines einzigen Landes verwiesen. Ein solches Vorgehen ist zutiefst unwissenschaftlich. Es lassen sich zum einen Länder finden, welche auch ohne einen harten Lockdown einen ähnlichen Verlauf der Virusausbreitung zeigen wie Irland (z.B. Schweiz), zum anderen lassen sich Länder finden, wo sich trotz harter Lockdowns kein entsprechender Rückgang der Virusausbreitung gezeigt hat (z.B. Peru). Der Verweis auf Einzelbeispiele, welche den Anschein einer Wirksamkeit von Lockdowns erwecken, ist insbesondere deswegen hochproblematisch, weil der aktuelle Stand der Forschung keinen klaren Hinweis auf eine Wirksamkeit erkennen lässt (siehe unten).

Zudem zeigt ein genauerer Blick, dass selbst das gewählte Beispiel Irland irreführend dargestellt ist. In der folgenden Abbildung ist der genaue Startpunkt des harten Lockdowns in Irland eingezeichnet sowie der frühestmögliche Zeitpunkt der Wirkung auf die gemeldeten Neuinfektionen, welcher aufgrund Inkubationszeit und der Zeitverzögerung zwischen Erkrankungsbeginn und Meldezeitpunkt frühestens in etwa zehn Tagen – typischerweise eher noch später – nach dem Startpunkt der Maßnahme liegt:

Grafiken/Quelle: Our World in Data / CC-BY-4.0

Wie die Abbildung zeigt, lässt sich bei einem korrekten Einbezug der Zeitverzögerung zwischen dem Zeitpunkt der Einführung einer Maßnahme und dem Zeitpunkt des Wirksamwerdens der Maßnahme kein Effekt eines harten Lockdowns erkennen.

Studien weisen auf Unwirksamkeit von Lockdowns hin

Anders als von der Leopoldina in der Stellungnahme mittels des arbiträr gewählten und falsch interpretierten Fallbeispiels Irland der Anschein erweckt wird, legen inzwischen zahlreiche und zum Teil sehr umfassende Studien nahe, dass Lockdowns die Virusausbreitung nicht in relevanter Weise eindämmen könnten. So ergab eine Analyse der 50 Länder mit den höchsten Infektionszahlen zum Zeitpunkt des 1. Mai, dass sowohl die Anzahl der schweren Covid-19-Fälle als auch die Anzahl der Covid-19-Todesfälle zwar durch Faktoren wie Fettleibigkeit, Rauchen, Höhe des Bruttoinlandprodukts und Anzahl des Krankenpflegepersonals beeinflusst wurde, nicht aber durch die von den Regierungen ergriffenen Maßnahmen. Die Autoren schreiben dazu im Ergebnisteil (Übersetzung durch den Autor):

Maßnahmen der Regierungen wie Grenzschließungen, strikte Lockdowns und eine hohe Rate an COVID-19-Tests waren nicht mit einer statistisch signifikanten Verringerung der Anzahl kritischer Fälle oder der Gesamtmortalität verbunden.

Bestätigt werden diese Ergebnisse durch eine neuere Studie, in welcher der Einfluss von Faktoren im Bereich der Demografie, der öffentlichen Gesundheit, der Wirtschaft, der Umwelt und des Regierungshandelns in Bezug auf Maßnahmen in den ersten acht Monaten des Jahres 2020 für Länder mit mindestens zehn Covid-19-Todesfällen (160 Länder) untersucht wurde. Es zeigte sich, dass die Lebenserwartung, der allgemeine Gesundheitszustand der Bevölkerung, die Wirtschaftskraft und Umweltfaktoren wie Temperatur oder geographische Lage die Anzahl der Covid-19-Todesfälle pro 100.000 Einwohnern beeinflusste – nicht aber die Intensität der ergriffenen Maßnahmen. Die Autoren schreiben dazu in der Studie (Übersetzung durch den Autor):

Covid-19 hat eine breite Palette von Reaktionen von Regierungen auf der ganzen Welt ausgelöst, doch die Ansteckungs- und Sterblichkeitskurven sind zwischen den Ländern sehr ähnlich (33). Dies wird durch unseren Befund eines fehlenden Zusammenhangs mit den während der Pandemie ergriffenen Maßnahmen der Regierungen untermauert. In diesem Sinne scheinen demografische Faktoren sowie Gesundheits-, Entwicklungs- und Umweltfaktoren viel wichtiger zu sein um die tödlichen Folgen von Covid-19 antizipieren zu können, als die Maßnahmen der Regierungen, insbesondere wenn solche Maßnahmen eher von politischen als von gesundheitsbezogenen Zielen geleitet werden.

Einer der überzeugendsten empirischen Beweise zur Unwirksamkeit von Lockdowns stammt aus einer als Preprint veröffentlichten Studie, in welcher der Zusammenhang zwischen der Mobilität – gemessen über die Mobilitätsreporte von Google – und der Anzahl der aufgetretenen "Covod-19-Todesfälle" für Länder und Regionen untersucht wurde mit mehr als 100 Todesfällen bis Ende August (medRxiv; N = 87; nur Regionen mit qualitativ verlässlichen Daten).

Positiv anzumerken ist, dass zur Umgehung der mit einer mathematischen Modellierung der Virusausbreitung verbundenen Probleme (siehe unten) auf ein regressionsanalytisches Verfahren in Bezug auf die Varianzen in den Zeitreihen (Todesfälle und Mobilität) zwischen Ländern zurückgegriffen wurde, welches keine mathematischen Modellierungen nötig macht. Die Ergebnisse fassen die Autoren folgendermaßen zusammen (Übersetzung durch den Autor):

Wir konnten die Varianz in der Anzahl der Todesfälle pro eine Million Einwohner in verschiedenen Regionen der Welt nicht durch Unterschiede im Ausmaß der Isolation - hier analysiert als Unterschiede im Zu-Hause-Bleiben - erklären.

Bestätigt werden diese Ergebnisse auch durch eine weitere als Preprint erschienene Studie, in welcher der Effekt verschiedener Maßnahmen in Europa sowohl mit Mehrebenen-Regressionsmodellen als auch mit Bayesschen verallgemeinerten additiven Modellen untersucht wurde. Die Schlussfolgerung der Autoren lautet (Übersetzung durch den Autor):

Die Anordnung, zu Hause zu bleiben ("Stay at Home") und die Schließung vieler Geschäfte erzeugte keinerlei unabhängigen zusätzlichen Effekt.

Ein sehr überzeugender direkter empirischer Hinweise zur geringen Wirksamkeit selbst drastischer Maßnahmen stammt aus einer im New England Journal of Medicine publizierten Studie, in welcher die Effektivität von militärisch überwachten Maßnahmen zur Ausbreitung des Virus Sars-CoV-2 unter US-Marine-Rekruten untersucht wurde. Um die Virusausbreitung unter den Rekruten einzudämmen wurden dort folgende Maßnahmen ergriffen:

  • Verordnung einer zweiwöchigen vorherigen häuslichen Quarantäne aller Rekruten vor der Ankunft.
  • Testung mittels eines PCR-Tests bei der Ankunft und sofortige Isolation der Sars-CoV-2-positiven Rekruten
  • Umfassender Katalog an Maßnahmen unter militärischer Überwachung - die Beschreibung im Artikel lautet folgendermaßen (Übersetzung durch den Autor):
    Alle Rekruten trugen zu jeder Zeit drinnen und draußen zweischichtige Stoffmasken, außer beim Schlafen oder Essen, hielten durchgehend einen Abstand zueinander von mindestens 6 Fuß, durften den Campus nicht verlassen, hatten keinen Zugang zu persönlichen elektronischen Geräten und sonstigen Gegenständen, die zur Virusübertragung über Oberflächen beitragen könnten, und wuschen routinemäßig ihre Hände. Sie schliefen in Doppelzimmern mit Waschbecken, aßen in gemeinsamen Speisemöglichkeiten und benutzten gemeinsame Badezimmer. Alle Rekruten säuberten täglich ihre Zimmer, desinfizierten die Badezimmer nach jedem Gebrauch mit Desinfektionstüchern und aßen vorgefertigte Mahlzeiten in einem Speisesaal, der nach jedem Essen einer Einheit mit Desinfektionsmitteln gereinigt wurde. Die meisten Anweisungen und Übungen wurden im Freien durchgeführt. Die gesamte Bewegung der Rekruten wurde überwacht und ein unidirektionaler Bewegungsfluss mit ausgewiesenen Ein- und Ausgängen zum Gebäude implementiert, um den Kontakt zwischen Personen zu minimieren. Sechs Ausbilder, die jeder Einheit zugewiesen waren, arbeiteten in 8-Stunden-Schichten und setzten die Quarantänemaßnahmen durch. Wenn Rekruten Anzeichen oder Symptome im Zusammenhang mit Covid-19 meldeten, wurden sie einem schnellen PCR-Test auf Sars-CoV-2 unterzogen und bis zu den Testergebnissen isoliert."
  • Tägliche Fiebermessung und täglicher Symptomchecks mit sofortiger Isolation bei Verdacht
  • Eine wöchentliche PCR-Testung mit sofortiger Isolation von Sars-CoV-2-positiven Rekruten.

Trotz dieses umfassenden Maßnahmenkatalogs trat in einem Zeitraum von zwei Wochen noch immer bei 1,9 Prozent der Rekruten eine Sars-CoV-2 Infektion auf. Das entspricht einer durchschnittlichen Sieben-Tage-Inzidenz von 950 infizierten Fällen pro 100.000 Personen. Leider gibt es in dieser Studie keine Kontrollgruppe ohne entsprechende Maßnahmen. Aber diese Studie zeigt, dass selbst mit extremen Maßnahmen die Virusausbreitung nicht substantiell eingedämmt werden kann.

Der fehlende Effekt des Lockdowns im Frühjahr in Deutschland

Auch in den Daten zur Virusausbreitung in Deutschland lässt sich kein Effekt von Lockdowns erkennen. Die unten folgende Abbildung zeigt den Verlauf der effektiven Reproduktionszahl R ("R-Wert") im März laut der Schätzung des RKI in einem Artikel im Epidemiologischen Bulletin. Wichtig ist anzumerken, dass der vom RKI für ein bestimmtes Datum geschätzte R-Wert das Infektionsgeschehen von vor etwa ein bis zwei Wochen abbildet. So schreibt das RKI in einem Artikel zur genaueren Beschreibung der Schätzung des R-Wertes:

Rein technisch handelt es sich bei 𝑅t um eine sog. instantaneous reproduction number [Cori et al. (2013)], welche rückwärtsschauend in der Zeit definiert ist. (…) Bezieht man noch die Inkubationszeit von 4 bis 6 Tagen mit ein, so beschreibt die am Tag u berichtete Reproduktionszahl 𝑅t in der sensitiven Variante [4-Tage-R-Wert] die Neuinfektionen im Zeitraum u-13, ⋯ , u-8. (…) Als Beispiel: Im RKI-Lagebericht am 15. Mai 2020 bezieht sich der angegebene sensitive R-Wert auf das Infektionsgeschehen im Zeitraum vom 02. Mai 2020 bis 07. Mai 2020.

In der im Folgenden abgebildeten Graphik des RKI wurde das Original-Datum in der RKI-Graphik um diese Zeitverzögerung korrigiert (Korrektur um zehn Tage Zeitverzögerung) und der Zeitpunkt der im März ergriffenen Maßnahmen entsprechend eingezeichnet (rote gestrichelte Linien). Es ergibt sich folgendes Bild:

Eine korrekte Einzeichnung der Zeitachse zeigt also sehr klar, dass weder der Lockdown noch die Schließung von Schulen, Kindertagesstätten und Geschäften eine Wirkung erzielt hat. Der R-Wert war bereits unter eins und reduzierte sich in der Folge auch nicht in relevanter Weise. Einzig die Absage von Großveranstaltungen könnte noch eine minimale Wirkung erzielt haben.

Allerdings ändert sich der Kurvenverlauf durch die Verordnung der Maßnahme nicht, sondern der Rückgang geht mit der gleichen Geschwindigkeit weiter wie zuvor, was auch hier eine Wirkung unwahrscheinlich macht, da es sich offenbar um einen Rückgang unabhängig von den ergriffenen Maßnahmen handelt (saisonale Effekte und womöglich sich langsam aufbauende Herdenimmunität).

Bestätigt wird dies durch eine in der Zeitschrift Safety Science erschienene Studie zum Verlauf der Virusausbreitung in Deutschland, welche sich insbesondere dadurch auszeichnet, dass der Abstand zwischen dem Meldezeitpunkt eines positiven Testergebnisses und dem tatsächlichen Infektionszeitpunkt sehr exakt bestimmt wurde, was in anderen Studien häufig ein Problem darstellt (siehe unten). Die Ergebnisse werden vom Autor folgendermaßen zusammengefasst (Übersetzung durch den Autor):

Der Rückgang der Infektionen Anfang März 2020 ist auf relativ geringe Interventionen und freiwillige Verhaltensänderungen zurückzuführen. Zusätzliche Auswirkungen späterer Maßnahmen können nicht klar erkannt werden. Die Aufhebung der Maßnahmen ab dem 20. April führte nicht zu einer erneuten Zunahme der Infektionen. Die Wirksamkeit der meisten der in Deutschland ergriffenen Maßnahmen ist daher fraglich.

Der Befund, dass eine Aufhebung der Maßnahmen nicht zu einem Anstieg der Virusausbreitung führte, legt nahe, dass der Verlauf der Virusausbreitung eher einem saisonalen Muster folgt und nicht durch die Einführung oder das Aufheben von Maßnahmen bedingt ist. Dass dem so sein könnte, legt ein – allerdings nicht peer-reviewed – Arbeitspapier des National Bureau of Economic Research (NBER), einer US-amerikanischen überparteiliche Nonprofit-Forschungsorganisation, nahe. Dort wurde anhand der Daten aus 25 US-Bundesstaaten sowie 23 Ländern, die je über 1.000 Tote zählten, gezeigt, dass ab dem Auftreten von 25 "Covid-19-Todesfällen" in allen untersuchten Ländern eine gleichförmige Entwicklung zu beobachten war und die Wachstumsrate binnen 20-30 Tagen auf null fiel, unabhängig von der Art und dem Zeitraum der ergriffenen Maßnahmen. Die Autoren schließen daraus:

Unsere Befunde (…) lassen weitere Zweifel aufkommen an der Bedeutsamkeit der nicht-pharmazeutischen Interventionen (insbesondere von Lockdowns) für den Verlauf der COVID-19-Übertragungsraten über die Zeit und über verschiedene Regionen hinweg. In vielen der Regionen in unserer Stichprobe, in denen zu Beginn Lockdowns verordnet worden waren, wurden diese im untersuchten Zeitraum wieder aufgehoben, in manchen Regionen wurden gar keine wirklichen Lockdowns verhängt. Trotzdem blieb die effektive Reproduktionszahl in allen Regionen im Vergleich zu den anfänglichen Werten weiterhin niedrig, was darauf hinweist, dass die Aufhebung der Lockdowns kaum Auswirkungen auf die Virus-Übertragungsraten hatte.

Methodische Probleme in Studien, die von Wirksamkeit von Lockdowns ausgehen

Es gibt eine Reihe von Studien, in welchen sich entgegen der bisher berichteten Studien ein Effekt von Lockdowns zu zeigen scheint. Allerdings basieren diese Studien auf mathematischen Modellierungen der Virusausbreitung, für welche bestimmte Vorannahmen für die im Modell enthaltenen Parameter gemacht werden müssen, welche kritisch zu hinterfragen sind. So heißt es zu diesen Studien in einem erschienenen Cochrane Rapid Review (Übersetzung durch den Autor):

Die existierende empirische Evidenz ist begrenzt, da alle 10 Studien zu COVID-19 mathematische Modellierungsstudien sind, die auf Datensätzen mit limitierter Qualität basieren und in welchen unterschiedliche Annahmen zu wichtigen Modellparametern getroffen werden.

Das Problem falscher Modellierungen soll im Folgenden an zwei prominenten Studien illustriert werden. Die erste stammt von einer Forschergruppe um Neil Ferguson vom Imperial College London, welche in der Fachzeitschrift Nature erschienen ist und eine hohe Effektivität von Lockdowns nachzuweisen scheint.

Allerdings enthält diese Studie mehrere fundamentale methodische Fehler. In der Studie wurde ausgehend vom Verlauf der in elf europäischen Ländern zu verzeichnenden Sars-CoV-2-Todesfälle mittels einer mathematischen Modellierung auf den Verlauf der Virusausbreitung (R-Wert) rückgeschlossen, mit dem Ziel, den Effekt verschiedener Maßnahmen auf die Virusausbreitung zu bestimmen. Die Ergebnisse scheinen einen großen Effekt von Lockdowns zu zeigen.

Wirft man einen genaueren Blick in die Studie, wird zum einen offenbar, dass der existierende Meldeverzug bei den Todesfällen nicht berücksichtigt wurde. Als Eintrittsdatum eines Todesfalls wurde das Meldedatum bei den Gesundheitsämtern verwendet, obwohl das tatsächliche Sterbedatum bis zu mehrere Wochen vorher liegt. Die in der Studie modellierten Verlaufskurven der Virusausbreitung spiegeln also das tatsächliche Infektionsgeschehen mit einer deutlichen Zeitverzögerung ab, so dass der Schluss auf die Wirkung von Maßnahmen nicht valide ist.

Weiterhin fällt bei einem genaueren Blick auf die Graphiken zu den modellierten Verlaufskurven der R-Werte auf, dass die Modellierung den tatsächlichen Verlauf der Virusausbreitung falsch abbildet. In der folgenden Abbildung sieht man auf der linken Seite den in der Studie mittels der Modellierung für Deutschland geschätzten Verlauf der Virusausbreitung (R-Wert) und auf der rechten Seite den tatsächlichen Verlauf der täglich gemeldeten Neuinfektionen laut Robert-Koch Institut (RKI):

Man sieht sofort, dass die Modellierung die Realität grundlegend falsch abbildet: Ein R-Wert von vier bedeutet, dass sich die Anzahl der Neuinfektionen binnen einer Generationszeit eines Virus (Zeitspanne von der Infektion einer Person bis zur Infektion der von ihr angesteckten Fälle, bei Sars-CoV-2: vier Tage) vervierfacht. Ein R-Wert von unter eins bedeutet, dass sich die Anzahl der Neuinfektionen binnen einer Generationszeit verringert.

Laut der Modellierung der Virusausbreitung des Imperial College London müsste sich demnach in der Verlaufskurve der Neuinfektionen ein spontaner Sprung von einem extremen Wachstum der Anzahl der Neuinfektionen (alle vier Tage vervierfacht sich die Anzahl der Neuinfektionen) auf einen Rückgang der Anzahl der Neuinfektionen zeigen, was nicht der Fall ist.

Wie ist diese seltsame Modellierung des Imperial London College zu erklären? Des Rätsels Lösung findet sich, wenn man den Artikel genauer liest. Dort heißt es (Übersetzung durch den Autor):

Unser Modell nimmt an, dass Veränderungen im R-Wert eine sofortige Reaktion auf das Einführen von Maßnahmen sind, (…) und dass der Effekt von Maßnahmen über die Zeit hinweg konstant bleibt.

Das heißt also, die Modellierung war von Anfang an so angelegt, dass ein Rückgang der Fallzahlen praktisch ausschließlich auf dem Effekt von Maßnahmen beruhen darf. Bei Verwendung einer solchen Modellierung muss sich also automatisch immer ein Effekt von Maßnahmen ergeben, da ein Rückgang ohne Maßnahmen im Modell nicht vorgesehen ist (siehe die folgende Abbildung für eine Illustration). Ein solches Vorgehen ist unwissenschaftlich, da das Modell gar nicht zulässt, dass auch herauskommen könnte, dass die Maßnahmen nicht wirken (für ausführlichere publizierte Kritiken siehe Frontiers und medRxiv).

Die zweite prominente fehlerhafte Modellierungsstudie stammt von einer Forschergruppe um Viola Prieseman vom Max-Planck-Institut für Dynamik und Selbstorganisation, welche in Science publiziert wurde. Dort wurde versucht, mittels einer mathematischen Modellierung das Infektionsgeschehen in Deutschland im März und April zu beschreiben und darauf aufbauend den Effekt der drei zentralen Maßnahmen in Deutschland zu bestimmen. Das in der ursprünglichen Publikation berichtete Ergebnis ist auf der linken Seite der folgenden Abbildung zu sehen:

Angesichts dieses Ergebnisses könnte man meinen, dass die weiter oben gezeigte Graphik des RKI fehlerhaft sei, weil offenbar die drei Maßnahmen doch etwas bewirkt haben. Wie ist diese eigenartige Abweichung gegenüber der Schätzung durch das RKI zu erklären?

Eine kritische Analyse der Methoden der ursprünglichen Publikation offenbart einen fundamentalen Fehler, welcher die Abweichung erklärt: Die Modellierung des Infektionsgeschehens erfolgte anhand des Datums der Meldung einer Infektion. Allerdings liegt der Zeitpunkt der Infektion wie bereits erwähnt deutlich vor dem Meldedatum der Infektion. Ende März lagen beispielsweise zwischen Infektionszeitpunkt und Meldezeitpunkt im Schnitt in etwa 13-14 Tage.

Das sich daraus ergebende Problem ist, dass damit in der ursprünglichen Publikation das tatsächliche Infektionsgeschehen zeitverzögert abgebildet und der Effekt der Maßnahmen damit falsch eingeschätzt wurde. Auf entsprechende kritische Kommentare zum Artikel hin wurde von der Forschergruppe eine sogenannte Technical Note veröffentlicht, in welchem der Verlauf des Infektionsgeschehens nicht anhand des Meldedatum modelliert wurde, sondern – dem Vorgehen des RKI folgend – anhand des Datums des Erkrankungsbeginns, welches nur etwa fünf Tag nach dem Infektionszeitpunkt liegt und damit den tatsächlichen Infektionszeitpunkt genauer abbildet.

Das Ergebnis ist auf der rechten Seite der obigen Abbildung abgebildet. Wie eindrücklich zu sehen ist, zeigt sich nun ein vergleichbarer Verlauf wie in der Graphik des RKI: weder die Schließung der Schulen, Kindertagesstätten und Geschäfte noch der Lockdown wirkten sich auf relevante Weise auf die Virusausbreitung aus (für eine ausführlichere Kritik siehe "Was Germany’s Corona Lockdown Necessary?").

Eine Anmerkung ist abschließend noch wichtig: Die Darstellung der existierenden Studien zum Effekt der Maßnahmen hat nicht den Anspruch erschöpfend zu sein. Das würde den Umfang dieses Artikels sprengen. Das Ziel besteht darin, den zutiefst unwissenschaftlichen Charakter der Stellungnahme der Leopoldina zu illustrieren.

Angesichts der beschriebenen Befundlage ist es zutiefst befremdlich, wenn eine wissenschaftliche Fachgesellschaft in einer politisch hoch gehandelten Stellungnahme die Empfehlung für Maßnahmen auf der Basis des arbiträren Herausgreifens eines zufällig stützenden Einzelbeispiels begründet und den existierenden Stand der Forschung komplett ignoriert und mit keiner Silbe erwähnt.

Die fragwürdigen Vorhersagen aus Modellierungsstudien

Wie die beiden erwähnten Modellierungsstudien zur Wirkung von Maßnahmen demonstrieren, sind Studien, welche auf einer Modellierung des Infektionsgeschehens beruhen, sehr fehleranfällig und damit wenig verlässlich. Dramatische Wirkungen können solche Fehler haben, wenn basierend auf solchen Modellierungen Prognosen zur bevorstehenden Virusausbreitung gemacht und darauf aufbauend Empfehlungen zum politischen Handeln abgegeben werden.

In der Tat ist die aktuelle Corona-Krise diesbezüglich ein besonders drastisches Beispiel. Die folgende Grafik zeigt den von verschiedenen Modellierungsstudien vorhergesagten Verlauf der "Covid-19-Todesfälle" in Großbritannien – und den tatsächlich beobachtete Verlauf.

Quelle: The Sun / Grafik: TP

Alle Vorhersagen aus den Modellierungsstudien überschätzen die tatsächlich beobachtete Anzahl an "Covid-19-Todesfällen" in England dramatisch. Interessanterweise findet sich ein vergleichbares Problem in Deutschland. Die folgende Abbildung zeigt die auf einem SEIR-Modell beruhende Prognose einer Forschungsgruppe um Thorsten Lehr von der Universität des Saarlandes zur Entwicklung der Anzahl der Neuinfektionen in Hessen vom 28. Oktober und die tatsächliche Entwicklung der Fallzahlen (rote Balken) – wobei hier anzumerken ist, dass der ein paar Tage später verordnete "Lockdown light" bzw. auch dessen vorherige Ankündigung die Fallzahlen im Zeitraum der zwei Wochen nach dem 28. Oktober nicht beeinflusst haben kann (siehe oben):

14-Tage Prognose für Hessen (Stand 28.10.). Die tatsächliche Entwicklung der Neufälle bis zum 28.10.; die gestrichelte Linie zeigt die Prognose für das 7-Tage-Mittel der nächsten 14 Tage: Wie jede Prognose ist sie zunehmend unsicher - der graue Bereich gibt das so genannte Konfidenzintervall an, in dem der tatsächliche Wert liegen kann. Die Trendlinie zeigt den gleitenden Mittelwert über 7 Tage. Die Prognose beruht auf dem SEIR-Modell der Universität des Saarlandes (Forschungsgruppe von Prof. Thorsten Lehr). Quelle: RKI, CoVid-Simulator der Universität des Saarlandes, Hessischer Rundfunk. Grafik: TP

Der renommierte Medizinwissenschaftler und Statistiker John Ioannidis schreibt zu den problematischen Vorhersagen aus den Modellierungsstudien in einem Fachartikel (Übersetzung durch den Autor):

Die Vorhersagen aus epidemiologischen Modellierungsstudien haben eine zweifelhafte Erfolgsbilanz, und deren Fehler wurden mit COVID-19 immer deutlicher. Schlechte Dateneingabe, falsche Modellannahmen, hohe Sensitivität der Schätzungen, mangelnde Berücksichtigung epidemiologischer Eigenschaften, geringe bisherige Evidenz für die Auswirkungen verfügbarer Maßnahmen, mangelnde Transparenz, Fehler, mangelnde Bestimmtheit, Berücksichtigung von nur einer oder weniger Dimensionen des Problems, Mangelndes Fachwissen in entscheidenden Disziplinen, Gruppendenken und Mittläufereffekte sowie selektive Berichterstattung sind einige der Ursachen für diese Fehler.

Ein Versagen epidemiologischer Modellierungsstudien ist ein altes Problem. Tatsächlich ist es überraschend, dass epidemiologische Modellierungsstudien angesichts ihrer zweifelhaften Erfolgsbilanz unter Entscheidungsträgern nach wie vor eine hohe Glaubwürdigkeit besitzen. Die Modellierung der Schweinegrippe prognostizierte für Großbritannien 3.100 bis 65.000 Todesfälle. In Wirklichkeit ereigneten sich 457 Todesfälle. Die Modelle zur Maul- und Klauenseuche von Spitzenwissenschaftlern in Spitzenzeitschriften wurden in der Folge von anderen Wissenschaftlern in Frage gestellt, insbesondere warum bis zu 10 Millionen Tiere zu schlachten werden mussten. Nach Vorhersagen für die Rinderenzephalopathie wären in Großbritannien bis zu 150.000 Todesfälle zu erwarten gewesen. Die prognostizierte Untergrenze lag jedoch nur bei 50 Todesfällen, was nahe an der tatsächlichen Anzahl an Todesfällen liegt. Vorhersagen können in ‚idealen‘, isolierten Gemeinschaften mit homogenen Populationen funktionieren, nicht aber in der komplexen gegenwärtigen globalen Welt.

Trotz dieser offensichtlichen Fehlvorhersagen blühte die Prognose mittels epidemiologischen Modellierungsstudien weiter auf, möglicherweise, weil äußerst fehlerhafte Vorhersagen normalerweise keine schwerwiegenden Konsequenzen hatten. In der Tat könnten falsche Vorhersagen sogar nützlich gewesen sein. Eine falsche Vorhersage eines bevorstehen Weltuntergangsszenarios kann Menschen zu einer besseren persönlichen Hygiene anregen. Probleme entstehen aber, wenn Staats- und Regierungschefs (falsche) Vorhersagen zu ernst nehmen und sie als "Kristallkugeln" betrachten, ohne deren Unsicherheit und die Abhängigkeit von den konkreten Modellannahmen zu verstehen. Das Schlachten von Millionen von Tieren betrifft zwar die Interessengruppen der Fleischindustrie - aber die meisten Bürger sind nicht direkt betroffen. Mit COVID-19 können jedoch falsche Vorhersagen die Wirtschaft und Gesundheit von Milliarden von Menschen zerstören und zu großen gesellschaftliche Verwerfungen führen.

Trotz dieser eigentlich bekannten Probleme von Vorhersagen aus Modellierungsstudien wird in der Stellungnahme der Leopoldina als weiteres zentrales Argument für die Empfehlung eines harten Lockdowns auf die Prognosen aus einer Modellierung einer Arbeitsgruppe um Viola Priesemann verwiesen, welche in Form der folgenden Abbildung in der Stellungnahme dargestellt wird (ergänzt um den Startzeitpunkt des "Lockdown light" und des frühestmöglichen Wirkzeitpunktes):

Die Modellierung sagt also vorher, dass ohne eine Verschärfung des Lockdowns die Fallzahlen trotz des inzwischen seit längerem erreichten Peaks der Ausbreitung über längere Zeit noch auf der Höhe des Peaks verbleiben. Ein erstes Problem solcher Modellierungen ist, dass die Modellierung auf einer nicht verlässlichen Datenbasis erfolgt, was keine zuverlässigen Vorhersagen erlaubt. So hat das RKI Anfang November die Testkriterien verändert. Das RKI schreibt dazu im Lagebricht vom 2. Dezember:

Des Weiteren wurden Antigen-Point-of-Care-Tests (AG-POCT) in bestimmten Settings eingeführt. Dies kann zur Folge haben, dass die Grundgesamtheit der getesteten Personen sich von der der Vorwochen unterscheidet und daher die Positivquoten der Vorwochen nicht direkt mit den Positivquoten ab KW46 vergleichbar sind. Eine eindeutige Bewertung über die Größe des Einflusses der geänderten Testkriterien und AG-POCT Einführung ist zum jetzigen Zeitpunkt noch nicht möglich.

Weiterhin ist die Vorhersage eines über mehrere Wochen unveränderten Niveaus der Fallzahlen unrealistisch. Eine solche Vorhersage ist nur dann realistisch, wenn man annimmt, dass es keine Kräfte gibt, welche die Virusausbreitung unabhängig von den Maßnahmen bremsen. In Deutschland scheint es solche Kräfte aber durchaus zu geben, da der Zuwachs in den Fallzahlen bereits lange vor dem Wirksamwerden des "Lockdown light" kontinuierlich zurückging – also unabhängig von der Verschärfung von Maßnahmen.

Eine mögliche Erklärung ist, dass die Mobilität in der Bevölkerung bereits deutlich früher vor dem "Lockdown light" zurückging. Dann wäre aber eine Verschärfung der Maßnahmen nicht nötig, weil die Veränderung der Mobilität ohne spezielle Maßnahmen ausreichend war, um die Virusausbreitung zu bremsen und die Verschärfung durch den "Lockdown light" keinen zusätzlichen Effekt erzeugt hat.

Es gibt bei der Virusausbreitung noch einen zentralen begrenzenden Faktor unabhängig von den ergriffenen Maßnahmen oder den Verhaltensveränderungen in der Bevölkerung: Die Anzahl der für eine Infektion anfälligen Individuen in einer Population verringert sich proportional zur steigenden Virusausbreitung, so dass die Wachstumsrate zunehmend rückläufig ist.

Ein solcher Effekt tritt umso schneller auf, je geringer der Anteil der infizierten Personen ist, der erreicht werden muss, damit sich eine Herdenimmunität einstellt. Oft wird hier angenommen, dass für eine Herdenimmunität 60 Prozent der Individuen einer Population infiziert sein müssen. Allerdings basiert eine solche Schätzung auf der Annahme, dass alle Personen in der Bevölkerung gleich empfänglich für das Virus sind und sich vergleichbar intensiv und völlig zufällig miteinander treffen.

Das ist aber unrealistisch. Zum einen sind verschiedene Personen sozial unterschiedlich stark vernetzt, zum anderen legen inzwischen zahlreiche Studien nahe, dass womöglich doch manche Menschen eine Immunität besitzen, welche aus früheren Kontakten mit ähnlichen Coronaviren stammt. Bezieht man diese beiden Aspekte mit ein, sinkt der zur Herdenimmunität nötige Anteil an Personen, die sich infizieren müssen, möglicherweise sogar auf nur zehn bis 20 Prozent (für einen Überblick siehe BMJ: "Covid-19: Do many people have pre-existing immunity?).

Demnach könnte der seit in etwa Mitte Oktober unabhängig von den Maßnahmen sinkende Zuwachs in den Neuinfektionen auch dadurch bedingt sein, dass bereits ein großer Teil der für das Virus empfänglichen bzw. das Virus weitergebenden Personen infiziert wurde. Zumindest ist es – anders als im Frühjahr – unwahrscheinlich, dass der sinkende Zuwachs auf saisonale Effekte zurückgeht, da sich Coronaviren üblicherweise in der aktuellen Jahreszeit eigentlich zunehmend ausbreiten.

Zusammenfassung

Zusammenfassend basiert die Empfehlung eines harten Lockdowns in der 7. Ad-hoc-Stellungnahme auf keiner belastbaren wissenschaftlichen Grundlage. Als Begründung der Notwendigkeit eines harten Lockdowns wird zum einen nur auf arbiträre Einzelbeispiele verwiesen, obwohl umfassende publizierte Studien existieren, welche die Wirksamkeit von Lockdowns grundlegend in Frage stellen.

Zum anderen wird als Begründung auf Prognosen aus Modellierungsstudien verwiesen, die aber auf nicht verlässlichen Daten basieren und von unrealistischen Modellannahmen ausgehen. Es ist zum einen befremdlich, dass eine wissenschaftliche Fachgesellschaft eine derart unwissenschaftliche Empfehlung abgibt und damit die Prinzipien der wissenschaftlichen Redlichkeit verletzt.

Auch ist aus der Perspektive einer evidenzbasierten Medizin eine Verordnung von Maßnahmen durch Regierungen nur dann vertretbar, wenn deren Wirksamkeit empirisch belastbar nachgewiesen ist, was im Falle eines Lockdowns nicht der Fall ist.

Das ist umso fragwürdiger, wenn mit einer Maßnahme große Kollateralschäden verbunden sind, wie es bei Lockdowns der Fall ist. Hier geht es zum zweiten Artikel der Serie zu den wissenschaftlichen Begründungen des "harten Lockdowns": Die ignorierten Kollateralschäden von Lockdowns.