Zur Trödelstatistik und R-Wert Diskussion der Corona Daten
Der Epidemie-Verlauf und die RKI-Daten unter der Lupe
Seit Beginn der Lockerungsmaßnahmen zur Corona Krise warnen sowohl das Robert-Koch-Institut (RKI) wie auch manche Virologen und Politiker beständig vor der Gefahr einer zweiten Infektionswelle. Insbesondere wird dabei auch immer darauf hingewiesen, dass es ca. 2 Wochen dauern würde, bis man einen Wiederanstieg in den Daten erkennen könne, und dass es dann möglicherweise schon zu spät für eine wirksame Gegenreaktion sei.
Vor diesem Hintergrund werden aktuell die täglichen Veröffentlichungen des RKI wieder mit steigender Nervosität verfolgt, insbesondere seit am 09.05.2020 die Corona-Reproduktionszahl erstmals wieder mit R>1 berichtet wurde.
Zeit also, die Verzugsgründe bis zur Veröffentlichung der RKI-Daten noch einmal genauer unter die Lupe zu nehmen. Verspottet wurde das RKI hierzu bereits hinlänglich, z.B. hier und hier.
Mittlerweile werden vom RKI hochwissenschaftliche Wahrscheinlichkeitsmodelle bemüht (Imputing, Nowcasting), um fehlende oder künftig vielleicht noch eintreffende Daten zu erahnen. Wir werden diese Methoden hier kurz vorstellen und gegen präzise quantitative Auswertungen zur Trödel- und Verluststatistik der Daten spiegeln. (Alle eigenen Auswertungen in diesem Artikel basieren auf den Rohdaten des von Esri bereitgestellten RKI Covid-19 Hub mit Stand vom 30.04.2020).
In dem Zusammenhang werden wir auch noch einmal retrospektiv den Epidemie- Verlauf in Deutschland den vorausgegangenen Maßnahmen zur Kontakteinschränkung gegenüberstellen und die bisher unbefriedigende Stellungnahme von Politik und Wissenschaft hierzu anmahnen. Am Ende wird erläutert, warum die alleinige Betrachtung des R-Werts nicht genügt, um das jetzige Infektionsgeschehen als kritisch oder unkritisch einzuschätzen.
Wo die Daten fehlen
Informationstechnisch gesprochen gibt es zu jedem erfassten Corona-Fall eine ganze Reihe von Zeitstempel, die für Verzugsanalysen relevant wären.
a) Infiziert
b) Erkrankt
c) Testtermin erhalten
d) Testabstrich genommen
e) Testergebnis liegt vor
f) Testergebnis im lokalen Gesundheitsamt erfasst
g) Daten an Landeszentralstelle weitergegeben
h) Daten an RKI weitergegeben
i) Daten vom RKI veröffentlicht
In den derzeit verfügbaren Datensätzen des oben bereits erwähnten RKI Covid-19 Hub werden die Zeitstempel b), f) und i) vorgehalten.
Der Zeitpunkt der Infektion a) und somit des "echten Infektionsgeschehens" müsste sich damit eigentlich über die vom RKI geschätzte Inkubationszeit von ca. 5-6 Tagen relativ genau aus dem Erkrankungsdatum b) zurückrechnen lassen. Leider ist auch nach aktuellen Auswertungen in ca. 34% der Fälle immer noch kein Erkrankungsdatum bekannt, Tendenz seit Ende März steigend (s. Fig 1).
Aktuell behilft sich das RKI damit, das Erkrankungsdatum in solchen Fällen zu schätzen aus der Verzugsstatistik zwischen Meldedatum (Zeitstempel f) s. oben) und Erkrankungsdatum, wenn letzteres bekannt ist. Diese Methodik nennt sich Imputation, wir kommen weiter unten darauf zurück.
Warum dieser Missstand nicht an der Wurzel behoben werden kann, ist eigentlich unverständlich. Natürlich sind unter den gemeldeten Fällen auch Personen ohne Symptome, aber diese wurden und werden ja mehrheitlich gar nicht getestet, so dass dies keine Erklärung sein kann. Außerdem wäre es ja auch kein Hexenwerk, Fälle ohne Symptome bei der Erfassung separat zu kennzeichnen.
Wenn schon eine ganze Volkswirtschaft lahmlegt werden muss, dann sollte man eigentlich auch erwarten können, dass die zuständigen Behörden für eine belastbarere Entscheidungsgrundlage durch vollständige Datenerfassung sorgen.
Wo die Daten trödeln
Sehen wir uns als nächstes die Statistik zum Meldedatum bei bekanntem Erkrankungsbeginn an.
Wie aus Fig 1 ersichtlich (blaue Linie), dauerte es ab dem 23.03. (Beginn des Shutdowns) je nach Auslastung der lokalen Behörden im Mittel 6 - 9 Tage, bis ein positives Testergebnis im Gesundheitsamt (= Zeitstempel f) mit dem sog. Meldedatum erfasst worden war.
Dass auch diese gemittelten Verzugswerte für belastbare Rückrechnungen nicht verwendbar sind, zeigen die Streubreiten in Fig 2.
Man sieht, dass ab dem 15. März der Backlog ständig zunahm und in der Woche ab dem 23.03. (Beginn des Lockdowns) in ca. 50% der Fälle der Erkrankungsbeginn schon über eine Woche, teilweise sogar bis zu 3 Wochen zurück lag.
Heute wissen wir, dass gemessen am Erkrankungsdatum zu diesem Zeitpunkt das Maximum der gemeldeten Neuinfektionen bereits seit fast einer Woche überschritten war (s. weiter unten) und dies möglicherweise nur wegen der Trödelei in der Datenerfassung damals nicht rechtzeitig erkannt werden konnte.
Ist die Entscheidung der Politik zum Lockdown der Volkswirtschaft also möglicherweise in erheblichem Blindflug zur Datenlage erfolgt?
Wie lange die Daten reisen
Nun hat die Trödelei damit noch kein Ende, die Daten müssen ja auch noch von den lokalen Gesundheitsämtern bis zum RKI reisen und dort auf Veröffentlichung warten (Zeitstempel i). Dieser Teil der Verzögerung wurde zur Hochphase der Epidemie bereits vielfach in den Medien kritisiert.
Auch im RKI-Dashboard wird täglich durch gelbe Balken die Anzahl der nachgelieferten Neuinfektionen pro Meldedatum angezeigt (s. Disclaimer RKI). Der Großteil der Daten ist hierbei normalerweise nach 3 Tagen beim RKI eingetroffen (s. Beispiel 30.04.20, Fig 3):
Zusätzlich werden aber immer auch noch kleinere Korrekturen bis zu 3 Wochen in die Vergangenheit (bezogen auf das Meldedatum!) nachgereicht, wobei es auch zu Löschungen kommen kann (Fig 4).
Zusammenfassung Datenverzug
Zusammengefasst müssen wir also zur Bemessung der Datenaktualität beim RKI drei Verzugsschritte einkalkulieren:
Insbesondere wird hieraus auch ersichtlich, dass die täglich neu vom RKI bekanntgegebenen Zahlen in keinster Weise den Zuwachs vom vergangenen Tag beschreiben, weder mit Bezug zum Meldedatum und schon gar nicht mit Bezug zum Erkrankungsgeschehen.
Wo die Daten ins Wochenende gehen
Hinzu kommt, dass in den Meldedaten auch noch ein unnatürlicher Wochenrhythmus mit tiefen Senken an den Wochenenden zu erkennen ist, der natürlich auch nicht die Arbeitszeiten eines Corona Virus widerspiegelt (Fig 5).
Dass mit solchen Daten keine zuverlässigen Auswertungen zum tatsächlichen Infektionsgeschehen gefahren werden können, ist offensichtlich. Insbesondere würde man endlich gerne mal verstehen wollen, welche Maßnahmen zu welchem Zeitpunkt nun wirklich den Turnaround der Epidemie bewirkt haben.
Aus der Kurve der gleitenden Mittelwerte (gemittelt über +/- 3 Tage vor und zurück) in Fig 5 würde man schließen, dass das Maximum der Neuinfektionen bezogen auf das Meldedatum Ende März durchschritten war.
Berücksichtigt man jedoch die Verzugsstatistik des Meldedatums in Fig 2, würde man eher auf 1-2 Wochen früher tippen. Davon noch einmal die Inkubationszeit abgezogen, landet man ca. in der 2. Märzwoche. In jedem Fall deutlich vor dem 23. März, dem Tag an dem der Lockdown der deutschen Volkswirtschaft begonnen hatte!
Hier drängt sich im Nachhinein erneut die Frage auf, wie kann das sein, zu dem Zeitpunkt waren doch lediglich Großveranstaltungen verboten worden und einige Konzerne hatten ihre Kapazitäten zurückgefahren?!
Sollte das als Maßnahme etwa schon ausgereicht haben, um eine Trendwende einzuleiten? Wäre dann der komplette Lockdown unserer Volkswirtschaft ab dem 23. März womöglich gar nicht notwendig gewesen?
Wie bereits eingangs geschildert, um dies genauer analysieren zu können, muss man statt des Meldedatums das Erkrankungsdatum betrachten.
Imputation
In den täglichen Lageberichten des RKI wurden die gemeldeten Neuinfektionen von Beginn an nicht nur über dem Meldedatum, sondern auch über dem Erkrankungsdatum aufgetragen. Im RKI-Dashboard ist diese Grafik seit der vorletzten Aprilwoche online (Fig 6):
Man sieht, das Maximum der Neuinfektionen ist in dieser Grafik bereits deutlich nach links verschoben und liegt jetzt irgendwo zwischen 17. - 20. März. Allerdings werden hier auch Äpfel und Birnen in einen Obstkorb geworfen.
Wo unbekannt, wird als Ersatz für das Erkrankungsdatum einfach wieder das Meldedatum herangezogen. Somit erzeugt man eine statistische Gesamtheit mit gemischten Zeitstempeln, die weiterhin fehlerbehaftet bleibt und zudem systematische Fehlerschätzungen unmöglich macht.
Solche Problemstellungen sind bekannt, wo immer es gilt, unvollständige Umfrageergebnisse auszuwerten. Zur Lösung werden von der mathematischen Statistik sog. Imputationsverfahren angeboten. Vereinfacht ausgedrückt werden hierbei unbekannte Erfassungswerte durch Wahrscheinlichkeitsbetrachtungen aus den bekannten Werten ersetzt.
Mit Bezug zu den unbekannten Erkrankungszeiten wurde diese Methodik vom RKI erstmals im Lagebericht vom 09.04. erwähnt und hierbei auf eine Vorversion der Veröffentlichung Epid Bull 2020; 17:10 - 15 hingewiesen (Auf das gleichzeitig dort vorgestellte Nowcasting kommen wir später zurück).
Seit dem 15.04 werden Auswertungen mit dem imputiertem Erkrankungsbeginn auch täglich in den Lageberichten des RKI gezeigt, Fig 7 zeigt ein Beispiel vom 11.05.2020.
Zur Kausalität der Kontakteinschränkungen
In der Abfolge von Fig 5, Fig 6 und Fig 7 nähern wir uns jetzt einer präziser werdenden Antwort zur Ausgangsfrage.
Wann hatte die Epidemie ihren Turnaround, d.h. ab wann sind die Neuinfektionen tatsächlich wieder zurückgegangen?
Fig 7 zeigt ein sehr deutliches Maximum zwischen dem 18.-19. März. Berücksichtigt man noch, dass die Balkenhöhen in Fig 7 gleitende Mittelwerte der jeweils letzten 4 Tage anzeigen, dürfte die richtige Datumszuordnung vermutlich einen Tag früher liegen. Zur Orientierung sind in Fig 7 auch die 3 wichtigsten Meilensteine zu den damaligen Kontakteinschränkungen eingezeichnet.
- Verbot von Großveranstaltungen ab dem 09.03.
- Schließung der Schulen und Kindergärten ab dem 16.03.
- Lockdown der Volkswirtschaft am 23.03.2020
Rechnet man noch die Inkubationszeit von 5-6 Tagen ein, so lässt sich nur schwerlich argumentieren, dass die Schul- und Kindergartenschließungen noch maßgeblich zur Trendumkehr beigetragen hätten. Zudem ist aus heutiger Sicht aus dem Verlauf der Kurve nach dem 23.03. kein signifikanter Einfluss durch den Lockdown erkennbar. Schon gar nicht im Vergleich zu dem scharfen Peak am Umkehrpunkt!
Dies umso mehr, wenn man in Fig 7 die imputierten Werte ignoriert und nur die dunkelblauen Balken mit bekanntem Erkrankungsbeginn betrachtet. Der qualitative zeitliche Verlauf ist nahezu identisch, das Maximum liegt an der gleichen Stelle, der Verlauf danach sieht deutlich gleichmäßiger aus.1
Diese Beobachtungen sind nicht neu, ähnlich hatte z.B. Andreas Stiller bereits am 14. April auf heise.de argumentiert.
Nachdem nunmehr keine Gefahr mehr besteht, die Lockdown-Disziplin beim Volk zu gefährden, wäre es jetzt endlich an der Zeit, dass sich die verantwortlichen Wissenschaftler und Politiker einer offenen Analyse zu dieser Fragestellung stellen.
Die bisherige Aussage des RKI, nur durch den Lockdown der gesamten Volkswirtschaft wäre ein Wiederanstieg der Neuinfektionen verhindert worden, kann auf Dauer nicht überzeugen. Wie würde sich denn der scharfe Peak am Umkehrpunkt dann erklären?
Man darf hier zu Recht eine stichhaltigere Erklärung erwarten, ob denn nicht z.B. das Verbot der Großveranstaltungen, eventuell die Kindergarten- und Schulschließungen zusammen mit dem allgemeinen Gebot der Abstandhaltung und ggfs. noch einer Mundschutzpflicht ausgereicht hätten, den gleichen Effekt zu erzeugen. Gerade auch, um die zunehmend grassierenden Verschwörungstheorien nicht durch öffentliches Schweigen zu befeuern, wäre eine offene Diskussion hierzu wünschenswert und hilfreich.
Die Rolle der R-Zahl
Abschließend wollen wir noch auf die Rolle der Reproduktionszahl R in der obigen Diskussion eingehen. Wenn man den Verlauf der Neuinfektionen pro Tag als Geschwindigkeit der Corona Ausbreitung interpretiert, dann wäre die Reproduktionszahl R ein Maß für die Beschleunigung, also die Zunahme oder Abnahme der Geschwindigkeit. Konkret misst das RKI solche Veränderungen immer im 4-Tagesabstand (sog. Generationszeit). Wenn wir also mit N(t) die über 4 Tage gleitend gemittelten Neuinfektionen zum Datum t bezeichnen, dann gilt:
N(t+4)=R(t) N(t)
(Wer sich für mehr Details interessiert, sei auf folgende Tutorials verwiesen: F. Nill, Tutorial: Corona Reproduktionszahl (26.04.2020)und A. Stiller, Die Mathematik hinter den Reproduktionszahlen R (01.05.2020).)
Alternativ kann man auch r=R-1 betrachten. Aus der obigen Formel folgt dann
N(t+4)-N(t)=r(t) N(t)
Also beschreibt r(t) nichts anderes als die Zuwachsrate der im Abstand von jeweils 4 Tagen gemittelten Neuinfektionen. Für r>0 (d.h. R>1) nehmen die Neuinfektionen zu, für r=0 (d.h. R=1) bleiben sie gleich und für r<0 (d.h. R<1) nehmen sie ab. In einem schematischen Verlauf gemäß Fig 7 hätten wir also den folgenden Zusammenhang (Fig 8):
Beim Umkehrpunkt der Epidemie (d.h. beim Wechsel von steigenden zu fallenden Werten der Neuinfektionen) wechselt also R vom Bereich R> 1 zum Bereich R< 1. Das Maximum der Kurve entspricht genau R=1.
Aus dieser Sichtweise heraus ist die obige Diskussion zur Frage "Wann war der Turnaround?" äquivalent zur Frage "Wann sank der R-Wert erstmals von R>1 auf bzw. unter die Marke R=1?".
In diesem Kontext war die Frage der Kausalität der Kontakteinschränkungen z.B. bereits am 14.04. von Andreas Stiller bei heise.de angesprochen worden: Neue RKI-Corona-Fall-Studie: Einfluss der Kontaktsperre eher mäßig.
Von der Öffentlichkeit weitaus stärker beachtet wurde eine inhaltlich gleichlautende Wortmeldung des Direktors des Instituts für öffentliche Finanzen der Leibnitz Universität Hannover, Prof. Dr. S. Homburg, in einem Youtube-Interview am 17.04., im ZDF heute Journal vom 19.04. sowie einem Folgeinterview vom 20.04.2020.
Gegenstimmen zu Homburgs Kritik wurden in vielen Kanälen laut, die wenigsten auch nur einigermaßen wissenschaftlich profund und präzise. Beispielhaft hier nur einige Links:
Warum der Corona-Lockdown nicht sinnlos war
Virologe entlarvt Corona-Fakes
Was Sie über die Grafik wissen sollten, über die Deutschland spricht
"Das Robert-Koch-Institut hat schwere Fehler gemacht"
Einen etwas tiefer gehenden Gegenfaktencheck zu all diesen Wortmeldungen hatte ich am 26.04. online gestellt.
Kommt nun die zweite Welle?
Seit dem 09.05. schätzt das RKI die Reproduktionszahlen wieder über 1. Wörtlich heißt es hierzu aus dem Lagebericht vom 11.05.2020:
"Bei der Interpretation muss berücksichtigt werden, dass diese Schätzungen mit der Unsicherheit verbunden sind, wie sie das jeden Tag ausgewiesene Prädiktionsintervall ausdrückt. Aufgrund der statistischen Schwankungen, die durch die insgesamt niedrigeren Zahlen verstärkt werden, kann somit weiterhin noch nicht bewertet werden, ob sich der während der letzten Wochen sinkende Trend der Neuinfektionen weiter fortsetzt oder es zu einem Wiederanstieg der Fallzahlen kommt."
Sehen wir uns dazu die Grafik Fig 7 in einem vergrößerten Ausschnitt an (Fig 9):
Die hellblauen Balken zeigen den leichten Wiederanstieg in den Neuinfektionen an. Hierbei ist zu beachten, dass hellblaue Werte in dieser Grafik gar nicht aus gemeldeten (auch nicht aus imputierten) Neuinfektionen ermittelt sind, sondern aus einer sogenannten Nowcast Rechnung als Schätzwerte vorhergesagt werden. Daher auch die angezeigten Unsicherheitsintervalle.
Die Nowcast-Vorhersage wurde vom RKI erstmals im Lagebericht vom 09.04. erwähnt und hierbei auf eine Vorversion der Veröffentlichung Epid. Bull. 17 | 2020 vom 23.04.2020 hingewiesen.
Ziel des Verfahrens ist es, mit nicht unerheblichem mathematisch-statistischem Aufwand die in Zukunft verzögert eintreffenden Meldewerte gemäß Fig 4 (d.h. mit mehr als 3 Tagen Meldeverzug) aus den entsprechenden Verzugswerten der vorausgegangenen Tage vorherzusagen. Im Gegensatz zur Wettervorhersage (Forecast) besteht die Kunst des Nowcast also darin, aus den Daten der Vergangenheit das "Wetter" von heute (=now) zu schätzen.
Mithilfe des Nowcast und der obigen Formel für die Reproduktionszahl2 berechnet sich der jüngste aus Fig 9 zu ermittelnde R-Wert nunmehr als Verhältnis der Balkenhöhe vom 07.05. zu der vom 03.05. Im Lagebericht vom 11.05. schätzt das RKI diesen Wert mit R= 1,07.
Nun sagt dieser Wert für sich allein lediglich aus, dass die Zahl der Neuinfizierten in den letzten 4 Tagen um 7% gestiegen ist. Ob von 100 auf 107, von 1.000 auf 1.070 oder von 5.000 auf 5.350, bleibt dabei offen. Deswegen sind diese Angaben für sich noch kein Alarmzeichen, man muss immer auch die absoluten Zahlen und in dem Zusammenhang auch die Schätzungenauigkeiten betrachten, wie vom RKI oben selbst zitiert. Wichtig ist, dass die R-Werte nicht dauerhaft größer als 1 bleiben dürfen. Dazu wäre es allerdings hilfreich, aktuellere Zahlen, statt bloße Schätzungen zu haben.
Verbessert der Nowcast die Trödel Problematik?
Die Lageberichte des RKI heben natürlich immer nur auf den Datenstand des Vortags ab, in Fig 9 also auf den 10.05. Darüber hinaus werden die Daten immer nur mit 3 Tagen Abstand zum letzten Datenstand angezeigt, in Fig 9 also ab dem 07.05. rückwärts.
Aussagen für die letzten 3 Tage relativ zum Datenstand werden vom RKI selbst in Anbetracht der noch ausstehenden Datennachlieferungen (s. Fig 3) als nicht valide betrachtet. Mit diesem Wissen sollte der Nowcast eigentlich besser "Yesterday-Cast" heißen, wobei Yesterday mit "Vor 3 Tagen" zu übersetzen wäre.
Darüber hinaus geht wegen der benötigten Mittelwertbildungen bereits für die jüngste R-Wert Schätzung das Infektionsgeschehen im Zeitraum 30.04. - 07.05. ein, also über eine Woche zurückliegend. Dass die Nowcast Schätzung vom 07.05. schon wieder etwas unter der vom 06.05. liegt, macht sich in dieser Rechnung noch gar nicht bemerkbar.
Und ohne den Nowcast-Beitrag würde man derzeit noch gar keinen Wiederanstieg in den Daten sehen. Über den Daumen gepeilt lässt sich also festhalten, der Nowcast reduziert den Blindflug zum tatsächlichen Datenstand von ca. 2 Wochen auf ca. 1 Woche, wobei die Genauigkeit dieser Vorhersage unklar bleibt.
Zusammenfassung
Gemessen am Stand des Möglichen muss man leider verzweifelt feststellen, dass Deutschland und das RKI sich in Sachen Corona Daten offenbar noch auf dem Niveau der IT-technischen Rauchzeichenverständigung bewegen. Hier lediglich mit hochwissenschaftlichen Statistik-Methoden wie Imputing und Yesterday-Casting dagegen zu halten, ehrt zwar die beteiligten Wissenschaftler, geht aber leider an der Wurzel des Übels vorbei.
Angesichts dieser Erkenntnisse bleibt es absolut unbegreiflich, warum in Deutschland problemlos Epidemie Gesetze zur Einschränkung verfassungsmäßiger Grundrechte beschlossen werden können, die Politik aber gleichzeitig nicht in der Lage ist, Voraussetzungen für eine zentrale Corona-Datenerfassung auch auf regionaler Ebene auf den Weg zu bringen. Oberstes Ziel neben der Gesundheitsvorsorge muss es doch sein, möglichst in Echtzeit valide Daten für Entscheidungsträger wie auch die Öffentlichkeit bereitzustellen.
Update: 13.05.2020
Mit dem Lagebericht des RKI vom 13.05.2020 scheint die kurze R>1 - Rally schon wieder beendet (Fig 10).
Wie in Fig 10 sichtbar, hat sich die fallende Nowcast-Schätzung für den 07.05 auch bis zum 09.05 fortgesetzt. Dies drückt sich jetzt auch in der neuesten RKI-Schätzung der Reproduktionszahl mit R = 0,81 aus. In den echten Zahlen (dunkelblau, d.h. mit bekanntem Erkrankungsbeginn) ist von all dem weiterhin nichts zu erkennen.
Mit Rückblick auf das große Bild in Fig 7 lässt sich also hoffen, dass Corona aktuell wohl doch nur noch im Stop & Go Modus vorankommt.
Zu Allerletzt
Auch im Stop & Go Verkehr gibt es übrigens manchmal "starke" Beschleunigungen, z.B. von 10 km/h auf 15 km/h. Würde man hierfür eine R-Wert Radarmessung einführen, dann würde die den gefährlichen Faktor R = 1,5 anzeigen. Allerdings gilt auch hier der Hinweis, dass eine Beschleunigung von 100 km/h auf 150 km/h mit dem gleichen R-Wert geahndet würde…
Der Autor ist promovierter und habilitierter Physiker und Mathematiker im Ruhestand. Er hatte bereits am 28.03. 2020 schriftlich festgehalten, dass seit dem 20.03. nur noch ein linearer Anstieg der Corona-Zahlen zu beobachten war. Seitdem verfolgt er mit neutralem Abstand die Berichterstattung zur Corona-Krise und meldet sich gelegentlich mit kritischen und erläuternden Beiträgen auf seinem privaten Blog.