Zur Trödelstatistik und R-Wert Diskussion der Corona Daten

Bild: CDC/Unsplash

Der Epidemie-Verlauf und die RKI-Daten unter der Lupe

Der folgende Beitrag ist vor 2021 erschienen. Unsere Redaktion hat seither ein neues Leitbild und redaktionelle Standards. Weitere Informationen finden Sie hier.

Seit Beginn der Lockerungsmaßnahmen zur Corona Krise warnen sowohl das Robert-Koch-Institut (RKI) wie auch manche Virologen und Politiker beständig vor der Gefahr einer zweiten Infektionswelle. Insbesondere wird dabei auch immer darauf hingewiesen, dass es ca. 2 Wochen dauern würde, bis man einen Wiederanstieg in den Daten erkennen könne, und dass es dann möglicherweise schon zu spät für eine wirksame Gegenreaktion sei.

Vor diesem Hintergrund werden aktuell die täglichen Veröffentlichungen des RKI wieder mit steigender Nervosität verfolgt, insbesondere seit am 09.05.2020 die Corona-Reproduktionszahl erstmals wieder mit R>1 berichtet wurde.

Zeit also, die Verzugsgründe bis zur Veröffentlichung der RKI-Daten noch einmal genauer unter die Lupe zu nehmen. Verspottet wurde das RKI hierzu bereits hinlänglich, z.B. hier und hier.

Mittlerweile werden vom RKI hochwissenschaftliche Wahrscheinlichkeitsmodelle bemüht (Imputing, Nowcasting), um fehlende oder künftig vielleicht noch eintreffende Daten zu erahnen. Wir werden diese Methoden hier kurz vorstellen und gegen präzise quantitative Auswertungen zur Trödel- und Verluststatistik der Daten spiegeln. (Alle eigenen Auswertungen in diesem Artikel basieren auf den Rohdaten des von Esri bereitgestellten RKI Covid-19 Hub mit Stand vom 30.04.2020).

In dem Zusammenhang werden wir auch noch einmal retrospektiv den Epidemie- Verlauf in Deutschland den vorausgegangenen Maßnahmen zur Kontakteinschränkung gegenüberstellen und die bisher unbefriedigende Stellungnahme von Politik und Wissenschaft hierzu anmahnen. Am Ende wird erläutert, warum die alleinige Betrachtung des R-Werts nicht genügt, um das jetzige Infektionsgeschehen als kritisch oder unkritisch einzuschätzen.

Wo die Daten fehlen

Informationstechnisch gesprochen gibt es zu jedem erfassten Corona-Fall eine ganze Reihe von Zeitstempel, die für Verzugsanalysen relevant wären.

a) Infiziert
b) Erkrankt
c) Testtermin erhalten
d) Testabstrich genommen
e) Testergebnis liegt vor
f) Testergebnis im lokalen Gesundheitsamt erfasst
g) Daten an Landeszentralstelle weitergegeben
h) Daten an RKI weitergegeben
i) Daten vom RKI veröffentlicht

In den derzeit verfügbaren Datensätzen des oben bereits erwähnten RKI Covid-19 Hub werden die Zeitstempel b), f) und i) vorgehalten.

Der Zeitpunkt der Infektion a) und somit des "echten Infektionsgeschehens" müsste sich damit eigentlich über die vom RKI geschätzte Inkubationszeit von ca. 5-6 Tagen relativ genau aus dem Erkrankungsdatum b) zurückrechnen lassen. Leider ist auch nach aktuellen Auswertungen in ca. 34% der Fälle immer noch kein Erkrankungsdatum bekannt, Tendenz seit Ende März steigend (s. Fig 1).

Aktuell behilft sich das RKI damit, das Erkrankungsdatum in solchen Fällen zu schätzen aus der Verzugsstatistik zwischen Meldedatum (Zeitstempel f) s. oben) und Erkrankungsdatum, wenn letzteres bekannt ist. Diese Methodik nennt sich Imputation, wir kommen weiter unten darauf zurück.

Warum dieser Missstand nicht an der Wurzel behoben werden kann, ist eigentlich unverständlich. Natürlich sind unter den gemeldeten Fällen auch Personen ohne Symptome, aber diese wurden und werden ja mehrheitlich gar nicht getestet, so dass dies keine Erklärung sein kann. Außerdem wäre es ja auch kein Hexenwerk, Fälle ohne Symptome bei der Erfassung separat zu kennzeichnen.

Wenn schon eine ganze Volkswirtschaft lahmlegt werden muss, dann sollte man eigentlich auch erwarten können, dass die zuständigen Behörden für eine belastbarere Entscheidungsgrundlage durch vollständige Datenerfassung sorgen.

Wo die Daten trödeln

Sehen wir uns als nächstes die Statistik zum Meldedatum bei bekanntem Erkrankungsbeginn an.

Fig 1: Das Erkrankungsdatum ist gemittelt in 34% der Fälle unbekannt (orange Balken, Skala auf der rechten y-Achse). Wenn bekannt, liegt es ab dem 23.03.2020 (Beginn des Lockdowns) im Schnitt 6-9 Tage vor dem Meldedatum (blaue Linie, Skala auf der linken y-Achse).

Wie aus Fig 1 ersichtlich (blaue Linie), dauerte es ab dem 23.03. (Beginn des Shutdowns) je nach Auslastung der lokalen Behörden im Mittel 6 - 9 Tage, bis ein positives Testergebnis im Gesundheitsamt (= Zeitstempel f) mit dem sog. Meldedatum erfasst worden war.

Dass auch diese gemittelten Verzugswerte für belastbare Rückrechnungen nicht verwendbar sind, zeigen die Streubreiten in Fig 2.

Fig 2: Streubreite des Meldeverzugs relativ zum Erkrankungsdatum in Zeitscheiben.

Man sieht, dass ab dem 15. März der Backlog ständig zunahm und in der Woche ab dem 23.03. (Beginn des Lockdowns) in ca. 50% der Fälle der Erkrankungsbeginn schon über eine Woche, teilweise sogar bis zu 3 Wochen zurück lag.

Heute wissen wir, dass gemessen am Erkrankungsdatum zu diesem Zeitpunkt das Maximum der gemeldeten Neuinfektionen bereits seit fast einer Woche überschritten war (s. weiter unten) und dies möglicherweise nur wegen der Trödelei in der Datenerfassung damals nicht rechtzeitig erkannt werden konnte.