Zur Trödelstatistik und R-Wert Diskussion der Corona Daten

Seite 2: Ist die Entscheidung der Politik zum Lockdown der Volkswirtschaft also möglicherweise in erheblichem Blindflug zur Datenlage erfolgt?

Der folgende Beitrag ist vor 2021 erschienen. Unsere Redaktion hat seither ein neues Leitbild und redaktionelle Standards. Weitere Informationen finden Sie hier.

Wie lange die Daten reisen

Nun hat die Trödelei damit noch kein Ende, die Daten müssen ja auch noch von den lokalen Gesundheitsämtern bis zum RKI reisen und dort auf Veröffentlichung warten (Zeitstempel i). Dieser Teil der Verzögerung wurde zur Hochphase der Epidemie bereits vielfach in den Medien kritisiert.

Auch im RKI-Dashboard wird täglich durch gelbe Balken die Anzahl der nachgelieferten Neuinfektionen pro Meldedatum angezeigt (s. Disclaimer RKI). Der Großteil der Daten ist hierbei normalerweise nach 3 Tagen beim RKI eingetroffen (s. Beispiel 30.04.20, Fig 3):

Fig 3: Am 30.04. vom RKI veröffentlichte Neuinfizierte mit Meldedatum 27.-29.04.2020

Zusätzlich werden aber immer auch noch kleinere Korrekturen bis zu 3 Wochen in die Vergangenheit (bezogen auf das Meldedatum!) nachgereicht, wobei es auch zu Löschungen kommen kann (Fig 4).

Fig 4: Weitere am 30.04. vom RKI veröffentlichte Datenänderungen

Zusammenfassung Datenverzug

Zusammengefasst müssen wir also zur Bemessung der Datenaktualität beim RKI drei Verzugsschritte einkalkulieren:

Insbesondere wird hieraus auch ersichtlich, dass die täglich neu vom RKI bekanntgegebenen Zahlen in keinster Weise den Zuwachs vom vergangenen Tag beschreiben, weder mit Bezug zum Meldedatum und schon gar nicht mit Bezug zum Erkrankungsgeschehen.

Wo die Daten ins Wochenende gehen

Hinzu kommt, dass in den Meldedaten auch noch ein unnatürlicher Wochenrhythmus mit tiefen Senken an den Wochenenden zu erkennen ist, der natürlich auch nicht die Arbeitszeiten eines Corona Virus widerspiegelt (Fig 5).

Fig 5: Neuinfizierte gemäß Meldedatum. Da das Virus an Wochenenden keine Pausen macht, empfiehlt es sich, gleitende Mittelwerte zu betrachten (gepunktet).

Dass mit solchen Daten keine zuverlässigen Auswertungen zum tatsächlichen Infektionsgeschehen gefahren werden können, ist offensichtlich. Insbesondere würde man endlich gerne mal verstehen wollen, welche Maßnahmen zu welchem Zeitpunkt nun wirklich den Turnaround der Epidemie bewirkt haben.

Aus der Kurve der gleitenden Mittelwerte (gemittelt über +/- 3 Tage vor und zurück) in Fig 5 würde man schließen, dass das Maximum der Neuinfektionen bezogen auf das Meldedatum Ende März durchschritten war.

Berücksichtigt man jedoch die Verzugsstatistik des Meldedatums in Fig 2, würde man eher auf 1-2 Wochen früher tippen. Davon noch einmal die Inkubationszeit abgezogen, landet man ca. in der 2. Märzwoche. In jedem Fall deutlich vor dem 23. März, dem Tag an dem der Lockdown der deutschen Volkswirtschaft begonnen hatte!

Hier drängt sich im Nachhinein erneut die Frage auf, wie kann das sein, zu dem Zeitpunkt waren doch lediglich Großveranstaltungen verboten worden und einige Konzerne hatten ihre Kapazitäten zurückgefahren?!

Sollte das als Maßnahme etwa schon ausgereicht haben, um eine Trendwende einzuleiten? Wäre dann der komplette Lockdown unserer Volkswirtschaft ab dem 23. März womöglich gar nicht notwendig gewesen?

Wie bereits eingangs geschildert, um dies genauer analysieren zu können, muss man statt des Meldedatums das Erkrankungsdatum betrachten.

Imputation

In den täglichen Lageberichten des RKI wurden die gemeldeten Neuinfektionen von Beginn an nicht nur über dem Meldedatum, sondern auch über dem Erkrankungsdatum aufgetragen. Im RKI-Dashboard ist diese Grafik seit der vorletzten Aprilwoche online (Fig 6):

Fig 6: Screenshot aus dem RKI-Dashboard . Blaue Balken beziehen sich auf einen bekannten Erkrankungsbeginn, bei den gelben Balken ist der Erkrankungsbeginn unbekannt und wurde durch das Meldedatum ersetzt. Die Grafik ist seit der vorletzten Aprilwoche online gestellt.

Man sieht, das Maximum der Neuinfektionen ist in dieser Grafik bereits deutlich nach links verschoben und liegt jetzt irgendwo zwischen 17. - 20. März. Allerdings werden hier auch Äpfel und Birnen in einen Obstkorb geworfen.

Wo unbekannt, wird als Ersatz für das Erkrankungsdatum einfach wieder das Meldedatum herangezogen. Somit erzeugt man eine statistische Gesamtheit mit gemischten Zeitstempeln, die weiterhin fehlerbehaftet bleibt und zudem systematische Fehlerschätzungen unmöglich macht.

Solche Problemstellungen sind bekannt, wo immer es gilt, unvollständige Umfrageergebnisse auszuwerten. Zur Lösung werden von der mathematischen Statistik sog. Imputationsverfahren angeboten. Vereinfacht ausgedrückt werden hierbei unbekannte Erfassungswerte durch Wahrscheinlichkeitsbetrachtungen aus den bekannten Werten ersetzt.

Mit Bezug zu den unbekannten Erkrankungszeiten wurde diese Methodik vom RKI erstmals im Lagebericht vom 09.04. erwähnt und hierbei auf eine Vorversion der Veröffentlichung Epid Bull 2020; 17:10 - 15 hingewiesen (Auf das gleichzeitig dort vorgestellte Nowcasting kommen wir später zurück).

Seit dem 15.04 werden Auswertungen mit dem imputiertem Erkrankungsbeginn auch täglich in den Lageberichten des RKI gezeigt, Fig 7 zeigt ein Beispiel vom 11.05.2020.

Fig 7: Verteilung Neuinfizierte nach Erkrankungsbeginn unter Berücksichtigung von Imputation und Nowcast. Grafik aus dem Lagebericht RKI vom 11.05.20. Hinzugefügt die 3 Meilensteine der damaligen Kontakteinschränkungen.

Zur Kausalität der Kontakteinschränkungen

In der Abfolge von Fig 5, Fig 6 und Fig 7 nähern wir uns jetzt einer präziser werdenden Antwort zur Ausgangsfrage.