Jetzt alle zusammen: Das vertrauenswürdigste Covid-19-Modell ist ein Ensemble

Jede Woche reichen die Teams nicht nur eine Punktprognose ein, die ein einzelnes Ergebnis vorhersagt (sagen wir, dass es in einer Woche 500 Todesfälle geben wird). Sie legen auch probabilistische Vorhersagen vor, die die Unsicherheit quantifizieren, indem sie die Wahrscheinlichkeit der Anzahl von Fällen oder Todesfällen in immer enger werdenden Intervallen oder Bereichen schätzen, die auf eine zentrale Vorhersage abzielen. Ein Modell könnte beispielsweise vorhersagen, dass es eine 90-prozentige Wahrscheinlichkeit gibt, 100 bis 500 Todesfälle zu sehen, eine 50-prozentige Wahrscheinlichkeit, 300 bis 400 zu sehen, und eine 10-prozentige Wahrscheinlichkeit, 350 bis 360 zu sehen.

„Es ist wie ein Volltreffer, immer fokussierter zu werden“, sagt Reich.

Funk ergänzt: „Je schärfer Sie das Ziel definieren, desto geringer ist die Wahrscheinlichkeit, dass Sie es treffen.“ Es ist ein feines Gleichgewicht, da eine beliebig weit gefasste Prognose richtig und auch nutzlos sein wird. „Es sollte so präzise wie möglich sein“, sagt Funk, „und gleichzeitig die richtige Antwort geben.“

Bei der Zusammenstellung und Bewertung aller Einzelmodelle versucht das Ensemble, ihre Informationen zu optimieren und ihre Mängel zu mindern. Das Ergebnis ist eine probabilistische Vorhersage, ein statistischer Durchschnitt oder eine „Medianprognose“. Es ist im Wesentlichen ein Konsens mit einem feiner kalibrierten und daher realistischeren Ausdruck der Unsicherheit. All die verschiedenen Elemente der Unsicherheit mitteln sich in der Wäsche.

Die Studie von Reichs Labor, die sich auf prognostizierte Todesfälle konzentrierte und von Mitte Mai bis Ende Dezember 2020 etwa 200.000 Prognosen auswertete (eine aktualisierte Analyse mit Vorhersagen für vier weitere Monate wird in Kürze hinzugefügt), ergab, dass die Leistung einzelner Modelle hoch war Variable. In einer Woche mag ein Modell akkurat sein, in der nächsten Woche ist es vielleicht ganz daneben. Aber wie die Autoren schrieben: „Bei der Kombination der Vorhersagen aller Teams zeigte das Ensemble die beste probabilistische Gesamtgenauigkeit.“

Und diese Ensemble-Übungen dienen nicht nur dazu, die Vorhersagen zu verbessern, sondern auch das Vertrauen der Menschen in die Modelle, sagt Ashleigh Tuite, Epidemiologin an der Dalla Lana School of Public Health der University of Toronto. „Eine der Lehren aus der Ensemble-Modellierung ist, dass keines der Modelle perfekt ist“, sagt Tuite. „Und selbst dem Ensemble fehlt manchmal etwas Wichtiges. Modelle haben es im Allgemeinen schwer, Wendepunkte vorherzusagen – Spitzen oder wenn sich die Dinge plötzlich beschleunigen oder verlangsamen.“

Lesen Sie auch  Nicht nur die Pandemie: Warum die Immobilienpreise in die Höhe schnellen und was als nächstes kommen könnte

„Modelle sind keine Orakel.“

Alessandro Vespignani

Die Verwendung von Ensemble-Modellierung ist nicht nur bei der Pandemie möglich. Tatsächlich verwenden wir jeden Tag probabilistische Ensemble-Vorhersagen, wenn wir das Wetter googeln und beachten, dass die Niederschlagswahrscheinlichkeit 90 Prozent beträgt. Es ist der Goldstandard für Wetter- und Klimavorhersagen.

„Es ist eine echte Erfolgsgeschichte und seit etwa drei Jahrzehnten der richtige Weg“, sagt Tilmann Gneiting, Computerstatistiker am Heidelberger Institut für Theoretische Studien und am Karlsruher Institut für Technologie in Deutschland. Vor Ensembles verwendete die Wettervorhersage ein einziges numerisches Modell, das in Rohform eine deterministische Wettervorhersage produzierte, die „lächerlich zu selbstsicher und äußerst unzuverlässig“ war, sagt Gneiting (Wetterprognostiker, die sich dieses Problems bewusst waren, unterwarfen die Rohergebnisse anschließenden statistische Analyse, die eine einigermaßen zuverlässige Wahrscheinlichkeit von Niederschlagsvorhersagen bis in die 1960er Jahre ergab).

Gneiting weist jedoch darauf hin, dass die Analogie zwischen Infektionskrankheiten und Wettervorhersagen ihre Grenzen hat. Zum einen ändert sich die Niederschlagswahrscheinlichkeit nicht als Reaktion auf menschliches Verhalten – es wird regnen, Regenschirm oder kein Regenschirm –, während der Verlauf der Pandemie auf unsere Präventivmaßnahmen reagiert.

Die Prognose während einer Pandemie ist ein System, das einer Rückkopplungsschleife unterliegt. „Modelle sind keine Orakel“, sagt Alessandro Vespignani, Computer-Epidemiologe an der Northeastern University und Mitwirkender am Ensemble-Hub, der komplexe Netzwerke und die Verbreitung von Infektionskrankheiten mit Schwerpunkt auf „techno-sozialen“ Systemen untersucht, die Feedback-Mechanismen antreiben. „Jedes Modell liefert eine Antwort, die von bestimmten Annahmen abhängig ist.“

Wenn Menschen die Vorhersage eines Modells verarbeiten, stellen ihre nachfolgenden Verhaltensänderungen die Annahmen auf den Kopf, ändern die Krankheitsdynamik und machen die Vorhersage ungenau. Auf diese Weise kann Modellierung eine „selbstzerstörende Prophezeiung“ sein.

Und es gibt noch andere Faktoren, die die Unsicherheit verstärken könnten: Saisonalität, Varianten, Verfügbarkeit oder Aufnahme von Impfstoffen; und politische Änderungen wie die schnelle Entscheidung der CDC über die Demaskierung. „Dies alles sind große Unbekannte, die, wenn man die Ungewissheit der Zukunft tatsächlich einfangen wollte, das, was man sagen könnte, wirklich einschränken würde“, sagt Justin Lessler, Epidemiologe an der Johns Hopkins Bloomberg School of Public Health und Mitarbeiter von der COVID-19-Prognose-Hub.

Lesen Sie auch  Weltraumspazierende Astronauten installieren neues Solarpanel

Die Ensemble-Studie zu Todesprognosen beobachtete, dass die Genauigkeit abnimmt und die Unsicherheit wächst, wenn Modelle weiter in die Zukunft voraussagen – es gab etwa das Doppelte des Fehlers, wenn man vier Wochen in die Zukunft blickte, verglichen mit einer Woche (vier Wochen gelten als die Grenze für aussagekräftige kurzfristige Prognosen; beim Zeithorizont von 20 Wochen lag der Fehler etwa fünfmal vor).

“Es ist fair zu diskutieren, wann etwas funktioniert hat und wann nicht.”

Johannes Bracher

Aber die Bewertung der Qualität der Modelle – Warzen und alle – ist ein wichtiges sekundäres Ziel von Prognosezentren. Und das ist ganz einfach, denn kurzfristige Vorhersagen werden als Maßstab für ihren Erfolg schnell mit der Realität der täglich erhobenen Zahlen konfrontiert.

Die meisten Forscher unterscheiden zwischen solchen „Prognosenmodellen“, die darauf abzielen, explizite und überprüfbare Vorhersagen über die Zukunft zu treffen, die nur kurzfristig möglich sind; im Vergleich zu einem „Szenariomodell“, das „Was-wäre-wenn“-Hypothesen untersucht, mögliche Handlungsstränge, die sich mittel- oder langfristig entwickeln könnten (da Szenariomodelle keine Vorhersagen sind, sollten sie nicht rückwirkend gegen die Realität bewertet werden).

Während der Pandemie wurde oft ein kritischer Blick auf Modelle gerichtet, deren Vorhersagen spektakulär falsch waren. „Während längerfristige Was-wäre-wenn-Prognosen schwer zu bewerten sind, sollten wir nicht davor zurückschrecken, kurzfristige Vorhersagen mit der Realität zu vergleichen“, sagt Johannes Bracher, Biostatistiker am Heidelberger Institut für Theoretische Studien und am Karlsruher Institut für Technologie. der einen deutschen und polnischen Hub koordiniert und den europäischen Hub berät. „Es ist fair zu diskutieren, wann etwas funktioniert hat und wann nicht“, sagt er. Eine fundierte Debatte erfordert jedoch, die Grenzen und Absichten von Modellen zu erkennen und zu berücksichtigen (manchmal waren die schärfsten Kritiker diejenigen, die Szenariomodelle mit Prognosemodellen verwechselten).

“Die große Frage ist, können wir uns verbessern?”

Nicholas Reich

Ebenso sollten Modellierer dies sagen, wenn sich Vorhersagen in einer bestimmten Situation als besonders hartnäckig erweisen. „Wenn wir eines gelernt haben, ist es, dass Fälle auch kurzfristig extrem schwer zu modellieren sind“, sagt Bracher. “Todesfälle sind ein verzögerter Indikator und sind leichter vorherzusagen.”

Lesen Sie auch  WHO „zutiefst besorgt“, da zugelassene COVID-Impfstoffe nicht von allen Nationen anerkannt werden | Weltnachrichten

Im April waren einige der europäischen Modelle zu pessimistisch und verpassten einen plötzlichen Rückgang der Fälle. Es entbrannte eine öffentliche Debatte über die Genauigkeit und Zuverlässigkeit von Pandemiemodellen. Auf Twitter fragte Bracher: „Ist es überraschend, dass die Modelle (nicht selten) falsch liegen? Nach einer einjährigen Pandemie würde ich sagen: Nein.“ Umso wichtiger sei es, dass Modelle ihren Grad der Gewissheit oder Unsicherheit aufzeigen, dass sie eine realistische Haltung zur Unvorhersehbarkeit von Fällen und zum zukünftigen Verlauf einnehmen. „Modellierer müssen die Unsicherheit kommunizieren, aber sie sollte nicht als Fehler angesehen werden“, sagt Bracher.

Manchen Modellen mehr vertrauen als anderen

Ein oft zitierter statistischer Aphorismus lautet: „Alle Modelle sind falsch, aber einige sind nützlich.“ Aber wie Bracher feststellt: „Wenn Sie den Ensemble-Modellansatz verfolgen, sagen Sie in gewisser Weise, dass alle Modelle nützlich sind, dass jedes Modell etwas beizutragen hat“ – obwohl einige Modelle informativer oder zuverlässiger sind als andere.

Die Beobachtung dieser Fluktuation veranlasste Reich und andere, zu versuchen, das Ensemblemodell zu „trainieren“ – das heißt, wie Reich erklärt, „Algorithmen zu bauen, die dem Ensemble beibringen, einigen Modellen mehr zu vertrauen als anderen und zu lernen, welche präzise Kombination von Modellen harmonisch zusammenarbeitet“. .“ Brachers Team steuert nun ein Mini-Ensemble bei, das nur aus Modellen besteht, die in der Vergangenheit konstant gute Leistungen erbracht haben und das klarste Signal verstärken.

“Die große Frage ist, können wir uns verbessern?” Reich sagt. „Die ursprüngliche Methode ist so einfach. Es scheint, dass es einen Weg geben muss, den einfachen Durchschnitt all dieser Modelle zu verbessern.“ Bisher erweist es sich jedoch als schwieriger als erwartet – kleine Verbesserungen scheinen machbar, aber dramatische Verbesserungen können nahezu unmöglich sein.

Ein ergänzendes Instrument, um unsere Gesamtperspektive auf die Pandemie über die wöchentlichen Einblicke hinaus zu verbessern, besteht darin, mit diesen „Szenariomodellen“ weiter auf den Zeithorizont von vier bis sechs Monaten zu blicken. Im vergangenen Dezember starteten Lessler und seine Mitarbeiter, motiviert durch den Anstieg der Fälle und die bevorstehende Verfügbarkeit des Impfstoffs, in Absprache mit der CDC den COVID-19-Szenario-Modellierungshub.

.

Leave a Reply

Your email address will not be published.

This site uses Akismet to reduce spam. Learn how your comment data is processed.