Wer gewinnt die Fußballweltmeisterschaft?

Abb. 1: Das statistische Ergebnis von 10.000 Simulationsdurchläufen der WM. Die Angaben in Prozent geben an, mit welcher Häufigkeit ein Team eine Eliminationsphase in der Simulation gewonnen hat. Teams, die unter 1% fallen, werden nicht angezeigt.

Bei der Fußballweltmeisterschaft in Brasilien treten 32 Nationalmannschaften gegeneinander um den Titel an. Man kann mit den vorhandenen Informationen bereits heute die Siegwahrscheinlichkeiten der verschiedenen Teams berechnen

Der folgende Beitrag ist vor 2021 erschienen. Unsere Redaktion hat seither ein neues Leitbild und redaktionelle Standards. Weitere Informationen finden Sie hier.

Möchte man wissen, wer die nächste WM gewinnt, kann man das gesamte Turnier am Computer simulieren. Es kann eine Siegwahrscheinlichkeit für jedes Spiel anhand der verfügbaren Rankings der Nationalmannschaften berechnet werden. Es wird dann zunächst die Gruppenrunde gespielt und anschließend die Eliminationsphase bis zum Finale.

Bei jedem Spiel gewinnt jedoch nicht immer die hypothetisch bessere Mannschaft: Es wird im Computer "gewürfelt", d.h. wenn eine Mannschaft A im Durchschnitt 70 Prozent der Zeit gegen eine Mannschaft B gewinnen soll, gibt es in einer Software-Urne sieben mit A markierte und drei mit B markierte Kugeln. Die Software "zieht" eine Kugel zufällig und deswegen gewinnt meistens A, aber ab und zu auch B. Es kann durch diese stochastischen Entscheidungen gelegentlich geschehen, dass sogar ein Außenseiter wie Honduras das Finale erreicht.

Um solche Fluktuationen zu "glätten", wird die WM nicht nur einmal, sondern 1000 oder sogar 10.000 Mal in der Simulation ausgetragen. Am Ende erhält man die Häufigkeiten, mit denen ein Team die verschiedenen Stufen der WM erreichen konnte, d.h. die Wahrscheinlichkeitsverteilung für das Gewinnen von jeder Phase, inklusive dem Titel. Abb. 1 zeigt das Ergebnis einer solchen Simulation. Der Simulator kann über www.worldcup-simulator.de gestartet werden. Die Software läuft auf einer Cloud von Rechnern und ist jedem Ansturm von Benutzern gewachsen. Nur zu.

In Abb. 1 sieht man links vier WM-Gruppen und rechts andere vier WM-Gruppen angeordnet. Die Simulation zeigt, welche zwei Teams in jeder Gruppe weiterkommen sowie ihre Punktzahl aus den Gruppenspielen. In der Runde der letzten sechzehn gibt es für jedes Spiel acht verschiedene mögliche Teilnehmer (alle Teams aus zwei Gruppen). Es wird gezeigt, mit welcher Häufigkeit jedes der acht Teams die nächste Phase erreicht hat.

In der Gruppe der letzten Acht gibt es für jedes Spiel sechzehn mögliche Teilnehmer. Diese Eingruppierung wiederholt sich für die nächste Phase und so weiter bis zum Finale. Teams, deren Wahrscheinlichkeit, eine Phase zu bestehen, unter 1% fällt, werden nicht angezeigt, um die Tabellen zu vereinfachen. Schließlich zeigt die Liste in der Mitte der Abbildung, dass in der Simulation Brasilien 25% der simulierten WMs gewonnen hat, Spanien 16% und Deutschland 14%. Diese Resultate wurden ermittelt für eine kombinierte Leistungsschätzung, die drei verschiedene Rankings und den Marktwert der Nationalmannschaften berücksichtigt. Man kann außerdem in der Simulation einen Heimvorteil für Brasilien gewähren oder nicht. Mit einem solchen Vorteil ausgestattet ist Brasilien der große Favorit der nächsten WM. Auf die Nationalmannschaften Brasilien, Spanien, Deutschland und Argentinien entfällt etwa 70% der Wahrscheinlichkeit die WM zu gewinnen. Sollte eine andere Mannschaft statt einer aus dieser Vierergruppe Weltmeister werden, wäre das die Überraschung der WM.

Die statistische Historie der WM

Man kann sich ohne jegliche Simulation ein Bild der nächsten WM durch die nüchterne Betrachtung der statistischen Gegebenheiten seit 1966 verschaffen. In den letzten 48 Jahren (12 Weltmeisterschaften) gab es bei den 12 Endspielen nur acht unterschiedliche Teilnehmer. Brasilien und Argentinien waren beim Endspiel viermal bzw. dreimal dabei, während Deutschland der Endspielrekordteilnehmer in dieser Periode ist: Sechs Mal ist die deutsche Nationalmannschaft bis ins Finale durchmarschiert. Es ist nicht verwegen anzunehmen, dass aus dieser Achtergruppe die Endspielteilnehmer von 2014 zu rekrutieren sind.

Dazu kommt der Heimvorteil. In vier der letzten 12 WMs hat der Gastgeber gewonnen. Wenn aber berücksichtigt wird, dass der Gastgeber fünfmal keine ansehnliche Mannschaft stellen konnte, bedeutet dies, dass ein Gastgeber mit einem guten Team bei vier von sieben WMs gewonnen hat, d.h. in 57% der Fälle! Und in sechs von sieben Fällen stand ein gutes Gastgeberteam in Halbfinale (85%).

Wenn also Brasilien nicht mindestens das Halbfinale erreicht, kann man mit dem Fall der Regierung von Präsidentin Dilma Rousseff rechnen. Auch gut zu wissen: Wenn der Gastgeber das Endspiel erreicht, verliert er nie. Kein Wunder also, dass Brasilien trotz aller spielerischen Defizite der große Favorit für die kommende WM ist. Ein schlechtes Omen für Spanien ist noch dazu, dass seit 1966 kein Team zweimal hintereinander die WM gewonnen hat (was Italien und Brasilien vor 1966 gelang).

Crowdsourcing

Ein heute übliches Verfahren um Wahrscheinlichkeiten für komplexe Ereignisse zu ermitteln, ist das "Crowdsourcing". Eine Community von Benutzern teilt Präferenzen oder Einschätzungen mit, sei es direkt über Umfragen, sei es indirekt über Wettmärkte. So sind die letzten Wahlen in den USA durch virtuelle Aktienmärkte recht gut prognostiziert worden, bei denen die Kandidaten selbst die verkaufte "Ware" darstellen.

Für den Fußball gibt es Wettmärkte und dort können wir vergleichen, welche Wahrscheinlichkeiten für die verschiedene Nationalteams heute (24. Mai) gehandelt werden. Die Tabelle unten zeigt den Durchschnitt der Wahrscheinlichkeiten von sechs großen Wettanbietern im Internet. Es werden nur die Mannschaften angegeben, denen mehr als 4% Wahrscheinlichkeit eingeräumt wird, die WM zu gewinnen.

Wie man aus der Tabelle entnehmen kann, ist Brasilien auch der Favorit dieser Wettgemeinde, wobei Argentinien viel mehr zugetraut wird als die Nationalmannschaft in den letzten beiden Jahren spielerisch gezeigt hat. Obwohl Argentinien nicht so gute Ranking-Indikatoren besitzt, profitiert es doch zum Teil vom Heimvorteil des südamerikanischen Halbkontinents. Auch Italien und England liegen ziemlich hoch bei den Wetten, verglichen mit ihren bisherigen Leistungen.

Logistische Entscheidungsfunktion

Solche Simulationen einer WM, wie die von uns durchgeführten, basieren auf Indikatoren die bei Rankings von Nationalmannschaften erstellt worden sind. An einer anderen Stelle habe ich bereits erläutert, wie die FIFA, ELO und ESPN/SPI-Rankings verglichen werden können, welche Korrelation sie aufweisen und wie man die Leistungspunkte, die in den Rankings für jedes Nationalteam eingetragen werden, für eine Prognose der Siegwahrscheinlichkeit in einem Spiel verwendet werden können (Die Telepolis-Fußball-Weltrangliste). Der Marktwert einer Nationalmannschaft ist ebenfalls ein Indikator für die Güte eines Teams.

Treten zwei Mannschaften gegeneinander an, ist davon auszugehen, dass die im Ranking besser platzierte häufiger gewinnt. Der Maßstab dafür ist die Differenz der FIFA bzw. Elo-Punkte oder des Marktwerts. Es ist beispielsweise zu erwarten, dass dann, wenn die Differenz der Indikatoren sehr groß ist (z.B. Brasilien gegen Island), die Siegwahrscheinlichkeit der besseren Mannschaft gegen 100% steigt. Die Siegwahrscheinlichkeit der schlechteren Mannschaft bewegt sich gegen Null. Deswegen verwenden wir für die Vorhersage wie beim Schach eine logistische oder sigmoidale Funktion.

Abb. 2: Eine logistische Funktion

Die genaue Form dieser Funktion wird im Computer anhand der historischen Daten der Spiele von Nationalmannschaften und der Leistungspunktdifferenz automatisch berechnet. David Dormagen hat im Rahmen seiner Bachelorarbeit an der FU Berlin diese Funktionen an die historischen Daten angepasst. Die Anpassung wurde für die FIFA-, Elo- und SPI-Rankings sowie für die Marktwerte durchgeführt (oder besser gesagt, für die Differenz der Indikatoren von zwei Teams). In die stochastische Urne kommen mehr Kugeln für die bessere als für die schlechtere Mannschaft, je nachdem wie hoch die Gewinnwahrscheinlichkeit der besseren Mannschaft ist. Für die SPI-Rankings wurde die logistische Funktion auf einem Umweg durch die Berechnung der erwarteten Anzahl von Toren mittels einer Poisson-Verteilung ermittelt.

David Dormagen hat unterschiedlich geformte logistische Funktionen getestet und die empirischen Daten für die Anpassung der Kurven verwendet. Abb. 3 und 4 zeigen die Ergebnisse für die Elo- bzw. FIFA-Rankings. Für den Unterschied der Marktwerte der zwei Mannschaften wurde ebenfalls eine logistische Funktion angepasst, wie Abb. 5 zeigt. Die Marktwerte wurden zuvor mit einem Logarithmus vergleichbar gemacht (der Marktwert der Teams steigt exponentiell an, aber ihre Leistung nicht).

Abb. 3: Die angepasste logistische Funktion für die Elo-Ranking-Differenzen (Quelle: D. Dormagen, Development of a Simulator for the World Cup 2014)
Abb. 4: Die angepasste logistische Funktion für die FIFA-Ranking-Unterschiede (Quelle: D. Dormagen, Development of a Simulator for the World Cup 2014)
Abb. 5: Die angepasste logistische Funktion für die Transfermarkt-Unterschiede. Die Marketwerte wurden durch ein Logarithmus vergleichbarer gemacht. (Quelle: D. Dormagen, Development of a Simulator for the World Cup 2014)

Für das Spielergebnis Unentschieden wurden die historischen Daten zu Hilfe genommen und eine Kurve an die erwartete Anzahl an Unentschieden für die Gewinnwahrscheinlichkeit eines jeden Teams angepasst (im Durchschnitt gibt es 33% Unentschieden bei gleich starken Teams). Damit ist es möglich, die WM durchzuspielen sowie Punkte für Siege und Unentschieden in der Gruppenphase zu vergeben. Anschließend gibt es in der Eliminationsphase kein Unentschieden mehr und eine logistische Funktion entscheidet über Sieg oder Niederlage.

Da vier verschiedene Rankings in der Simulation verwendet werden können (FIFA, Elo, SPI und Marktwert) werden für ein Team vier Siegwahrscheinlichkeiten bei einem Spiel berechnet. Ihr gewichteter Durchschnitt wird für die Simulation verwendet. Die Gewichtung kann von Benutzer selbst gewählt werden (Gewichte zwischen 0 und 1) wie Abb. 6 zeigt.

Abb. 6: Die verschiedenen Rankings können durch eine Gewichtung kombiniert werden. Hier haben die FIFA; SPI und Elo-Rankings, sowie der Marktwert, dasselbe Gewicht. Brasilien wird Heimvorteil zugewiesen.

Auch das Durchschnittsalter eines Teams kann als Leistungsmerkmal bei der Gewichtung verwendet werden oder eine Variable "Luck", d.h. so etwas wie ein Münzwurf im Computer. Das Durchschnittsalter eines Teams ist jedoch nicht sehr aussagekräftig und deswegen ist es besser diese Variable nicht sehr hoch zu gewichten. Das liegt daran, das fast alle Teams "jünger" geworden sind: Ghana stellt das jüngste Team der WM (25,2 Jahre) und Chile das älteste (28,3). Der Altersunterschied beträgt nur 3 Jahre.

Um ein Gefühl über die Auswirkung von Mannschaften, die einfach "ausfallen", auf die WM zu bekommen, hat David Dormagen mit einer gewissen Gewichtung der Rankings 100.000 Simulationen durchgeführt, wobei in jeder Subgruppe von 5000 Simulationen fünf per Zufall ausgewählte Teams sehr schlecht gespielt haben. Abb. 7 zeigt den Mittelwert der Gewinnwahrscheinlichkeit für einige Teams und die auf diese Weise ermittelte Standardabweichung. Im Fall von Brasilien ergibt sich eine WM-Gewinnhäufigkeit von etwa 23% plus minus zehn Prozent. Die Gewinnwahrscheinlichkeit ist gut, aber die Streuung relativiert die Güte der Simulationsvorhersage.

Abb. 7: Gewinnwahrscheinlichkeit und Streuung, wenn bei jeder WM fünf per Zufall ausgewählte Teams weit unter ihre Möglichkeiten spielen.

Die Tücken jeder Simulation

Eine Simulation kann nur so gut sein wie die Daten, die dieser Simulation zugrunde liegen. Rankings und sogar Marktwerte spiegeln die Leistungsstärke einer Mannschaft nicht genau wider. Länder wie Dänemark bzw. Griechenland haben die Europameisterschaft bereits gewonnen, ohne jemals sehr hoch in den Rankings gestanden zu haben.

Dazu sollte angemerkt werden, dass die ungewöhnliche Länge der Fußball-WM, die heute mit 32 Teams gespielt wird, die in den Rankings besser platzierten Mannschaften statistisch gesehen favorisiert. Während in einem einzigen echten Turnier Brasilien z.B. vollständig scheitern kann, wird das in den meisten Simulationen nicht geschehen. Die besseren Mannschaften streben in der Simulationen automatisch nach oben und landen häufiger auf den oberen Plätzen. Es ergibt sich ein komplexes Zusammenspiel, wobei die besseren Mannschaften bei den Simulationsdurchläufen den größten Teil der Siegwahrscheinlichkeit "absorbieren". Ordnet man die Mannschaften in Abhängigkeit der Wahrscheinlichkeit, die sie haben, das Halbfinale zu erreichen, ergibt sich eine exponentiell abfallende Kurve. D.h. bei langen Turnieren kann jeder gewinnen, aber der Gewinner kommt fast mit Sicherheit aus einer reduzierten Vorauswahl von Teams.

Ein Turnier wird in der Realität nur einmal durchgespielt und so kann es geschehen, dass eine Mannschaft wie Spanien die WM gewinnt, wobei sie 2010 nur acht Tore in sieben Spielen geschossen hat! Es hätte auch ganz anderes ausgehen können, da Spanien nach der Gruppenphase alle Spiele nur mit 1:0 gewinnen konnte.

Fußball bleibt deswegen unberechenbar und der Computer kann nur einen Hinweis dafür geben, was in einer Durchschnittswelt zu erwarten wäre. Auch Crowdsourcing kann keine definitiven Antworten liefern und für viele Wettspieler wird es am 13. Juli leider ein böses Erwachen geben.

Empfohlener redaktioneller Inhalt

Mit Ihrer Zustimmmung wird hier eine externe Buchempfehlung (Amazon Affiliates) geladen.

Ich bin damit einverstanden, dass mir externe Inhalte angezeigt werden. Damit können personenbezogene Daten an Drittplattformen (Amazon Affiliates) übermittelt werden. Mehr dazu in unserer Datenschutzerklärung.