zurück zum Artikel

Von der Wahrsagerei zur Wahlprognose

Umfragen zu Bundes- und Landtagswahlen liegen oft daneben. Warum ist das so und welche Alternativen gibt es? Ein Vergleich von Umfrageinstituten, Wahlbörsen und Expertenprognosen

Wie nach der letzten Bundestagswahl im September 2021 läuft es in Deutschland fast immer wieder ab. Vor der Wahl gibt es eine große Anzahl von Umfragen und Voraussagen, die von Medien und Politikern förmlich aufgesogen werden.

Dabei wird wenig über deren Genauigkeit und Qualität diskutiert. Vielmehr möchte man lieber hohe Aufmerksamkeit erregen, weil sich daraus besondere Geschichten schreiben lassen, die beim Publikum besser ankommen als nüchterne, aber viel informativere Statistiken.

Nach der Wahl folgt meist nur ein knappes Resümee. Je nach Prognosegüte zum Beispiel eine kurze, harte Kritik, wie nach den schlechten Analysen zur Landtagswahl in Sachsen-Anhalt oder Lob wie bei der aktuellen Bundestagswahl, allerdings nur für die Umfragen.

Dann verlangt man wieder nach neuen politischen Einschätzungen, die von speziellen Anbietern wie Civey mit Internetumfragen fast täglich durchgeführt werden, ohne deren Qualität empirisch nachweisen zu können.

Im Gegensatz dazu soll als Diskussionsgrundlage eine umfangreiche Qualitätsanalyse mittels einer Gesamttabelle zu den letzten sechs Bundestagswahlen sowie einem zweiten Ranking zu den 16 aktuellen Landtagswahlen vorgelegt werden. Damit ist ein mittel- bis langfristiger, objektiver Vergleich anhand von sechs sinnvollen Kriterien möglich.

Gesamtrangliste zu den Bundestagswahlen 2002-2021

Die Gesamtrangliste zu den Bundestagswahlen beginnt 2002, weil seitdem verstärkt Wahlbörsen eingesetzt worden sind. Ferner wird gefordert, dass ein Institut nur dann in diese Rangliste aufgenommen wird, wenn es an mindestens der Hälfte dieser Bundestagswahlen teilgenommen hat.

Bis zur letzten Wahl waren dies zehn Institute, die alle weiterhin dabei sind. Jetzt kommen sechs neue hinzu, und zwar die drei Umfrageinstitute INSA, Trend Research und Ipsos sowie die drei Expertenprognosen von Prognosys, PollyVote und Prognos.

In der Zusammenstellung zu einer Gesamtrangliste gibt es dadurch einige kleine Harmonisierungsprobleme, weil zum Beispiel insgesamt die letzten Bundestagswahlen 2017 und 2021 hinsichtlich der Prognosegüte recht gut ausgefallen sind, insbesondere im Vergleich zur bisher schlechtesten von 2005.

Bei den vier individuellen Kriterien MAF (mittlerer, absoluter Fehler), MAPF (mittlerer, absoluter, prozentualer Fehler), MQF (mittlerer, quadratischer Fehler) und MFIP95 (mittlerer Fehler für Intervall-Prognosen)1 [1] kann man feststellen, dass die Neulinge dadurch einen gewissen Vorteil haben.

Bei den beiden kollektiven Kriterien ist es hingegen anders. Mit den Top drei/Flop drei Bewertungen sollen besonders gute bzw. schlechte Institute in jeder Wahl in Bezug auf alle Teilnehmer einen zusätzlichen Bonus bzw. Malus erhalten. Das ist bei den Wahlen 2002 bis 2009 mit insgesamt neun bis elf Teilnehmern leichter möglich als bei den letzten beiden Wahlen mit der Rekordzahl von 24 Instituten.

Noch deutlicher wird dieser Sachverhalt beim Kriterium MR des mittleren Rangs.2 [2] Dort werden nur in Bezug auf die Teilnehmer am Gesamtranking für jede Wahl die Ränge ermittelt und der Durchschnitt gebildet. Da es bei den ersten Bundestagswahlen von 2002 bis 2009 deutlich weniger Konkurrenten gab als von 2013 bis 2021, haben hier die Neulinge ebenfalls einen Nachteil.

Bei Betrachtung aller sechs Kriterien kommt es damit zu einem Ausgleich (kurze Erläuterungen zu den Kriterien findet man im Anhang). Diese Rangliste, die neben der Gesamtrangliste aus allen aktuellen Landtagswahlen am wichtigsten ist, besitzt daher eine starke Aussagekraft.

Institut Methode Teilnahmen Rangsumme Rang
Prognosys-Master-Vote EP 3 15,5 1
Prognosys/PESM WB 5 19,5 2
ProKons/Wahlfieber WB 5 21,0 3
FGW U 6 25,5 4
INSA U 3 29,0 5
Allensbach U 6 42,0 6
Trend Research U 3 45,0 7
Ecce Terram/Wahlstreet WB 3 49,5 8
infratest U 6 51,5 9
PollyVote/Uni München EP 3 57,5 10
Emnid U 6 60,0 11
Forsa U 6 68,0 12
eix/Uni Karlsruhe WB 3 74,0 13
Prognos EP 3 79,0 14
GMS U 6 83,0 15
Ipsos U 3 96,0 16
EP: Expertenprognose; WB: Wahlbörse; U: Umfrage

Nach den Bundestagswahlen von 2013 und 2017 hatte sich ein stabiles Spitzentrio aus Forschungsgruppe Wahlen (FGW) und den beiden Wahlbörsen von Prognosys und ProKons aus Österreich gebildet. Jetzt hat der Neuling Prognosys-Master-Vote mit drei sehr guten bis guten Prognosen die Führungsposition erobert vor der PESM-Wahlbörse, ebenfalls von Prognosys, sowie Wahlfieber von ProKons.

Durch das im Vergleich zur Konkurrenz nicht ganz so gute Abschneiden im Jahr 2021 liegt FGW nun auf dem vierten Platz, vor dem zweiten Neuling, dem Umfrageinstitut INSA.

Hinter diesem Quintet klafft in der Rangsumme und damit der Qualität eine große Lücke. Im nachfolgenden Mittelfeld sind sechs weitere Institute positioniert. Zunächst Allensbach, das noch face-to-face-Umfragen durchführt und dieses Mal von allen zwölf teilnehmenden Umfrageinstituten am besten abgeschnitten hat.

Es folgt mit Trend Research ein weiterer Neuling vor Wahlstreet, der Wahlbörse von Ecce Terram, die 1998 in Kooperation mit Die Zeitund einem Rekord von 9.500 Teilnehmern die Wahlbörsen populär gemacht hat. Diese verdienstvolle Wahlbörse wird nach der nächsten Bundestagswahl wahrscheinlich ausscheiden, weil sie seit 2009 nicht mehr aktiv war.

Auf dem neunten Platz steht infratest. Das Institut könnte in der Spitzengruppe sein, wenn es nicht darauf verzichten würde, in der letzten Woche vor der Wahl Umfragen durchzuführen. Auf dem zehnten Platz steht mit PollyVote von der Universität München ein sehr interessanter Vertreter, der mit seinem kombinierten Ansatz in den USA große Erfolge errungen hat.

Die Methode enthält folgende Komponenten: Umfragen, Prognosemärkte, eine Expertengruppe sowie Spezialmodelle. In Deutschland scheint die Konkurrenz härter zu sein - wie die bisherigen Ergebnisse zeigen. Das Mittelfeld wird von Kantar (früher Emnid) komplettiert.

Das hintere Drittel führt Forsa an. Dahinter folgt mit eix eine Wahlbörse der Universität Karlsruhe, die ebenfalls bereits länger nicht mehr angetreten ist. Die Expertenprognose von Prognos erreicht nur einen enttäuschenden vierzehnten Platz. Bei Landtagswahlen hat sie wesentlich besser abgeschnitten und häufig Spitzenresultate erzielt. Schließlich liegen die beiden Umfrageinstitute GMS und Ipsos am Tabellenende.

Beim Methodenvergleich führen die drei Spezialprognosen von Prognosys-Master-Vote, PollyVote und Prognos knapp vor der Gruppe der vier Wahlbörsen. Klar auf dem letzten Platz rangiert die Gruppe der neun Umfrageinstitute.

Diese Gesamtrangliste für die sechs zurückliegenden Bundestagswahlen ist sehr aufschlussreich, weil sie über einen längeren Zeitraum mithilfe von sechs Kriterien eindeutig die Spreu vom Weizen trennt und die Institute mit besonders guter Prognosequalität auszeichnet.

Gesamtrangliste der 16 aktuellen Landtagswahlen

In der Gesamtrangliste für sämtliche aktuellen Landtagswahlen führt wieder FGW mit deutlichem Vorsprung wie bei unserer ersten Analyse Ende 2018. Zwischendurch konnte sich die anonyme Expertenprognose von Prognos nach einer Serie erfolgreicher Prognosen in den Jahren 2019 und 2020 an die Spitze setzen.

Nach den Doppelwahlen in Baden-Württemberg und Rheinland-Pfalz im März 2021 erreichte FGW, zunächst gemeinsam mit der PESM Wahlbörse, und schließlich nach den relativ guten Ergebnissen in Sachsen-Anhalt wieder allein, die Spitzenposition.

Institut Methode Teilnahmen Rangsumme Rang
FGW U 16 7,5 1
Prognosys-Master-Vote EP 16 16,0 2
Prognosys/PESM WB 16 18,5 3
Wahlfieber WB 16 21,5 4
Prognos EP 16 26,5 5
Birnstingl EP 12 40,5 6
Wahlrecht.de/Wahltipp EP 10 43,0 7
dawum EP 12 43,5 8
infratest U 16 54,0 9
INSA U 16 62,0 10
Civey U 13 63,0 11

Zurzeit folgen hinter FGW mit jeweils geringen Abständen untereinander der Prog-no-sys-Master-Vote, eine Expertenschätzung von Professor Mohr, sowie die beiden Wahlbörsen von PESM und Wahlfieber. Hingegen ist Prognos nach den mäßigen Resultaten bei den letzten beiden Wahlen etwas weiter zurückgefallen. Diese fünf Institute bilden somit seit mehreren Jahren in wechselnder Reihenfolge eindeutig die Spitzengruppe.

Mit größerem Abstand wird das Mittelfeld von Birnstingl angeführt, einer kompetenten und diskussionsfreudigen Wahlbörsenspezialistin aus dem fernen Rom. Dahinter folgt mit dem Wahltipp eine erfolgreiche Version der direkten Schwarmintelligenz. Es sieht leider so aus, dass der Betreiber Wahlrecht dieses interessante Experiment nicht mehr fortsetzen wird.

Neu hinzugekommen ist dawum mit einer gewichteten Durchschnittsprognose von relevanten Wahlumfragen, wobei etwa aktuellere Umfragen höher gewichtet werden. Bemerkenswert ist der Sachverhalt, dass von den hier vertretenen vier Umfrageinstitute nur eines, nämlich FGW, besser anschneidet als dawum.

Im Schlussabschnitt der Tabelle sind nur noch Umfrageinstitute zu finden. Deren Prognosequalität steht somit in einem krassen Missverhältnis zum getätigten Aufwand. Auf Platz neun rangiert das renommierte und traditionsreiche Institut infratest dimap, das viele Analysen für die ARD durchführt. Dieses Institut hält als einziges immer noch an der früher postulierten Selbstverpflichtung fest, in der letzten Woche vor der Wahl keine Umfragen durchzuführen.

Wenn man nur die Prognosen in der vorletzten Woche vergleicht, könnte infratest durchaus mit dem Spitzenreiter FGW (ZDF) konkurrieren. Da die ARD sich über die Gebühren der Rundfunkabgabe finanziert, sollte sie eigentlich verpflichtet sein, mit ihrem Jahresetat von über fünf Milliarden Euro und ihrem sehr hohen Aufwand für Wahlanalysen und Prognosen bestmögliche Schätzungen vorzulegen.

INSA und Civey versuchen ebenfalls mit viel Öffentlichkeitsdrang und häufigen Umfragen im Umfeld von Wahlen für Bild (INSA) und Spiegel (Civey) zu punkten.

Insbesondere das relativ neue Institut Civey strebt an, mit seinen massenhaften, fast täglichen internetbasierten Umfragen zu Politikerinnen und Politikern, Parteien und anderen allgemein wichtigen Fragen unsere Gesellschaft zu vermessen. Es gibt dazu jedoch kaum reale Vergleichswerte, womit eine hinreichende, empirische Qualitätskontrolle nicht stattfinden kann. Man darf höchstens annehmen, dass die statistischen Aussagen in der Tendenz stimmen.

Wie INSA schneidet auch Civey im Ranking der finalen Wahlprognosen relativ schlecht ab, indem sie seit längerer Zeit die beiden letzten Plätze belegen. Das ist umgekehrt proportional zu ihren Aktivitäten und öffentlichen Auftritten.

Das Institut Forsa ist wegen der geringen Teilnahmen aus der Tabelle gefallen. Es lag vorher ebenfalls auf den hinteren Rängen. Weitere Traditionsinstitute wie Allensbach, Emnid (Kantar) oder GMS sind praktisch nicht mehr bei Landtagswahlen tätig, sondern machen lieber wie Forsa häufiger Umfragen zu den Bundestagswahlen, weil diese mehr Publicity bringen.

Auch wenn die Medien es wohl wieder nicht zur Kenntnis nehmen werden, ist als Fazit völlig einwandfrei festzuhalten: Von der Methode her stehen die Wahlbörsen mit großem Vorsprung vorn, insbesondere weil sie unter anderem häufig, wie bei der aktuellen Bundestagswahl, den last swing in den letzten Tagen aufnehmen können.

Klar auf dem zweiten Platz steht die Gruppe der Experten- und Modellprognosen, die nur fremde Informationen verarbeiten, aber selbst nicht wie Umfragen und Wahlbörsen empirische Daten erzeugen. Weit abgeschlagen landet die Gruppe der Umfrageinstitute auf dem letzten Platz.

Umfrageinstitute sind (mit Ausnahme von FGW bei Umfragen zu Bundestagswahlen) intransparent, weil die Rohdaten aus den Befragungen nicht veröffentlicht werden. Zudem wird mit dem Begriff Repräsentativität, der zum Goldstandard hochstilisiert wird, etwas vorgetäuscht, das in der mathematischen Stichprobentheorie nicht existiert.

Man arbeitet vielmehr mit approximativen Zufallsstichproben, wobei der wichtige Ausschöpfungsgrad (der wohl nur noch zwischen zehn und 15 Prozent liegt), ebenfalls geheim gehalten wird. Man kann doch ohne Imageverlust zugeben, dass man das Rohmaterial durch jahrelang gewonnene Expertise teilweise deutlich verändert.

Denn letztlich sollte nur die Prognosequalität entscheiden. Trotz dieser Einwände beherrschen Umfrageinstitute mit Hilfe der Medien den Meinungs- und Prognosemarkt für Wahlanalysen fast vollständig, wie man gerade bei den aktuellen Bundestagswahlen gesehen hat. Doch dort sprechen die Prognosevergleiche noch eindeutiger für Wahlbörsen als für die Umfrageinstitute.

Bei der Super-Rangliste dient als Kriterium die Rangsumme aus den Einzelrängen, die in den beiden Gesamttabellen erreicht wurden. Nur sieben Institute sind gleichzeitig in beiden Gesamttabellen vertreten.

Institut Rang BTW Rang LTW Rangsumme Gesamtrang
Prognosys-Master-Vote 1 2 3 1
FGW 4 1 5 2/3
PESM Wahlbörse 2 3 5 2/3
Wahlfieber (Wahlbörse) 3 4 7 4
INSA 5 10 15 5
infratest 9 9 18 6
Prognos 14 5 19 7

An der Spitze steht zurzeit die Expertenprognose Prognosys-Master-Vote. Gemeinsam folgen das klar beste Umfrageinstitut Forschungsgruppe Wahlen (ZDF) und die PESM Wahlbörse von Prognosys. Knapp dahinter belegt Wahlfieber, eine österreichische Wahlbörse, den vierten Platz. Die Lücke zu den anderen Instituten ist ziemlich groß, was auf einen deutlichen Qualitätsunterschied hinweist.

Im unteren Teil sind die beiden Umfrageinstitute von INSA und infratest sowie die Expertenschätzungen von Prognos positioniert. Es hat zehn Jahre gedauert, um unser Produkt Prognosys-Master-Vote an die Spitze zu bringen. Mit diesem Projekt sollte gezeigt werden, dass die Prinzipien von Tetlock (im Buch Superforecasting) und Kahnemann (Schnelles Denken, langsames Denken, sowie Noise) erfolgreich auf die Erstellung von Wahlprognosen übertragen werden können.

Nach dem Vorbild von Tetlock in den USA könnte man auch in Deutschland eine Gruppe von Superprognostikern ausbilden, die Voraussagen von höchster Qualität für viele Gesellschaftsbereiche erstellen könnte. Das wäre ein Think-Tank, dessen Leistungen numerisch überprüfbar wären.

Fazit

Die beiden aktiven Wahlbörsen von Prognosys und ProKons schneiden, wie hier gezeigt, klar besser ab als die Gruppe der Umfrageinstitute. Nur Forschungsgruppe Wahlen kann mithalten und die Expertenprognosen von Prognosys-Master-Vote sowie Prognos (zumindestens bei Landtagswahlen).

Weil die Qualitätswerte in beiden Gesamttabellen sehr stabil sind, wird sich in den nächsten Jahren nur wenig ändern. Neue Institute wie INSA, Civey oder Wahlkreisprognose müssen Lehrgeld zahlen.

Nach diesen Statistiken ist es höchst verwunderlich, dass Wahlbörsen trotz ihrer Qualität und medialen Eignung praktisch keine Rolle spielen. Keine größere Zeitung oder Fernsehanstalt hat zum Beispiel auf die hervorragenden Ergebnisse der Wahlbörsen bei den letzten beiden Bundestagswahlen hingewiesen.

Vielleicht können wir mit diesem Artikel eine Diskussion anstoßen? Interessant wäre eine Begründung, warum trotz ihrer eindeutig schlechteren Qualität die Umfrageinstitute zusammen mit den Medien den Meinungs- und Prognosemarkt bei Wahlen vollständig dominieren.

Über die Autoren:

Prof. Dr. Walter Mohr
Studium der Mathematik und Wirtschaftswissenschaften, Lehr- und Forschungstätigkeiten an Fachhochschulen und Universitäten mit über 50 Veröffentlichungen, insbesondere in den Bereichen Zeitreihenanalyse und Wirtschafts- und Wahlprognosen sowie medizinischen Qualitätsuntersuchungen (eHealth).

Dr. Frank W. Püschel
Studium der Mathematik und Wirtschaftswissenschaften, Lehrtätigkeiten im Hochschulbereich, Forschungsschwerpunkt auf den Gebieten der Zeitreihenanalyse und Wirtschaftsprognosen. Aktuell tätig in der Geschäftsführung eines Medizinprodukteherstellers.

Erläuterungen zu den Gesamttabellen

MAF: mittlerer, absoluter Fehler

Für jedes Institut werden die absoluten Abweichungen (das heißt ohne Beachtung der Vorzeichen) zwischen Prognose und Wahlergebnis für jede Partei aufaddiert und daraus der Mittelwert berechnet. Der MAF ist einfach interpretierbar und wird in den Medien am häufigsten verwendet.

MAPF: mittlerer, absoluter, prozentualer Fehler

Die absoluten Abweichungen zwischen Prognose und Wahlergebnis (MAF) werden bei jeder Partei durch die zugehörigen Wahlergebnisse dividiert. Diese Quotienten werden aufaddiert und daraus der Mittelwert berechnet. Der MAPF ist eine sinnvolle Ergänzung zum MAF, da er den absoluten Fehler in Relation zum Wahlergebnis betrachtet. Es macht einen deutlichen Unterschied, ob man beispielsweise bei einem Wahlergebnis von 5 Prozent oder von 20 Prozent um absolute 2 Prozentpunkte falsch liegt. Im ersten Falle beträgt der prozentuale, absolute Fehler 40 Prozent, im zweiten nur 10 Prozent. Das bedeutet jedoch auch, dass der MAPF sehr sensibel auf eine Abweichung bei einer kleineren Partei reagieren kann.

MQF: mittlerer, quadratischer Fehler

Hier werden die einzelnen absoluten Abweichungen zwischen Prognose und Wahlergebnis für jede Partei quadriert. Diese Werte werden aufsummiert und daraus der Mittelwert bestimmt. Bisweilen wird daraus noch die Quadratwurzel gezogen, um den sogenannten root mean square error (RMSE) zu erhalten. Der MQF bzw. RMSE ist ein natürliches Distanzmaß und liefert die Basis für statistische Tests.

MFIP95: mittlerer Fehler für Intervall-Prognosen

Für jede Partei und die Sonstigen wird auf Basis der jeweiligen Punktprognose mittels der bei Zufallsstichproben üblichen Fehlerformel ein 95-prozentiges Prognoseintervall berechnet. Ein Fehler liegt vor, wenn dieses Prognoseintervall den tatsächlichen Wert nicht überdeckt. Gibt es z.B. in 7 Fällen 2 Fehler, so beträgt der zugehörige MFIP95 hierfür 2/7=0.286.

Weitere Anmerkungen

Alle vier Fehlerkriterien sind stark positiv korreliert. Bei jedem Fehlerkriterium wird jedem Institut durch Vergleich der Werte mit den anderen Instituten ein entsprechender Rang zugeordnet. Bei Gleichheit von mehreren Instituten in einem Kriterium wird allen der entsprechende mittlere Rang zugewiesen. Alle vier Fehlermaße werden gleich gewichtet. Aus den einzelnen Rängen wird die Rangsumme (RS) gebildet, mit deren Hilfe schließlich die endgültige Rangliste bei Einzelwahlen erstellt wird.

Zu den vier Fehlermaßen werden für die Erstellung einer Gesamtrangliste aus mehreren Einzelranglisten noch zwei zusätzliche Kriterien verwendet, nämlich der Top3/ Flop3-Anteil sowie der mittlere Rang für die jeweilige Gruppe. Beim ersteren werden Platzierungen unter den ersten drei Rängen aller Teilnehmer positiv und unter den letzten drei Plätzen negativ bewertet. Diese Differenz zwischen der Anzahl der Top drei- und der Flop drei-Plätze wird noch durch die Anzahl der Teilnahmen dividiert.

Beim mittleren Rang (MR) werden die Ränge aus den Einzelranglisten gemittelt, allerdings nur bezogen auf die Konkurrenten des Gesamtrankings. Ferner werden nur Institute in die Gesamtrangliste aufgenommen, die an mindestens der Hälfte der Einzelwahlen teilgenommen haben.


URL dieses Artikels:
https://www.heise.de/-6289275

Links in diesem Artikel:
[1] https://www.heise.de/tp/features/Von-der-Wahrsagerei-zur-Wahlprognose-6289275.html?view=fussnoten#f_1
[2] https://www.heise.de/tp/features/Von-der-Wahrsagerei-zur-Wahlprognose-6289275.html?view=fussnoten#f_2