Algorithmus zur Vorhersage der Rückfälligkeit von Straftätern: Blendwerk an Komplexität
Das Big-Data-Programm ist nicht besser als eine Zufallsgruppe von Menschen, die aus dem Bauch heraus entscheiden
Eine Studie stellt Programme bzw. Algorithmen in Frage, die Vorhersagen über künftiges Verhalten von Menschen machen (predictive analytics). In den USA wird das Programm Correctional Offender Management Profiling for Alternative Sanctions (COMPAS), das mittlerweile equivant heißt, vielfach auch von Gerichten eingesetzt, um das Risiko abzuschätzen, ob Straftäter wieder rückfällig werden. Solche Beurteilungen haben Folgen für die Betroffenen und können beispielsweise das Strafmaß beeinflussen. Aber das Programm, das angeblich neutral viele Parameter in die Vorhersage einbezieht, arbeitet nicht besser als Menschen, die keine Ahnung von der Rechtsprechung haben.
Predictive Analytics oder Vorhersageprogramme, die mit großen Datenmengen (Big Data) und Maschinenlernen arbeiten, werden für viele Zwecke eingesetzt oder entwickelt. So will man damit das Risiko von Erkrankungen oder die Wahrscheinlichkeit des Begehens von Straftaten in der Zukunft berechnen, um präventiv handeln zu können. Sagt das Programm, dass etwa in einem Stadtviertel zu einer bestimmten Zeit vermehrt Einbrüche oder Gewaltverbrechen zu erwarten sind, werden dort verstärkt Polizeikontrollen durchgeführt. Mit Prädiktiven Algorithmen kann auch die Kreditfähigkeit, die Jobeignung oder die beste Möglichkeit errechnet werden, wann und wo Werbung geschaltet oder Angebote gemacht werden sollen.
Die Wissenschaftler des Dartmouth College haben mit COMPAS bzw. equivant eines der Programme untersucht, die Entscheidungen mit nachhaltigen Folgen beeinflussen. Das Programm kam 1998 auf den Markt, seit 2000 wurden eine Million Angeklagte beurteilt, mit welcher Wahrscheinlichkeit sie innerhalb von zwei Jahren wieder rückfällig werden können. Dafür werden 137 Eigenschaften der geprüften Person ausgewertet. Untersuchungen stellten bereits heraus, dass das Programm nicht zuverlässig ist und rassistische Vorurteile pflegt. Es bezieht zwar nicht direkt die ethnische Herkunft der Personen ein, die aber durch verschiedene Merkmale einfließt. Zwar ist die Genauigkeit der Vorhersage bei Weißen und Schwarzen in etwa gleich hoch, aber es werden doppelt so viele Schwarze falsch beurteilt als Weiße. Rückfälligkeit wird danach beurteilt, ob Menschen erneut in Haft kommen. Allein das verzerrt bereits das Bild, weil Schwarze beispielsweise wegen Drogen viermal so häufig wie Weiße inhaftiert werden.
Es ist also die Frage nicht nur, wie gut solche Vorhersageprogramme sind, sondern auch wie fair oder vorurteilslos. Die Wissenschaftler zeigen, wie sie in ihrer in Sciences Advances veröffentlichten Studie schreiben, dass die 137 Merkmale, die für die Vorhersage herangezogen werden, ein Blendwerk an Komplexität darstellen, weil zwei Merkmale für die Vorhersage völlig ausreichen, nämlich Alter und die Zahl der Vorstrafen. Zudem haben sie zeigen können, dass zufällig über die Crowdworking-Website Mechanical Turk von Amazon angeworbene Menschen, die vermutlich keine oder wenig Ahnung von Rechtsprechung haben, genauso gut oder schlecht die Rückfallquote vorhersagen können. Das wirft kein gutes Licht auf Predictive Analytics, zumindest im Hinblick auf die Vorhersage der Wahrscheinlichkeit von Angeklagten, wieder rückfällig oder nicht rückfällig zu werden.
400 Versuchspersonen erhielten eine kurze Beschreibung eines Angeklagten mit seinem Geschlecht, seinem Alter, seinem Vergehen und seinen Vorstrafen, aber nicht der ethnischen Abstammung ("race"). Weitere 400 Versuchspersonen erhielten die Beschreibung mit Angaben zur ethnischen Abstammung. Aufgrund dieser Informationen sollten sie schätzen, ob der Angeklagte innerhalb von zwei Jahren wieder rückfällig wird. Tausend Beschreibungen wurden zufällig in 20 Sets mit jeweils 50 Beschreibungen aufgeteilt. Die Versuchspersonen erhielten jeweils einen Set mit 50 Beschreibungen. Durchschnittlich waren 62,1 Prozent der Vorhersagen (wird rückfällig, wird nicht rückfällig) richtig, der Median lag bei 64.0%.
Letztlich würden zwei Kriterien reichen
Die Wissenschaftler setzten das Vorhersageprogramm auf dieselben 20 Sets an Beschreibungen an. Die Genauigkeit des Programms lag mit 65,2 Prozent nur geringfügig über den Schätzungen der Menschen mit 62,8 Prozent, die gewissermaßen aus dem hohlen Bauch heraus erfolgten und statt der 137 Kriterien nur aufgrund von 7 entschieden: "Eine kleine Menge von Nichtexperten ist so genau wie COMPAS bei der Vorhersage der Rückfälligkeit", so die Wissenschaftler.
Bezieht man die ethnische Herkunft ein, wird die Vorhersage der Nichtexperten kaum richtiger. Auch für weiße oder schwarze Angeklagte unterscheidet sich die Richtigkeit nicht signifikant, was auch für COMPAS zutrifft. Bei den falsch-negativen und den falsch-positiven Vorhersagen wird aber dann doch bei den Nichtexperten und bei COMPAS eine Einseitigkeit deutlich, nämlich dass Schwarze, die nicht rückfällig wurden, sehr viel öfter als rückfällig eingeschätzt wurden, als Weiße, die umgekehrt öfter rückfällig als vorhergesagt wurden. Bei den Nicht-Experten ist dies in beiden Befragungen mit und ohne Kenntnis der ethnischen Herkunft der Fall gewesen.
In einer anderen Studie wurden 9 Vorhersageprogramme für die Rückfälligkeit, inklusive COMPAS, untersucht. Die Genauigkeit aller unterscheidet sich kaum und ist schlecht (K. A. Geraghty, J. Woodhams, The predictive validity of risk assessment tools for female offenders: A systematic review. Aggress. Violent Behav. 21, 25 (2015).). Empfohlen wurde hier, solche Vorhersageprogramme nicht alleine zur Beurteilung von Straftätern zu verwenden.
Die Autoren der COMPAS-Studie gehen noch weiter und fragen süffisant, ob man angesichts der Ergebnisse des Vorhersageprogramms, die für das Leben und Wohlergehen von Straftätern erhebliche Folgen haben können, die Entscheidung nicht auch zufällig ausgewählten Menschen anvertrauen würde, die auf eine Online-Umfrage antworten, da die Ergebnisse beider Ansätze doch ununterscheidbar seien. Tatsächlich dürfte eben das Vorurteil bestehen, solchen Entscheidungen angeblich komplexer Algorithmen, die große Mengen an Daten auswerten, eher zu vertrauen als beliebig zusammengewürfelten Menschen, die nur nach ihrem Verstand oder Bauchgefühl urteilen. Abgesehen davon ist eine Genauigkeit von etwas über 60 Prozent überhaupt ziemlich wenig, um daraus Entscheidungen abzuleiten, ob jemand etwa eine Haft- oder Bewährungsstrafe erhält.