"Maschinen können nicht lesen"

Les Perelman über MOOC-Plattformen und maschinelles Benoten von Aufsätzen

Der folgende Beitrag ist vor 2021 erschienen. Unsere Redaktion hat seither ein neues Leitbild und redaktionelle Standards. Weitere Informationen finden Sie hier.

"Die Zukunft ist bereits hier, sie ist nur noch nicht gleichmäßig verteilt." Bezogen auf die Massive Open Online Courses (MOOC) stimmt der Spruch, der üblicherweise William Gibson zugeschrieben wird, einmal voll und ganz. Während sich an den Universitäten und unter den Kommentatoren schon wieder Ernüchterung breit macht, hat die Mehrheit der Bevölkerung von den neuen Möglichkeiten der Internetlehre noch gar nicht gehört.

Während das Angebot und die Zahl der Nutzer so groß wie nie zuvor sind, gibt es unter US-amerikanischen Hochschulen schon wieder erste Absatzbewegungen. Um die riesige Zahl ihrer Nutzer zu betreuen, setzen viele MOOC-Plattformen auf automatisierte Testsysteme. edX beispielsweise setzt ein Programm ein, das mehrseitige freie Aufsätze benotet. Allerdings ist umstritten, ob diese teilweise Automatisierung des Unterrichts effizient ist.

Der Literaturwissenschaftler Les Perelman vom Massachusetts Institute of Technology (MIT) ist in den USA ein profilierter Experte für automatisierte Textanalyse. Seit über einem Jahrzehnt begleitet er kritisch die Versuche in den USA, die Benotung von Schülern und Studenten durch Maschinen durchführen zu lassen. Er hat zahlreiche Programme getestet und ist einer der Initiatoren der Unterschriftenliste Human Readers gegen "maschinisierte Textanalyse in entscheidenden Prüfungen".

Herr Doktor Perelman, immer mehr Bildungseinrichtungen in Nordamerika und Asien setzen auf automatische oder teilautomatische Bewertungen. Sie dagegen wollen Maschinen aus den Prüfungen am liebsten heraushalten. Warum, sind Sie gegen den technischen Fortschritt?

Les Perelman: Nein, keineswegs. Ich bin weder technophob, noch ein Maschinenstürmer. Immerhin habe ich 25 Jahre am MIT gearbeitet. Ich glaube einfach, dass der praktische Nutzen des automatisierten Benotens äußerst beschränkt ist. Unter gewissen, allerdings seltenen Umständen können Systeme für Textanalyse sinnvoll sein. Ich habe erlebt, dass automatisiertes Benoten sehr gut funktionieren kann, wenn es um kurze faktische Antworten geht, bei denen der Kontext der Frage nicht wichtig ist. Was Maschinen dagegen äußerst schlecht können, ist, Aufsätze von Schülern und Studenten zu beurteilen, in denen sie Meinungen und Argumentation entwickeln. Der Grund dafür ist furchtbar einfach: Diese Systeme erkennen keine Bedeutung. Sie verstehen nichts, insofern können sie eben auch nicht lesen.

Aber müssen die Maschinen denn überhaupt verstehen, um Aufsätze zu korrigieren? Vor anderthalb Jahren machte die Meldung die Runde, dass das maschinelles Benoten von Aufsätzen ebenso zuverlässig funktioniert wie menschliche Korrektoren. Sie haben darauf eine vernichtende Kritik dieser Studie veröffentlicht.

Les Perelman: Das ganze System der automatisierten Tests beruht auf einem Missverständnis. Die Programme testen nicht die Ausdrucksfähigkeit, sondern die Fähigkeit, Blödsinn auf Bestellung zu produzieren.

Wie verbreitet ist denn die maschinelle Benotung in den USA?

Les Perelman: In manchen Bundesstaaten werden solche Prüfungen an den Schulen für standardisierte Vergleichstests eingesetzt. Im akademischen Bereich verbreiten sie sich gerade und werden beispielsweise ergänzend bei der Graduate Record Examination eingesetzt, einer Aufnahmeprüfung für betriebswirtschaftliche Masters-Studiengänge. Außerdem planen die Behörden, die automatisierte Benotung ab nächstem Jahr landesweit bei dem Studierfähigkeitstest SAT einzusetzen.

"Der Glaube an die Möglichkeit des automatisierten Benotens entspricht dem Quadrat der intellektuellen Entfernung zu Leuten, die tatsächlich eine Ahnung haben, worüber sie reden."

Wie kamen Sie dazu, sich mit dem Thema "Automatisiertes Bewerten" zu beschäftigen?

Les Perelman: Mein Fachgebiet ist Writing Assessment, das habe ich am MIT gemacht. Deshalb habe ich immer wieder mit Kolleginnen und Kollegen meiner Universität über die Automatisierungsbemühungen diskutiert. Darunter waren Leute, die sich mit dem automatisierten Benoten praktisch beschäftigen, weil sie es beispielsweise für MOOCs einsetzen wollen wie Anant Agarwal von edX, anderseits Linguisten wie zum Beispiel Noam Chomsky. Gerade Sprachwissenschaftler halten es für letztlich unmöglich, einer Maschine beizubringen, schriftlichen Ausdruck zu bewerten, zumindest für Antworten auf thematische umfassende, offene Fragen. Durch diese Diskussionen habe ich mit der Zeit eine Gesetzmäßigkeit entdeckt: "Der Glaube an die Möglichkeit des automatisierten Benotens entspricht dem Quadrat der intellektuellen Entfernung zu Leuten, die tatsächlich eine Ahnung haben, worüber sie reden."

Sie haben die Leistungsfähigkeit einiger gängiger Computerprogramme getestet, die zur Bewertung von Freitext eingesetzt werde. Was habe Sie herausgefunden?

Les Perelman: Die meisten Hersteller erlauben mir gar nicht, ihre Produkte zu testen. Der Educational Testing Service (ETS) hat mir dagegen die Möglichkeit eingeräumt, ihr Programm namens E-Rater auszuprobieren und einige Versuche damit durchzuführen. E-Rater wird zum Beispiel für akademische Aufnahmeprüfungen benutzt.

Als ich das Programm testete, fand ich heraus, was ich zuvor schon vermutet hatte: Den größten Einfluss auf die Note hat die Länge des Textes. Je mehr man schreibt, umso besser die Note! Völlig unwichtig ist dagegen, ob die Aussagen in meinem Text zutreffend oder auch nur plausibel waren. Ich konnte wahllos und zusammenhanglos Zitate einstreuen, zum Beispiel Zeilen aus einem Gedicht Gedicht von Allen Ginsberg, und das verbesserte meine Note. Für meinen Nonsens-Aufsatz habe ich die bestmögliche Note bekommen. Die Metrik des Programms belohnt außerdem, wenn man ungewöhnliche, seltene Ausdrücke, Fremdworte benutzt.

Sie haben daraufhin einen unterhaltsamen Ratgeber für Studenten herausgegeben, in dem Sie ihnen unter anderem den Tipp geben, keine Zeit mit dem Inhalt zu verschwenden.

Les Perelman: Das Hauptproblem von E-Rater und ähnlichen Programmen ist, dass sie nicht in der Lage sind, wahre von falschen Aussagen zu unterscheiden. Es lohnt sich einfach nicht, sich um faktisch richtige Argumentationen zu bemühen, weil diese für die Note keine Rolle spielen. Zwei ehemalige Studenten von mir, die Computerwissenschaft studiert haben, sagten zu mir, sie könnten ein Smartphone-App programmieren, das hervorragende Essays schreiben würde. Das wäre natürlich perfekt: Die Mobiltelefone könnten ihre Texte direkt an die Korrekturprogramme schicken und Menschen könnten sich aus der Angelegenheit ganz heraushalten.

Nun entscheidet über die Note in einer solchen Prüfung ja nicht nur eine Maschine, sondern auch ein Mensch liest den Aufsatz. Die Gesamtnote ist der Durchschnitt von beidem. Warum finden Sie einen solchen Einsatz der Software trotzdem falsch?

Les Perelman: In der Praxis müssen die Korrektoren wie Maschinen arbeiten. Der SAT-Test wird von dem Unternehmen Pearson durchgeführt, dessen Korrektoren ungefähr 30 Aufsätze in der Stunde benoten müssen. Unter solchen Umständen von den computergenerierten Noten abzuweichen, ist kaum möglich.

"Wir müssen prüfen, wo die Grenzen der Automatisierung liegen"

Das automatisierte Bewerten verbreitet sich gerade durch die Expansion der MOOCs. Vertreter von edX und Coursera argumentieren, dass eine individuelle Bewertung von Hand einfach nicht möglich sei, wenn zehntausende oder gar hunderttausende Studierende an einem Kurs teilnehmen. Ihre Universität, das MIT, ist an der Plattform edX beteiligt, die wohl den gegenwärtig avanciertesten Versuch einer Automatisierung einsetzt.

Les Perelman: Ich glaube schon, dass die automatisierte Textanalyse eine positive Rolle spielen kann. Ich habe mit Anant Agarwal von edX gesprochen, die ein eigenes System für das Automated Essay Scoring entwickelt hat. Die maschinengenerierte Scores werden mit den Noten verglichen, die sich die Nutzer gegenseitig geben. Wenn dann eine große Diskrepanz zwischen den beiden Noten besteht, liest eine wissenschaftliche Hilfskraft noch einmal den Aufsatz und entscheidet.

Ein solcher Einsatz scheint mir vernünftig. Es wäre aber hochproblematisch, sich ausschließlich auf ein solches System zu verlassen. Wir müssen sorgfältig prüfen, wo die Grenzen der Automatisierung liegen, welche Möglichkeiten die Studierenden haben, um die Systeme zu überlisten. Automatisierung kann funktionieren, wenn die Nutzer keinen Anlass haben, um inhaltsfremde Prüfungsstrategien einzusetzen.

Unter amerikanischen Lehrern und Dozenten regt sich Widerstand gegen den Einsatz solcher Systeme. Sie gehören zu den Initiatoren einer Unterschriftenliste gegen den Einsatz der automatisierten Benotung. Warum?

Les Perelman: Wir sind gegen den Einsatz in Prüfungen, die für die Schüler oder die Bildungseinrichtungen Konsequenzen haben. Wie gesagt, die maschinelle Bewertung ist einigermaßen unproblematisch, wenn man lediglich herauszufinden will, ob ein Schüler oder Student einen Zusammenhang verstanden hat oder nicht. Aber in den USA gibt es gegenwärtig Überlegungen, diese Technik für wichtige Prüfungen in den weiterführenden Schulen einzusetzen.

Nun wäre es möglich, den Schülern einfach eine Liste mit seltenen und komplizierten Worten zu geben und sie diese Worte in ihren Aufsätzen benutzen zu lassen. Die Schüler müssen nicht einmal wissen, was die Worte bedeuten, aber sie würden ihre Note deutlich verbessern. Und von diesen Testergebnissen hängt alles möglich ab: die Löhne der Lehrer, die Einkünfte der Schule und ihr Ansehen, die weitere Karriere der Schüler. Durch die Verbindung von automatisierter Analyse und Prüfungsregime wird ein gewaltiger Druck entstehen, den Schülern nicht mehr Argumentieren und Formulieren beizubringen. Stattdessen werden sie Wortlisten auswendig lernen und möglichst wortreich und hochgestochen formulieren.