ChatGPT schauspielert am besten

21. April 2025 Uwe Kerkow

Grafische Darstellung eines Menschen vor einem Computer — "Ich bin kein Roboter". Grafik: VectorUpStudio, shutterstock

ChatGPT hat gerade den Turing-Test bestanden. Aber ist die KI damit jetzt schon so schlau wie wir Menschen? Eine Analyse.

Nun ist es also amtlich: Erstmal hat ein KI-Chatbot offiziell den Turing-Test bestanden. So urteilen zumindest zwei Forscher der Universität von San Diego, die vier große Sprachmodelle (LLMs) dem Turing-Test unterzogen haben. GPT-4.5 von OpenAI – wurde dabei als 70 Prozent des Versuchszeitraums als ununterscheidbar von einem Menschen angesehen.

Wohl auch, weil er so leicht verständlich zu sein scheint, wurde der Turing-Test als Indikator für Maschinenintelligenz populär. Dabei wird geprüft, ob Menschen die Antworten einer KI von denen eines anderen Menschen unterscheiden können. Als Alan Turing seinen Test 1950 vorstellte, hat er auch prognostiziert, dass es in 50 Jahren einen "digitalen Computer" geben werde, der diese Aufgabe der Nachahmung meistern kann.

Tatsächlich hat es 75 Jahre gedauert, dennoch muss man Turing für seine Weitsicht höchsten Respekt zollen. Turing hat diese Form eines "Intelligenztests für Maschinen vorgeschlagen, weil er die Frage "Können Maschinen denken?" aufgrund von Problemen bei der Definition der Begriffe "Maschine" und vor allem "Denken" für nicht hinreichend beantwortbar und damit obsolet hielt.

Was ist "Denken"

Die Tests in San Diego bestanden aus Teilnehmern, die acht Runden von Gesprächen führten, bei denen sie als Befrager agierten und gleichzeitig mit zwei Zeugen Textnachrichten austauschten. Ein Zeuge war ein Mensch und der andere ein LLM. Etwa 284 Teilnehmer wurden zufällig als Befrager oder Zeuge zugeordnet.

Die Teilnehmer mussten fünf Minuten lang gleichzeitig mit beiden Zeugen über einen geteilten Bildschirm interagieren, wobei die Testoberfläche einer herkömmlichen Nachrichtenoberfläche ähnelte. Nach dieser Interaktion entschieden sie, welcher Zeuge ein Mensch und welcher ein KI-Chatbot war.

Der Versuchsaufbau, die 70-Prozent-Schwelle und auch die zeitlichen Vorgaben entsprechen exakt Turings Vorgaben. Die Forscher testeten vier große Sprachmodelle (Lage Language Models, LLMs): ELIZA, GPT-4o, LLaMa-3.1-405B und GPT-4.5.

GTP-4.5 imitiert am besten

Die Teilnehmer hielten GPT-4.5 zu 73 Prozent und LLaMa-3.1-405B zu 56 Prozent für einen Menschen. Die anderen beiden Modelle (ELIZA und GPT-4o) konnten die Teilnehmer nur zu 23 bzw. 21 Prozent der Zeit täuschen.

Allerdings gibt es Uneinigkeit über die Validität dieses Tests. Tatsächlich hat er eine umstrittene Geschichte, die in Frage stellt, wie effektiv er wirklich ist, um Maschinenintelligenz zu messen.

Turing-Test umstritten

Es gibt vier Hauptargumente gegen den Turing-Test, die The Conversation wie folgt zusammenfasst:

Verhalten vs. Denken: Einige Forscher argumentieren, dass die Fähigkeit, den Test zu "bestehen", eine Frage des Verhaltens und nicht der Intelligenz ist. Daher wäre es nicht widersprüchlich zu sagen, dass eine Maschine das Imitationsspiel bestehen kann, aber nicht denken kann.
Gehirne sind keine Maschinen: Turing behauptet, das Gehirn sei eine Maschine und könne in rein mechanischen Begriffen erklärt werden. Viele Akademiker widerlegen diese Behauptung und stellen die Gültigkeit des Tests auf dieser Grundlage infrage.
Interne Abläufe: Da Computer keine Menschen sind, könnte ihr Prozess zur Erreichung eines Schlusses nicht mit dem eines Menschen vergleichbar sein. Ein direkter Vergleich kann also nicht funktionieren.
Umfang des Tests: Einige Forscher glauben, dass das Testen nur eines Verhaltens nicht ausreicht, um Intelligenz zu bestimmen.

Ist ein GPT-4.5 also so schlau wie ein Mensch? Die Forscher in San Diego stellen dazu fest: "Der Turing-Test ist ein Maß für die Substituierbarkeit: ob ein System als Ersatz für eine reale Person fungieren kann, ohne dass der Unterschied […] bemerkt wird."

Damit machen die Wissenschaftler klar, dass sie die Idee des Turing-Tests als legitimen Hinweis auf menschliche Intelligenz ebenfalls nicht unterstützen. Vielmehr ist er ein Hinweis auf die Nachahmung menschlicher Intelligenz.

Wie kann die Intelligenz von Maschinen gemessen werden?

Anders formuliert, kann man festhalten, dass GPT-4.5 nicht so intelligent wie Menschen ist. Allerdings schafft die KI es ganz offensichtlich ziemlich gut, einige Menschen eine zeitlang vom Gegenteil zu überzeugen.

Damit ist die Frage, wie die Intelligenz von Maschinen tatsächlich gemessen werden kann, weder vom Tisch noch beantwortet. Consensus, eine KI, die speziell für wissenschaftliche Fragestellungen entwickelt und trainiert wurde, gibt auf eine entsprechende Frage Folgendes zu Protokoll:

Die Messung und Definition von Intelligenz in künstlichen Systemen ist ein dynamisches und in Entwicklung begriffenes Feld. Verschiedene Ansätze, von mathematischen Formalisierungen bis hin zu vorhersagebasierten Algorithmen und Bayes'schen Methoden, bieten unterschiedliche Perspektiven für die Bewertung von KI-Intelligenz.

Im Zuge des Fortschritts auf diesem Gebiet wird die Entwicklung umfassenderer und allgemein akzeptierter Maßstäbe für die Weiterentwicklung unseres Verständnisses und unserer Fähigkeiten im Bereich der künstlichen Intelligenz entscheidende Bedeutung erlangen.