KI-Chatbots fallen bei Demenz-Tests durch

06. März 2025 Uwe Kerkow

vergesslicher wirkender Roboter — Bild KI-generiert

Führende Sprachmodelle wie ChatGPT und Gemini zeigen in kognitiven Tests Anzeichen geistiger Beeinträchtigung. Ältere Versionen schneiden dabei schlechter ab als neuere – wie bei Menschen auch.

Israelische Forscher haben die führenden Künstliche-Intelligenz-Chatbots einem Demenz-Test unterzogen – mit überraschenden Ergebnissen. Fast alle großen Sprachmodelle zeigten Anzeichen kognitiver Beeinträchtigung, die bei Menschen auf beginnende Demenz hindeuten würden.

Die Neurologen Roy Dayan und Benjamin Uliel vom Hadassah Medical Center in Jerusalem sowie der Datenwissenschaftler Gal Koplewitz von der Universität Tel Aviv testeten ChatGPT 4 und 4o, Claude 3.5, sowie Gemini 1.0 und 1.5 mit dem Montreal Cognitive Assessment (MoCA). Dieser Test wird normalerweise zur Früherkennung von Demenz bei älteren Menschen eingesetzt.

ChatGTP 4o gerade noch im Normalbereich

Das beste Ergebnis erzielte ChatGPT 4o mit 26 von 30 möglichen Punkten – gerade noch im Normalbereich. ChatGPT 4 und Claude erreichten je 25 Punkte, was bereits auf leichte kognitive Beeinträchtigung hindeutet. Gemini 1.0 schnitt mit nur 16 Punkten am schlechtesten ab, ein Wert, der bei Menschen auf schwere Beeinträchtigung hinweisen würde.

"Mit Ausnahme von ChatGPT 4o zeigten fast alle großen Sprachmodelle Anzeichen leichter kognitiver Beeinträchtigung", schreiben die Forscher in ihrer Studie, die im British Medical Journal veröffentlicht wurde.

Besonders auffällig war das schlechte Abschneiden aller Modelle bei räumlich-visuellen Aufgaben. Keines konnte eine Spur-Folge-Aufgabe lösen oder eine Uhr korrekt zeichnen. Beim Uhrentest, einem klassischen Demenz-Indikator, machten einige Chatbots Fehler, die typisch für Alzheimer-Patienten sind.

Ältere KI-Versionen zeigen stärkeren Verfall

Ein besonders interessanter Befund: Wie bei Menschen ist auch bei Chatbots das "Alter" ein entscheidender Faktor für kognitive Leistung. Ältere Versionen schnitten systematisch schlechter ab als neuere. Der Unterschied zwischen Gemini 1.0 und 1.5 betrug sechs Punkte – bei weniger als einem Jahr Altersunterschied.

"Das könnte auf eine schnell fortschreitende Demenz hindeuten", spekulieren die Forscher. Bei zusätzlichen Tests zeigten alle Modelle Probleme mit Empathie und komplexen visuellen Szenen – Symptome, die an frontotemporale Demenz erinnern.

Manche Antworten glichen verblüffend denen von Demenz-Patienten. Auf die Frage nach ihrem Aufenthaltsort antwortete Claude: "Der spezifische Ort und die Stadt hängen davon ab, wo Sie, der Benutzer, sich gerade befinden." Solche ausweichenden Antworten sind ein bekanntes Verhalten bei Demenz-Patienten.

Herausforderung für medizinische KI-Anwendungen

Die Ergebnisse stellen die Annahme infrage, dass KI bald menschliche Ärzte ersetzen könnte. Gerade in der Medizin, wo die Interpretation komplexer visueller Informationen entscheidend ist, zeigen die Chatbots erhebliche Schwächen.

"Patienten könnten die Kompetenz eines KI-Prüfers anzweifeln, wenn der Prüfer selbst Anzeichen kognitiver Beeinträchtigung zeigt", warnen die Autoren. Dies sei besonders problematisch, da bereits zahlreiche Studien gezeigt hätten, dass große Sprachmodelle menschliche Ärzte bei verschiedenen medizinischen Prüfungen übertreffen.

Die Forscher räumen ein, dass KI-Systeme keine menschlichen Gehirne sind und daher nicht wirklich an Demenz erkranken können. Dennoch offenbarten die Tests grundlegende Schwächen in der Art, wie diese Systeme Informationen verarbeiten.

Statistische Textverarbeitung statt echtes Verstehen

Große Sprachmodelle funktionieren grundlegend anders als das menschliche Gehirn. Sie basieren auf statistischen Verfahren zur Text- und Bildgenerierung und haben mehr mit der Wortvorhersage auf Smartphones gemeinsam als mit menschlicher Intelligenz.

"Was dieser statistische Ansatz an Geschwindigkeit und Glaubwürdigkeit gewinnt, verliert er durch Leichtgläubigkeit", erklären die Wissenschaftler. Die Algorithmen hätten Schwierigkeiten, sinnvolle Informationen von Fiktion und Unsinn zu unterscheiden.

Trotz der aktuellen Beschränkungen erwarten die Forscher, dass künftige KI-Generationen bei kognitiven Tests besser abschneiden werden. Bis dahin sollten die Ratschläge selbst fortschrittlichster Chatbots mit gesunder Skepsis betrachtet werden – besonders in kritischen Bereichen wie der Medizin.