Neues KI-Sprachmodell für medizinische Fragen: Kann es den Arzt ersetzen?

Google-Tochter DeepMind stellt neues Sprachmodell für das Gesundheitssystem vor. Es soll dabei helfen, Diagnosen zu stellen. Was es im Vergleich zum Menschen kann.

Das im September 2010 gegründete britische Unternehmen DeepMind wurde 2014 von Google übernommen und firmierte zunächst unter dem Namen Google DeepMind, hat den Firmennamen aber inzwischen wieder auf DeepMind reduziert.

Offizielles Ziel des Unternehmens ist es, Intelligenz branchenübergreifend zu verstehen. Dabei will man sich die konkreten Anwendungen und bedienten Branchen flexibel offen halten und sich dann in den Bereichen positionieren, die die besten Renditen versprechen.

Da DeepMind seinen Hauptsitz auf den britischen Inseln hat, ist es nicht verwunderlich, dass man in der Zusammenarbeit mit der staatlichen Gesundheitsbehörde National Health Service (NHS) eine lohnende Aufgabe entdeckt hat. Der NHS leidet seit Langem unter chronischem Personalmangel und benötigt dringend Unterstützung durch ein datenbasiertes medizinisches Werkzeug.

Diese Rahmenbedingungen haben bereits anderen Anbietern digitaler Technologie im medizinischen Bereich auf die Sprünge geholfen. In der EU und insbesondere in Deutschland sind solche Systeme trotz aller inhaltlichen Erfolge bisher nicht über Pilotprojekte hinausgekommen. Hier gelten sie als Medizinprodukte und müssen entsprechend zertifiziert und registriert werden, wenn sie eine Wirkung auf den menschlichen Körper entfalten können.

Die Rahmenbedingungen für KI in der Medizin in Deutschland noch sehr eng

Auch wenn Google mit seinen ausgefuchsten Suchalgorithmen dahintersteht und Patienten ihre Daten per Datenspende den IT-Unternehmen zugänglich machen dürfen, sind die Widerstände hierzulande beachtlich.

Das von der Stiftung von Klaus Tschira, einem der SAP-Gründer, geförderte Science Media Center Germany ist derzeit dabei, das DeepMind-Sprachmodell auch in Deutschland bekannt zu machen. Das hier präsentierte Sprachmodell für medizinische Fragen soll Antworten von ähnlicher Qualität geben, wie sie von Klinikerinnen und Klinikern gegeben würden. So wird es zumindest in einem Beitrag unter dem Titel ″Large language models encode clinical knowledge″ in der Fachzeitschrift ″Nature″ dargestellt.

Behütetes Googeln für Mediziner

Wer bei der Google-Suche schon einmal erlebt hat, dass der Suchalgorithmus des Marktführers seine Ergebnisse an den bereits abgerufenen Ergebnissen ähnlicher Suchanfragen derselben Person orientiert und damit die Blasenbildung fördert, sollte sich über die Ergebnisse von DeepMind nicht wirklich wundern.

Bislang bewegen sich die spezifischen medizinischen Anwendungen von Sprachmodellen gewissermaßen noch in einem von der komplexen Realität weitgehend abgeschirmten Kindergarten und betrachten nur Bereiche, in denen die Ergebnisse bereits bekannt sind.

Über die Erwartung hinaus, dass Sprachmodelle im medizinischen Bereich ein großes Potenzial für Diagnose und Informationsbereitstellung haben, geht die derzeitige Einschätzung noch nicht. Hierfür sollen Benchmarks zur Bewertung der Leistungsfähigkeit von Sprachmodellen bereitgestellt werden, um im Vergleich herauszufinden, wie hilfreich solche Modelle in der Praxis sein können.

Den Autoren ist bewusst, dass bisherige Benchmarks oft nur die Leistung der Sprachmodelle in einzelnen medizinischen Tests bewerten und daher nur eine begrenzte Aussagekraft haben. Deshalb haben sie mit MultiMedQA einen neuen Benchmark entwickelt. Dieser besteht aus sieben Datensätzen. Dazu gehören sechs bereits existierende Datensätze mit Fragen aus der medizinischen Forschung und von Patientinnen und Patienten sowie HealthSearchQA, ein neuer Datensatz mit 3173 häufig online gesuchten medizinischen Fragen.

Basierend auf dem Google-Sprachmodell PaLM haben die Autoren ein spezifisches Sprachmodell für medizinische Fragen erstellt, das bei den meisten Datensätzen des MultiMedQA-Datensatzes mindestens so gut abschneidet wie andere State-of-the-Art-Modelle. Bei Fragen im Stil medizinischer Zulassungsprüfungen in den USA war das Modell durchschnittlich 17 Prozent genauer als andere aktuelle Sprachmodelle. Es erreichte jedoch noch nicht die Qualität der Antworten von medizinischem Fachpersonal.

Das Modell Med-PaLM soll bei einer Bewertung durch ein Panel von neun Ärzten ähnlich gut abgeschnitten haben wie seine menschlichen "Kollegen". Allerdings wurden die Antworten jeweils nur von einer Person bewertet. In einigen Punkten blieb die Leistung des Modells deutlich hinter der des Menschen zurück. So waren 18,7 Prozent der Antworten des Sprachmodells inhaltlich falsch oder unpassend. Bei den menschlichen Antworten waren es nur 1,4 Prozent.

Ergebnisse der Sprachmodelle besser reproduzierbar?

Wer schon einmal mit ärztlichen Diagnosen und deren sprachlicher Formulierung zu tun hatte, die letztlich über die weitere Behandlung und Kostenübernahme entschieden, kennt die Idee der ärztlichen Zweitmeinung, die möglicherweise zu einem anderen Ergebnis gekommen ist.

Hier besteht die Gefahr, dass medizinische Sprachmodelle letztlich nur einen Gedankengang wiedergeben, der dann zwar besser reproduzierbar ist, aber das Gesamtbild erheblich verengt. Wären sich die betroffenen Patienten so ähnlich, wie es bei Maschinen der gleichen Baureihe der Fall ist, wäre dies kein Problem.

Ein weiterer Problempunkt in diesem Zusammenhang ist die individuelle Krankengeschichte und Behandlungshistorie des einzelnen Patienten, die dem behandelnden Arzt zwar bekannt und präsent sein kann. Bei einem medizinischen Sprachmodell müssten ihm aber alle spezifischen Patientendaten zur Auswertung zur Verfügung stehen, was letztlich zum gläsernen Patienten führen würde.

Empfohlener redaktioneller Inhalt

Mit Ihrer Zustimmmung wird hier eine externe Buchempfehlung (Amazon Affiliates) geladen.

Ich bin damit einverstanden, dass mir externe Inhalte angezeigt werden. Damit können personenbezogene Daten an Drittplattformen (Amazon Affiliates) übermittelt werden. Mehr dazu in unserer Datenschutzerklärung.