Elon Musk warnt: KI-Systemen gehen die Daten aus

Wassilis Aswestopoulos
KI-Chip vor Spirale mit zunehmender Zahl von KI-Schriftzeichen

Elon Musk schlägt Alarm: Der KI-Branche fehlt es an Trainingsdaten. Sein Vorschlag: Künstliche Intelligenz soll selbst neue Daten erzeugen. Genau das könnte fatale Folgen haben.

Woher nehmen, wenn nicht stehlen? Der Künstlichen Intelligenz gehen die Daten aus. Diese Feststellung teilt auch Elon Musk, der sich abseits seines medienwirksamen Gesprächs mit der AfD-Kanzlerkandidatin Alice Weidel um die Zukunft seiner KI-Investitionen sorgt.

Musk schlägt vor, die großen Sprachmodelle mit synthetischen Daten zu füttern. Genau das könnte aber nach Ansicht von Experten zur Degeneration der Modelle führen.

"Erschöpftes" menschliches Wissen

Der Guardian zitiert Musk, "das gesamte menschliche Wissen ist im KI-Training erschöpft. Das geschah im Wesentlichen letztes Jahr."

In einem Interview mit Mark Penn, das auf seiner Social-Media-Plattform X live gestreamt wurde, befand Musk, dass der Umstieg auf synthetische, von der KI erstellte Daten der "einzige Weg" sei, um den Mangel an Quellenmaterial für das Training neuer Modelle zu bewältigen. Das Gespräch von Musk mit Penn, dem CEO von Stagwell, früherem Microsoft Manager und US-Präsidentenberater ist weiterhin auf X abrufbar.

Tatsächlich findet dieser Prozess der Nutzung synthetischer Daten bereits jetzt statt, weil KI-Modelle Inhalte erzeugen, die über ihre Veröffentlichung zum Beispiel im Internet wieder zu Trainingsmaterial für KI-Modelle werden.

Die einzige Möglichkeit, diese [die Datensätze] dann zu ergänzen, sind synthetische Daten, mit denen … die KI eine Art Aufsatz schreibt oder eine These formuliert und sich dann selbst benotet und … diesen Prozess des Selbstlernens durchläuft.

Elon Musk

Musk warnte zugleich davor, dass der synthetische Datenprozess die Gefahr von "Halluzinationen" birgt.

Was passiert, wenn dem Mangel synthetische Daten gegenübergestellt werden?

Dass KI-Modelle zusammenbrechen, wenn sie mit rekursiv generierten Daten trainiert werden, ist ein Ergebnis der Forschung. Die Entwicklung der großen Sprachmodelle ist sehr aufwendig und erfordert große Mengen an Trainingsdaten.

Die ersten Generationen der Sprachmodelle wurden hauptsächlich mit human erzeugten Textsequenzen trainiert. Für Bildsequenzen gilt das analog. Der überwiegende Teil der Trainingsdaten stammt aus dem Internet.

Weil es dort vermehrt von älteren KI-Modellen erzeugte Inhalte gibt, werden neuere Versionen beim Training zwangsläufig mit Daten konfrontiert, die teilweise von ihren direkten Vorgängern stammen.

Die Wissenschaftsjournalistin Elizabeth Gibney demonstrierte in der Zeitschrift Nature, wie KI-Modelle, die mit KI-generierten Daten trainiert werden, schnell dazu neigen, Unsinn zu produzieren.

Wenn Modelle, die Texte und Bilder erstellen, letztlich auf der Grundlage ihrer eigenen generierten Inhalte trainiert werden und nicht mit variationsreichen, menschlich produzierten Daten, werden die Ergebnisse immer homogener und verzerrter.

Die generativen KI-Systeme basieren auf Wahrscheinlichkeiten. Sie sind so programmiert, dass sie das wahrscheinlichste Wort oder Bild aufgrund der statistischen Auswertung ihrer Trainingsdaten produzieren. Wenn der Output der Systeme zur Grundlage der nächsten Generation der Systeme benutzt wird, heißt das, dass das vom System ermittelte wahrscheinlichste Ergebnis sich systematisch immer enger der modelleigenen Ausdrucksform annähert.

Die Systeme haben kein Bewusstsein und keine eigene Kreativität. Sie können ohne menschliches Eingreifen nicht erkennen, wie bizarr die von ihnen produzierten Werke sind.

Kuratierte Daten als Lösung und neue Herausforderung

Musk meinte, dass der Einsatz von synthetischen Daten wegen der resultierenden Halluzinationen herausfordernd sei. Denn, "woher weiß man, ob die Antwort halluziniert ist oder ob es sich um eine echte Antwort handelt".

Es ist nicht das erste Mal, dass Musk im Kontext der Künstlichen Intelligenz vor Risiken bei der Entwicklung warnt. Obwohl er mit xAI ein eigenes Start-up-Unternehmen für die KI-Entwicklung gegründet hat, schlug er eine Pause in der Entwicklung großer Sprachmodelle vor.

Es muss eine Lösung für den Mangel an Daten gefunden werden. Ob synthetische Daten das leisten können, ist nicht unumstritten. Ein Lösungsansatz besteht darin, die Trainingsdaten zu kuratieren. Ohne Kuration laufen die KI-Modelle Gefahr, entweder wie beschrieben Unsinn zu produzieren oder vermehrt bestehende Vorurteile und Klischees zu verstärken.

Kuratierte Trainingsdaten könnten die notwendige Vielfalt der Datensätze sicherstellen. Die gezielte Auswahl vielfältiger und repräsentativer Trainingsbeispiele steht dabei im Widerspruch zur allgemeinen Philosophie der Skalierung, die auf riesigen, lose gefilterten Datensätzen beruht.

Aktuell erscheint die Auswahl der synthetischen Daten produktiver, wenn menschliche Entscheider am Prozess beteiligt werden. Auf Dauer kann das keine mit der Digitalisierung konforme Lösung sein.

Ergo müsste erneut, dieses Mal für die Kuration, ein System eingeführt werden, welches aufgrund von definierten Kriterien Entscheidungen darüber treffen muss, welche Daten für das Training verwendet werden sollen, um die Qualität und Vielfalt der Eingaben sicherzustellen. Auch dies scheint nach dem aktuellen Stand der Forschung mit einer passenden, noch zu entwickelnden künstlichen Intelligenz möglich zu sein.

Bis dahin sind die knappen Daten ein wertvolles Gut, bei denen offenbar auch große Unternehmen nicht vor Piraterie zurückschrecken. So soll Meta mit dem Segen von Mark Zuckerberg illegal den Inhalt von Büchern zum Training der eigenen KI eingesetzt haben.