Was passiert, wenn Sie eine KI mit KI-Daten füttern
Ohne frische Daten droht Degeneration der Ergebnisse. Experten befürchten verheerende Folgen für Information im Netz. Was das Problem ist und was wir machen können.
Nur wenn generative KI-Modelle riesige Mengen an Bildern, Texten oder anderen Formen verschlingen, können sie ihre eigenen Interpretationen hervorbringen.
Aber was, wenn die Inspirationsvorräte ‒ also die von Menschen generierten Daten ‒ aufgebraucht sind? Wie eine Handvoll gestrandeter Matrosen sind diese Form von KIs dann auf sich selbst gestellt, um digitale Nahrung zu finden. Wenn sie dabei kannibalistisch auf die von ihnen selbst generierten Daten zurückgreifen, hat das ziemlich beunruhigende Folgen.
Eine neue Studie von Forschern der Rice University und der Stanford University in den USA zeigt, dass die von solchen KIs generierten Ergebnissen leidet, wenn sie auf synthetische, maschinell erstellte Eingaben trainiert werden und nicht auf Bilder, die von Menschen stammen. Dasselbe Forscherteam hatte diesen Effekt auch schon für Texte nachweisen können.
Model Autophagy Disorder – MAD
Die Forscher bezeichnen diesen Effekt als Model Autophagy Disorder – passenderweise als MAD abgekürzt. Die künstliche Intelligenz zerstört sich durch Autophagie selbst. Das hat erstaunliche Parallelen zum Rinderwahnsinn ‒ einer neurologischen Störung bei Kühen, die mit den infizierten Überresten anderer Rinder gefüttert werden. Auch bei Menschen gab es früher tödliche Krankheiten, die auf Kannibalismus zurückzuführen waren.
Die Studien zeigen, dass ohne frische Daten aus der realen Welt je nach Versuchsaufbau die Qualität oder die Vielfalt der von der künstlichen Intelligenz produzierten Inhalte abnimmt ‒ oder beides. Dieser Umstand weist auf eine mögliche Zukunft hin, in der sich solche KI-Modelle selbst zerstören könnten oder in der sie zumindest die Daten korrumpieren, die sie erzeugen.
Derzeit gibt es noch keine belastbaren Daten darüber, wie groß der Anteil der KI-erzeugten Inhalte im Netz aktuell ist und wie schnell diese Menge wächst. Doch die Menge KI-generierter Inhalte im Netz nimmt zwangsläufig zu und damit auch der Anteil synthetischer Inhalte, die wiederum in die Trainings von KIs einfließen.
Texte und Bilder betroffen
Sowohl mathematische Modellierungen als auch empirische Analysen zeigen diesen unangenehmen Effekt. "Ohne genügend frische reale Daten sind künftige generative Modelle zum MADness verdammt", betont Computeringenieur Richard Baraniuk von der Rice University.
Die Forscher arbeiten mit einem visuellen generativen KI-Modell und trainierten es mit drei verschiedenen Arten von Daten:
- vollständig synthetische Daten,
- synthetische Daten, gemischt mit realen Trainingsdaten, die nicht veränderbar waren, und
- synthetische Daten, gemischt mit realen Trainingsdaten, die ständig erneuert wurden.
Wiederholungsschleifen in den ersten beiden Szenarien führten zu zunehmenden Verzerrungen der Ausgabe der KI. Dies äußerte sich unter anderem durch auffälligere Artefakte in Form von gitterartigen Narben auf computergenerierten Gesichtern.
Qualität und Diversität der Ergebnisse schwinden
Außerdem glichen sich die Gesichter mit zunehmenden Wiederholungen immer mehr, wenn keine neuen, von Menschen erstellten Trainingsdaten verwendet wurden. Bei Tests mit handgeschriebenen Zahlen wurden die Zahlen allmählich nicht mehr entzifferbar.
Wurde eine fixe Menge menschengemachter Daten verwendet, ohne neue Daten zuzulassen, verschlechterte sich die Qualität des Ergebnisses immer noch, es dauerte nur etwas länger, bis es zusammenbrach. Es scheint, dass nicht nur die Authentizität, sondern auch die Aktualität der Trainingsdaten eine Rolle für den Degenerationsprozess spielt.
Die Ergebnisse der Forscher von der Rice-University wurden anhand großer Sprachmodelle (Large Language Models, LLMs), die für die Produktion von Text entwickelt wurden, auch von britischen und kanadischen Wissenschaftlern bestätigt.
Der Slob kommt
Experten haben bereits davor gewarnt, dass generativen KI-Tools die Daten ausgehen, auf denen sie trainieren können. Sie befürchten, dass MAD, wenn es über viele Generationen hinweg unkontrolliert bleibt, die Datenqualität und -vielfalt des gesamten Internets vergiften könnte.
Die Untersuchungen zeigen aber auch noch etwas anderes: KI-Autophagie könnte bereits zeitnah überraschende Folgen zeitigen, die im Einzelnen jedoch nicht abzusehen sind.
Und tatsächlich gibt es bereits einen neuen Kunstbegriff für dieses Phänomen, den "Slop". So wie "Spam" zum Begriff für unerwünschte E-Mails wurde, wird "Slop" vielleicht bald als Begriff für unerwünschte KI-generierte Inhalte in das Wörterbuch aufgenommen werden.
Empfohlener redaktioneller Inhalt
Mit Ihrer Zustimmmung wird hier eine externe Buchempfehlung (Amazon Affiliates) geladen.
Ich bin damit einverstanden, dass mir externe Inhalte angezeigt werden. Damit können personenbezogene Daten an Drittplattformen (Amazon Affiliates) übermittelt werden. Mehr dazu in unserer Datenschutzerklärung.