Text trifft auf Film: Sora bricht die Barriere zwischen Worten und Videos

06. März 2024 Wassilis Aswestopoulos

Text trifft auf Film: Sora bricht die Barriere zwischen Worten und Videos
Deepfakes und die Rolle von Sora im Superwahljahr 2024
Auf einer Seite lesen

Sora lässt Worte lebendig werden: Texte verwandeln sich in fesselnde Videos. Die Revolution der KI-gestützten Kreativität startet. Sie hat aber auch Grenzen.

Mitte Februar stellte das von Microsoft unterstützte OpenAI mit Sora ein neues Projekt vor. Es handelt sich um einen Text-zu-Video-Generator, der basierend auf schriftlichen Eingabeaufforderungen mithilfe generativer KI Videosequenzen erzeugen kann. Es ist auch möglich, Videos aus vorhandenen Standbildern zu generieren.

Der neueste Meilenstein der KI Entwicklung, die Erzeugung von Videosequenzen durch einfache Texteingabe, ist umstritten. Es ist nicht das erste Programm dieser Art, liefert jedoch erstaunlich gute Ergebnisse. Angesichts der vielfältigen aktuellen Krisen und des Superwahljahrs 2024 gibt es Gefahren bei potenziellem Missbrauch.

Sora: Die Zukunft der Videoerstellung durch Künstliche Intelligenz

"Sora ist in der Lage, komplexe Szenen mit mehreren Charakteren, bestimmten Bewegungsarten und präzisen Details des Motivs und Hintergrunds zu erstellen. Das Modell versteht nicht nur, wonach der Benutzer in der Eingabeaufforderung gefragt hat, sondern auch, wie diese Dinge in der physischen Welt existieren", stellt OpenAI sein System vor.

Zum jetzigen Zeitpunkt sind die Videos auf die Länge von einer Minute begrenzt. Erste von OpenAI präsentierte Videos zeigen eine hohe Qualität. Gezeigt wird eine Reihe von Videos realistisch erscheinender Szenen sowie Animationen. Laut Angaben von OpenAI handelt es sich um unbearbeitete Videos.

Es wird allerdings nicht erklärt, nach welcher Vorgabe die Videos ausgewählt wurden, sodass die Vermutung, dass es sich um handverlesene Exemplare handelt, durchaus berechtigt erscheint.

Auffällig bei allein Videos sind die "lauten" Farben, welche die Sequenzen unnatürlicher erscheinen lassen. Die Bewegungsabläufe wirken wie in Zeitlupe. Mit einer Tempoanpassung beim Abspielen könnte das gelöst werden. Die Haut von abgebildeten Menschen erscheint, wie durch Beauty-Filter verschönert, was aber in Zeiten von Instagram und Co üblich ist.

Die Herausforderungen und Lösungen hinter Soras KI-Videotechnologie

Zudem gesteht OpenAI selbst einige Kinderkrankheiten des bisher nicht ausgereiften Systems ein. "Möglicherweise fällt es ihm schwer, die Physik einer komplexen Szene genau zu simulieren, und es kann sein, dass es bestimmte Fälle von Ursache und Wirkung nicht versteht. Beispielsweise könnte eine Person in einen Keks beißen, der Keks hinterher aber möglicherweise keinen Biss aufweisen", heißt es in der Erklärung zur Vorstellung von Sora.

Der Leiter der Computer Vision & Learning Group an der Ludwig-Maximilians-Universität München (LMU), Professor Dr. Björn Ommer sieht in Sora eine neue Entwicklungsstufe und bringt die Fehler auf den Punkt:

Die Synthese von Videos war aufgrund des deutlich höheren Rechenaufwands zumeist auf kurze animierte Sequenzen beschränkt. Die große Herausforderung ist, zeitliche Kohärenz herzustellen. Sora hat hier einen signifikanten Schritt gemacht. Aber auch hier zeigen sich bei genauerem Hinschauen noch recht viele Fehler. Dies führt zu Beschränkungen der Länge, wenn passable Resultate erzielt werden sollen, da sich ansonsten Fehler ansammeln.

Lesen Sie auch

Die rechtliche Verantwortung von Chatbots: Unternehmen haften für ihre KI

KI produziert Fehler und Fakes: Wie zuverlässig ist die Zukunftstechnologie?

Noch ist nicht bekannt, wann Sora einer breiteren Öffentlichkeit zur Verfügung gestellt wird. OpenAI erklärt, dass die Videos durch entsprechende Eintragungen von Metadaten als KI-Produkt erkennbar sein sollen, und, dass Techniken entwickelt werden, um die Videos mit entsprechenden Tools als KI-Videos identifizierbar zu machen.

Sicherheit und Ethik in der KI: OpenAIs Ansatz mit Sora

Inhalte mit "die extreme Gewalt, sexuelle Inhalte, hasserfüllte Bilder, Ähnlichkeiten mit Prominenten" zeigen, sollen bereits im Vorfeld ausgeschlossen werden. Ein unabhängiges Team (Red Team) soll Sicherheitsaspekte abklopfen und das Programm gegen jede Art von Missbrauch schützen.

OpenAI räumt ein, dass "trotz umfassender Forschung und Tests wir nicht vorhersagen können, wie viele Menschen unsere Technologie nutzbringend nutzen und wie sie missbraucht werden." Es wird darauf vertraut, dass die KI-Systeme "im Laufe der Zeit" immer sicherer werden.

Empfohlener redaktioneller Inhalt

Mit Ihrer Zustimmmung wird hier eine externe Buchempfehlung (Amazon Affiliates) geladen.

Buchempfehlungen immer laden

Ich bin damit einverstanden, dass mir externe Inhalte angezeigt werden. Damit können personenbezogene Daten an Drittplattformen (Amazon Affiliates) übermittelt werden. Mehr dazu in unserer Datenschutzerklärung.

Telepolis ist Teilnehmer am amazon.de Partnerprogramm Anzeige