Die Automatisierung der Inhalte-Erstellung

Seite 2: Automatisch generierte Fließtexte

Der folgende Beitrag ist vor 2021 erschienen. Unsere Redaktion hat seither ein neues Leitbild und redaktionelle Standards. Weitere Informationen finden Sie hier.

Eigenes Texten? Wenn Bewegtbilder bereits automatisch produziert werden können, müsste dies auch für Texte möglich sein, obwohl die Aufgabe ungleich schwieriger erscheint. Doch gerade das Feld der automatischen Textgenerierung boomt seit einigen Jahren und scheint ökonomisch zumindest derzeit vielversprechender zu sein als automatisierte Multimedia-Produktion. Bei der automatischen Textgenerierung ist immer zu unterscheiden zwischen templatebasierten Ansätzen, Machine-Learning-Verfahren und "echten" Deep-Learning-Methoden auf Basis künstlicher neuronaler Netze, hier vor allem rekurrenter neuronaler Netze.

Quelle: 2txt

Betrachten wir als nächstes einführendes Beispiel das Versprechen des Berliner Unternehmens "2txt - natural language generation". In der Selbstdarstellung grenzt sich die Company von templatebasierten Ansätzen ab: "Unsere semantischen Modelle und Grammatiken sind wesentlich flexibler als herkömmliche Template-Lösungen und besitzen damit eine so große Ausdruckskraft, dass wir deutlich skalierbarer und vielfältiger Texte generieren können als vergleichbare Ansätze." Man kann daran glauben oder nicht. Nur Kunden könnten bestätigen, dass dies tatsächlich bereits funktioniert. Woher weiß selbst das schlaueste künstliche neuronale Netz "von sich aus", dass es sich etwa beim Modell GE72 7RE-049DE um "ein leistungsstarkes Oberklasse-Notebook" handelt? Eine solche Verknüpfung ist nur möglich, wenn das dem Programm schon einmal irgendwo gesagt wurde oder es Zugriff auf Dokumente oder Web-Inhalte hat, aus denen diese Information hervorgeht.

Wie immer in der Netzkultur ist es schwierig, Heilsversprechen von Unternehmen zu verifizieren. Jede Innovation produziert rasch zahllose Anbieter und Nachahmer im Netz. Nicht anders verläuft die derzeitige Entwicklung im Bereich der automatischen Textgenerierung.

Dennoch: Wie breit das Feld der automatisch erzeugten Inhalte (d.h. von Automated Content) bzw. das Feld des Versprechens von automatisch erzeugten Inhalten bereits ist, zeigt folgende Tabelle, die selbstverständlich keinen Anspruch auf Vollständigkeit erhebt (eigene Übersicht, Erhebungszeitraum Juli 2018, aktualisiert November 2018):

Bekannte Anbieter automatisch erzeugter Inhalte nach Content-Typen:
Content-Typ Anbieter (Auswahl) Webseite
Journalistischer Text (z.B. Wetter, Sport, Wirtschaftsnachrichten, Wahlergebnis) In den USA z.B. Automated Insights und Narrative Science, in DE z.B. Retresco, AX Semantics, TextOmatic https://automatedinsights.com, https://narrativescience.com, https://www.retresco.de, https://www.ax-semantics.com, https://textomatic.net
E-Commerce-Text (z.B. Produktbeschreibung) 2TXT, Retresco, AX Semantics, TextOmatic https://2txt.de, https://www.retresco.de, https://www.ax-semantics.com, https://textomatic.net
Google-Analytics-Bericht Narrative Science https://www.quillengage.com
Wissenschaftlicher (Kurz-)Text Articoolo http://essaybuddy.net
Wissenschaftliches Buch ICON Group International https://www.icongrouponline.com
Belletristisches Buch (Lyrik, Roman …) P.M. Parkers Algorithmus,
ICON Group
https://www.youtube.com/watch?v=SkS5PkHQphY
Songtext DopeLearning
Rap Lyrics Generator
http://deepbeat.org/
Infografik Graphiq https://www.graphiq.com
Kunstwerk
(Grafik, Bild)
Rutgers University, Googles DeepDream https://sites.google.com/site/digihumanlab/home (nicht kommerziell); https://ai.googleblog.com/2015/07/deepdream-code-example-for-visualizing.html
https://sites.google.com/site/digihumanlab/home (nicht kommerziell); https://ai.googleblog.com/2015/07/deepdream-code-example-for-visualizing.html (nicht kommerziell)
Explainer Video simpleshow https://www.mysimpleshow.com/de
Video, Imageclip Wibbitz https://www.wibbitz.com
Computerspiel Farm Defenders von TotoGEO (P. M. Parker) https://www.youtube.com/watch?v=xIJdfQDihUc
(Kurz-)Film Thereforefilms http://www.thereforefilms.com/sunspring.html

Automatisch generierte Inhalte als nächste Etappe der Digitalisierung

Paradigmatisch geht es immer darum, dass Daten in Content verwandelt werden: Das ist das Versprechen von Automated Content. Bislang hat die Digitalisierung die Tools zur Produktion von Inhalten perfektioniert. Nun macht sie sich daran, die Produktion von Inhalten selbst zu leisten. Der "Kommunikator" aus der Kommunikationswissenschaft, der bislang in allen Modellen als ein Mensch gedacht war, kann nun auch ein Computerprogramm, kann ein Code sein. Das ist neu in der Evolution der Medien, obwohl sich Spuren eines "Schreibroboters" bereits 1726 in Jonathan Swifts "Gullivers Reisen" finden lassen.3

Bislang galt die Unterscheidung von Daten und Informationen oder die Trias von Daten, Informationen und Wissen als unverrückbar. Ebenso hieß es: Die Daten kann zwar die Maschine liefern, aber die Interpretation der Daten muss immer noch der Mensch leisten. Nunmehr scheint auch die Interpretation algorithmisch bearbeitbar zu werden. Semantische Technologien erheben erstmals den Anspruch, tatsächliches Textverstehen zu leisten. Neuere Ansätze wie etwa die Latente Semantische Analyse (LSA) oder die von AX Semantics eingesetzte Technologie versprechen die automatische Erkennung des Bedeutungsraums eines Wortes oder ganzen Satzes. Dabei ist immer zu berücksichtigen, dass es sich um mathematische Verfahren handelt, die - ganz im Sinne der Philosophen Ludwig Wittgenstein und Josef Mitterer - innerhalb der Sprache agieren. Wenn der semantische Raum ein Vektorraum ist, gibt es keinen "Realitätskontakt". Vielmehr treffen Terme der Sprache auf mathematische Gleichungen. Die Versuche, dem Computer Textverstehen, also eine Art Hermeneutik beizubringen, passen somit zu Strömungen in der Sprachphilosophie, die Bedeutungen auf andere Bedeutungen zurückführen und/oder Sprache als wichtigsten (im radikalen Sinne sogar: primordialen und alleinigen) Konstrukteur von Wirklichkeit verstehen.

Die (noch ungeschriebene) kurze Geschichte von Automated Content

Noch niemand hat eine Geschichte von Automated Content geschrieben. An dieser Stelle nur so viel: Vorboten von Automated Content finden sich im analogen Zeitalter gleich mehrere: Man denke nur an die Methoden des Cut-up und Fold-in von William S. Burroughs und Brion Gysin, also des Zerschneidens, Faltens und Neu-Zusammenlegens von Texten, wodurch scheinbar beliebige und nicht verständliche ‚neue‘ Texte entstehen. Durch menschliche Auswahl dieser willkürlichen Kreationen entstehen mögliche neue Sinnzusammenhänge. Das Prinzip der Aleatorik spielte im 20. Jahrhundert nicht nur in der Literatur, sondern auch in der Malerei und in der Musik eine Rolle. Automatisches Schreiben gilt schon seit den Surrealisten als eine Methode, um am Bewusstsein vorbei Texte zu generieren.4 Roland Barthes‘ vielzitiertes semiologisches Diktum vom "Tod des Autors" war zwar 1969 als Aufruf gedacht, sich weniger um die Intentionen des Autors und mehr um den Text selbst zu kümmern, erhält aber aus heutiger Sicht eine neue Bedeutung: Der menschliche Autor wird womöglich zunehmend obsolet, wenn Algorithmen Texte, Bilder und schließlich sogar Filmskripte produzieren können. Im positiven Szenario werden bloß redundante Tätigkeiten vom Computer erledigt werden: Wer will schon Hunderte Produktbeschreibungen für einen Webshop verfassen oder aus Fließtexten dutzende Prüfungsfragen und Antworten für Multiple-Choice-Tests generieren? Wenn hierbei die Maschine hilfreich oder gar federführend sein kann, scheint das einen positiven Effekt zu haben: In der Positiv-Vision von Automated Content hat der Mensch (wieder mehr) Zeit, sich um kreative(re) Aufgaben zu kümmern.

Was geschieht aber, wenn Algorithmen sich aufmachen5, um in jene Domäne der Kreativität, des Erzeugens von neuem Wissen vorzudringen, von der man noch bis vor Kurzem glaubte, dass sie auch weiter exklusiv dem Menschen vorbehalten sein wird? Nehmen wir etwa den kreativen Prozess des Schreibens einer wissenschaftlichen Arbeit: Was geschieht, wenn die Arbeitsschritte der Themenfindung, der Literatursuche, der Quellenbewertung, des Zitierens und des Schreibens von Computerprogrammen übernommen werden können? Automatisches Lektorat und Layout verstehen sich von selbst. Und: Die automatisch generierten Texte werden dann auch noch zunächst vom Computer und nicht vom Menschen geprüft, namentlich von Plagiatssoftware. Was geschieht, wenn der Kommunikator ein Computerprogramm ist und der erste Rezipient ein anderes Computerprogramm? Man kann dann nicht mehr argumentieren, dass der Computer redundante Tätigkeiten erledigen würde. Im Gegenteil, er würde dann ja in das Zentrum der menschlichen Kreativität vordringen. Ebenso verfehlt wäre der Hinweis darauf, dass Studierende dann Zeit für andere Kreativarbeiten hätten. Denn auch Bilder, Videos und Filme könnte dann der Computer erstellen. In einem solchen Szenario wäre der Mensch tatsächlich nur noch eines: der Programmierer und Optimierer der Maschinen, der Überwacher des automatisierten Prozesses. (Und wenn sich eines Tages auch noch die Programme selbst optimieren können, was dann?)

Die Auswirkungen auf menschliche Sprache und Kognition wären nicht absehbar. Unsere Hirnstrukturen würden sich wohl stark verändern, wenn wir nicht mehr selbst kreativ Probleme lösen müssen, sondern nur noch die Codes perfektionieren, die für uns die Probleme lösen.

Dieser Artikel ist eine leicht überarbeitete Fassung von Kapitel 2 des Buchs "Roboterjournalismus, Chatbots & Co. Wie Algorithmen Inhalte produzieren und unser Denken beeinflussen", erschienen am 19.11.2018 in der Heise-Reihe "Telepolis".