Wie könnten Virtual Humans so richtig smart werden?

Wenn man sie ihre Realität konstruieren lässt, meint ein Kognitionsforscher

Der folgende Beitrag ist vor 2021 erschienen. Unsere Redaktion hat seither ein neues Leitbild und redaktionelle Standards. Weitere Informationen finden Sie hier.

Spätestens mit "Final Fantasy" ist das totgeglaubte Thema virtuelle Realität wieder in die Medien zurückgekehrt. Für Kognitionswissenschaftler und Medienphilosophen ist die etwaige Renaissance von VR sogar Anlass zu einem Symposium, das im Rahmen der "New Trends in Cognitive Science"-Serie von 20. bis 22. September 2001 in Wien stattfinden wird. Telepolis bat den Mitveranstalter und -initiator Alexander Riegler, einen in Brüssel forschenden Kognitionswissenschaftler, zu einem Vorab-Gespräch.

Herr Riegler, Sie sind Mitveranstalter eines Kongresses zu Virtual Reality, der im September in Wien stattfinden wird. Nun verbinden die meisten mit diesem Begriff jene audiovisuell-taktile Simulationstechnologie, die den User mit Hilfe von Datenanzug und Datenhandschuh in ein dreidimensionales computergeneriertes Universum entführen sollte. Ein Traum am Ende der achtziger Jahre - jedoch niemals wirklich realisiert und heute ausgeträumt, wie man oft hört. Was gibt es denn überhaupt Neues bzw. Berichtenswertes auf diesem Sektor?

Alexander Riegler: In vielen Bereichen der Natur-, Human- und angewandten Wissenschaften hat in den vergangenen Jahren das Konzept der "Virtualität" eine völlig neue Perspektive eingebracht, die sich grundlegend auf den Erwerb und die Darstellung von Wissen auswirkt. Aus diesem Grund war es an der Zeit, einen wissenschaftlichen Kongress zu diesem Thema zu veranstalten. Interessanterweise geht diese "virtuelle Perspektive" weit über den "Datenhandschuh" hinaus, der ja in erster Linie als Spielzeug bekannt geworden ist. Was die Konferenz daher zeigen will, ist eine interdisziplinäre Sicht der "virtuellen Realität" (VR), die sich von der psychologisch-kognitiven Seite über neue technologische Anwendungen bis zu philosophischen Fragestellungen erstreckt.

Und tatsächlich wird aus den Beiträgen der Vortragenden klar, dass sich VR weiterentwickelt hat - wenn auch diese Entwicklungen zunächst für den Einzelnen nicht so spektakulär zu sein scheinen wie der Datenhandschuh. Nichtsdestoweniger sind die Auswirkungen auf die Gesellschaft ungleich bedeutender. Als konkrete Beispiele unter den Symposiums-Referenten seien hier genannt: der Einzug der VR in den Operationssaal (Rolf Ewers, Wien) oder sogenannte "Collaborative Virtual Environments", die es geographisch weit voneinander getrennten Wissenschaftlern ermöglichen, auf neue Weise miteinander zu interagieren. In die gleiche Kerbe schlägt die "Tele-Education" (Chris Stary, Linz), die als "erweiterte" VR Internet und multimediale Techniken verknüpft. Aus kommerzieller Sicht besonders interessant sind "Virtual Humans" (Nadia Magnenat-Thalman, Genf), die als Verkäufer oder Assistenten eingesetzt werden können. Schließlich ergeben sich aus VR-Techniken auch Konsequenzen für die Gestaltung von neuen Computer-Schnittstellen, aber auch für die darstellende Kunst (Bill Keays, Schweiz).

Virtuelle Marylin, Miralab, Nadia Magnenat-Thalman

OK, das waren jetzt mehrere Anwendungsfelder, bleiben wir einmal einen Moment beim ersten von Ihnen genannten, dem Bereich der virtuellen Chirurgie, Tele-Surgery usw. Das sind wir doch schon in der Begriffskonfusion: Ist jedes bildgebende Verfahren VR, also ein Verfahren, das die "Realität" - die Innenwelt des Körpers - "abbildet"? Ist umgekehrt jedes Modell, jede projektierte Virtualität von einer möglichen zukünftigen "Realität" VR? Das erinnert mich an Peter Weibel, der einmal gesprächsweise gesagt hat, die Tatsache, dass die Chirurgen vor seiner schweren Operation ein Modell des Eingriffs konstruiert haben, das sich dann in der Realität bewährt hatte, zeigt ihm gleichsam epistemologisch, dass man sich ein Bild von der Realität machen könne. Nur die Frage bleibt - was ist daran VR?

Alexander Riegler: Die Antwort auf diese Frage hängt klarerweise von der Definition von VR ab. Grob gesagt gibt es erstens die kostengünstige "Desktop-VR", bei der ein herkömmlicher Computermonitor zur Darstellung virtueller Welten herangezogen wird, und zweitens die "ultimative VR", bei der der Benutzer in die Virtualität gewissermaßen eintaucht - beispielsweise mit Hilfe der erwähnten Datenhandschuhe und -helme. Für beide Enden des Spektrums gelten folgende Minimal-Anforderungen. Die ganze Sache ist computergeneriert, die Objekte in der virtuellen Welt sind mittels dreidimensionaler Technik generiert, und wichtig, das System gibt dem Benutzer die Möglichkeit der multi-modalen Interaktion. So ist z.B. im Falle der virtuellen Chirurgie der Arzt "tele-präsent", d.h. Sensoren, die sich an einem ganz anderen Ort befinden können, sind mit den Sinnesorganen des Chirurgen verbunden. VR ist aus diesen Gründen nicht gleichbedeutend mit x-beliebig erzeugten Computerbildern. Man könnte das auch so definieren, dass VR die Sinnesorgane mit computergenerierten bzw. -vermittelten Stimuli versorgt, anstelle das der sogenannten "realen" Welt zu überlassen. Gerade so eine Perspektive hat natürlich auch große philosophische, insbesondere epistemologische Auswirkungen. Die Handlung des Films "Matrix" baut ja auf solch einer "Sinnessubstitution" auf.

Wenn Sie Film erwähnen, fallen mir aktuelle Produktionen wie etwa "Final Fantasy" ein. In der Unterhaltungsindustrie scheinen ja Cyber-Realitäten wieder groß in Mode zu kommen, insbesondere auch virtuelle Figuren, virtuelle Schauspieler, virtuelle Models. Sie haben in Ihren Anwendungs-Beispielen "Virtual Humans" erwähnt, die als Verkäufer agieren. Wie hat man sich das vorzustellen? Vollkörper-3D-Wesen, die im Internet als smarte Assistenten auftreten?

Alexander Riegler: "Final Fantasy" ist ein Beispiel von nicht-interaktiver Desktop-VR und wird in dieser Form zweifellos die Filmindustrie revolutionieren. Die Werke guter Schriftsteller zeichnen sich u.a. dadurch aus, dass sie die "Psychologie" der Protagonisten glaubhaft darstellen. Gelingt es, die "Psychologie" virtueller Schauspieler auf dieselbe Weise festzuschreiben, dann liegt die Zukunft des Kinos beim virtuellen Film. Allerdings ist die glaubhafte Darstellung des Virtuellen nur ein Aspekt der VR, denn im Gegensatz zu den realen Schauspielern haben "Virtual Presenters" zusätzlich das Problem der Interaktivität zu bewältigen. Das beinhaltet beispielsweise das Interpretieren von Gesichtsausdrücken eines Gegenübers, ganz zu schweigen von den Problemen, die die Künstliche Intelligenz seit jeher bereitet hat, wie etwa das Verstehen von gesprochener Sprache und von Bildern.

Die Kompetenz der kommunikativen Interaktion ist eine Notwendigkeit, um derartige "smarte Assistenten" bzw. Verkäufer akzeptabel zu machen. Wie gerne fragt man doch selbst lieber einen menschlichen Experten, anstatt sich von einer unkooperativen Maschine belehren zu lassen! In gewisser Weise sind also "Virtual Humans" eine Neuauflage des bekannten Tests Alan Turings, bei dem ein Computer so "gut" sein muss, damit ein menschlicher Fragesteller ihn nicht von einem Menschen (genauer: in der Originalpublikation von 1950 von einer Frau) unterscheiden kann. Vor 50 Jahren dachte Turing dabei noch an rein textbasierte Kommunikation.

Während heute der "virtuelle Output", also die Generierung von Sprache und Gesichtsausdrücken, unglaubliche Fortschritte macht (ob als "Talking Heads" oder als Vollkörper-3D-Wesen, siehe eben "Final Fantasy"), sieht es mit der "Empfangsseite" nicht so gut aus. Das liegt meiner Ansicht nach auch daran, dass Sprach- und Bilderkennung als Informationsextraktion aufgefasst werden. Hier bietet das gründlichere Nachdenken über die kognitiven und epistemologischen Grundlagen von VR eine Möglichkeit, es besser machen zu können.

Realistische Gesichtsmodellierung, Miralab, Nadia Magnenat-Thalman

Wenn ich Sie in diesem Punkt richtig verstehe, dann deuten Sie an, dass es sehr wohl zur Entwicklung von wirklich verstehenden "Virtual Beings" kommen könnte, würde man Sprach- und Bilderkennung nicht mehr als Informations-Input aus der Umwelt auffassen. Mit anderen Worten, ein konstruktivistisches Modell der Informations-Generierung könnte da weiterhelfen? Wenn ja, wie ginge das empirisch-konkret?

Alexander Riegler: Reine Informationsextraktion kann mit dem Versuch verglichen werden, ein Dach ohne Haus zu bauen. Welche Funktion hätte so ein Dach? Wie könnte es frei über dem Boden schweben, ohne tragende Mauern? - Gleichsam ist das mechanische Extrahieren von Merkmalen - wie etwa Gesichtsausdrücke des Gegenübers oder dessen Äußerungen - ohne umfassenden Bedeutungsrahmen zwecklos. Merkmale sollten besser in ein bestehendes Bedeutungsfeld eingefügt werden. Wir merken das sehr gut beim Phänomen des "Information Overloads". Das bedeutet nichts anderes, als dass wir Inhalte nicht rasch genug kognitiv integrieren können und sie sich daher aufstauen. Wenn wir aber daran denken, dass die tagtägliche visuelle Information um ein Vielfaches höher ist als der Inhalt selbst hunderter E-Mails (sofern in Bits ausgedrückt), wir aber diese Informationsflut problemlos bewältigen, dann kann keine mechanische Extraktion von Information dahinterstehen. Es handelt sich hierbei vielmehr um das gekonnte Aufsammeln von "Reizeinwirkungen", gesteuert durch die Dynamik unseres kognitiven Apparats und nicht durch die Umgebung. Im Falle visueller Eindrücke können wir das nach langjähriger Übung sehr rasch.

Wir sind, um es mit einem geläufigen Ausdruck zu belegen, "embodied" in unserer (visuellen) Umgebung. Mit "embodied" meine ich das Resultat einer fortdauernden Interaktion mit der Umgebung und die sich daraus entwickelnden Motivationen und Ziele des Individuums. Konstruktivisten sprechen hier auch gerne von "struktureller Kopplung". Im Gegensatz dazu ist die mechanische Merkmalsextraktion eine Berechnung, die ein Ergebnis liefert, welches im Interesse des Programmierers liegt und nicht im Interesse des von ihm programmierten Agenten. Der Programmierer bestimmt (indirekt durch den Programm-Code), wann ein Agent etwas zu erkennen hat. Damit äfft der Agent aber nur äußere Erscheinungen nach, ist also gewissermaßen bloß eine bessere Kamera. Drehen wir die Sache aber um und lassen den Agenten "seine" Realität konstruieren, dann ist er in dieser Realität "embodied" und Reizeinwirkungen ("Informationen") können mit Sinn erfüllt werden. In dem Beitrag von Markus Peschl und mir sprechen wir auch vom "synthetischen Modus" des Wissenserwerbs, d.h. von der Wissensgenerierung im Virtuellen; und wir diskutieren, welchen Stellenwert dieser Modus in Form von Simulationen in den Wissenschaften hat. Auch hier zeigt sich, dass das Virtuelle viel näher an der "Realität" ist, als man zunächst annehmen möchte.