Keine Lyrik und kein Liebesgeflüster

Florian Rötzer im Gespräch mit dem KI-Forscher Wolfgang Wahlster über Verbmobil, einem erfolgreichen Übersetzungssystem für natürlich-sprachliche Dialoge, und die Grenzen der Sprachtechnologie.

Der folgende Beitrag ist vor 2021 erschienen. Unsere Redaktion hat seither ein neues Leitbild und redaktionelle Standards. Weitere Informationen finden Sie hier.

Wolfgang Wahlster ist Leiter des Deutschen Forschungszentrums für Künstliche Intelligenz und Professor für Computerwissenschaft an der Universität des Saarlandes. Überdies ist er wissenschaftlicher Leiter des Forschungsprojekts Verbmobil, einem hochkomplexen Übersetzungssystem, das auf die Zukunft der Sprachsteuerung von Maschinen verweist. Der Markt für solche Systeme ist groß - und sie könnten, falls sie über begrenzte Dialoggebiete hinausgehen, möglicherweise auch die Dominanz der Weltsprache Englisch brechen.

Sie sind Projektleiter von Verbmobil, eines tragbaren Computersystems zur Übersetzung natürlich-sprachlicher Dialoge. Was waren denn die größten Schwierigkeiten bei diesem Projekt?

Wolfgang Wahlster: Eben hat die zweite Phase des Projekts begonnen, das bis zum Jahr 2000 geht. Mit unseren Partnern aus der Industrie haben wir jetzt aber einen ersten erfolgreichen Prototyp erstellt. Das Verstehen von gesprochener Sprache zu ermöglichen, ist wirklich ein Jahrtausendprojekt. Wir haben das zwar mit Verbmobil auch nicht im Jahr 2000 gelöst, aber wir haben immerhin jetzt ein System mit einem Wortschatz von 10000 Wörtern entwickelt. Ein Gymnasiast hat einen Wortschatz von 70000 Wörtern, aber mit 10000 Wörtern läßt sich schon ein vernünftiger Dialog führen. Basic English, so eine Art Pidgin English, hat etwa 2500 Wörter.

Das Problem dabei sind die verschiedenen Prozesse, die hier ineinandergreifen. Das beginnt bei der akustischen Ebene, dann muß die Grammatik verstanden werden, aber die größte Schwierigkeit ist, daß man übersetzen und verstehen nur dann kann, wenn man auch einen Wissenshintergrund hat. Man muß das Thema, über das gesprochen wird, also die Semantik, wie wir sagen, analysieren können. Das Übersetzen selbst ist gar nicht so schlimm, wenn man einmal alles verstanden hat, aber es geht dann um das geschickte Ausdrücken des Inhalts in der Zielsprache. Wir haben bei diesem Projekt viele Innovationen entwickelt, die zu Spin-off-Effekten in der Industrie geführt haben. Viele Patente und Produkte beruhen auf der Technologie des Verbmobil. Das Projekt hat das Ziel, die strategische Position der deutschen Industrie auf dem Gebiet der Sprachtechnologie so weit zu führen, daß wir damit an der Spitze stehen. Das haben wir fast schon geschafft. Sony und Ericsson haben sich beispielsweise dafür entschieden, ihre Sprachtechnologie hier in Deutschland zu machen. Bosch und Siemens bauen ihre Aktivitäten im Bereich der Sprachtechnologie aus. Das ist eine große Welle. Das Verbmobil ist wie die Fahrt zum Mond, weil man dadurch viele Spin-off-Effekte und eine führende Stellung in Europa erreicht.

Für Übersetzungssysteme gibt es bei zunehmender Verflechtung sicher einen großen Markt.

Wolfgang Wahlster: Ja, einen Riesenmarkt. Deutsch ist im Moment die in der Europäischen Union am meisten gesprochene Sprache. Darüberhinaus kommen eine ganze Reihe von neuen Produkten wie z.B. die Sprachsteuerung im Auto. Es gab zwar schon Sprachausgabe, aber daß man, bis hin zum Radio, mit der Stimme navigieren kann, ist neu. Und genau hier kommt die Verbmobil-Technologie zum Tragen, weil ich in solchen Situationen spontan spreche. Auf dem Markt gibt es Diktiersysteme, aber es gab vor Verbmobil noch keine Systeme, bei denen man auch einmal stottern oder "äh" sagen konnte. Es kann auch Hintergrundgeräusche geben oder es kann laute Musik laufen, das System versteht es trotzdem. Weltweit führend sind wir beim Verbmobil mit der Prosodie. Wir werten also auch die Satzmelodie aus. Wenn jemand ohne Punkt und Komma spricht, was man bei gesprochener Sprache natürlich macht, dann muß man bei anderen Systemen eine Pause machen, bevor der nächste Satz beginnt. Das ist aber keine natürliche Sprache, in der man auch normal Dialoge führen würde. Manche Menschen machen, das haben wir gemessen, zwischen zwei Worten, weil sie nachdenken, längere Pausen als zwischen zwei Sätzen. Das ist bei Menschen ganz normal. Wir gehen das Problem mit dem Melodieverlauf an, um festzustellen, wo Sätze zu Ende sind und wo es sich um Nebensätze handelt.

Läßt sich das nur über die Satzmelodie entscheiden oder ist hierfür nicht auch Kontextwissen nötig?

Wolfgang Wahlster: Kontextwissen spielt eine Rolle bei Grenzfällen, also wenn Sie z. B. sagen: "Ja, zur Not geht es auch am Sonntag." Hier kann es natürlich auch sein, daß Sie "Ja, zur Not" meinen und dann eine Frage stellen: "Geht es auch am Sonntag?" Es ist Kontextwissen nötig, um zu wissen, ob Sie jetzt einen Vorschlag machen wollen oder bestätigen, daß es zur Not auch am Sonntag geht. Die Satzbetonung spielt dabei eine Rolle, aber wenn Sie nicht genügend betonen, muß das System Kontextwissen einsetzen, um zu erkennen, daß es bei dem einen Satzteil um eine Aussage und im anderen um eine Frage geht. Das können wir mit Vermobil ganz gut lösen.

Wir haben jetzt erstmalig für die amerikanische Telefonfirma Sprint etwas Neues vorgeführt. Wir haben eine Leitung über ATM geschaltet, jemanden abwechselnd deutsch und englisch sprechen lassen und dann gezeigt, daß wir das ganze Gespräch protokollieren konnten. Man kann also miteinander sprechen und Verbmobil den Befehl geben, das Ganze schriftlich zu protokollieren, wobei der eine das per Email auf deutsch und der andere auf englisch erhält. Das ist natürlich etwa für Gesprächspartner interessant, die Verträge über das Telefon aushandeln. Das war ein erster Versuch, den man noch nicht als Produkt anbieten kann, aber es läßt sich vorstellen, was das für die Telekom als zusätzliches Angebot bedeuten könnte.

Sie sagten, daß System erkennt an die 10000 Wörter ....

Wolfgang Wahlster: Es erkennt sie nicht nur, sondern versteht sie richtig im Kontext. Erkennen lassen sich ungefähr 60000 Wörter bei heutigen Diktiersystemen. Das beste System kann bislang 2700 Wörter, Verbmobil 2500 Wörter verstehen. Über 10000 Wörter kommt man nicht hinaus.

Gibt es hier Grenzen prinzipieller Art?

Wolfgang Wahlster: Die Grenzen liegen nicht in der Arbeit, die Wissensbasen auszufüllen. Aber um so mehr Wissen man dem System zur Verfügung stellt, desto schwieriger wird es für das System, zwischen Mehrdeutigkeiten zu unterscheiden, und desto stärker steigt auch die erforderliche Rechenzeit an. Demnächst wird man Vermobil auch mit dem Telefon anrufen können. Hier haben wir Maschinen als Server mit 1,7 Gigabyte Hauptspeicher. Man ruft vom Handy an, in dem sich eine Vorverarbeitung befindet, und schickt dann die Daten an den Server weiter, aber man kommt mit solchen Hauptspeichern irgendwann an eine Grenze. Natürlich entwickelt sich die Hardware sehr schnell weiter. Auf der Expo im Jahr 2000 werden wir Verbmobil für Massenbenutzung bereits über derartige Geräte demonstrieren. Aber wir wollen uns nicht so weit vorwagen und behaupten, daß wir es bis 2000 schaffen werden, 60000 Wörter mit Verbmobil zu verstehen. Das wird sicher nicht so bald geschehen.

Und dann bleibt, philosophisch gesehen, immer noch ein Unterschied zur gesprochenen Sprache, weil gewisse Bedeutungsnuancen auf eigener Erfahrung beruhen. Der Mensch hat nicht nur ein semantisches Langzeitgedächtnis, sondern auch das episodische Gedächtnis, mit dem er bestimmte Konnotationen aus eigener Erfahrung speichert. Das wird der Computer nie können. Deshalb funktionieren solche Dialogsysteme nur für bestimmte Situationen. Wir konzentrieren uns vornehmlich auf Geschäftsdialoge im Bereich Technik und Wissenschaft, was ja auch der Hauptmarkt ist. Aber für ein Stammtischgespräch oder gar für Lyrik wird das nicht funktionieren. Hier gibt es eine prinzipielle Grenze. Ich will nicht behaupten, daß dies als Naturgesetz gelten würde, denn als Naturwissenschaftler muß ich sagen, daß es kein physikalisches Gesetz gibt, das sagen würde, daß so etwas nicht gehen könnte. Aber das ist so weit entfernt, und es ist auch wirtschaftlich uninteressant, Liebesgeflüster oder Lyrik zu übersetzen.

Verbmobil ist vermutlich, ganz pauschal gesagt, von oben nach unten programmiert. Es gibt allerdings Versuche, Sprachverstehen auch evolutionär sich entwickeln zu lassen, also wirklich lernende Systeme zu bauen ...

Wolfgang Wahlster: Lernend ist Verbmobil auf jeden Fall. Auf den meisten Gebieten gibt es in Vermobil lernende Algorithmen. Beispielsweise ist die Spracherkennung ganz auf Lernen basiert. Das ist heute Stand der Technik. Maschinelles Lernen ist heute Standard. Dasselbe gilt für die Dialogverarbeitung. Wir haben neuronale Netze im Einsatz, aber wir haben auch statistische Lernverfahren für das Übersetzen. Wenn unser Übersetzungssystem mit der Tiefenanalyse nicht mehr weiterkommt, versuchen wir statistisch zu übersetzen, indem wir große Sammlungen von übersetzten Dialogen benutzen.

Vom evolutionären Ansatz allerdings halte ich nicht viel. Genetische Algorithmen etwa bringen bei der Sprachverarbeitung, was man nachgewiesen hat, nichts.

Das System gleicht aber, wenn Worte in einem bestimmten Kontext, den es noch nicht kennt, in einem Dialog vorkommen, nicht mit dem ab, was es bereits kennt und ist deswegen imstande, neue Bedeutungen selbständig zu verstehen?

Wolfgang Wahlster: Nein, es kann neue Bedeutungen nicht selbständig generieren. Man kann dem System neue Wörter beibringen, aber man muß letztlich immer alles auf eine Ontologie, also auf eine Menge von Objekten, zurückspielen, die es kennt.

Darin besteht ja dann auch die quantitative Grenze?

Wolfgang Wahlster: Es gibt natürlich Projekte wie Psych, bei denen man das beliebig ausgedehnt hat. Hier hat man Wissensbasen, die größer als beim Menschen sind. In Japan gibt es das EBR, ein Konzeptlexikon mit über 300000 Wörtern. So viele Begriffe hat der normale Menschen gar nicht. Wenn man aber derart viele Begriffe einbaut, dann geht die Verarbeitungszeit in die Knie. Wenn Sie als Laie in ein Gebiet wie Physik oder Chemie hineingehen, werden Sie Begriffe, die Sie in der Alltagssprache kennen und deren Semantik Sie zu kennen meinen, in einem neuen Kontext und mit einer völlig anderen Bedeutung finden. Je mehr solcher Kontexte das System kennt, desto größer ist auch die Gefahr der Verwirrung. Früher hat man einmal gedacht, daß es einfacher wird, wenn man mehr Wissen eingibt, aber es ist gerade umgekehrt, wie sich herausgestellt hat.

Kann man aus dieser Perspektive eigentlich Hinweise darüber erhalten, warum das menschliche Gehirn das doch offenbar noch besser und schneller leistet?

Wolfgang Wahlster: Ich kann das nicht. In Sonderforschungsbereichen wie der Kognitionsforschung arbeiten wir auch mit Psychologen und Hirnforschern zusammen. Auch hier werden aber noch sehr kleine Brötchen gebacken, weil die Forschung von den Problemen, bei denen wir nach einer Lösung suchen, noch extrem weit entfernt ist. Von den Hirnforschern erhalten wir als Informatiker kaum Hinweise, da noch nicht bekannt ist, wie das Gehirn genau arbeitet. Man sagt wie neuronale Netze, aber neuronale Netze sind ja nur mathematische Modellvorstellungen, die mit dem Gehirn natürlich nichts zu tun haben. Ich unterstütze diese Forschung sehr, aber bislang ist wenig herausgekommen, was wir wirklich für die Programmierung von Systemen gebrauchen können.

Sie sprachen vorhin schon davon, daß ein System wie Verbmobil auch die Chance eröffnet, in spontaner Sprache mit Maschinen zu kommunizieren. An was wird denn dabei gedacht?

Wolfgang Wahlster: Das Bundesministerium für Wissenschaft, Technik und Forschung hat gerade ein Programm unter dem Titel Informationstechnik vorgestellt, bei dem ich auch mitgewirkt habe. Dort gibt es ein Leitprojekt für die moderne Wissensgesellschaft im nächsten Jahrtausend, in dem ein Projekt "Dialog für die multimodale Mensch-Maschine-Kooperation" vorgesehen ist. Dabei geht es um Sprachverarbeitung in Kombination mit Gestik und Mimik, wie man sie in der normalen Kommunikation verwendet, um die Oberflächen der Zukunft für industrielle Produkte, aber auch für Betriebssysteme benutzergerecht zu gestalten. Microsoft, an die wir bereits einige Mitarbeiter verloren haben, beschäftigt sich beispielsweise ganz intensiv mit der Sprachtechnologie. In die Gestaltung von solchen multimodalen Dialogsystemen fließen natürlich Erkenntnisse vom Verbmobil ein, aber solche Projekte werden Verbmobil in Zukunft ablösen.

Im Moment herrscht in Deutschland bei der Sprachverarbeitung ein Boom. Es geht nicht nur um Telefonsteuerung oder automatische Call-Center, sondern auch um Auskunftssysteme, bei denen man ganz normal sprechen kann. Das gibt es schon bei der Schweizer Bundesbahn. Die Lufthansa wird das bald einführen. Es gibt den sprachgesteuerten PKW. Danach entwickeln wir die Sprachsteuerung für das Handy und schließlich die sprachgesteuerte Bedienung beim PC. Heute kann man schon mit Worten den PC steuern, aber es geht hier um komplexe Assistenzfunktionen, so daß man mit dem PC wie mit einer Sekretärin oder einem Assistenten sprechen kann. Das ist die Vision.

In den Wettbewerben bei Spontansprache halten wir jetzt vor den Japanern und Amerikanern den Rekord, was die Erkennungsrate betrifft. Auf den anderen Gebieten der KI sind wir immer ein wenig hinterher, aber hier hat das Verbmobil doch Erfolge gezeigt.