Das Semantische Web
Eine Vision in der Halbzeit
Mit der Veröffentlichung der ersten Website 1989 am CERN gab Timothy J. Berners-Lee den Startschuss für das WorldWideWeb, diesem ständig expandierenden Konvolut aus digitalisierten Daten, vernetzten Maschinen und Menschen. Mittlerweile nimmt das Netz für sich in Anspruch, das Weltwissen zu repräsentieren und hat in seiner Gesamtheit längst die klassische Vorstellung von einer Enzyklopädie abgelöst und übertroffen. Andererseits ist das Netz trotz geballter Wissensansammlung und Rechenpower immer noch dumm. Seit fast einer Dekade ist nun das „verständige“ Internet in der Diskussion, die Semantic Web Days in München und die Semantics in Wien zogen eine Zwischenbilanz und zeigten ein mittlerweile weites Spektrum von Praxisanwendungen.
Während im Film seit den 60er Jahren Computer allwissend, vernunftbegabt und sogar zu Gefühlen fähig sind, wird das Web heute zwar bis in seine letzten Untiefen nach Daten und Benutzerprofilen durchsucht, aber auch modernste Suchmaschinen und Datenbankanwendungen bedienen sich meist rein quantitativer Methoden des Data-Mining. Dieses Unvermögen, die Daten ihrer Bedeutung nach zu erfassen - also Texte zu verstehen, Bilder und Musik zu erkennen - bewog Berners-Lee 1998, das semantische Web auszurufen. Die Idee: Solange die Rechner die Daten selbst noch nicht verstehen, soll die Auszeichnung der Webinhalte mit Metaangaben (Daten über Daten) es den Maschinen ermöglichen, die Bedeutung von Webinhalten zu erfassen und sie entsprechend Vorgaben so zu „verstehen“ bzw. anzuwenden.
The Semantic Web is a vision: the idea of having data on the web defined and linked in a way that it can be used by machines not just for display purposes, but for automation, integration and reuse of data across various applications.
Dieser Ansatz ist einerseits das Eingeständnis, dass künstliche Intelligenz immer noch in weiter Ferne liegt, und andererseits pragmatisch, denn auch mit Metadaten lassen sich Aussagen über Datenquellen machen und Beziehungen zwischen ihnen herstellen. Als Standards für die sogenannte semantische „Annotierung“ mit „Ontologien“, also die zusätzlichen Metaangaben, die den Inhalt eines Dokuments beschreiben, hat das W3-Consortium das XML-Derivat RDF (Resource Description Framework) normiert. Das bestehende Web soll also nicht ersetzt, sondern um eine Semantikschicht erweitert werden, um Wissen regelbasiert zu kategorisieren. So können Aussagen über den Inhalt eines Dokuments gemacht und einfache logische Schlussfolgerungen gezogen werden.
In RDF werden die Metaangaben in sogenannten Triplets als Subjekt, Prädikat und Objekt (z.B. Webadresse des Dokuments, Autor, Thema) angegeben. Für die Suche nach RDF-Daten gibt es verschiedene Abfragesprachen. Ein Beispiel ist die RDF Query Language (RDQL), welche der Form nach stark an SQL erinnert und für Suchanfragen bekannte Begriffe wie SELECT, WHERE, etc. verwendet.
Eine RDF-Anwendung, die sich an Maschinen richtet, sind die Composite Capability/Preference Profiles (CC/PP). Sie beschreiben die Eigenschaften von Geräten. Die daraus resultierenden Profile sollen Geräten, wie Handys und PDAs, Webinhalte erschließen, indem ihnen Webserver nur das liefern, was sie darstellen können.
Einsatz in der Praxis
Das Semantic Web verfolgt ein sehr hoch gestecktes Ziel, letztlich sollen Maschinen verstehen, was Menschen meinen. Als Fernziel steht die direkte Spracherkennung à la „Ich will über Ostern nach Mallorca, welche Flüge gibt es?“. Gegenwärtige Anwendungen bieten Interfaces, die zumindest schon einfache logische Abfragen ermöglichen.
Mittlerweile gibt es immer mehr Anwendungen nach den Vorgaben des Semantic Web und erste kommerzielle Anwendungen wie Bibliothekskataloge, Kaufportale oder per RDF annotierte Intranets. Die Entwicklung neuer semantischer Anwendungen wird auch an den Universitäten intensiv gefördert.
Im Bereich E-Commerce setzt Google mit seinem Einkaufsportal Froogle die semantische Strukturierung ein. Anbieter müssen sich bei der Eingabe an die restriktiven Eingabeformate halten. Diese ungewohnte Stringenz scheint noch viele Anbieter abzuschrecken, die Suchergebnisse können noch nicht mit der großen Schwester Google mithalten. Froogle wächst langsam, ermöglicht Google aber kostengünstig und mit geringem Aufwand eine konsistente Produktsuchmaschine aufzubauen, die dem Unternehmen als weitere ertragreiche Werbeplattform dienen wird.
Viele Anwendungsgebiete werden für Semantic Web-Lösungen ausgelotet. Ontotext stellte eine erste, auf RDF basierende Jobsuchmaschine vor. SmartWeb, unter der Leitung des Deutschen Forschungszentrums für Künstliche Intelligenz (DFKI) entwickelt, soll bis 2006 Service-Informationen zu einzelnen Spielen der Fußballweltmeisterschaft liefern und auch Reiseanfragen beantworten. Suchmaschinen mit “Semantic Search” gibt es z.B. im TAP-System von Stanford/IBM, das neben normalen Suchergebnissen auch Zusatzinformationen auf Grund von Ontologien liefert.
Die Hauptdomäne der RDF-Annotation liegt aber noch in den leichter strukturierbaren firmeninternen „Knowledge Bases“. So setzt Siemens RDF-Annotierung intern ein, um Informationen besser zu organisieren und zu vereinheitlichen. Das Unternehmen verschafft sich so einen besseren Überblick darüber, wer für welches Problem schon Lösungen gefunden hat - doppelte Arbeit lässt sich reduzieren.
Größtes Problem bei der Annotierung ist einerseits, dass diese immer noch per Hand erfolgen muss - auch wenn Helferlein wie Lixto Wrapper oder Protege diese Arbeit erleichtern. Sie setzen aber immer noch den kategorisierenden Menschen voraus, sind also arbeitsintensiv, teuer, erzeugen durch umfangreiche Metaangaben letztlich Redundanz und vergrößern so die Datenflut im Internet.
Im Bereich Musik setzt Vodafone Metaangaben zur Identifizierung von Handy-Klingeltönen ein, sie werden jedoch, wie auch bei Pandora noch von menschlichen Experten kategorisiert. Einen neuen Ansatz verfolgt das Fraunhofer Institut um den MP3-Erfinder Karlheinz Brandenburg. Deren neues Programm AudioID/Soundslike analysiert die Musik selbst, den Rhythmus, die Instrumente, die Dynamik und liefert so einen unverwechselbaren digitalen Fingerabdruck eines Musikstücks, der sich nicht an Namen von Interpreten oder zugeordneten Stilen orientiert, sondern die Musik selbst beschreibt und als Annotierung in der MPEG-7 Datei enthalten ist. Damit ist es möglich, Musik bisher unbekannter Musikgruppen zu finden, die genau dem persönlichen Geschmack der Suchenden entsprechen. Nicht ein Genre oder Stil ist ausschlaggebend, sondern ganz bestimmte charakteristische Eigenschaften der Musik.
Im zukünftigen Standard MPEG-7 ist auch die Annotierung von Bildern und Videosequenzen vorgesehen. An deren automatischer Erkennung hapert es aber noch, so dass weiterhin der Dateiname oder zusätzliche Datenbankinformationen als Suchkriterien dienen müssen. Zu komplex sind Farben, Umrisse und Bewegung in Videos. Selbst die Erkennung von Bildern ist über erste Ansätze nicht hinausgekommen. Only Solutions konnte zwar eine einfache Mustererkennung realisieren und vermeldete medienwirksam ihre Software hätte 50.000 Hakenkreuze im Internet ermittelt, die Erkennung komplexerer Muster, geschweige denn Gesichtern oder gar Handlungsabläufen, konnte jedoch nie umgesetzt werden. Noch nicht Realität geworden sind damit auch Hoffnungen der Geheimdienste und Polizeibehörden, sie könnten im Netz automatisch nach verdächtigen Bildern fahnden, etwa nach Videosequenzen mit Kinderpornografie oder von al-Qaida-Angehörigen.
Grenzen des Möglichen
Das Semantic Web nach W3C-Lesart macht Fortschritte und zeigt bereits praxistaugliche Anwendungen. Knowledge Bases in Intranets und stark strukturierte Kaufportale sind machbar. Die arbeitsintensive Annotierung per RDF und die beschränkte Aussagekraft der Metaangaben machen das Semantic Web aber nur für Teilbereiche des Internet tauglich. Komplexere Auswertungsmethoden von öffentlichen Webinhalten, die über die reine Produktsuche hinausgehen, fehlertolerantes Suchen und logische Schlussfolgerung ermöglichen, stehen noch aus. Wahrscheinlich werden sie eine Domäne zukünftiger intelligenter Suchrobots sein. Der Google-Mitbegründer Sergey Brin drückt seine Zweifel an der Internettauglichkeit des Semantic Web so aus:
I'd rather make progress by having computers understand what humans write, than by forcing humans to write in ways computers can understand.
Denn Unternehmen können intern eindeutige Definitionen festlegen, wer soll aber definieren was Freiheit ist, Gerechtigkeit oder Schönheit? Hier scheitert der Einsatz von Metaangaben, und nur das Verständnis der Inhalte selbst wird sie erschließen. Darauf werden wir noch warten müssen - bis Computer sprechen und verstehen.