Wörterbuch für Roboter
Von Menschen geschmäht, von Maschinen mit Freuden genutzt: Wikipedia als Schnittstelle zwischen biologischer und künstlicher Intelligenz
An Wikipedia scheiden sich die Geister. In Universitätsseminaren und Zeitungsredaktionen sind Zitate aus der Internet-Enzyklopädie zumeist unerwünscht. Auch Juristen tun sich schwer, das hier zusammengetragene Wissen zu akzeptieren. Dennoch wird auch von diesen Berufsgruppen gerne auf diese Ressource zugegriffen. Wikipedia nutzt man, aber man erwähnt es nicht weiter. Was bei personalisierten, urheberrechtlich geschützten Texten Minister stürzen kann, ist hier nicht nur erlaubt, sondern häufig sogar ausdrücklich gefordert.
Neil L. Waters, Historiker am Middlebury College in Vermont, befürchtete schon 2007 die Popularisierung des Wissens durch Wikipedia. Ihm war aufgefallen, dass mehrere Studenten in einem Aufsatz über den Shimabara-Aufstand von 1637-38 bei der Einschätzung der Rolle des Gelehrten Ogyu Sorai die gleichen Fehler machten. Damit haben die Studenten letztlich dazu beigetragen, Wikipedia zu verbessern. Aber Waters freute sich nicht darüber, einen Fehler im größten, frei zugänglichen Wissensspeicher korrigieren zu können, sondern schien eher froh, eine Wunde gefunden zu haben, in die er den Finger legen konnte. Zitate aus Wikipedia waren in seinen Seminaren künftig verboten.
Maschinen haben da weniger Berührungsängste, im Gegenteil, sie werden von Wikipedia geradezu magisch angezogen. Seit etwa Mitte des vergangenen Jahrzehnts, als das Internetlexikon einen gewissen Umfang in mehreren Sprachen erreicht und eine stabile Form entwickelt hatte, beschäftigen sich mehr und mehr Forschungsteams mit dessen Potenzial als Schnittstelle zwischen natürlicher und künstlicher Intelligenz. Die Fachzeitschrift Artificial Intelligence hat Wikipedia mit Volume 194 jetzt sogar ein Themenheft gewidmet. Dessen Herausgeber sehen eine "Renaissance wissensgeprägter Ansätze in der KI", die sie maßgeblich auf Wikipedia zurückführen.
Was die Wissenschaftler an der Online-Enzyklopädie so begeistert, ist die dort vorgenommene "semistrukturelle" Aufbereitung des Wissens: Die Artikel sind nach einem Schema verfasst, untereinander verlinkt und einem hierarchischen Kategoriensystem zugeordnet. Das bietet viele Ansatzpunkte, um mit statistischen Verfahren Wortbedeutungen auf die Spur zu kommen und gezielt Informationen zu extrahieren.
Das an der University of North Texas entwickelte System Wikify! etwa ermittelt in einem Textdokument durch den Abgleich mit Titeln von Wikipedia-Artikeln und darin verlinkten Passagen zunächst Schlüsselwort-Kandidaten. Um diese Kandidaten hinsichtlich ihrer Bedeutung für den jeweiligen Text zu bewerten und in eine Rangfolge zu bringen, zählt Wikify! dann, in wie vielen Wikipedia-Artikeln ein Begriff bereits als Schlüsselwort genutzt wird und teilt diese Zahl durch die Anzahl aller Dokumente, in denen der Begriff auftaucht. Bereits dieses einfache Verfahren erzielt eine höhere Trefferquote als etablierte statistische Methoden wie das Tf-idf-Maß oder der Chi-Quadrat-Test.
Wikify! ist von vielen Forschungsgruppen aufgegriffen worden und von den texanischen Forschern selbst zum "Wikipedia Biased Graph Centrality Algorithm" weiterentwickelt worden. Der kann inhaltliche Übereinstimmungen erkennen, auch wenn unterschiedliche Begriffe verwendet werden. Andere Verfahren stützen sich neben den Wikipedia-Kategorien und Artikeltiteln auch auf die erweiterten Abstracts oder Tabellen. Matias Nicoletti, Silvia Schiaffino und Daniela Godoy vom argentinischen ISISTAN Research Institute kombinieren die erweiterte Wikify!-Methode zudem mit weiteren Verfahren, um auch in stärker verrauschten Alltagstexten wie Chats und Online-Foren automatisch deren Kerninhalte zu identifizieren.
Wikipedia ist auch geeignet zur Erzeugung von Ontologien
Sogar vollwertige Ontologien lassen sich automatisch aus Wikipedia erzeugen. Ontologien sind hochgradig strukturierte, maschinenlesbare Wissensspeicher, die nicht nur Begriffe, sondern auch deren Eigenschaften und Beziehungen untereinander erfassen. Sie sind die Voraussetzung dafür, dass Computer automatisch auf Wissen zugreifen können. Da sie bislang noch weitgehend von Hand erzeugt werden, decken sie zumeist nur einen schmalen, für die jeweilige Anwendung erforderlichen Bereich ab. Wikipedia erschließt ihnen jetzt das allgemeine Wissen.
In die am Max-Planck-Institut für Informatik in Saarbrücken entwickelte Ontologie YAGO sind neben Wikipedia auch die lexikalische Datenbank WordNet und die geografische Datenbank GeoNames eingeflossen. Gegenwärtig umfasst YAGO zehn Millionen Einträge mit über 120 Millionen Fakten.
Mit derzeit 10,3 Millionen Einträgen ist die in internationaler Kooperation erzeugte Ontologie DBPedia vom Umfang her mit YAGO vergleichbar und ist wie diese ebenfalls frei verfügbar. Anders als YAGO, das sich auf die englische Sprache konzentriert, liegt DBPedia allerdings in 111 Sprachen vor. Die Mehrsprachigkeit von Wikipedia macht sich auch die am Heidelberger Institut für Theoretische Studien entwickelte Wissensdatenbank WikiNet zunutze und erreicht damit gute Ergebnisse bei der Identifizierung von Eigennamen: Die sind im Englischen gut an der Großschreibung zu erkennen und lassen sich von dort in andere Sprachen übertragen.
Für Roboter und andere intelligente Maschinen ist Wikipedia damit zum unverzichtbaren Wörterbuch geworden, mit dessen Hilfe sie nach und nach nicht nur das gesamte übrige Internet, sondern auch die reale Welt immer besser verstehen werden. Spätestens wenn die ersten Roboterprofessoren ihre Vorlesungen abhalten, wird dann auch die Frage der Zitierfähigkeit neu aufgerollt werden.