Wikipedia sorgt für Weltwissen

Israelische Wissenschaftler haben ein Verfahren entwickelt, um KI-Programme mit einer Analyse von Wikipedia-Artikeln besser semantische Ähnlichkeiten von Worten und Texten erkennen zu lassen

Der folgende Beitrag ist vor 2021 erschienen. Unsere Redaktion hat seither ein neues Leitbild und redaktionelle Standards. Weitere Informationen finden Sie hier.

Wikipedia, die kollektiv erstellte Online-Enzyklopädie, kann nicht nur Internetnutzern dienen, um sich über ein Thema zu informieren. Wissenschaftler am Technion-Israel Institute of Technology haben ein Verfahren, die "Explizite Semantische Analyse" (ESA), entwickelt, um Computer "schlauer" zu machen. Aus den Begriffen von Wikipedia-Einträgen können KI-Programme Verbindungen zwischen Worten lernen und sollen damit ein Stück Common Sense oder Weltwissen erwerben.

Da KI-Programmen notorisch wenig allgemeines Weltwissen besitzen, sind ihre Fähigkeiten des Verstehens beschränkt. Menschen benutzen zum Verstehen der Bedeutung von Texten und Worten eine Menge an angeeignetem Hintergrundwissen. Ein solches explizites Hintergrundwissen liegt in den Artikeln von Wikipedia vor, die einen Begriff durch eine Menge von Verknüpfungen mit anderen Worten erläutern. Wikipedia enthält nicht nur domänspezifisches Wissen, sondern ist auch eine riesige Quelle aus Common Sense-Wissen. Die KI-Wissenschaftler Evgeniy Gabrilovich und Shaul Markovitch haben daher zur Entwicklung ihrer Methode gleich die gesamte Wikipedia heruntergeladen.

Mit Algorithmen des maschinellen Lernens lassen sich mit diesem Hintergrundwissen semantische Verbindungen in Texten mit natürlicher Sprache erkennen und damit die Bedeutung von Texten als "gewichtete Vektoren von in Wikipedia verwendeten Begriffen" generieren. Die Wikipedia-Artikel sorgen mit ihrer Verknüpfung von Worten für das Hintergrundwissen, um semantische Nähen auf der Grundlage von Begriffen besser lernen und erkennen zu können. Bislang würden sich Programme vornehmlich auf eine statistische Analyse von Worthäufigkeiten stützen, um Verbindungen zu erschließen.

Um KI schlauer zu machen, müsste etwa das Verhältnis von Katze und Maus oder das von "Einen Artikel vorbereiten" und "Einen Text schreiben" erschlossen werden, ohne dass eine direkte Verknüpfung von Worten für alle denkbaren Fälle vorhanden ist. Als Beispiel für Verbindungen, die Programme mit der Hilfe der auf Wikipedia basierenden Expliziten Semantischen Analyse (ESA) ziehen können, führt Markovitch an, dass dann, wenn in einem Text die Worte Saddam Hussein und Massenvernichtungswaffen vorkommen, daraus eine Verbindung mit dem Irak-Krieg, Geheimdienstinformationen vor dem Krieg, Yellowcake-Betrug oder das britische September-Dossier abgeleitet werden könne, auch wenn diese Worte selbst nicht im Text vorkommen. Wenn "C-4", ein anderes Beispiel, in einem Text steht, müsse klar sein, dass es sich um Sprengstoff handelt. Solche Verbindungen herzustellen, könnte, so schlagen die Wissenschaftler vor, für E-Mail-Filter wichtig sein. Wenn mit einem Filter beispielsweise Spam für Vitamine aussortiert werden soll, aber in einer E-Mail nur Riboflavin vorkommt, dann könne mit dem Verfahren eine Verbindung zwischen Riboflavin und Vitaminen hergestellt werden.

Die Wissenschaftler hatten als Quelle Wikipedia gewählt, weil die Enzyklopädie alleine in der englischen Version mit über 400 Millionen Worten und über einer Million Artikeln die größte existierende Wissenssammlung ist. Zu kleine und zu spezifische Begriffe mit weniger als 100 Wörtern und weniger als 5 Links wurden ausgeschlossen, so dass von den fast 1,2 Millionen Artikeln mit 2,9 Gigabyte Text noch etwas mehr als 240.000 Artikel übrigblieben, aus denen 180.000 Begriffe gewonnen wurden. Zur Analyse wurden die Wikipadia-Artikel direkt verwendet und eine Gewichtung der Worte in einem Artikel durchgeführt. Für die semantische Interpretation wurde jedes Wort einer Liste der Begriffe zugeordnet, für deren Erklärung es verwendet wird – und zwar beginnend mit den "bedeutendsten", während die am wenigsten wichtigen ausgeschlossen werden.

Zum Vergleich wurde mit derselben Methode auch das hierarchisch geordnete Web-Verzeichnis des Open Directory Project ausgewertet, bei dem freiwillige Mitarbeiter Inhalte von Webseiten Kategorien zuordnen. 400.000 Begriffe mit 2,8 Millionen URLs wurden erweitert durch die Inhalte von jeweils 10 Seiten jeder verlinkten Website, woraus sich über 20 Millionen unterschiedliche Bezeichnungen ergaben, um ODP-Knoten als Attributsvektoren darzustellen.

Die ESA-Methode auf der Grundlage von Wikipedia schnitt im Vergleich mit der auf der Grundlage des ODP besser ab, was allerdings auch daran liegen könnte, so die beiden Wissenschaftler, dass die Erfassung der Webseiten mehr "Rauschen" einbrachte, während die Wikipedia-Artikel praktsich "rauschfrei" seien. Beide Ansätze wiederum zeigten sich gegenüber Verfahren wie WordNet, Roget's Thesaurus, Latent Semantic Analysis (LSA) und anderen statistischen Ansätzen, aber auch gegenüber WikiRelate! als überlegen, das gleichfalls Wikipedia zur Analyse semantischer Ähnlichkeiten verwendet. Mit ESA könne man nicht nur weitere Worte erschließen, die zu einem Begriff gehören, sondern auch die Verwendung von Worten mit mehreren Bedeutungen wie "Maus" als Computermaus oder als biologisches Tier erkennen. In Zukunft wollen die Wissenschaftler auch ihre Methode weiter entwickeln, indem die Informationen aus den Links in Wikipedia-Artikeln mit einbeziehen.