Fakten fischen
Der History-Bot markiert eine neuen Zündstufe des Internet
Der H-Bot beantwortet automatisch Fragen zur Geschichte. Damit steht er am Beginn einer neuen Internet-Ära: Techniken zur automatischen Analyse von normalsprachlich verfassten Informationen werden der Online-Suche ungeahnte Möglichkeiten erschließen. Google und Wikipedia verschmelzen zu einer neuen Art künstlicher Intelligenz.
Viele können sich noch ganz gut daran erinnern. Damals wirkte die Szene eher bedrohlich als albern: Hämmerte der sowjetische Staats- und Parteichef Nikita Chruschtschow doch tatsächlich mit seinem Schuh auf dem Rednerpult vor der Generalversammlung der Vereinigten Nationen herum und brach dabei in schauriges Siegesgeheul aus. „We will bury you“ – so etwas in der Richtung sagte er russisch. Die richtige Übersetzung seiner Worte, das stellte sich im nachhinein heraus, wäre eher etwas in der Richtung gewesen wie „Wir werden an Eurem Grabe tanzen“. Der Kapitalismus, glaubte Chruschtschow, würde sich selbst zerstören.
Gravierender jedoch als die schiefe Übersetzung ist, dass die Szene so überhaupt niemals stattgefunden hat. Zwar hatte der erhitzte Staatschef mit seinem Schuh – einem in Pirmasens hergestellten Fabrikat, auch dies ist überliefert – vor den UN gehörig auf den Tisch gehauen. Aber das berühmte „We will bury you“ hatte er nicht erst 1961, sondern bereits fünf Jahre zuvor auf einem diplomatischen Empfang in Moskau kundgetan.
Falsche Fakten fischen
Daran, dass die beiden Szenen irgendwie übereinander geblendet worden und zu einem einzigen Ereignis verschmolzen sind, trägt das Internet wesentliche Mitschuld. Etliche Webseiten, darunter auch Ergebnisse der neuen Buchinhaltssuche von Google, verweisen auf das falsche Faktum – und werden ihrerseits wiederum als Auskunftsquelle herangezogen.
Man kennt die Klage über die vielen falschen Fakten aus dem Netz. Wenig beachtet aber wurde bisher, dass Webseiten und Internetsuchmaschinen nicht nur falsche Fakten in die Welt setzen, sondern, im Gegenteil, ebenso gut helfen können, diese auszumerzen. Hierbei hilft eine neue Erfindung: der History-Internet-Roboter, genannt H-Bot, den der Historiker Daniel C. Cohen vom Center for History and New Media an der George Mason University in Virginia konstruiert hat.
Antwort-Roboter
Der H-Bot ist ein kleines Computerprogramm, welches selbstständig im Internet bestimmte Suchaufträge erledigt und die Ergebnisse rapportiert. Sein Prinzip ist vergleichbar mit jenem der freien Online-Enzyklopädie Wikipedia, bei welcher vor allem die große Anzahl von Autoren, die jeden einzelnen Eintrag bearbeiten, die Richtigkeit der Inhalte garantiert. Für den H-Bot zählt vor allem statistische Häufigkeit. Um einfache Fragen wie „Wann zog Monet nach Giverny?“ zu beantworten, fragt der H-Bot zunächst ab, wie viele Webseiten, die zugleich „Monet“, „zog“ und „Giverny“ enthalten, von der Suchmaschine Google aufgelistet werden. Knapp 50.000 sind dies momentan. In einem zweiten Schritt analysiert der H-Bot jene Seiten, die ganz oben auf der Ergebnisliste stehen – Seiten also, die jeder, der via Google nach der entsprechenden Wortfolge sucht, ebenfalls konsultieren würde. H-Bot fasst diese Seiten als eine zusammenhängende Masse von Rohtext auf. Dieser wird nun nach vierstelligen Ziffern abgegrast. Das Resultat: eine Häufung der beiden Daten „1840“ und „1926“ – dem Geburts- und dem Todesjahr Monets. Noch häufiger jedoch trifft der H-Bot in dem Rohtext die Ziffernfolge „1883“ an: das Jahr des Umzugs.
Interessanterweise nennen allerdings einige der Webseiten, auf die Google verweist, darunter auch die in der Trefferliste zu aller erst aufgeführte, auf ein anderes Datum: 1878! Ähnliche Divergenzen zeigen sich bei anderen Suchaufgaben. Manchmal werden lediglich Fehler in Webseiten deutlich, ein andermal – wie bei der Frage nach dem Geburtsdatum des Dschinghis Khan – deuten Unklarheiten auf Kontroversen in der Forschung.
Wieder andere Ungereimtheiten entstehen durch Namensdoppelungen. In vielen solcher Fälle vermag der H-Bot durchaus Fehler und Lücken in redaktionell betreuten Nachschlagewerken ausfindig machen. Dies demonstrierte ein Wettkampf des H-Bot gegen die angesehene Enzyklopädie „The Reader’s Companion to American History“ und gegen die in den USA populäre „The Timetables of History“, dessen Ergebnisse Daniel Cohen vor kurzem in dem Internetjournal „Firstmonday“ veröffentlichte.
In seiner jetzigen Version ist der H-Bot dennoch kaum mehr als ein simples Spielzeug. Einfache Fragen, die mit „Wann...“ oder „Wer war...“ beginnen, kann er, wenn sie auf einigermaßen geläufige Begriffe und Ereignisse zielen, zwar mit 95prozentiger Sicherheit beantworten. Bei Fragen, deren Antwort ein Name ist, bringt er es hingegen auf nicht mehr als sechzig Prozent Treffsicherheit. Auf die Frage „Wer entdeckte Amerika“ gibt er die richtige, wenngleich nicht sehr geläufige Antwort „Zheng He“; nach dem Erfinder der SMS befragt, taucht der seltsame Name „Harry Pooter“ auf. Und als Mörder von James Hepburn – die Frage danach stammt aus einem Online-Quiz zur Geschichte – nennt der H-Bot „Farewell America“.
Eine digitale Revolution
Für sich genommen, sind diese Resultate nicht besonders beeindruckend. Dennoch kündigt sich mit dem H-Bot vielleicht nicht weniger an als die nächste digitale Revolution. In den vergangenen Jahren arbeiteten viele Informatiker an dem Projekt des „Semantic Web“(Das Semantische Web). Dabei handelt es sich sozusagen um ein zweites Internet, welches, anders als das erste, chaotische und von normalen Menschen mit ihren Webseiten bestückte Netz, in maschinenlesbarer Logik verfasst ist. In diese Richtung zielte beispielsweise das Cyc: der Versuch, das gesamte Alltagswissen in Form von logischen Aussagen zusammenzustellen.
Der H-Bot schlägt einen anderen Weg ein. Anstelle ein zweites Netz aufzubauen, bezieht er seine Informationen aus dem gewöhnlichen „www“. Dabei setzt die neue Technik darauf, automatische Abfragen zu entwickeln, welche normalsprachlich dargestellte Informationen verarbeiten können.
In einer weiter entwickelten Version, die bislang allerdings nur als Testversion existiert, beantwortet der H-Bot auch Multiple Choice-Aufgaben, wie sie in Geschichtstests an amerikanischen Schulen verwendet werden. Eine solche Frage ist: „Wer löste 1955 den Boykott des öffentliche Nahverkehr in Montgomery in Alabama aus, indem er sich weigerte, in einem Bus, dessen vordere Sitze ausschließlich für Weiße reserviert waren, seinen Platz zu räumen?“ Um das zu beantworten, sucht der H-Bot zunächst nach Wörtern aus der Frage, die im Web relativ selten vorkommen. Der Begriff „Bus“ ist bei Google fünfhundert Millionen mal aufgeführt.„Montgomery“ jedoch erzeugt bei einer Google-Suche nur knapp einhundertvierzig Millionen Treffer und ist von daher in diesem Fall der geeignete Kandidat als Suchbegriff. Auf ähnliche Weise reduziert der H-Bot auch die Antwortoptionen auf Kernbegriffe, deren statistische Häufigkeit relativ gering ist. Bei der Antwort „Rosa Parks“ ist dies der Namensbestandteil „Rosa“. Nun werden „Rosa“ und „Montgomery“ kombiniert. Neun Millionen Dokumente zeigt Google als Treffer an! Das ist dafür, dass zwei so seltene Wörter miteinander kombiniert werden, auffällig viel. Weitaus weniger Treffer erzielt man, wenn man die gleiche Prozedur für die Antwortmöglichkeiten „Phyllis Wheatley“ „Mary McLeod Bethune“ durchspielt.
Besser als amerikanische Schüler
Allein dadurch also, dass auf diese Weise die so genannten „normalisierten Informationsabstände“ von Begriffspaaren aus Frage und Antwortmöglichkeiten miteinander verglichen werden, ermittelt der H-Bot die Lösung: Rosa Parks. Alles in allem bringt er es bei der Beantwortung der 33 Fragen, die der vom National Assessment of Educational Progress vorgesehene Test für Viertklässler enthält, auf 27 richtige Antworten. Das ist mehr als die US-amerikanischen Viertklässler erzielen. Von ihnen können nur 62 Prozent „Rosa Parks“ als Initiatorin des Bus-Boycotts identifizieren, der zu einem Auslöser für die schwarze Bürgerrechtsbewegung wurde .
Eine andere Funktion des H-Bot wird darin bestehen, Namensdoppelungen im Internet handhabbar zu machen. Namensdoppelungen sind ein herausstechendes Problem beim Umgang mit großen Datenbanken generell – auch im Zusammenhang mit Techniken der Rasterfahndung oder des Screenings von Flugpassagieren nach verdächtigen Personen. In einer künftigen Version soll der H-Bot bei der Beantwortung von Fragen nach Namen wie David Walker (wohinter sich ein Sklavereigegner, ein Web-Designer, ein Astronaut, ein Informatiker an der Cardiff University und andere Personen verbergen) oder nach einem der verschiedenen „Karl V.“ von vornherein auf das Namensproblem hinweisen.
Auch dies geschieht mit Hilfe von Online-Datenbanken. Wollte man zum Beispiel Webseiten zu George Bush Junior und George Bush Senior auseinanderdividieren, könnte man mit Hilfe der entsprechenden Lexikoneinträge der Wikipedia zu diesem Zweck ein Suchprofil erstellen, welches, etwa für Bush Senior, Schlüsselbegriffen enthielte wie „Michael Gorbatschow“ oder den Namen des ehemaligen Regierungschefs von Panama „Manuel Antonio Noriega“. Mit Hilfe solcher Profile ließe sich ein digitaler Scheidetrichter erstellen, der Webseiten über Bush Junior von solchen über Bush Senior trennt.
Vor diesem Hintergrund wird auch deutlich, warum Google und Yahoo die Online-Enzyklopädie Wikipedia seit kurzem großzügig mit freiem Speicherplatz und Datentransferleistungen beschenken. Die frei zugängliche Wikipedia ist eine einzigartige Spielweise für alle möglichen Techniken des Data Mining, die sich für die Betreiber der Suchmaschinen als nützlich erweisen können.
Der Cliolator Vermutlich, glaubt Daniel Cohen, arbeiten die Ingenieure bei Google und Yahoo bereits an solchen und komplexeren Methoden. Aber noch andere Anwendungen sind denkbar. Ein Kollege, berichtet Cohen, hatte vor einiger Zeit den Bau eines Cliolator vorgeschlagen – eines Taschenrechners für Geschichte. Eine gute Idee eigentlich. Leider aber gibt es so einen Cliolator bereits: das Internet-fähige Handy. Vielleicht also werden für Schüler und Studenten schon bald historische Kenntnisse ähnlich unwichtig sein wie heute die Fähigkeit zum Kopfrechnen – dank Google, Wikipedia und dem H-Bot.