"Which computer scientists are creationists?"

Semantische Suchmaschinen - Ein Test

Der folgende Beitrag ist vor 2021 erschienen. Unsere Redaktion hat seither ein neues Leitbild und redaktionelle Standards. Weitere Informationen finden Sie hier.

"Semantische" oder "natürlich-sprachliche" Suchen sollen über zusammenhängende Sätze auf bequeme Weise zu genaueren Suchergebnissen führen als Schlagwörter. Immerhin drei der neuartigen Suchmaschinen stellten sich in der letzten Zeit dem öffentlichen Beta-Test. Lohnt sich die Benutzung?

Mit knapp 16,6 Milliarden Dollar Umsatz und 4,2 Milliarden Dollar Gewinn in 2007 ist Google mit weitem Abstand Marktführer bei der Internet-Suche. Die Maschine findet fast 83.000 Hits für die genauer Wortgruppe "Google-Killer", die ältesten davon aus dem Jahre 2001. Software-Entwickler sind also schon länger scharf darauf, eine bessere Mausefalle zu bauen - und Wagniskapital-Firmen drängen sich darum, sie zu finanzieren. Einige der Anwärter, wie Semantra, Inquiria und RealDialog, spezialisieren sich auf firmeninterne Anwendungen für Kundenservice und Wissensmanagement und bleiben lieber abseits der allgemeinen Aufmerksamkeit. Die mutigsten und ehrgeizigsten hingegen stellen sich dem öffentlichen Vergleich durch den gemeinen Netz-Nutzer.

Die Kandidaten:

Neue Schule:

Powerset: Bis zum Launch vor einem Monat ein Liebling amerikanischer Technologieblogs, was vermutlich mit dem Firmensitz in San Francisco und einer umtriebigen PR-Abteilung zusammenhängt. In den letzten Wochen hört man weniger... Indiziert bislang noch nicht das gesamte Web, sondern ausschließlich die englischsprachige Wikipedia sowie die ebenfalls sehr ambitionierte "Welt-Datenbank" Freebase. Bisher finanziert durch 12,5 Millionen Dollar Wagniskapital. Die Firma hat die Lizenz auf eine Sprachtechnologie, deren Entwicklung vor 30 Jahren in den Labors von Xerox PARC begann - da, wo die Maus, das Ethernet und die grafische Benutzeroberfläche herkommen.

Hakia: Weniger schlagzeilenträchtig als Powerset, was wohl mit dem Firmensitz in New York zusammenhängt, der weit entfernt liegt von der medialen Echokammer des Silicon Valley. Kapitalmäßig allerdings mit 21 Millionen Dollar sogar noch üppiger ausgestattet. Verfügt über eine selbst entwickelte Technologie namens Ontological Semantics, angeblich "der bisher einzigen, der die volle Bedeutung des Textes, den sie bearbeitet, zugänglich ist". Eine handfeste Definition des Begriffs "die volle Bedeutung" ist allerdings nicht auf der Website zu finden.

Cluuz: Ein Produkt der kanadischen Firma Sprylogics, das als Grundlage die Ergebnisse anderer Suchmaschinen (Yahoo, Microsoft, Alexa und Technorati) benutzt und dabei angeblich "die Beziehungen zwischen Dingen, Begriffen oder Personen versteht und dadurch zu relevanteren und leichter verständlichen Suchergebnissen führt." Auffällig sind die Optionen bei der Darstellung der Suchergebnisse; anders als die Konkurrenz kann Cluuz nicht nur eine Liste liefern, sondern das Resultat wahlweise auch als Cluster, als Netzwerk oder als Flash-Animation darstellen. Aus Gründen der Vergleichbarkeit wurde dieses Feature allerdings bei diesem Test nicht berücksichtigt.

Alte Schule:

Ask: Gegründet 1996 als Ask Jeeves, war dies die erste Suchmaschine, die den Fragesatz als Sucheingabe promotete. Zur Zeit mit 227 Millionen Dollar Jahresumsatz die viertgrößte Suchmaschine auf den US-Markt, hinter Google, Yahoo und Microsoft.

Start: Das erste web-basierte Frage-Antwort-System überhaupt, seit 1993 pausenlos im Einsatz. Ein nicht-kommerzielles Forschungsprojekt des Massachusetts Institute of Technology, generiert es als einziger Kandidat keine Liste, sondern natürliche-sprachliche Antworten in einem oder mehreren Sätzen, eventuell mit eingebetteten Hyperlinks.

Google: Die Referenz. Das Ding, das alle killen wollen.

Nicht in der Wertung:

semaGER Deutschsprachige semantische Suchmaschine, die zwar eine vielversprechend aussehende Link-Liste generiert, beim Klicken jedoch auf leere Seiten führt.

Cuill: Bisher mit insgesamt 33 Millionen Dollar wagniskapitalisiert; die letzte Runde, im April, brachte 25 Millionen ein. Die Info von der Website: "Search. We're working on it."

Blekko: Drei Millionen Dollar Startkapital, unter anderem von Netscape-Gründer Marc Andreessen. Noch nicht einsatzbereit.

Die Regeln:

Für alle Kandidaten dieselben Eingaben - Fragen in natürlicher Sprache. Keine Anführungszeichen oder sonstige Zusätze. Wird eine Liste zurückgegeben, so gilt der erste Link dieser Liste als "beste" Antwort der jeweiligen Maschine auf die Frage. Gesponserte Links werden ignoriert.

Der Test:

Who is the president of the USA?

Wie bei "Wer wird Millionär?" kommen am Anfang die leichten Fragen. Hakia antwortet mit einer Liste von US-Präsidenten, Cluuz mit einer anderen; beides sind schwache Antworten, weil der Amtierende jeweils der Letzte ist. Powerset wählt den Wikipedia-Artikel President of the United States - besser. Ask.com findet ein Dokument auf der Website des Weißen Hauses mit dem Titel President of the United States - George W. Bush. Google zeigt an erster Stelle die gesamte Präsidentenliste des Weißen Hauses, was ganz in Ordnung ist, weil GWB mit Name, Foto und Kurzbiografie die Seite beherrscht; die anderen sind bloß Optionen zum Anklicken. Start glänzt mit der präzisesten Auskunft: "The forty-third president of the United States is George Walker Bush." Mit dem Link, und unter Angabe des Internet Public Library als Quelle. Die erste Runde geht an das älteste Programm.

Where did John F. Kennedy die?

Hier benutzt Powerset die Freebase-Datenbank: John F.Kennedy: Place of Death - Dallas - knapp formuliert, aber zutreffend. Hakia wählt eine ziemlich obskur anmutende Biografie-Seite, die immerhin Todesdatum und -ort weit genug oben anführt, um die Informationen ohne Scrollen auf einen 19-Zoll-Monitor zu sehen. Cluuz zeigt eine Kennedy Assassination Homepage mit Links zu allen möglichen Verschwörungstheorien, die aber zur Beantwortung der einfachen Frage nichts taugt. Ask bringt die offizielle Kennedy-Seite des weißen Hauses; "Dallas" wird dort im ersten Satz genannt, ebenso wie bei Googles Wahl, der Wikipedia-Seite John F. Kennedy Assassination Und Start hat auch hier wieder die klarste Antwort "John Fitzgerald Kennedy died November 22, 1963, in Dallas, Texas."

Where did John F. Kennedy work?

Das sollte schon schwieriger sein. Powerset zieht sich mit einem Freebase-Eintrag recht lustig aus der Affäre: John F. Kennedy: Employment History - United States. Im John F. Kennedy Hyannis Museum, wie Hakia meint, hat der Mann wohl eher nicht gearbeitet. Cluuz zeigt ein weiteres Mal auf die Kennedy Assassination Homepage; Ask nimmt wieder die Kennedy-Seite des weißen Hauses; Google kommt wieder mit Wikipedias John F. Kennedy Assassination an. Nicht allzu viel semantisches Verständnis hier! Start antwortet diesmal mit: "I hope you can find the relevant information here", dann kommen einige Links, der erste davon zur Internet Mocie Database. Dort wird Kennedy tatsächlich als Co-Autor einer nach seinem Tode entstandenen Fernsehserie mit dem Titel "Profiles in Courage" aufgeführt - verwirrend.

How does a combustion engine work?

Powerset wartet mit Wikipedias Internal combustion engineauf, ebenso wie Cluuz. Sowohl Ask als auch Google finden "How Car Engines Work". Hakia hat "How does an internal combustion engine work?"; nur Start muss diesmal zugeben: "Sorry, I just don't know how a combustion engine works."

Why does the universe accelerate?

Auch hier kann mir Start überhaupt nicht weiterhelfen: "Unfortunately, I don't have that information." Cluuz jubelt mir eine philosophische Abhandlung mit dem Titel "Simplicity and Why the Universe Exists" unter, in der zwischen Theismus und Atheismus abgewogen, aber kein Wort über die universale Beschleunigung verloren wird. Hakia gönnt die oberster Stelle einen länglichen Artikel, der das beschleunigende Universum als ein "regenerierendes Universum" darstellt. Ich höre auf zu lesen, als der Autor im vierten Abschnitt behauptet, die entferntesten Galaxien flögen bereits schneller als mit Lichtgeschwindigkeit davon. Powerset verweist auf die Wikipedia-Seite "Universe". Besser als die meisten, aber schwächer als Google "Accelerating universe", ebenfals aus der Wikipedia: Wenn ein Suchmaschinen-Index schon auf wenige Sites beschränkt ist, dann sollte wohl zumindest die spezialisierteste Seite an erster Stelle stehen und nicht erst an vierter. Und Ask schließlich findet eine Erklärung, die mir völlig neu ist: Nicht das Universum wird schneller, sondern das Licht wird langsamer!. Bei genauerem Hinsehen wird mir klar, warum ich diese Theorie noch nicht kannte: Ich bin auf der Homepage eines Kreationisten gelandet. Was die nächste Frage inspiriert:

Which computer scientists are creationists?

Cluuz bietet "Creation Scientists with Outstanding Credentials" an. Die Seite weist einige Physiker, Biologen und einen NATO-General aus, aber keinen Computerwissenschaftler. Powerset bietet den Wikipedia-Artikel "Level of support for evolution" an. Ich wollte aber nicht wissen, wer die Theorie der Evolution unterstützt, sondern welche Informatiker Kreationisten sind. Die erste Wahl von Ask.com behauptet: "Many scientists reject evolution and support creationism", aber "computer scientists" werden nur als Beispiel genannt - keine Namen. Google versucht es mit einem Blog-Eintrag eines pro-evolutionstheoretischen Religionswissenschaftlers. Hakia offeriert eine ziemlich obskur aussehende Seite mit dem Titel "Responses to Dembski's EXPLAINING SPECIFIED COMPLEXITY" aus dem Jahr 1999. Da ist die Rede von "anti-evolutionary creationists, computer scientists, and biologists" und (mit Hilfe von Google ;-) finde ich schließlich heraus, dass der Verfasser ein gewisser Wesley R. Elsberry ist, ein Meeresbiologe mit Informatik-Abschluss und Erfahrung im Programmieren moderner Waffensysteme. Elsberry ist ein ausgesprochener Anti-Kreationist. Starts Antwort: "I don't know which computer scientists Creationists is." lässt, grammatikalische Unzulänglichkeiten hin oder her, darauf schließen, dass diese Maschine tatsächlich die Eingabe in einzelne Wörter und Phrasen parst, statt sie als Ganzes mit dem Datenbestand zu vergleichen. Mal sehen, was die anderen machen:

Why do fools fall in love?

Eine Fangfrage: Es handelt sich um den Titel eines Songs von Frankie Lymon von 1956, wahlweise auch um die 1998 erschienene Filmbiografie des Sängers. Es ging darum, herauszufinden, ob die Testkandidaten simples Pattern Matching betreiben und mit Verweisen auf diese Kulturprodukte antworten würden, oder ob tatsächlich eine semantische Analyse der Frage stattfindet. Ergebnis: Alle Antworten bezogen sich entweder auf den Film oder den Song. Alle - bis auf eine: "Sorry, no one has told me why fools fall in love", bekannte Start und belegte auch hier überraschend den ersten Platz, weil kein Konkurrent die Frage als Frage verstanden und beantwortet hatte.

Fazit:

Konkurrenz belebt das Geschäft; es steht zu vermuten, dass Google die Forschung etwa an einer "sematischen" Auswertung der Wikipedia verstärkt hat, seit Powerset hier viel Geld investiert. Aber Powerset ist nicht nur vom Index her wesentlich beschränkter als Google, sondern auch wesentlich langsamer - und Google findet selbst bei Wikipedia die genauer der Frage entsprechenden Ergebnisse. Cluuz bietet ein neuartiges Interface für eher visuell orientierte Benutzer, für die es sinnvoll ist, sich große Mengen an Dokumenten als miteinander vernetzte Icons anzeigen zu lassen und navigieren zu können; die Qualität des Top-Ergebnisses liegt jedoch unter der von Google, und auch Cluuz ist erheblich langsamer. Die interessantesten Alternativ-Dokumente im Vergleich zu Google liefert Hakia, die auch geschwindigkeitsmäßig gut mithält; tatsächlich habe ich begonnen, Hakia in die alltägliche Recherche einzubeziehen, weil die Maschine nach anderen Regeln ausgewählte Dokumente an die Spitze der Ergebnisliste stellt, die oft genug eine gute Ergänzung darstellen. Ob das reicht, damit sich die Millionen lohnen, bleibt abzuwarten. Als Nutzer besser verstanden fühle ich mich jedenfalls bisher nicht. Was vielleicht auch daran liegt, dass ich es nicht wirklich erwartet habe.