Nutch: die freie Suchalternative zu Google

Ein frei verwendbarer Suchalgorithmus soll es vielen Webmastern ermöglichen, eigene Suchmaschinen einzurichten und größere Offenheit in den Suchmaschinenmarkt zu bringen

Der folgende Beitrag ist vor 2021 erschienen. Unsere Redaktion hat seither ein neues Leitbild und redaktionelle Standards. Weitere Informationen finden Sie hier.

Google wurde immer mehr kritisiert, weil die Suchmaschine von selbsternannten Suchmaschinenoptimierern und anderen Spammern bombardiert wird. Doug Cutting ist ein Experte, der seit 15 Jahren im Bereich der Informationsgewinnung arbeitet, und er will es besser machen. Er sucht im Rahmen des Nutch-Projekts zusammen mit Hunderten von Entwicklern nach einer transparenteren Möglichkeit des Suchens mit einer Open-Source-Suchmaschine. Sein Ziel ist es, den Zugang zu den gegenwärtig meist proprietär gehaltenen Suchtechniken zu öffnen, die Forschung zu fördern und die Suche im Web zu verbessern. Cutting arbeitet als Betreiber des Projekts von seinem Heimbüro im Silicon Valley aus und wird teilweise finanziell von Yahoo, dem größten Konkurrenten Googles, unterstützt. Erfahrungen hat er in seinen früheren Tätigkeiten beispielsweise bei Xerox PARC, Apple und Excite gesammelt. Stefan Krempl befragte ihn zum Stand der kommenden Nutch-"Revolution" und zu den ersten Schritten im Bereich "Free Search".

Können Sie kurz erklären, wie Nutch grundsätzlich funktionieren soll?

Doug Cutting: Nutch ist eine Software, die man sich herunterladen kann, um eine Suchmaschine für das Web einzurichten. Nach dem Download muss man erst ein paar Einstellungen machen, also wo der Crawler beginnen oder welche Domains er besuchen bzw. nicht besuchen soll. Dann lässt man den Crawler eine Weile laufen. Wie lange, hängt davon ab, welche Art Suchsite man einrichten will. Bei einer Intranet- oder Nischensuchmaschine benötigt ein einzelner Computer für einen Crawl vielleicht nur ein paar Stunden, während die Durchsuchung des ganzen Web für viele Computer eine Woche oder länger dauern kann. Nach dem Crawl setzt man Nutch ein, um die gefundenen Seiten zu indexieren und die eigene Suchseite zu starten. Für Nutch ist es das Ziel, sowohl für Intranets und Nischen leicht einsetzbar zu sein, als auch komplexe Installationen für das gesamte Web zu ermöglichen.

Was bedeutet Open Source im Kontext einer Suchmaschine? Kann sich jeder am Entwicklungsteam von Nutch beteiligen? Oder geht es eher um die Herstellung eines transparenten Suchalgorithmus?

Doug Cutting: Open Source ermöglicht es mehr Interessierten, Suchmaschinen einzurichten, was den Wettbewerb und die Ausbildung unterschiedlicher Perspektiven fördert. Auch die Transparenz wird gefördert. Die Menschen können sehen, wie die Suchmaschine Seiten anordnet, und sie können den Algorithmus nach ungeeigneten Einseitigkeiten überprüfen. Wie bei den meisten Open-Source-Projekten kann jeder bei Nutch seinen Beitrag leisten. Die Beiträge werden von anderen Entwicklern überprüft und, wenn sie als geeignet betrachtet werden, in den Code aufgenommen. Wenn ein Entwickler einige Beiträge in hoher Qualität gemacht hat, hat er sich Anerkennung verdient und kann eingeladen werden, als Mitarbeiter zu fungieren, der den Code direkt verändern darf.

Wenn man auf die Page-Ranking-Technik vollen Zugriff hat, ist es dann leichter, bei Nutch zu einem höheren Ergebnis zu kommen? Wie können die berüchtigten "Search Engine Optimizer" (SEOs) das Nutch-Prinzip einsetzen?

Doug Cutting: Ich glaube, das ist ein geringeres Problem, als allgemein befürchtet. SEOs kennen bereits die Ranking-Algorithmen und manipulieren Webseiten, damit sie bei der Ausgabe der Suchergebnisse höher stehen. Ein größeres Wissen über den Ranking-Algorithmus wird das kaum einfacher machen. Webseiten, die zu sehr optimiert sind, können wie bei kommerziellen Suchmaschinen für ein paar Monate bestraft werden. Notwendig sind vertrauenswürdige Beurteilungen der Suchqualität, um den Ranking-Algorithmus zu trainieren. Zu stark optimierte Seiten sind nur eines von vielen Problemen für den Algorithmus. Man sollte sich nicht übermäßig auf dieses einzelne Problem konzentrieren. Ein gut trainierter Algorithmus wird wenig Spam zeigen.

Google hat versucht, seine Suchformeln geheim zu halten. Trotzdem wurden Google-Bombing und Spamming zu einem Sport in der Internetgemeinschaft und besonders in der Blogosphäre. Wie lässt sich eine unfaire Manipulation der Suchergebnisse von Nutch verhindern?

Doug Cutting: Googles PankRage-Algorithm ist veröffentlicht. Google hält aber seine volle Suchformel geheim, und vielleicht hilft das beim Aussondern von etwas Spam. Aber offensichtlich nicht von allem. Wie viele effektive Geheimnisse zur Spam-Verhinderung hat Google also wirklich? Das wissen wir nicht, aber ich schätze, dass die meisten von Google verwendeten Methoden bereits von Spammern durch Reverse Engineering aufgedeckt wurden. Daher hat Google in Wirklichkeit wenige Ranking-Geheimnisse. Die besten Anti-Spam-Maßnahmen sich diejenigen, die schwer zu bekämpfen sind, auch wenn man weiß, wie sie funktionieren. Links auf eine Website von bekannten Websites sind schwer zu spammen. Und Link-Farmen sind nicht so schwierig zu entdecken.

Kann der Suchalgorithmus von Nutch zu besseren Ergebnissen als der von Google, Microsoft oder Yahoo führen? Wie könnte damit allgemein die Websuche verbessert werden?

Doug Cutting: Langfristig gibt es keinen Grund, warum der Algorithmus von Nutch nicht mit den Algorithmen von Yahoo, Microsoft oder Google konkurrenzfähig sein könnte. Wenn dies eintritt, wird es für neue Suchmaschinen kostengünstiger sein, Nutch zu nutzen, als eine proprietäre Implementation zu entwickeln. Viele Suchmaschinen verwendeten beispielsweise früher ihre eigenen proprietären Verzeichnisse von Websites. Seitdem es das Open Directory gibt, benutzen es viele Sites, anstatt ein Team von Redakteuren für die Pflege eines Verzeichnisses einzustellen. Nutch kann eine ähnliche Wirtschaftlichkeit für Suchmaschinen schaffen. Nutch ermöglicht es auch mehr Wissenschaftlern, durch das Anbieten einer Plattform für die Forschung Forschritte in der Suchtechnik zu erzielen.

Bei den gewöhnlichen Suchmaschinen bleiben viele Orte im Cyberspace im Dunklen. Wird Nutch mehr Websites indexieren können als seine Konkurrenten?

Doug Cutting: Ja, Nutch ermöglicht es den Menschen, Nischensuchmaschinen einzurichten und diese dunklen Ecken des Web zu durchsuchen. Mit Dutzenden, Hunderten oder sogar Tausenden von Nutch-basierten spezialisierten Suchmaschinen sollte Nutch tatsächlich in der Lage sein, mehr als jede einzelne proprietäre Suchmaschine zu indexieren.

Wie viele Sites wurden bislang indexiert und wann wird es die öffentliche Demo-Version geben?

Doug Cutting: Wir glauben nicht mehr, dass eine große öffentliche Demo-Version für den Erfolg von Nutch notwendig ist. Der Schlüssel liegt vielmehr darin, eine stabile Entwicklergemeinschaft zu etablieren. Das macht man durch die Entwicklung von etwas, was viele Menschen nutzen wollen. Deswegen konzentrieren wir uns nun auf Nischen- und Intranetsuchmaschinen. Wir wollen immer noch die Suche für das gesamte Web ermöglichen, aber es gibt sehr viel weniger Entwickler, die dafür die notwendigen Ressourcen besitzen. Dieses Ziel kann gegenwärtig auch nicht alleine das Projekt tragen. Gleichwohl beabsichtigen wir, einen großen Crawl durchzuführen, so dass Forscher nicht diese Arbeit wiederholen müssen. Gegenwärtig haben wir die Computer und einen Host. Wir brauchen nur noch jemanden, der die Operation durchführt.

Wird Nutch letztendlich eher ein Business-to-Business-Provider für Suchmaschinentechnik sein oder meist als Such-Interface dienen? Wollen Sie Nutch eines Tages in ein profitables kommerzielles Produkt verwandeln?

Doug Cutting: Nutch ist kein Unternehmen. Nutch ist ein Softwareprovider und ein Koordinator für Softwareentwicklung. Nutch ist wie die Apache-Stiftung: Wir haben keine Angestellten, und wir haben primär eine rechtliche Körperschaft, eine nichtkommerzielle Organisation, um das Urheberrecht zu besitzen, sodass das Projekt unabhängig ist von seinen einzelnen Entwicklern.

Sie haben mit dem Projekt Lucene begonnen. Wie ist das mit Nutch verbunden?

Doug Cutting: Nutch setzt Lucene intern ein, um die Suche zu verbessern.

Wie haben Sie all die Web- und Computerpioniere wie Mitch Kapor, Brewster Kahle or Tim O'Reilly, die mit Ihnen im Nutch-Beirat sitzen, für die freie Suche interessieren können?

Doug Cutting: Ich habe ihnen eine Email geschickt und sie haben die Idee gut gefunden. Ich denke, mein Hiintergrund mit Lucene hat mir Glaubwürdigkeit verliehen.

Google scheint im Suchmaschinenmarkt gegenwärtig eine Art Monopol zu besitzen. Ist der Grund dafür nur die geschickte Vermarktung?

Doug Cutting: Google würde sagen, dass sie kein Marketing gemacht haben. Alles sei durch Mund-Propaganda geschehen. Aber das stimmt nicht ganz. Sie nehmen gerne in öffentlichen Verlautbarungen für sich eine hohe moralische Position ein und schauen geringschätzig auf Dinge herunter wie Pay-for-Inclusion. Das ist Marketing. Viele Jahr lang haben sie eine von Anzeigen freie Suchmaschine angeboten, die damals besser funktionierte als jede andere. Jetzt haben sie Anzeigen, die Qualität ihrer Suchergebnisse ist nicht besonders überlegen, aber die Menschen denken noch immer, dass die Qualität besser und Google weniger kommerziell ist. Das ist auch eine gute Vermarktung. Also ja, teilweise liegt das an einem cleveren Marketing, zum großen Teil aber daran, dass sie ein gutes Produkt angeboten haben. Man nehme Glück, den richtigen Zeitpunkt und die Achtung vor den Konsumenten zusammen - und schon hat man fast ein Rezept!

Müssen wir, einmal abgesehen von der Selbstvermarktung der Google-Gründer als "die lieben Jungs" im Markt ("Google won't be evil!"), Googles faktische Monopalmacht fürchten? Hat dies die Innovation im Bereich der Suchtechniken behindert?

Doug Cutting: Seit Google gestartet ist, hat sich die Innovation verlangsamt. Aber ich glaube nicht, dass dies deshalb geschehen ist, weil die Innovateure Angst vor Google haben. Eher trifft das Gegenteil zu. Googles Erfolg hat die Innovateure noch stärker nach einem Google-Killer suchen lassen. Die Tatsache, dass bislang noch kein Google-Killer aufgetaucht ist, führt mich zu dem Schluss, dass der Grund für die Verlangsamung der Innovation in der Ausreifung der Technik besteht. Die großen Innovationen sind gemacht worden. Wie grundsätzlich haben sich Autos seit dem Model-T verändert?

Die Bertelsmann Stiftung hat mit einem Dialog über die Selbstregulierung der Suchmaschinenhersteller begonnen. Sie macht sich für einen Verhaltenskodex stark, der Suchmaschinenprovider verpflichten würde, beispielsweise Inhalte auf Nazi-Seiten zu blockieren oder zu editieren. Was halten Sie von einem solchen Ansatz im Allgemeinen und wie könnte die Open-Source-Suche damit zurecht kommen?

Doug Cutting: Ein großer kommerzieller Suchmaschinenanbieter wird wahrscheinlich keine Suchmaschine einrichten, die solche Gesetze verletzt. Aber Nutch macht es den Leuten einfach, unzensierte Suchmaschinen zu starten.

Momentan googlen die meisten Surfer wohl nach Nutch, wenn sie etwas darüber in Erfahrung bringen wollen. Wann werden sie nach Google nutchen?

Doug Cutting: Nutch will nicht mit Google konkurrieren. Wir sehen das, was wir machen, als komplementär an. Wir erleichtern die Suche und wir ermöglichen es den Menschen, alternative Suchergebnisse zu erhalten. Solange Google nicht-einseitige Suchergebnisse in hoher Qualität liefert, wird Nutch das Geschäft von Google kaum beeinträchtigen. Hat Linux das Kräftegleichgewicht bei den PC-Betriebssystemen verändert? Noch nicht. Aber Linux bietet eine kostenlose Alternative zu Windows, die eine Menge weiterer Anwendungen wie bei Set-Top-Boxen, Servern, Routern oder PDAs ermöglicht hat. Genauso wenig wie der Erfolg von Linux die Niederlage von Windows voraussetzt, erfordert der Erfolg von Nutch in irgendeiner Weise die Vernichtung Googles.