Suchmaschinen

12. März 1997 Hartmut Winkler

Metamedien im Internet?

Der folgende Beitrag ist vor 2021 erschienen. Unsere Redaktion hat seither ein neues Leitbild und redaktionelle Standards. Weitere Informationen finden Sie hier.

Wir benutzen sie täglich, und wir wissen nicht, was wir tun. Wir wissen nicht, wer sie betreibt und warum, nicht wie sie aufgebaut sind und wenig darüber, wie sie funktionieren. Der klassische Fall einer black box - und dennoch sind wir auf Knien dankbar, daß es sie gibt. Hartmut Winkler untersucht die Ordnungssysteme der Suchmaschinen, erläutert ihre Herkunft und ihre Bedeutung. Ohne sie wäre man im Netz verloren. Daher haben sie eine zentrale Bedeutung erhalten, auch wenn die Verwandlung des Web in ein Push-Medium die Herrschaft der Suchmaschinen allmählich schwächen könnte.

Als die ersten Suchmaschinen 1994/95 aufgebaut wurden, reagierten sie auf ein offensichtliches Problem: die Fläche der im Netz verfügbaren Informationen und Texte hatte in exponentiellem Wachstum zugenommen und es war in wenigen Jahren eine riesige, den Globus umspannende Bibliothek entstanden; eine Bibliothek allerdings - man denke sich dergleichen außerhalb der virtuellen Sphäre - ohne Katalog und ohne zentrale Beschaffung, mit willkürlich gewählten Signaturen und ohne jede Möglichkeit, beim Auskunftspersonal Hilfe zu finden. Die Assoziationen zu Borges dürften alles andere als zufällig sein.

Die Suchmaschinen traten mit dem Anspruch auf, die riesige Fläche der verfügbaren Texte zu erschließen. Und es gab Beispiele, an denen man sich orientieren konnte. Das System Gopher, unmittelbarer Vorläufer des WWW, verfügte über ein Suchsystem 'Veronica' - dienende Funktionen und Tiefdruckgebiete werden weiblich benannt -, 'Archie' half dabei, Dateien im Netz zu finden, deren Name man kannte, und 'X500' funktionierte als eine Art Telephonbuch für die Useradressen im Netz. Daneben gab es voluminöse Printreader, die häufig schon beim Druck veraltet waren, Yellow Pages für das Datennetz, Netzguides, Verzeichnisse 'wichtiger Netzadressen' usf.

Wenn die Suchmaschinen diese Funktionen nun zusammenfassen, aktualisieren und mit einer einheitlichen Zugriffslogik versehen - wo ist dann das Problem? Kennen nicht auch Bücher Indices und Bibliotheken Schlagwortkataloge? Und ist nicht alles nützlich, was den Zugriff erleichtert, wenn die instantane Verfügbarkeit der Information doch eine der Basis-Utopien des Datenuniversums ist? All dies ist richtig und ich denke dennoch, daß es lohnt, sich einige grundsätzlichere Gedanken zu machen. Und es sind folgende Punkte, die ich für die Recherche vorschlagen will: Zum einen, eingangs erwähnt, das spezifische Moment von Blindheit, das unseren Umgang mit diesen Maschinen bestimmt. Zum zweiten ist auffällig, eine wie zentrale, ja 'mächtige' Stellung im Netz die Suchmaschinen inzwischen einnehmen; eine relevante Frage, wenn man die Entwicklungstendenzen des Mediums nachzeichnen will. Zum dritten interessieren mich die Strukturannahmen, die den verschiedenen Suchmaschinen zugrundeliegen; und viertens schließlich, dies wird der letzte Punkt sein, ein Bezug auf die Sprache und die Sprachtheorie, der die Maschinen in eine neue Perspektive und eine veränderte Traditionslinie rückt.

Herausbildung von Hierarchien im Netz

Eine zentrale Stellung im Netz haben die Suchmaschinen vor allem deshalb, weil sie unendlich oft angesprungen werden; im Fall von AltaVista sind dies 12 Millionen Zugriffe pro Werktag, wenn man den Angaben trauen kann. Der einzelne Nutzer wird seinen Suchbefehl als ein schlichtes Sprungbrett betrachten, tatsächlich aber bedeutet es einen großen Erfolg, so viele Nutzer auf eine einzelne Adresse zu ziehen. Die unmittelbar ökonomische Konsequenz ist, daß man diese Kontakte verkaufen kann, daß die Suchmaschinen sich also hervorragend für die Plazierung von Werbung eignen und deshalb zu den wenigen tatsächlich rentablen Netz-Businesses zählen. Yahoo ist beim Börsen-Einstieg verblüffend hoch bewertet worden, und es wird in Zukunft sicher Firmen geben, die eine Search engine nur deshalb anbieten, um diesen Effekt zu nutzen.

Zum zweiten und wichtiger aber bedeutet die Häufung der Zugriffe einen signifikanten Umbau in der Gesamtarchitektur des Netzes. Man kann das Datennetz als eine gewachsene Struktur begreifen, in der zwei völlig unterschiedliche Ebenen sich überlagern: zum einen, manifest und sichtbar, die Struktur der Angebote und die verzweigten Architekturen der Links, zum zweiten, zunächst unsichtbar und nur an einigen Stellen durch Zugriffsstatistiken sichtbar gemacht, die Nutzerbewegungen, die diesen Links folgen. Da die Nutzerbewegungen sich quantitativ sehr unterschiedlich verteilen, tragen auch sie zur Netzarchitektur bei; sie schreiben, so könnte man sagen, in die Struktur des Netzes zurück und graben die häufig benutzten Links tiefer ein. Wie im Fall des Kinos das Box-office- Ergebnis und beim Fernsehen die Einschaltquote bestimmen die Nutzerbewegungen die Entwicklung und Struktur des Angebots mit.

Für das Netz bedeuten 12 Millionen Zugriffe am Tag einen Schub in Richtung Zentralisierung. Dies müßte all diejenigen hellhörig machen, die gerade den dezentralen und antihierarchischen Charakter des Netzes hervorgehoben haben und seine allgemeine Zugänglichkeit mit weitreichenden basisdemokratischen Hoffnungen verbinden. In einem früheren Text habe ich vertreten, daß es ein antihierarchisches Medium nicht gibt, und daß sich automatisch Hierarchien ('Haupt- und Nebenstrassen') im Netz herausbilden werden. Mit den Search Engines hat sich dies sehr schnell und augenfällig bestätigt.

Dennoch, und damit komme ich zum zweiten Punkt, wird die Zentralisierung nicht als solche empfunden. Die Suchmaschinen können nur deshalb eine so zentrale Position einnehmen, weil man ihnen in gewisser Weise Neutralität unterstellt. Weil sie gerade nicht ein inhaltliches Angebot machen, sondern in rein dienender Funktion, als ein Service und ein neutraler Vermittler, auftreten. Aus der Dialektik von Herr und Knecht aber wissen wir, daß sich hinter der Devotion des Knechtes eine um so wirkungsvollere Einflußnahme verbirgt. Es könnte also lohnen, die Neutralität des Vermittlers zu befragen; und gleichzeitig die eigene Naivität, die sich einen neutralen Vermittler, wie es scheint, so sehr wünscht. Aber sind Stichworte oder ist ein Telephonbuch nicht tatsächlich neutral ?

Stochern im Dunklen

Die Frage geht zunächst an die Konstruktion der Suchmaschinen selbst. Steve Steinberg , auf den ich mich im folgenden, was die Sachaussagen angeht, hauptsächlich beziehe, hat in einem 'Wired'-Artikel dargestellt, was normale Nutzer über die Suchmaschinen nicht wissen, und, was mehr ist, glauben nicht zu wissen müssen, um sie sinnvoll benutzen zu können. Den genauen Algorithmus ihrer Suche, dies ist das erste Ergebnis bei Steinberg, halten die Anbieter geheim. Da es sich um Privatfirmen handelt und die Algorithmen zum unmittelbaren Produktionskapital zählen, muß vor allem die Konkurrenz auf Abstand gehalten werden; nur sehr allgemeine Informationen werden der Öffentlichkeit zugänglich gemacht, die Details bleiben im black der blackbox verborgen. Wenn wir uns der Suchmaschinen relativ blind bedienen, also hat dies einen guten ökonomischen Grund.

Drei grundsätzliche Typen von Search engines lassen sich unterscheiden. Der erste Typ beruht auf einem System vordefinierter und hierarchisch geordneter Schlagworte. Bei Yahoo etwa sind zwanzig menschliche Codierer damit beschäftigt, neue Webseiten den Kategorien zuzuordnen. Die Netzadressen kommen über E-mail-Zuschriften herein oder werden von einem Suchprogramm, einem sogenannten Spider, aufgefunden; auf diese Weise hat die Firma bisher 200.000 Webdokumente erfaßt. Die Zahl bereits signalisiert, daß eine Codierung mithilfe menschlicher Fachkräfte schnell an quantitative Grenzen stößt. Bei einem geschätzten Gesamtvolumen von 30-50 Millionen verfügbaren Dokumenten im Netz bietet Yahoo etwa 0,4%, und dies mit einer eher ungünstigen Prognose, wenn man sich vergegenwärtigt, daß das Angebot in exponentiellem Maßstab wächst.

Noch ernster aber sind die Probleme des Ordnungssystems selbst. Die 20.000 Begriffe, die Yahoo als Schlagworte ausgewählt hat, werden innerhalb der Firma (verhalten selbstironisch?) 'the ontology' genannt. Was oder wer aber könnte die Einheitlichkeit und innere Stimmigkeit einer solchen Begriffs-Hierarchie garantieren? Wenn pollution etwa unter 'Society and Culture'/'Environment and Nature'/'Pollution' geführt wird, so mag dies noch einigermaßen schlüssig sein. In jedem komplizierteren Fall aber werden Zuordnungskonflikte auftreten, die auch durch ergänzende Kreuzreferenzen nicht mehr zu lösen sind.

Die Konstruktion der Hierarchie erscheint als ein einigermaßen hybrides Projekt, zielt es doch darauf ab, Millionen völlig heterogener Netzbeiträge aus nahezu allen Bereichen der menschlichen Wissensbestände auf ein einheitliches Kategoriensystem zu bringen, ungeachtet ihrer Perspektivität, ihrer Widersprüche und Konkurrenzen. Yahoos 'ontology' tritt damit das schwere Erbe jener tatsächlichen Ontologien an, deren immer erneutes Scheitern in der Philosophiegeschichte nachvollzogen werden kann. Und allein der pragmatische Kontext macht erklärlich, daß das philosophische Problem im neuen Gewand nicht wiedererkannt und in aller Naivität technisch noch einmal reinstalliert worden ist. Im schlimmsten Fall eben wird ein Gesuchtes nicht gefunden, und daß der Schaden begrenzt ist, trennt Yahoo von den Problemen der Philosophie.

Der zweite Typus von Suchmaschinen kommt ohne ein vordefiniertes Ordnungssystem und vor allem ohne menschliche Codierer aus. Systeme wie AltaVista, Inktomi oder Lycos generieren einen 'inverted index', indem sie die gefundenen Texte analysieren; und zwar im Sinne einer Volltextsuche, Wort für Wort, so daß schließlich jeder einzelne Begriff des ursprünglichen Textes im Index enthalten ist und als Suchbegriff zur Verfügung steht. Technisch ist dies weniger aufwendig als man denken würde. In einer riesigen Kreuztabelle wird für jeden analysierten Text eine Zeile angelegt, während die Spalten die Worte des Wortschatzes repräsentieren; kommt ein Wort im Text vor, wird ein einzelnes Bit auf 'Ja' gesetzt; auf diese Weise entsteht ein abstrakter Abzug des Textes, komprimiert auf ca. 4% seiner ursprünglichen Größe. Die Suchanfragen greifen nur noch auf die Tabelle zu. Da es sich um ein vollautomatisches System handelt, kann der Alta-Vista-Spider täglich 2,5 Millionen Netzdokumente auswerten, und gegenwärtig sind etwa 30 Millionen Texte im System repräsentiert.

Und die Suchresultate sind tatsächlich beeindruckend. AltaVista liefert überaus nützliche Ergebnislisten, geordnet nach einem internen Prioritätensystem. Und wer gefunden hat, was er suchte, wird keinen Anstoß daran nehmen, daß der Algorithmus auch in diesem Fall nicht transparent gemacht wird. Dennoch gibt es Probleme. So ist zunächst auffällig, daß bereits geringe Veränderungen der Fragestellung zu völlig unterschiedlichen Rückmeldungen führen. Wer gezielt verschiedene Abfragen für ein ihm bekanntes Dokument durchtestet, wird feststellen, daß das selbe Dokument manchmal mit hoher Priorität, manchmal mit niedriger und manchmal gar nicht angezeigt wird; und er wird zumindest irritiert sein.

Verallgemeinert bedeutet dies, daß man in vielen Fällen nicht weiß, wie man das Resultat tatsächlich beurteilen soll. Weder ist abzuschätzen, welche Dokumente das System nicht liefert, obwohl es sie liefern müßte, welche Angebote es also unterschlägt, entweder weil der Spider sie nicht gefunden hat, oder weil der Auswertungsalgorithmus eben doch anders als vermutet arbeitet. Auch wenn das Programm vollmundig 'searchig the web' anzeigt, so ist dieser Singular selbstverständlich Illusion, insofern selbst 30 Millionen Texte nur einen bestimmten Ausschnitt der Gesamtfläche darstellen. Und es besteht keine Möglichkeit abzuschätzen, wie sich dieser Ausschnitt, was seine Inhalte angeht, zum Rest der Fläche verhält. Für viele pragmatische Anfragen, wie gesagt, mag diese Überlegung luxuriös erscheinen, im Folgenden aber wird klarwerden, daß sie dies keineswegs ist.

Das zweite und hauptsächliche Problem aber liegt bereits in der Grundannahme. Eine mechanische Stichwortsuche setzt voraus, daß nur solche Fragen gestellt werden, die in Stichworten klar formulierbar sind und durch weitere Stichworte differenziert und konkretisiert werden können. Ebenso wird niemand erwarten, daß das System neben dem gefragten auch bedeutungsähnliche Begriffe einbeziehen oder Homonyme ausschließen kann. Suchmaschinen diesen Typs sind vollständig unsensibel für Fragen der Semantik, oder klarer: sie haben ihre Pointe gerade darin, semantische Probleme, wie sie bei Yahoo offensichtlich werden, auszuschließen. Die Probleme selbst aber sind damit nicht aus der Welt. Sie werden dem User aufgelastet in der Zumutung, seine Frage in die Form ein-eindeutiger Signifikantenketten zu bringen und dann mit dem mechanisch selegierten Ergebnis sich zu bescheiden. Alle Fragen, die auf Stichworte nicht zu reduzieren sind, fallen aus dem Raster des Möglichen heraus; technische und naturwissenschaftliche Termini werden sich relativ gut für die Suche eignen, geisteswissenschaftliche Themen weit weniger gut, und diese erscheinen ein weiteres Mal als jene 'weiche' - allzu weiche - Sphäre, die, wer nicht ins Bodenlose geraten will, am besten von vornherein meidet.

Normalerweise wird an dieser Stelle salomonisch eingewandt, erstens sei die Frage trivial, weil man von einem System nicht mehr erwarten dürfe als wofür es gemacht sei - dies wäre Konsens, wenn den Nutzern tatsächlich klar wäre, was die regelhaften Ausschlüsse sind - und zweitens werde an dem Problem gearbeitet.

Daß an dem Problem tatsächlich gearbeitet wird, bringt den dritten Typus von Suchmaschinen in die Welt. Systeme wie Excite von Architext oder Smart beanspruchen, nicht mehr mechanisch mit Signifikantenketten, sondern auf Basis eines tatsächlich semantischen Modells zu arbeiten. Um Artikel zu Ölfilmen und solche zu Kinofilmen sicher unterscheiden zu können, wird der Kontext untersucht, in dem die jeweiligen Begriffe auftreten. "Die Grundidee ist," so Steinberg den inverted index des Web zu nehmen, mit seinen Zeilen von Dokumenten und seinen Spalten von Stichworten, und ihn statistisch zu komprimieren, so daß Dokumente mit ähnlichem Profil zu Clustern zusammengezogen werden; und dies auch dann, wenn ein Dokument das Wort 'Movie' benutzt und das andere 'Film', einfach weil sie viele andere Wörter gemeinsam haben. Das Ergebnis ist eine Matrix, [wo die Spalten nun inhaltliche Begriffe/Konzepte repräsentieren anstatt der Stichworte]."

Das aufregende an diesem Maschinentyp ist, daß er von mechanischen Stichworten zu inhaltlichen Konzepten übergeht; und zweitens, daß er seine Kategorien allein auf Basis der eingegebenen Texte, einer statistischen Auswertung der Dokumente gewinnt.

"Die Maschine lernt die Kategorien [induktiv] von unten nach oben, anstatt [deduktiv] eine Ordnung von oben überzustülpen. Sie ist ein selbstorganisierendes System. [...] Um Kategorien zu gewinnen, macht Achitext nur eine Grundannahme: daß Worte, die häufig gemeinsam auftreten, in irgendeiner Weise aufeinander bezogen sind. Wenn der Textkorpus sich ändert - wenn neue Verbindungen auftreten, z.B. zwischen O. J. Simpson und Mord - passt sich das Klassifikationsschema automatisch an. Die Kategorien reflektieren den Text selbst ... dies eliminiert zwei der größten Kritikpunkte an Bibliothekssystematiken: daß jedes Schema eine Perspektive hat und daß jedes Schema ständig gegen sein Veralten ankämpfen muß."

Weitere Entwürfe wie das System Context der Firma Oracle versuchen Analysen der Syntax einzubeziehen, und finden sich damit im Problemfeld der Modellierung der natürlichen Sprache wieder, einem Problem, das die KI seit den sechziger Jahren bearbeitet, ohne bislang überzeugende Ergebnisse vorweisen zu können. Die Evaluierung solcher Systeme ist mehr als schwierig; und noch schwieriger ist es, Prognosen über mögliche Entwicklungschancen zu stellen. Ich möchte den Fokus der Frage deshalb verschieben von der Funktionsweise, den Implikationen und Grenzen der vorgestellten Systeme auf die kulturwissenschaftliche Frage, was ihre Bedeutung, was ihr eigentliches Projekt in der Konkurrenz der Diskurse und Medien ist.

Das Lexikon befreit sich von den Köpfen

Der Weg von den hierarchischen Ontologien über die Stichwortsuche hin zu den semantischen Systemen nämlich zeigt, daß es jenseits der pragmatischen Nutzungsprozesse um eine sehr grundsätzliche Frage geht. Die Suchmaschinen sind nicht ein beliebiges 'Werkzeug', das die präsentierten Texte ergänzt und den Umgang mit ihnen erleichtert, sondern sie erscheinen als ein systematisches Gegenüber, auf das die Texte im Sinn einer regelhaften Wechselbeziehung angewiesen sind.

Meine Behauptung ist, daß die Suchmaschinen exakt diejenige Position einnehmen, die im Fall nicht maschinen-vermittelter Kommunikation das System der Sprache für sich beanspruchen kann. (Und dies ist der hauptsächliche Grund, warum die Suchmaschinen mich interessieren).

Sprache, dies hat Saussure unmißverständlich gezeigt, zerfällt in zwei Seinsweisen, zwei Aggregatzustände. Den linearen, materialisierten Texten im Außenraum - Äußerungen, Sprachereignissen, Schriftstücken - gegenüber steht das semantische System, das als ein Wissen, eine Sprachkompetenz, seinen räumlich verteilten Sitz in den Köpfen der Sprachbenutzer hat. Es stehen sich also immer Köpfe und Texte gegenüber. Alle sprachlichen Ereignisse bedeuten eine Interaktion: ein Text trifft auf einen Kopf, der ihn versteht oder nicht versteht, und es war ein Kopf, der den Text in den intersubjektiven Raum entlassen hat. Die materialisierten Texte sind nie allein mit sich, sondern immer auf der Suche nach Köpfen, in die sie eingehen können. Und die Köpfe sind ebenfalls nicht allein, insofern sie in der Interaktion mit Texten ihre Form, ihre Struktur erhalten. Das semantische System und das sprachlich verfaßte Wissen sind Resultat dieser Interaktion. Sie sind das Grab, in dem die Texte untergegangen sind, Produkt einer Verdichtung oder Kumulation. Und jeder neue Text arbeitet am sprachlichen System und an den beteiligten Köpfen weiter.

Von hier aus gibt es zwei mögliche Auffassungen, die Position der im Datennetz niedergelegten Texte zu verstehen. Entweder sie zielen wie die Texte des Schriftuniversums allein auf die Köpfe von menschlichen Lesern ab. In diesem Fall würde es sich beim Datennetz - fast trivial - um eine Neuauflage der Schriftkultur handeln, ergänzt vielleicht durch einen schnelleren Zugriff auf die Texte, der am Prinzipiellen aber kaum etwas ändern würde. (Und das mediengeschichtliche Rätsel wäre, warum das Datennetz dem durch die technischen Medien desavouierten Schriftuniversum zu einem Revival verhilft).

Oder aber es geht um mehr, und darauf, denke ich, deuten die Zeichen hin. Wenn der Zugriff selbst über Systeme organisiert wird, die vom Wortschatz ausgehen, und wenn diese Systeme sich in Richtung semantisch-qualifizierender Maschinen weiterentwickeln, so ist dies nur so zu verstehen, daß die Sprache selbst, das semantische System, das Lexikon, aus den Köpfen befreit und im Außenraum technisch implementiert werden soll. Das sprachliche System und eben nicht nur die Texte sollen im Netz der Rechner abgelegt werden. Und die Suchmaschinen mit ihren Defekten und Widersprüchen sind eine Art Abschlagszahlung auf dieses Projekt. Die Suchmaschinen also vertreten die Sprache im Netz. Und damit haben sich die Gewichte völlig verschoben. Die engines stehen den Texten gegenüber, nicht als ein zusätzliches Werkzeug, sondern als die 'eigentliche' Struktur, der die Texte nur zuarbeiten; eine Maschine der Erschließung, gleichzeitig aber ein Kondensat , das die Fläche der Texte als ganze repräsentiert.

Vorläufer in der Mnemotechnik

Die These, daß es eigentlich um die Sprache geht, läßt eine neue Perspektive auf die innere Organisation der Suchmaschinen zu. Und es wird deutlich, daß die engines prominente Vorläufer in der Geschichte des Wissens und der historischen Sprachauffassungen haben.

Es drängt sich geradezu auf, in der hierarchisch gegliederten Struktur der Yahoo'schen Begriffspyramide jene mittelalterlichen Weltmodelle wiederzuerkennen, die etwa Bolzoni in ihrer Geschichte der Mnemotechnik referiert. Eine große Bildtafel aus dem vierzehnten Jahrhundert zeigt die Gestalt Jesu im Zentrum des Lebensbaumes, dessen Äste und Blätter alle Stationen seines Erdendaseins, seines Leidensweges und seiner Verklärung enthalten; ein zweites Bild aus dem dreizehnten Jahrhundert zeigt einen Ritter zu Pferde, der mit gezogenem Schwert den sieben Todsünden entgegentritt, aufgeteilt in ein Felderschema, das sich Schritt für Schritt in die unendliche Vielfalt der einzelnen Sünden verzweigt. Bolzoni führt aus, daß solche Schemata zunächst mnemotechnisch-didaktischen Zwecken dienten. Ordnung und Visualisierung erleichterten es, sich die komplexen Zusammenhänge einzuprägen. Ihre tatsächliche Bedeutung aber geht darüber hinaus.

Der implizite Anspruch dieser Systeme war, die Dinge der Welt in ein konsistentes Schema zu bringen; und zwar in ein notwendig hierarchisches Schema, das ebenso notwendig im Begriff Gottes kulminierte. Nur der Begriff Gottes war in der Lage, alle anderen Begriffe einzuschließen und der pyramidalen Ordnung ein zuverlässiges Zentrum zu geben. Die sprachliche Struktur (der Dom der Begriffe ) und die Architektur der Wissensbestände überlagerten sich in dieser 'Ordnung der Dinge', einer metaphysischen Sprachauffassung, die uns heute weitgehend fremd geworden ist. Aber ist sie uns wirklich fremd geworden?

Was die Oberfläche angeht, der Sprung zurück sei erlaubt, kommt Yahoo ohne ein organisierendes Zentrum aus. Der Nutzer sieht sich nicht einer, sondern 14 zentralen Kategorien gegenübergestellt, von denen sich die Unterkategorien verzweigen. Die Pyramide also hat ihre Spitze verloren. Oder sollte man besser fragen, was nun an die Stelle Gottes getreten ist?

In einem Weltmodell Robert Fludds , eines englischen Enzyklopädisten der Renaissance, hat Gott die Mitte bereits geräumt. Erhalten ist ein System streng konzentrischer Kreise, das die Dinge der Welt von den Mineralien über die Pflanzen und Tiere der Natur bis zu den menschlichen Künsten und schließlich den Planetensphären enthält. In die Mitte ist eine schematische Darstellung der Erde getreten, Vorgriff auf jenen blauen Ball, den die Astronauten zur Erde gefunkt haben. Die Darstellung wirkt wie ein Mandala, in das sich der Betracher versenkt, um mit einem kosmischen Ganzen in Kontakt zu treten.

Deutlicher noch wird die neue, säkularisierte Lösung beim Gedächtnistheater des Italieners Camillo , das selbst schon zur Geschichte der technischen Medien gehört. Zu Beginn des 16. Jahrhunderts hatte dieser eine hölzerne Konstruktion gebaut, die einem kleinen Rundtheater ähnelte. Wer den Innenraum betrat, sah sich mit einer Fläche von Bildern konfrontiert, die durch die Architektur des Baus in Geschosse und Segmente gegliedert war. Die Bilder hatten hochrangige Maler seiner Zeit angefertigt. Die horizontale Einteilung des Raums entsprach den sieben Planetensphären, die vertikale sieben Stadien der Entwicklung, von den ersten Prinzipien hin zu den Elementen, zur natürlichen Welt, zum Menschen, zu den Künsten und schließlich zu den Wissenschaften. Auf diese Weise repräsentierte jedes Feld der Matrix einen bestimmten Aspekt des Kosmos. Die Bilder hatten allein die Aufgabe, den Überblick zu erleichtern. Hinter den Bildern nämlich befanden sich Fächer mit den Texten der großen Schriftsteller und Philosophen, so daß der Benutzer dort die Belegstellen, Begriffe und rhetorischen Mittel finden konnte, die es ihm erlaubten, mit den unterschiedlichen Gegenständen umzugehen. Das ganze war damit vor allem ein Zugriffssystem ; und indem Textzugriff und Texte klar getrennt werden, wird die Analogie zu den Suchmaschinen augenfällig.

Im Theater Camillos ist es endgültig der Mensch, der Betrachter, der das Zentrum der Konstruktion okkupiert. Auf seinen Blick ist die Fläche der Bilder ausgerichtet, und allein seine Perspektive schließt die 49 Felder der Matrix zusammen. Exakt dies nun scheint mir die Logik zu sein, die auch Yahoo zugrundeliegt. Gerade daß der Begriffspyramide die Spitze fehlt, definiert die Position, in die der User eintritt. Wie im optischen System der Zentralperspektive ist die 'royal overlooking position' für ihn, den Betrachter reserviert. Wie Foucault gezeigt hat, steht er dort, wo beim Entwurf des Bildes der Maler gestanden hat, oder im Fall von Yahoo der Konstrukteur der 'Ontologie'. D aß er mit diesem um den Platz konkurriert, bleibt ihm unbewußt oder trägt zum Höhenrausch bei. Yahoo ist tatsächlich eine 'Ontologie', und zwar nicht weil Yahoo und eben auch Ontologien willkürlich sind; viel eher deshalb, weil sie die Dinge an ihrem Platz halten und relativ dazu eine Position für den Nutzer definieren. Die Ontologie offeriert eine geordnete Welt. Und was in der chaotischen Vielfalt der verfügbaren Texte gerade unterzugehen droht, kann sich in die Ordnung der Suchmaschine noch einmal retten.

Die Lösung aber ist historisch überholt und innerhalb der Philosophiegeschichte aufgegeben worden. Weil jede positiv definierte Begriffshierarchie perspektivisch und willkürlich ist, bietet sie schnell jene Reibungspunkte, die der Anfang ihres Endes sind; und der Vorschlag an den Nutzer, sich die Yahoo-Perspektive sozusagen hypothetisch zu eigen zu machen, nimmt der Nutzung ihre Selbstverständlichkeit und dem System seine natürliche Transparenz. Haben die Stichwort- und die semantischen Maschinen also eine 'modernere' Lösung gefunden?

Auf den ersten Blick muß es tatsächlich so wirken. Die Strategie, die Suchbegriffe davon abhängig zu machen, was in den Netzdokumenten, den Texten, empirisch vorgefunden wird, imitiert den Mechanismus der Sprache selbst. Oder genauer gesagt: den Mechanismus, mit dem die Sprache zu ihren Begriffen kommt. Das synchrone System der Sprache entsteht, dies lehrt uns die Sprachtheorie, indem eine unendliche Vielzahl konkreter Äußerungen sich aufstaut und verdichtet. Ort dieser Verdichtung ist das Gedächtnis der Sprachbenutzer, in dem die konkreten Äußerungen untergehen; lineare Texte werden vergessen hinein in die Struktur unseres Sprachvermögens, die Struktur wird anhand konkreter Texte ständig modifiziert und differenziert. Unser Sprachvermögen ist ein abstrakter Abzug des Sprechens, Sprechen und Sprache (Diskurs und System) sind auf regelhafte Weise verschränkt. Für den einzelnen Begriff bedeutet dies, daß er akkumuliert, was die konkreten Kontexte an Bedeutungen bereitstellen. Nicht ein einmaliger Definitionsakt weist ihm seinen Ort im semantischen System zu, sondern die unübersehbare Kette seiner Verwendungen : Begriffe stehen für Kontexte, typisieren Kontexte, kapseln vergangene Kontexte ein.

Die semantischen Suchmaschinen imitieren dies, indem sie ebenfalls Kontexte typisieren, um zu Begiffen - den Suchbegriffen - zu kommen. Die Tafel der Suchbegriffe entsteht, es wurde gesagt, als ein verdichteter, kumulierter Abzug der Texte. Ein statistischer Algorithmus zieht vergleichbare Kontexte zusammen, typisiert sie und weist sie den Suchbegriffen als Äquivalent ihrer Bedeutung zu. Ein auf diese Weise dynamisiertes System ist den starr vordefinierten Systemen überlegen, auch wenn der statistische Algorithmus die Mechanismen der natürlichen Sprache nur unvollkommen modelliert. Es ist komplexer, näher an der Intuition und wird entsprechend weniger Reibungspunkte bieten. Ein letztes Mal also: was ist der Einwand?

Transparenz und Verschlossenheit

Bei allem Fortschritt, dies ist wichtig zu sehen, ist die eigentliche Grundanordnung konstant geblieben. Exakt wie im Holztheater Camillos haben wir es nicht mit zwei Instanzen zu tun, einer Menge lesend/schreibend/recherchierender Subjekte, die auf eine zweite Menge schriftlich verfaßter Texte zugehen, sondern zusätzlich mit einer dritten Instanz, einem Erschließungssystem, das als ein Gitter oder Raster zwischen beide getreten ist. Und wenn in Camillos Medienmaschine das Erschließungssystem dazu diente, die unendliche Fläche der Texte auf eine überschaubare Zahl von Kategorien niederzubrechen, um von dort aus - streng zentralperspektivisch - die Position für das beobachtende Subjekt zu entwerfen, so ist auch diese Grundanordnung intakt.

Das Bild macht deutlich, daß es nicht unbedingt besser sein muß, wenn das Gitter nicht zu spüren ist. Fast umgekehrt: je weniger Widerstand das Erschließungssystem bietet, je neutraler, transparenter und schwereloser es erscheint, desto näher liegt der Verdacht, es könne sich nicht um die Natur der Sache, sondern um eine Naturalisierungsstrategie handeln.

Das Kategorienraster muß sich als transparent gerieren, wenn es den Anstoß, den Yahoo erregt, nicht erregen will. Um dem Vorwurf der Willkür und der strukturierenden Einflußnahme auf die erschlossenen Inhalte zu entgehen, muß es bei den Nutzern den Eindruck etablieren, ein 'reines Werkzeug' und allein dem Zweck unterworfen zu sein; ein Schlüssel in der Hand des Kunden, der alle Sesams öffnet, ein dienstfertiger Geist, der keine eigenen Ansprüche stellt. Daß die Algorithmen geheim gehalten werden, erscheint nun in einem veränderten Licht. Weit wichtiger als die Konkurrenz der beteiligten Firmen ist der Wunsch, tatsächlich über eine neutrale und transparente Erschließungsmaschine zu verfügen, ein Wunsch, den die Macher mit ihren Kunden, und wahrscheinlich mit uns allen, teilen. Am Grund der Anordnung erscheint eine den Diskurs organisierende Illusion.

Da es Algorithmen ohne Eigengewicht nicht gibt, muß ihnen der Metadiskurs beispringen und die Transparenz durch die schlichte Behauptung retten. Vollzogen wird sie im heilsamen Singular: "searchig 'the web'", in der Geheimhaltung der Algorithmen, in der Betonung der Leistung und nicht der Grenzen, die vielleicht definierender wären, und im Routineversprechen der KI, schon bald weitere, noch leistungsfähigere Systeme zu entwickeln - im Nicht-Wissen und Nicht-Wissen-Wollen der Kunden, und im Primat einer Praxis, die ohnehin meist nicht weiß, was sie tut. Der vorläufig letzte Stand der Debatte sind Systeme wie PointCast, ein Agentenprogramm, das im Auftrag einzelner Nutzer und ausgerüstet mit seinen Prioritäten das Netz durchsucht (www.pointcast.com), oder NetSum, ein Programm der British Telecom Natural Language Labs, das automatisch und auf sprachstatistischer Basis Abstracts generiert.

Die Datenverarbeitung - fast ist es zynisch, daran zu erinnern - ist angetreten mit dem Ideal einer ganz anders gearteten Transparenz. Das Versprechen war, gerade im Gegensatz zur natürlichen Sprache, nur prinzipell nachvollziehbare Strukturen aufzubauen; sich auf die strukturelle Seite der Dinge zu beschränken, diese aber auf eine Weise anzuschreiben, die einer Analyse nicht nur zugänglich wäre, sondern diese bereits zu enthalten schien. Wenn die Programme nun, wie Kittler richtig schreibt, ins Wuchern natürlichsprachlicher Texte übergegangen sind, so liegt das nicht daran, daß die Programme (und schon gar die Suchmaschinen) an den natürlichsprachlichen Texten sich infiziert hätten. Es liegt an unserem Bedürfnis, beides zu haben: beliebige Komplexität und die narzißtischen Freude des Überblicks, die Vielfalt des Sprechens und die Transparenz auf die Gegenstände, eine Sprache ohne metaphysisch-hierarchische Zentrierung, die ihre Kohärenz dennoch souverän aufrechterhält.

Daß inzwischen beliebig viele, unterschiedlich konstruierte Suchmaschinen miteinander konkurrieren, und eine zentrale Suchmaschine nun das Suchen in Suchmaschinen möglich machen soll - So bietet www.nln.com einen Metaindex für Suchmaschinen an - , macht klar, daß unser Wunsch auch diesmal nicht zum Ziel kommen wird. Wir sitzen auf dem verwaisten Thron Gottes, uns gegenüber die unendlichen Textuniversen und in der Hand ein paar glitzernde aber defizitäre Maschinen. Und uns ist unbehaglich.