Die neuen Bibliotheken von Alexandria
Google Print, Amazons Search Inside the Book, Volltext-Suchmaschinen online - um was geht es hier eigentlich? Sprechen wir über die Zukunft oder wollen wir mit der Arbeit anfangen?
Vor kurzem wurde auf den Buchhändlertagen in Berlin das Projekt Volltextsuche online des Verleger-Ausschusses des Börsenvereins des deutschen Buchhandels vorgestellt. Laut Presse-Info soll es sich um "eine eigene zentrale Plattform zur Volltextsuche im Internet" handeln. Ein wichtiger Anstoß für die Branche, die da von Matthias Ulmer, Verleger des Ulmer Verlages und Initiator der Arbeitsgruppe ausging. Denn, so Ulmer im Gespräch, "es geht um die Zukunft des Publizierens, also um unser aller Zukunft". Schön auf den Punkt formuliert - und doch könnte es sein, dass die Initiative gerade an ihrer eigenen Ambioniertheit scheitert. Denn vor wenigen Tage ist die Website von Google Print wieder online gegangen, mit einem Umfang von ca. 1,1 - 1,2 Millionen digitalisierten Büchern.
Google Print ist (wieder) da
Von Google Print war und ist, seit wir im Frühjahr 2004 begonnen haben, darüber zu berichten (Die VLBs des Web: Google Print & Amazon), viel die Rede. Manch einer wird sich gewundert haben, dass die ursprüngliche Website von Google Print relativ schnell nach der ersten Welle der Berichterstattung verschwunden war - und blieb. Was immer die beiden Gründer von Google, Sergey Brin und Larry Page, die im Frühjahr wieder auf Europa-Tournee waren, um für Google Print zu klingeln, veranlasst haben mag, die Google Print-Website für fast ein Jahr aus dem Internet zu nehmen, die Zeit des Darbens ist vorüber. Seit dem 26. Mai 2005 ist die Website, leicht erfrischt und mit neuen Funktionen ausgestattet, wieder da. Ab sofort kann sich daher jeder einen Eindruck davon verschaffen, was Google Print nun wirklich ist und kann.
"No web or newsgroup results: just books, and nothing but the books", heißt es so schön in der Ankündigung. Mit anderen Worten: Google Print ist nichts anderes als eine Volltext-Suchmaschine, die den Inhalt von Büchern durchwühlt. Suchen nach Stichwörten bzw. Inhalten können wir im Moment ausschließlich in englischsprachigen Büchern, wobei maximal 20% der zur Verfügung stehenden Buchseiten einsehbar sind.
Beginnen wir mit einer einfachen Namenssuche, also unserem Lieblingsautor Neal Stephenson (Die "Science Fiction" der Vergangenheit), wird auch klar, warum die Website so lange verschwunden war. Gab es vor einem Jahr auf die Anfrage 42 Suchergebnisse, wird "Neal Stephenson" jetzt bereits in 3.210 Buchseiten gefunden und zwar in 0,14 Sekunden! Vor einem Jahr durften wir davon ausgehen, dass ca. 60.000 - 100.000 Bücher vollständig digitalisiert in Google Print vorhanden waren. Damals wurde allerdings nur ein Treffer pro Buch angezeigt. Bei einer durchschnittlichen Quote von 4 Treffern pro einzelnem Buch kommen wir heute auf ca. 800 Bücher für die einfach Abfrage von "Neal Stephenson".
Folgen wir nun dem einfachen Dreisatz (gerechnet mit 60.000 Büchern), hieße dies, in Google Print müssten inzwischen um die 1,1 - 1,2 Millionen Bücher digital vorhanden sein. Wahrscheinlich eine realistische, wenn nicht gar zu niedrige Größenordnung, angesichts des Aufwands, den Google unternimmt, um Bücher maschinell zu digitalisieren und zu indexieren. Wie viele Titel dabei aus dem Universitätsbibliotheken-Projekt stammen, das seit dem letzten Sommer läuft und bei dem die Bestände der Universitätsbibliotheken von Michigan, Stanford, Harvard, Oxford sowie Teile der New York Public Library, zusammen um die 20-25 Millionen Bücher, eingearbeitet werden sollen, ist nicht auszumachen.
Das Suchergebnis, also die Bücher, in denen "Neal Stephenson" vorkommt, werden mit Titel, Autoren, Erscheinungsjahr, Umfang und, wenn vorhanden, dem Titelcover präsentiert. Die Beschreibung liefert die exakte Seitenzahl und den Text in dem "Neal Stephenson" gefunden wurde, sowie die weiteren Such-Resultate innerhalb des angezeigten Buches. Interessant: Sowohl Weltbild wie auch Buecher.de haben auf dieser Übersichtsseite bereits kommerzielle Google-Ad's beigesteuert. Die Erlöse aus diesen Google Anzeigen sollen mit den Verlagen geteilt werden.
Klicken wir nun ein Suchergebnis an, wird uns die eigentliche Buchseite präsentiert, auf der "Neal Stephenson" gefunden wurde. Das Stichwort wird grafisch hervorgehoben, über der Seite stehen der Buchtitel und die Autoren, darunter der Verlag und die ISBN. Die linke Navigationsspalte enthält prominent das Verlagslogo, die direkte Suchmöglichkeit nach weiteren Fundstellen des Begriffes im angezeigten Buch oder auch nach ganz anderen Begriffen. Unter "About this Book" gibt es eine gute Kurzbeschreibung des Buch, alle bibliografischen Angaben, Auszüge aus Besprechungen sowie Links zu anderen Websites, die sich mit dem Band beschäftigt haben. Ebenso stehen das gesamte Inhaltsverzeichnis, das Register und, unter "Copyright", die Impressumseite des Titels zur Verfügung. Und schliesslich gibt es eine Link-Liste, wo wir das Buch überall kaufen können. Am besten, einfach mal selbst ausprobieren. Ausdrucken lässt sich die Seite übrigens für den Laien nicht und auch die etwas bewanderten Webnutzer müssen dafür recht wild herumtricksen.
So funktioniert das Geschäft: Der Deal von Google Print und 2 Fragen
Wie schon geschrieben: Es werden maximal 20% des digitalisierten Buches angezeigt. Eine nicht unerhebliche Neuerung ist allerdings, dass Google Print nun mit Google Accounts korrespondiert und wir somit in vielen Fällen nur weiterlesen können, wenn wir über einen solchen Google Account verfügen. Dies wiederum setzt eine Registierung bei Google voraus, wie ja zum Beispiel auch für die Nutzung von Googles Webmail (Gmail) oder dem nützlichen News-Benachrichtigungs-Dienst Google Alerts. Der Deal, den Google hier anbietet, heißt also: Persönliche Informationen gegen Inhalte.
Das ist insoweit fair, weil minimale persönliche Daten abgefragt werden wie der Name oder die Email und wir bei jedem Einsatz unserer Kreditkarte per se mehr Informationen preisgeben müssen. Kompliziert wird es, weil alle Google-Dienste miteinander korrespondieren und sich dadurch leicht ein abstraktes Gesamtbild einer Persönlichkeit zusammensetzen lässt: Nach was suchen wir bei Google, welche Bücher interessieren uns bei Google Print, was kaufen wir via Googles Warenhaus Froogle, über welche Stichworte hält uns Google Alerts auf dem Laufenden und wer schickt uns Emails auf unseren Gmail-Account? Die Antworten auf all diese Fragen kennt Google. Doch seien wir nicht heiliger als der Papst: Diese Form des "Data Mining" ist im "richtigen Leben" genau so gang und gäbe - jedes doofe Gewinnspiel und jede Kunden- bzw. Rabattkarte fordert einen Wust von persönlichen Daten ab, bis hin zur Schufa-Auskunft.
Bleiben zwei Fragen: Ist Google Print wirklich nützlich und stellt dieser Service für die Verlage eine Gefahr dar? Erstes ist durch die Vormachtstellung von Google im Web bereits definiert: Was es bei Google nicht gibt, gibt es nicht. Das geht so weit, dass die Schlussfolgerung: "Gibt es im Web nicht, weil Google es nicht findet", manch einen dazu verleitetet zu glauben: "Das gibt es überhaupt nicht". Das bedeutet, die Trennlinie zwischen der digitalen Online- und der analogen Offline-Welt verliert, auch angesichts des immer breiteren und tieferen Nutzerverhaltens im Web, weiter an Schärfe und Kontur.
Google gibt hier im Moment, ob es uns nun gefällt oder nicht, den Takt vor - nicht dabei zu sein, heißt nicht wahrgenommen zu werden. Wer auch immer sich das im Zeitalter der Aufmerksamkeits-Ökonomie erlauben kann, gerade die Verlage mit ihren speziellen und eher kleinpreisigen Artikeln, dürften nicht dazu gehören. Ob Google Print von den Benutzern angenommen wird, steht auf einem anderen Blatt, ist aber, wenn wir zum Beispiel nur mal die Kategorie der vergriffenen Bücher miteinbeziehen und an den Erfolg vom ZVAB denken, mehr als wahrscheinlich.
Die zweite Frage, ob Google Print eine Gefahr für die Verlage ist, ist schon mal falsch gestellt. Sie müsste eigentlich heißen: Ist Google Print eine Chance für die Verlage? Und das würden wir rundheraus mit ja beantworten. Denn im Gegensatz zu Amazons Search Inside the Book-Service, der sowohl optisch wie inhaltlich meilenweit hinter Google Print rangiert, verbleiben bei Google Print ALLE Rechte bei den Verlagen.
Was das dann für die grundsätzliche Rechtslage zwischen Rechteinhabern und Verlagen bedeutet, zum Beispiel für alle nicht mehr lieferbaren Bücher, die dann ja eigentlich immer noch lieferbar sind, wenigstens in digitaler Form, müsste schnellstens geklärt werden. Auf alle Fälle müssen bei Amazon Deutschland, schon alleine, wenn ein Verlag seine Bücher via Amazon verkaufen möchte, ALLE Rechte an Amazon übertragen werden. Hier nochmals der Link zum Nachlesen. Hinlänglich zu fragen, welche Rechte dann eigentlich noch auf Amazon für die Teilnahme an dem Search Inside the Book-Service übertragen werden sollen - Amazon hat bereits alle. Dass Amazon da zumindest in Deutschland beweglich ist, zeigen die erfolgreichen Nachverhandlungen verschiedener deutscher Verlage.
Web-Wünsche und Web-Wirklichkeiten
Ca. 20 US-Dollar kostet es Google ein Buch zu digitalisieren, ca. 5000 Bücher pro Tag soll die eigens dafür gebaute Buch-Scan-Strasse von Google wegarbeiten. Was bedeutet, dass täglich 100 000 US-Dollar für Google Print ausgegeben werden und, bei gut 1,1 Millionen digitalisierten Büchern, die ersten 22 Millionen US-Dollar bereits verscant sind. Bei 300 amerikanischen Arbeitstagen im Jahr fließen demnach 300 Millionen US-Dollar über die Uhr und 1,5 Millionen digitalisierte Bücher in Google Print ein. Ob hier die Kosten für die Umsetzung der Inhalte bzw. Stichwörter in den speziellen Google-Suchalgorithmus bereits enthalten sind, weiß niemand so genau. Zu glauben, Google schrecke diese Investitionen, ist weit gefehlt. Das erste Quartal 2005 schloss der Börsenneuling, dessen Aktie gerade sich gerade auf einem Jahreshoch bewegt, mit einem Umsatz von 1,256 Milliarden US-Dollar ab. Der Gewinn betrug 369 Millionen US-Dollar und die liquiden Mittel beliefen sich auf sage und schreibe 2,5 Milliarden US-Dollar.
In Anbetracht dieser Zahlen mutet die gut gemeinte Ankündigung des Börsenvereins des deutschen Buchhandels eine unabhängige Plattform für die Volltextsuche in Büchern im Web zu installieren, recht abwegig an. Davon abgesehen, und das ist der springende Punkt, fehlt es zuerst einmal genau an den Dingen, die Matthias Ulmer, Mitglied im Vorstand des Verlegerausschusses des Börsenvereins für die Branche reklamiert: "Wir haben das Potenzial, die Erfahrungen und das technische Know-how für eine solche Lösung...".
Das Potenzial, die Bücher, die Autoren, sehr wohl. Doch das technische Know-how und besonders die Erfahrungen haben bis heute nicht ausgereicht, eine einfache, neutrale Plattform für Bücher, Verlage, Autoren und Buchbegeisterte im Web zu etablieren, die an das Quasi-Monopol des Quasi-Barsortiments Amazon heranreichen würde. Tatsache ist: Bisher ist es nicht gelungen, und hier geht es nicht darum, Amazon Konkurrenz zu machen, eine neutrale Plattform im Web zu schaffen, die die Inhalte der Bücher vernünftig präsentiert und die Autoren - was für ein verschenktes Potenzial angesichts der vielen Autoren und ihrer Weblogs - sinnvoll mit einwebt und ihnen ein angemessenes Forum bietet. Nur so wird es aber gelingen, der gesamten publizierenden Branche (vom Urheber bis zum Antiquariat) innerhalb des Web eine Stimme und damit Aufmerksamkeit zu verschaffen. Wieso sollte es also plötzlich möglich sein, eine Buch-Volltext-Suchmaschine im Web zu installieren, die nicht nur technologisch komplexer, organisatorisch komplizierter und von den Investitionen her weit aufwändiger ist als eine Plattform für Bücher?
Weil wir uns nur um die sinnvolle Vernetzung dessen kümmern werden, was bei den Verlagen bereits vorhanden ist. Wir werden die Datenformate zusammen festlegen und dann die Infrastruktur bauen, die nötig ist, für eine gemeinsame Volltext-Suchmaschine.
Matthias Ulmer
Das klingt einfach und machbar und ist doch für jeden, der ein klein wenig im Internet unterwegs ist, um es vorsichtig zu sagen, bar jeder Realität. Was uns wirklich jeden Tag im Internet blüht, wenn wir eine einigermaßen frequentierte Website betreiben, hat John Walker, der Gründer von Autodesk und ein Urgestein des Internet, in seiner Geschichte Der Internetslum genau beschrieben und wird von jedem Systemadministrator oder Webmaster bestätigt. Und seien Sie versichert: Der Mann kennt sich nicht nur aus, er übertreibt noch nicht mal.
Grobe Schätzungen für eine solche erste Web-Buch-Plattform, wie sie letztes Jahr bei einem Treffen verschiedener Verlage in der Schweiz und in Deutschland diskutiert wurde, gehen von ca. 1,2 - 1,8 Millionen Euro für die ersten beiden Jahre aus. Damit wäre ein erster wichtiger Schritt getan, der genug Spielraum für Erfahrungen zuließe, die vielleicht irgendwann einmal auch in eine Volltext-Buch-Suchmaschine münden könnten. Die eierlegende Wollmilchsau, die sich darauf beschränkt, infrastrukturelle Maßnahmen durchzuführen, gibt es, das dürften inzwischen alle mitbekommen haben, gerade im Internet nicht. Was zählt, ist kontinuierliche, beharrliche Arbeit abseits des Hypes, die Identität und damit Aufmerksamkeit und Mehrwert schafft. Siehe Amazon, E-Bay, Firefox, Google, Wikipedia, Yahoo ....
Auch in der Buchbranche ist schon einiges an wichtiger Web-Arbeit geleistet worden. Das bereits genannte Zentrale Verzeichnis Antiquarischer Bücher (ZVAB) gehört ebenso dazu, wie die Website der Frankfurter Buchmesse. Seit Jahren wird hier, in teilweise mühseliger Kleinstarbeit, das Verlags- und Übersetzerverzeichnis sowie das Who's Who der Branche gepflegt. Oft genug ist die Buchmessen-Website nicht nur die einzige Quelle, die überhaupt Daten und Infos liefern kann, sondern auch noch aktuelle und verlässliche. Auch diese Entwicklung hat Jahre gedauert und war, wie die Leiterin des eServices-Bereichs der Buchmesse, Marife Boix-Garcia bestätigt "knochenharte Arbeit".
Wenn es, wie Matthias Ulmer meint, um die Zukunft des (digitalen) Publizierens geht, dann sollten wir uns erst mal an die letzten 10 Web-Jahre erinnern. Hier gab es Tops und Flops: Stephen King scheiterte mit seinem Versuch, Käufer für einen Fortsetzungsroman im Web zu gewinnen (Die Pflanze wächst nicht mehr online). Der Weblogger und E-Textliebhaber Cory Doctorow stellte sein Buch Down and Out in the Magic Kingdom in 22 unterschiedlichen Textdateiformaten zum kostenlosen Herunterladen zur Verfügung, bekam über 150.000 Downloads und verkaufte sein physikalische Buch prächtig (Fortpflanzung durch Abtrennung der Daumen). Das vollmundig eingeführte BOL scheiterte ebenso wie die dicke Mucki-Strategie von Barnes & Nobles. Den Bücher-Pot gewann Amazon und mutierte zum Web-Warenhaus mit Gebrauchtabteilung. Wikipedia läuft Brockhaus, trotz vorliegender Strategieansätze, den Rang ab und Direct Media weiß Wikipedias Erfolg in verkaufbare Produkte umzumünzen. Der Versender Zweitausendeins etabliert sich nicht nur vor, sondern auch besser als Weltbild im Web usw. usf.
Der Beispiele wären da noch viele. Gemein haben sie alles eines: Alle erfolgreichen Web-Angebote oder -Umsetzungen begannen sehr einfach, wurden nach und nach komplexer oder vielfältiger, um sich dann zu verfächern bzw. aufzuteilen. Alle hatten Entwicklungs- und Lernzeiten von mehreren Jahren. Google, als einfache Suchmaschine gestartet, inzwischen mit zig-Services versehen, von den Google-Blogs über die Community-Plattform Orkut bis zu den Google-Maps ist, genau wie Amazon USA mit inzwischen 31 Rubrik-Shops, Club-Mitgliedschaft und der eigenen Suchmaschine A9.com, in der sich auch speziell nach Büchern suchen lässt, das beste Beispiel dafür.
Also machen wir uns nichts vor: Ohne Google gäbe es doch heute kein Google Print. Die Google Jahre (gegründet 1998) haben wir allerdings, wenn wir mir dem Naheliegenden und Einfachen beginnen wollen, noch vor uns. Und wir sollten uns damit beeilen, sie endlich abzuarbeiten.
Exkurs: Amazons Web Services und die Konsequenzen
Amazons Buchangebot setzt sich aus den Datenbanken von VlB, Libri und KNO/K&V zusammen. Alle dort vorhandenen Bücher werden automatisch bei Amazon angezeigt. Urheber bzw. Verlage können selbstständig, sollten sie mit der Abbildung der Daten nicht zufrieden sein, Informationen nachmelden. Jeder registrierte Nutzer kann außerdem Bücher, die über eine ISBN verfügen, die Amazon aber nicht (mehr) führt, zur Nutzung für die Z-Shops oder den Marketplace, aufspielen.
All diese Daten werden nicht nur bei Amazon gezeigt, sondern stehen auch via Amazons Web Services Dritten zur Verfügung. Dort heißt es:
Amazon Web Services ermöglicht es Webentwicklern, Funktionen und Inhalt von Amazon.de nahtlos in ihre Websites zu integrieren. Betreiber von Websites können sie benutzen, um:
- laufend aktualisierte Informationen über Produkte von Amazon.de auf ihre Websites zu bringen
- Produkte von Amazon.de auf ihren Websites zu verkaufen
- maßgefertigte Links und dynamische Werbeplatzierungen zu erstellen. Webentwickler können sie nutzen, um Produktivitätsapplikationen für andere Kunden von Amazon.de, für Händler, Partner und Website-Betreiber zu entwickeln."
Mit anderen Worten: Wir können den gesamten Inhalt Amazons auf unsere eigene Website laden und dort abbilden. Dies mag mit erklären, warum Amazon bei der Rechteeinheimsung so rigide ist. Wie Kathleen Ohlson am 1. Mai auf adtmag.com berichtete, nehmen inzwischen über 80.000 Entwickler weltweit an dem Amazon Web Service-Programm teil. Eine stattliche Zahl, die auch deutlich macht, wie tief Amazon im Web verankert ist. Amazon profitiert hier doppelt: Einmal von der Weiterreichung seiner Inhalte gegen Gebühr - hier wäre allerdings zu klären, was Amazon eigentlich den Rechteinhabern dafür rückvergütet. Aber besonders profitiert Amazon natürlich von den Programmen und Applikationen, die die Entwickler auf der Grundlage der Amazon-Daten schreiben.
Epilog: "Gute Künstler werden fertig" (Steve Jobs
Ergo könnte also ein erster Schritt des Börsenvereins sein, eine Komplett-Datenbank aus VlB, Libri, KNO/K&V, ZVAB und weiteren Quellen zu installieren, die sie dann allen Websites, die irgendetwas mit Büchern zu tun haben, sowie den Internet-, Preis- und Produkt-Suchmaschinen zur Verfügung stellt. Die Vergangenheit zeigt, wie das dem Diogenes Verlag zum Beispiel mit Paulo Coelho gelungen ist, dass es sich bei den Quellen lohnt, die Autor(inn)en zu erschließen.
Alleine die Abbildung der eingelieferten Daten in einer gesicherten und hohen, auch erzählerischen Qualität dürfte einer Sisyphusarbeit gleichkommen. Dabei von vornherein an eine spätere Volltextsuche innerhalb der Bücher zu denken, ist sicherlich vernünftig. Aber angesichts des Berges von Arbeit, der sich da auftürmt, eher ein späterer Schritt. Im Einfachen läge der Beginn, der es ermöglicht, fertig, sichtbar, wahrnehmbar zu werden im Web, bevor der ewige Traum einer Bibliothek von Alexandria erneut in einem Luftschloss endet.
Das Angebot von Google Print, kostenlose Digitalisierung und Indexierung der Bücher, Teilung des Werberlöses, der durch die Google Ads entsteht, mit den Verlagen und der Verbleib aller Rechte bei den Verlagen, ist im Moment nicht zu toppen. Die zwei entscheidenden Fragen, die Google beantworten muss, sind: Handelt es sich um das exklusive Recht zur Digitalisierung eines Buches; wem, außer Google Print, wird das digitalisierte Buch noch zur Verfügung gestellt und an welche Erlösteilung wird dann gedacht?
Wer das auf den ersten Blick für abwegig hält, der sei nochmals an Amazons Web Services erinnert, aber besonders daran, dass das Web zum Entwicklungslabor der Computer- und Software-Industrie geworden ist. Hier kann sich -praktisch über Nacht, so hat es wenigstens den Anschein, alles ändern. Wie lange dafür oft hinter den Kulissen geschuftet wird, ist eine andere Geschichte. Und wie überraschend es ist, wenn einer der Großen im Web die Muskeln spielen lässt, zeigt gerade Yahoo in Amerika. Seit letzter Woche macht der Suchdienst, der längst über unzählige Features, wie Web-Mail, Musik-Downloads, eine Preis- und Produkt-Suchmaschine usw. verfügt, E-Bay Konkurrenz. Wann die neue Yahoo Auktions-Plattform auch in Deutschland zur Verfügung stehen wird, ist offen. Dass sie kommt, ist aber so sicher, wie das Amen in der Kirche.