Quantitative Analyse der Buchkultur

Ganz ausnahmsweise unterscheidet Google hier streng nach Groß- und Kleinschreibung. Bitte beachten Sie dies bei Ihren eigenen Suchen.

Forscher nutzen statistische Methoden, um der Informationsflut von Google Books Herr zu werden und gelangen zu spannenden Ergebnissen

Der folgende Beitrag ist vor 2021 erschienen. Unsere Redaktion hat seither ein neues Leitbild und redaktionelle Standards. Weitere Informationen finden Sie hier.

Das Google-Bücher-Projekt findet meist nur aufgrund von Copyright-Streitereien Aufmerksamkeit; dies ist höchst bedauerlich, denn die digitalisierten Bücher stellen nun schon seit mehreren Jahren eine Goldmine für den seriösen Wissenschaftler dar. Eine Volltextsuche über Abertausende von Büchern hinweg, die selbst vielleicht nicht einmal einen Index besitzen oder das Gesuchte nur am Rande in einer Fußnote behandeln (dort aber zu einem ganz wesentlichen Ergebnis gelangen), hat die Forschung schon jetzt dramatisch verändert.

Doch damit nicht genug: Zum ersten Mal haben sich Wissenschaftler mit den Methoden der quantitativen Datenanalyse der Bestände von Google Books angenommen und sind bereits bei diesem ersten Projekt zu höchst bemerkenswerten Ergebnissen gelangt.

Führen wir uns zunächst die schieren Zahlen vor Augen: Bislang hat Google mehr als 15 Millionen Bücher digitalisiert, was knapp einem Achtel aller Bücher entspricht, die in allen Sprachen je verfasst wurden. Insgesamt beinhalten sie ca. eine halbe Billion Wörter.

Linguistik

Diese monströse Datenbasis lässt sich auf die unterschiedlichsten Arten und Weisen analysieren. Zum Beispiel bietet sie überraschende Erkenntnisse für Linguisten: Blickt man auf die Zahl der Wörter, so wuchs das Englische den letzten 50 Jahren um 70% (von knapp 600.000 auf gut eine Million). Pro Jahr kommen rund 8.500 neue Wörter hinzu. Und nur die Hälfte der Wörter, die derzeit in Gebrauch sind, finden sich angeblich in Wörterbüchern (allerdings hängt dies natürlich auch an der Definition von "Wörterbuch"; die Beispielwörter slenthem und deletable lassen sich jedenfalls leicht in Online-Lexika auffinden).

Der Einfluss von Zensur

Eine andere Methode besteht darin, mittels Datenanalyse den Einfluss der Zensur herauszuarbeiten. Die Autoren zeigten etwa auf, dass der jüdische Künstler Marc Chagall zwischen 1936-1944 praktisch aus deutschen Publikationen verschwindet, während er in englischen vermindert Erwähnung findet. Ähnliche Phänomene ergeben sich, wenn man in russischen Texten nach Trotzki und in chinesischen nach Tian'anmen sucht. Das Ergebnis ist wahrlich nicht überraschend, gleichwohl ist ein Unterschied, etwas anzunehmen oder dies als statistisch abgesichertes Ergebnis zu erhalten.

Eine Frage des Ruhms

Auch an den Ruhm dachten die Forscher und gelangten dabei zu folgenden Ergebnissen: Schauspieler erreichen den Höhepunkt ihres Ruhms (d.h. von Erwähnungen in Publikationen) um das 30. Lebensjahr. Bei Schriftstellern dauert dies eine Dekade länger, dafür ist der Ruhm größer (kein Wunder - wer textlich arbeitet, wird wohl auch öfter textlich referenziert). Wissenschaft ist ein schlechter Weg zum Ruhm. Biologen und Physiker erreichen solchen (wenn überhaupt) erst später, Mathematiker in der Regel gar nichts.

Eine schnelllebige Zeit, die sogar noch beschleunigt

Neue Technologien verbreiten sich immer schneller. Das klingt nach einer Weisheit aus einer Pressemitteilung, lässt sich nun aber quantitativ untermauern: Technologien, die zwischen 1840 und 1880 erfunden wurden, brauchten 50 Jahre, bis sie weithin in Publikationen Erwähnung fanden. Bei Technologien von 1880-1920 dauerte es nur noch gut halb so lange.

Und wie die Akzeptanz neuer Technologien beschleunigt, schwindet auch das Interesse an der Vergangenheit. Die Forscher nahmen an, dass die Erwähnung einer Jahreszahl in einem Buch Interesse an diesem Jahr bedeutet. Ausgehend von dieser These, wurde dann untersucht, wie lange es dauert, bis das Interesse an einem Jahr einen Höhepunkt erreicht und abnimmt. 1880 brauchte 32 Jahre, um einen Maximalwert zu erreichen und wieder auf die Hälfte zu fallen. Bei 1975 hatte sich dieselbe Spanne auf gerade einmal 10 Jahre reduziert.

Selbst forschen

Mit dem Ngram Viewer lässt sich selbst nachprüfen, wie sich das Interesse an Wörtern oder Phrasen entwickelt (z. B. Stresemann, kritische Theorie, Hartz IV). Das Forscherteam unterhält eine Website, auf der sich aktuelle Informationen zum Projekt abrufen lassen. Für Web 2.0-Fans gibt es auch Tweets.

Empfohlener redaktioneller Inhalt

Mit Ihrer Zustimmmung wird hier eine externe Buchempfehlung (Amazon Affiliates) geladen.

Ich bin damit einverstanden, dass mir externe Inhalte angezeigt werden. Damit können personenbezogene Daten an Drittplattformen (Amazon Affiliates) übermittelt werden. Mehr dazu in unserer Datenschutzerklärung.