"Alles wird erfasst und es gibt keine statistischen Methoden"

Klaus Mainzer über Big Data

Der folgende Beitrag ist vor 2021 erschienen. Unsere Redaktion hat seither ein neues Leitbild und redaktionelle Standards. Weitere Informationen finden Sie hier.

In Wirtschaft, Wissenschaft und Medien wird immer weniger nach Grundlagen und Gesetzen gesucht - stattdessen gibt man sich mit Korrelationen zufrieden. Die Grundlagen, auf denen diese Korrelationen basieren, geraten zunehmend aus dem Blickfeld. Telepolis sprach mit dem Philosophen Klaus Mainzer, dem Autor des Buchs Die Berechnung der Welt - Von der Weltformel bis Big Data über die Gefahren dieser Entwicklung.

Herr Mainzer, wie hat sich durch Big Data der Charakter von Prognosen verändert - und welche Auswirkungen hat das auf die wissenschaftliche, kommerzielle und ästhetische Erfassung der Welt?

Klaus Mainzer: Big Data muss man auf dem Hintergrund der sogenannten zweiten digitalen Revolution verstehen. Die erste digitale Revolution war das Internet. Dieses ist zuerst einmal ein Internet der Personen, das heißt Menschen benutzen Computernetze, um miteinander zum Beispiel E-Mails auszutauschen und auf welcher Art auch immer zu kommunizieren. Mit der zweiten digitalen Revolution bezeichnet man das Internet der Dinge, die beispielsweise über Softwareschnittstellen und Funksignale direkt kommunizieren können. Vor diesem Hintergrund muss man das dramatische Anwachsen der Daten verstehen, die aber nicht nur strukturierte Daten wie etwa E-Mails sind, sondern auch Funksignale austauschen.

"Amorphe Masse von Daten"

Welche Eigenschaften charakterisieren Big Data näher?

Klaus Mainzer: Big Data wird von drei wesentlichen Faktoren angetrieben: Erstens die Größe der Daten. Man sagt etwa, dass Google pro Tag vierundzwanzig Peta-Bytes, also zehn hoch fünfzehn Bytes umsetzt. Das ist in etwa die Datenmenge, die in der amerikanischen Nationalbibliothek vorhanden ist, also alle Dokumente, die es zur amerikanischen Geschichte gibt.

Der zweite Faktor ist das exponentielle Anwachsen der Rechnergeschwindigkeit, welche sich gemäß dem Moorschen Gesetz entwickelt: Dies besagt, dass sich in einer Periode von achtzehn Monaten die Rechnerkapazität verdoppelt, was sich seit den Sechziger Jahren bestätigt hat. Das bedeutet, dass wir derzeit bei Großrechnern bei drei bis zehn Peta-Flops (Flops sind anschaulich Rechenschritte pro Sekunde) angelangt sind. Das entspricht dem Signalverkehr in unserem Gehirn mit zehn hoch zwölf Neuronen. Das Moorsche Gesetz betrifft aber nicht nur die Rechnergeschwindigkeit, sondern auch die Miniaturisierung und Verbilligung der Geräte, das würde bedeuten, dass es in den zwanziger Jahren die Rechenleistung der heutigen Superrechner auf Kleinstgeräten wie einem Laptop oder einer App geben sollte.

Der dritte Punkt betrifft die Datenvielfalt, die nicht nur strukturierte Daten (zum Beispiel E-Mails, digitalisierte Dokumente) berücksichtigt, sondern auch unstrukturierte Signale von Sensoren, Smartphones, GPS-Daten et cetera. Eine gewaltige amorphe Datenmasse entsteht, die nicht mehr von herkömmlichen Algorithmen und Datenbanken bearbeitet werden kann. Ein Beispiel für einen Big-Data-Algorithmus ist der Suchalgorithmus von Google. Diese Algorithmen arbeiten häufig nach dem Prinzip des MapReduce-Algorithmus, in dem die Funktion Map das Datenpaket in viele Einzelpakete zerlegt und parallel bearbeitet, um die so gewonnenen Einzelergebnisse mit der Funktion Reduce im Endergebnis zusammenzuführen.

In einer neuartigen Datenbank wird, anschaulich gesprochen, das "Kurzzeitgedächtnis" der Datenbank massiv erweitert ("In-Memory-Technology"), da bei dieser Verarbeitungseinheit die zeitliche Zugriffszeit (wie auch beim menschlichen Kurzzeitgedächtnis) wesentlich kürzer ist als bei Langzeitspeichern. SAP hat solche Datenbanken auf dem Markt gebracht. Big Data bezeichnet also eine neuartige Technologie, um diese amorphe Masse von Daten bewältigen zu können.

"Es gibt keine statistischen Methoden"

Was machen diese Technologien genau?

Klaus Mainzer: Sie suchen diese Datenmasse auf Korrelationen durch. Und aufgrund dieser Muster werden dann Prognosen über beispielsweise zukünftige Profile von Produkten in der Wirtschaft, aber auch von Personen gegeben. Das ist der wesentliche Vorteil. Diese Prognosen sind aber keine im herkömmlichen Sinne, also auf statistischer Basis, wo man eine repräsentative Stichprobe nimmt und dann auf die Gesamtheit hochrechnet, sondern mit diesen Algorhithmen werden blitzschnell alle Bytes in diesem Datensatz aufgesucht und ihre Korrelationen hergestellt: Alles wird erfasst und es gibt keine statistischen Methoden. Das ist der Clou an dieser Technologie.

So konnte Google im Jahr 2009 in einem amerikanischen Bundesstaat Wochen vor dessen Ausbruch und noch vor den Gesundheitsämter eine Epidemie voraussagen. Der Schlüsselwort hierfür sind die Metadaten: Metadaten sind beispielsweise bei einer E-Mail der Sender und der Empfänger, ihre Vernetzung mit anderen Partnern und ihre Häufigkeit et cetera. Aus diesen großen Mustern lassen sich Kontexte erzeugen und damit auch Inhalte ableiten. Wir müssen nicht die Inhalte kennen und es wird auch kein Wissen vorausgesetzt.

Was sind die Konsequenzen für die Wirtschaft?

Klaus Mainzer: Augenscheinlich ist derjenige am schnellsten am Markt, der die schnellsten Algorhithmen besitzt. Wenn man in der Lage ist, Kundenprofile und Trends hervorzusagen, kann man sehr schnell reagieren.

Empfohlener redaktioneller Inhalt

Mit Ihrer Zustimmmung wird hier eine externe Buchempfehlung (Amazon Affiliates) geladen.

Ich bin damit einverstanden, dass mir externe Inhalte angezeigt werden. Damit können personenbezogene Daten an Drittplattformen (Amazon Affiliates) übermittelt werden. Mehr dazu in unserer Datenschutzerklärung.