Nach dem Grid Physics Network ein virtuelles Observatorium
Mit den wachsenden Datenströmen wird die Nutzung des Internet als gemeinsame, aber dezentrale Datenbank nicht nur Physiker und Genforscher, sondern auch für Astronomen immer attraktiver
Um die riesigen Datenmengen, die weltweit im Bereich der Astronomie erhoben werden, auch wirklich auswerten zu können, schlägt Stephen Strom, Leiter der Planungs- und Entwicklungsabteilung des National Optical Astronomy Observatory (NOAO) die Einrichtung eines "virtuellen Observatoriums" vor. Im Internet sollten möglichst viele Daten für alle Wissenschaftler, aber auch für die Öffentlichkeit zugänglich gemacht werden.
In der sogenannten Wissensgesellschaft können von immer mehr Wissenschaftlern mit immer besseren Techniken immer mehr Daten gesammelt und gespeichert werden. Auch wenn manche über die Informationsexplosion jammern und Untergangsvisionen pflegen, so sind Daten jeder Herkunft doch die Rohstofflager der Wissensgesellschaft von der Werbung über die Überwachung bis hin zur Genforschung (Napster-ähnliche Tauschbörse für die Wissenschaft).
Wissenschaftler sind nicht nur Datenauswerter, sondern im Stand ihrer Digitalisierung besonders heftige Datensammler geworden. Das trifft in besonderem Maße auch auf die Astronomie zu, die vielleicht älteste und seit je datenschwere Wissenschaft. Mit immer mehr Instrumenten auf der Erde und auf Satelliten im All strömen täglich nicht unerhebliche Informationsmengen in die Computer. Und natürlich wäre für die Wissenschaftler auch in der Astronomie interessant, schnell und einfach auf die Daten der anderen zugreifen zu können. Bevor Daten verarbeitet werden können, müssen sie erst einmal zugänglich sein. Und hier bietet das Internet die einmalige Möglichkeit einer globalen Datenbank, jederzeit und von jedem Ort aus auf möglichst viele Daten zugreifen zu können.
Für internationale Projekte wie das Humangenomprojekt ist das Sammeln und Abgleichen von Daten zu einer entscheidenden Grundlage der Forschung geworden. Deutlich wird das auch bei den Physikern, die etwa Experimente mit den Beschleunigern wie in CERN ausführen. Bislang entstanden dabei "nur" ein par Terabytes pro Jahr, doch wenn der Large Hadron Collider (LHC) fertig gestellt sein wird, erzeugen die Kollisionen der subatomaren Teilchen alleine einen jährlichen Datenstrom von mehreren Petabytes. Bei manchen Experimenten wie ATLAS erwartet man ein Datenaufkommen von 100 Gigabytes pro Sekunde. Damit vertausendfacht sich nicht nur das Datenaufkommen, sondern werden auch mehr Wissenschfatler zu diesen Zugang haben müssen. Mittlerweile hat sich hier ein Konsortium aus 16 Universitäten gebildet, um ein gemeinsames Netzwerk, das Grid Physics Network oder GriPhyN, aufzubauen, durch das sich Daten weltweit dezentral wie etwa bei Gnutella tauschen lassen, nur dass es sich dabei um Supercomputer und gewaltige Datenmengen handelt.
"Gemeinschaften von Tausenden von Wissenschaftlern, die auf der ganzen Welt verteilt sind und durch Netzwerke unterschiedlicher Bandbreite unterstützt werden", erklärt Paul Avery vom GriPhyN Project, "müssen kleine Signale aus einem riesigen Hintergrund herausziehen können. Dazu sind Analysen von Datensets notwendig, die von der jetzigen 100 Terabyte-Größe während des nächsten Jahrzehnts auf die von 100 Petabyts anwachsen werden. Die dabei benötigten Rechen- und Speicherkapazitäten werden aus technischen und strategischen Gründen auf nationale Zentren, regionale Zentren, Computerzentren von Universitäten und einzelne PCs verteilt sein. Das Ausmaß dieser Aufgabe übersteigt bei weitem unsere gegenwärtige Möglichkeit, Daten in einer verteilten Umgebung zu verwalten und zu verarbeiten."
Auch Cern hat sich GriPhyN angeschlossen, und es ist vielleicht nicht überraschend, dass hier auch das World Wide Web entstanden ist, das ja eben diesem Zweck der Verlinkung und des Austausches von Informationen dienen sollte. Dabei spielt die Bandbreite keine große Rolle, sondern vor allem die Software, mit der die gewünschten Informationen überhaupt gefunden und wie sie in einem dezentralen Speicher gespeichert werden können. Natürlich müssen die auf verschiedenen Computersystemen gespeicherten Daten auch miteinander kompatibel sein. Die am Projekt beteiligten Forscher haben sich für das Modell "virtueller Daten" entschieden, bei dem nicht alles Aufgelistete auch tatsächlich vorhanden ist, sondern womöglich erst von anderen Daten errechnet werden muss, sofern dies günstigre ist als die Speicherung und Übertragung. Da verschiedene Kopien von Datenmengen auf mehreren Rechnern des Netzwerks vorhanden sein können, muss dafür gesorgt werden, dass sie alle zu jeder Zeit auf dem gleichen Stand sind.
So weit wie GriPhyN oder das Humangenomprojekt ist das virtuelle Observatorium nicht, denn es ist bislang nur ein Wunsch. Stephen Strom geht überdies davon aus, dass es erst einmal in den nächsten Jahren auf nationaler Ebene eingerichtet werden wird. In fünf Jahren und mit Kosten von 25 Millionen Dollar sei das erreichbar, die internationale Version könnte dann 2010 folgen. Für Strom begründet sich das Projekt vorwiegend durch die "Revolution" der Datenerhebung in der Astronomie, die sich gemäß dem Mooreschen Gesetz alle 18 Monate verdoppelt. Würden die von allen irdischen und satellitengestützten Teleskopen gesammelten Daten von allen genutzt werden können, so ließe sich das Weltall noch viel genauer als bislang möglich beobachten und erforschen.
Im Unterschied etwa zur Nasa aber werden die Daten von den Teleskopen oft nicht der Öffentlichkeit zugänglich gemacht: "Die Daten", so Strom, "sind umfassend betrachtet worden ... als Eigentum des einzelnen Forschers. Uns fehlt die Kultur eines breiten öffentlichen Zugangs." Aber wie bei den anderen Projekten muss neben dem Zugang auch für eine Standardisierung und Abgleichung der Daten gesorgt werden. Wichtig sind vor allem Werkzeuge, um die riesigen Datenmengen, die überdies aus unterschiedlichen Quellen wie Radiowellen-, Röntgenstrahlen- oder optischen Teleskopen stammen, auszuwerten. Wird es das virtuelle Observatorium einmal geben, dann könnte jeder online in der dezentralen Datenbank den simulierten Himmel erforschen. David De Young vom NOAO malt denn gleich auch eine grundlegende Veränderung für die Vorstellung von der Arbeit des Astronomen aus: "Es wird nicht mehr die Tradition des einsamen Astronomen im Dunklen geben, der das Teleskop mit der Hand einstellt." Viele Astronomen tauschen das Teleskop mit dem Computer aus und erforschen nur noch die gespeicherten Daten und Bilder. Zur Zerstörung des romantischen Bildes des einsamen Forschers mit dem Teleskop in der Nacht bräuchte es das virtuelle Observatorium zwar nicht, aber es würde einen weiteren Schritt zur Veröffentlichung von Daten mit sich bringen, der nicht nur für die Wissenschaftler selbst interessant wäre.
Gleichwohl ist der Zugang nur ein Problem der rapide anschwellenden Datensammlungen. Im Hintergrund könnte ein anderes Problem drohen, zumindest hatte die Earth and Space Data Computing Division (ESDCD) der Nasa vor einiger Zeit auf Schwierigkeiten aufmerksam gemacht, die mit der Speicherung einhergehen. Die Speichermedien sind nicht nur relativ kurzfristig, digitale Daten haben auch den Nachteil, dass die Software, mit denen sie erst gelesen werden können, schnell veraltet, weswegen für eine langfristige Speicherung die Daten regelmäßig umkopiert werden müssen. Das Problem steckt vorwiegend in der Rate, mit der Daten von einem alten Speichermedium auf ein neues übertragen werden. Während sich die Kapazität der Speichermedien im letzten Jahrzehnt verhundertfacht habe, so der Bericht der ESDCD, sei die Übertragungsrate nur um das Vierfache gestiegen. Als Folge entsteht eine Kluft, die immer größer zu werden droht.