Vom World Wide Web zum World Wide Grid
Cern erhält von der EU 10 Millionen Euro zur Entwicklung eines neuen Netzes zum Austausch von riesigen Datenmengen
Am Europäischen Laboratorium für Teilchenphysik (Cern) wurde vor 10 Jahren das WWW erfunden. Aber die wachsenden Datenmengen, die über das Netz gehen, lassen das alte World Wide Web vornehmlich auch für wissenschaftliche Zwecke an seine Grenzen stoßen. Zur Entwicklung einer "Tauschbörse" oder dezentralen Datenbank für die physikalische Forschung hat jetzt die EU im Rahmen des Programms der Informationsgesellschaft Cern 9,8 Millionen Euro für drei Jahre zur Verfügung gestellt.
DataGrid heißt das Projekt eines neuen, leistungsstarken Netzes, das auch die riesigen Datenmengen bewältigen soll, wie sie bei den Experimenten mit den Teilchenbeschleunigern entstehen. Geschaffen werden soll es eine "neuartige verteilte Computerumgebung, die besonders für die Analyse und Übermittlung riesiger Datenmengen eingerichtet ist." Wissenschaftler der ganzen Welt sollen damit einen "flexiblen Zugang auf bislang unvorstellbare Rechenkapazitäten" erhalten, wodurch ein "neues Zeitalter der e-Science" gefördert werden soll. Unter Leitung von Cern sind an diesem ehrgeizigen Projekt, das von der EU relativ schnell bewilligt wurde (eingereicht wurde es im Mai, bewilligt am 29.12.), noch fünf weitere Wissenschaftsinstitutionen als Partner (CNRS, ESRIN, INFN, NIKHEF und PPARC) sowie drei Unternehmen (CS-Systemes D'Information, Datamat, IBM-UK) beteiligt.
Laut der Pressemitteilung von Cern kam man auf den Namen Grid (Netz), weil das an den Aufbruchsgeist des Industriezeitalters erinnert, für den der Ausbau des Stromnetzes zu einem Symbol der Freiheit gewesen sei. Die Menschen hätten dadurch eine neue wertvolle Ressource zur Verfügung gestellt bekommen. Das verteilte Computernetz enthalte denselben "Pioniergeist" und werde in einem Hochgeschwindigkeitsnetz "Supercomputer, Prozessorfarmen, Datenbanken, Informationssysteme, gemeinsame Werkzeuge und Menschen verbinden".
Die gemeinsam nutzbaren verteilten Datenbanken sollen in der Größenordnung von Petabytes (1 Million Gigabytes) sein. Eine der ersten Aufgaben, mit denen DataGrid konfrontiert werden wird, ist die Bewältigung der riesigen Datenmengen, die anfallen, wenn 2005 in Cern der neue Teilchenbeschleuniger LHC (Large Hadron Collider) in Betrieb gesetzt wird. Dabei werden Protonenbündel 40 Millionen Mal in der Sekunde auf die Detektoren treffen, was zu Datenmengen bis zur Größenordnung von 100 Gigabytes in der Sekunde führt. Das entspricht der Datenmenge, so Cern, die entsteht, wenn jeder Mensch auf der Erde gleichzeitig in 20 Telefone spricht. Für die Verarbeitung der Daten werden Supercomputer benötigt, die der Rechenkapazität von 100000 PCs entsprechen.
Da bei Experimenten an Teilchenbeschleuniger internationale Teams beteiligt sind, müssen die gewaltigen Daten auch weltweit zur Verfügung stehen. Neben dem europäischen Projekt gibt es auch ein Konsortium aus 12 US-Universitäten, um ein gemeinsames Netzwerk, das Grid Physics Network oder GriPhyN, aufzubauen, durch das sich Daten weltweit dezentral wie etwa bei Gnutella tauschen lassen, nur dass es sich dabei um Supercomputer und gewaltige Datenmengen handelt (Nach dem Grid Physics Network ein virtuelles Observatorium). An dieser vorwiegend von amerikanischen Universitäten getragenen Initiative ist das Cern beteiligt. Die National Science Foundation (NSF) hat im September 2000 für die Entwicklung von GriPhyN den Universitäten von Florida und Chicago für einen Zeitraum von fünf Jahren 12 Millionen Dollar zur Verfügung gestellt.
Der Leiter des Projekts, der Physiker Paul Avery, bezeichnet das System als ein "Napster für Wissenschaftler" und vergleicht es ebenfalls mit dem Stromnetz: "Das Stromnetz ist eine nützliche Analogie, weil Benutzer von Individuen bis hin zu großen Organisationen Rechen- und Datenressourcen in höchst unterschiedlichen Mengen verbrauchen, und sie werden sich nicht darum kümmern, wo diese Ressourcen sich befinden." Den Amerikanern schwebt ein "intelligentes" Netzwerk vor, das die Ressourcen so verwaltet, dass sie zeitlich an die Benutzer wie einst bei den Mainframe-Rechnern verteilt werden. Insgesamt müsse das Netz so aufgebaut sein, dass weltweit Tausende von Wissenschaftler ihre kombinierten, aber unterschiedlichen Computer, Speicher und Netzwerkkapazitäten als einen einzigen Computer benutzen können.
Das europäische DataGrid-Projekt soll entsprechende Projekte, die es bereits gibt, koordinieren. Die Software zum Aufbau des "World Wide Grid" soll Open Source sein, und das wirklich Innovative sei eine neue "Middlewear", die die Ressourcen einer weit verstreuten Gemeinschaft offen zugänglich macht. Unter "Middlewear" wird Software verstanden, die zwischen den Betriebssystemen und den Anwendungen sitzt und kooperatives Arbeiten ermöglicht.