Das Datengitter

19. Juli 2003 Mario Sixtus

Das CERN war die Keimzelle des WorldWideWeb. Zünden die CERN-Forscher nun die zweite Stufe der Medienrevolution?

Der folgende Beitrag ist vor 2021 erschienen. Unsere Redaktion hat seither ein neues Leitbild und redaktionelle Standards. Weitere Informationen finden Sie hier.

Als im Jahre Neunzig des vergangenen Jahrhunderts Tim Berners-Lee am Genfer Teilchenphysikforschungszentrum CERN einen virtuellen Schalter umlegte und das WWW in Betrieb nahm, fand dieses Ereignis weitgehend unter Ausschluss der Öffentlichkeit statt. Nach Sensation roch der Vorgang auch wirklich nicht: Eine neue Art von Computernetzwerkprotokoll sollte es Universitäten und Forschungseinrichtungen erleichtern, Dokumente und Dateien miteinander auszutauschen und zu verknüpfen. Toll. So eine Meldung schafft es noch nicht einmal im Sommerloch auf eine der letzten Seiten einer Tageszeitung. Wer damals den Begriff 'Revolution' in den Mund genommen hätte, hätte sich selbigen wohl gnadenlos verbrannt und wäre mit Verständnislosigkeit und Kopfschütteln belohnt worden.

Technologische Revolutionen keimen meist im Verborgenen, bevor sie ihren Siegeszug durch Büros und Wohnzimmer antreten. Das war bei der Elektrifizierung oder bei der Erfindung von Telegraph und Telefon auch nicht anders als bei der Einführung des WorldWideWeb, auch wenn hinterher wieder alle Medienwissenschaftler den gesellschaftlichen und kommerziellen Impact frühzeitig vorhergesehen haben wollen. Prognosen funktionieren eben nur dann zuverlässig, wenn sie in die Vergangenheit gerichtet sind.

Nächste Woche bietet sich nun die Möglichkeit einer Prognose, die in die Zukunft gerichtet ist, und der Deja vu-Effekt ist nicht ganz von der Hand zu weisen. Wieder ist das CERN in Genf im Spiel und wieder geht eine neue Form von Computernetz an den Start. Traut sich diesmal vielleicht jemand, 'Revolution' zu rufen?

Nach dem Web das Grid

Das Web ist eine tolle Sache. Dokumente, Grafiken, Film- und Audio-Dateien können von Servern heruntergeladen werden und auf dem eigenen Rechner betrachtet oder bearbeitet werden. Fein. Genau genommen ist es das dann aber auch schon. Bei der Verarbeitung dieser Daten ist der User nach wie vor auf die Leistung seines lokalen Rechners angewiesen.

Selbst wenn der Webserver durch die Bereitstellung der Dokumente noch nicht einmal zu einem Prozent ausgelastet ist und die eigene Kiste bei, sagen wir mal, dem Abspielen einer hoch komprimierten Video-Datei schon beängstigend zu knirschen beginnt, besteht keine Möglichkeit, dieses Ungleichgewicht zu ändern. Selbst distributed computing, wie es beispielsweise durch das SETI@Home-Projekt populär geworden ist, funktioniert nach dem gleichen Prinzip: Datenhappen saugen, durchkauen und die Ergebnisse wieder ausspucken. Jeder kaut so schnell wie er kann. Wahres 'verteiltes Rechnen' ist das nicht.

Mag dieser Nachteil für den Heimanwender, der brav alle zwei Jahre seine alte Kiste auf dem Sperrmüll, äh, mittels Recycling entsorgt und sich den jeweils nigelnagelneuen Aldi-PC unter den Schreibtisch stellt, noch zu verschmerzen sein - Moores Gesetz sei Dank -, so ist dieser Zustand für Wissenschaftler, die Datenberge durchzukauen haben, die sich in komplett anderen Dimensionen bewegen, auf Dauer unhaltbar.

Forschungsbereiche wie Hochenergiephysik, Biologie, aber auch die Erdbeobachtung benötigen Computerressourcen und Speichermöglichkeiten, wie sie sich keine Institution alleine leisten kann. Allein die Teilchenbeschleuniger im CERN werden demnächst jährlich bis zu zehn Petabyte Daten produzieren (zehn Millionen Gigabyte), die der Auswertung und Verarbeitung harren.

Weiß nun schon der Volksmund, dass geteilte Freud doppelte Freud ist, so verhält es sich mit Computing Power im Grundsatz nicht anders. Trotzdem hat The DataGrid, wie das von der EU mitfinanzierte Projekt getauft wurde (Vom World Wide Web zum World Wide Grid), sich einiges vorgenommen. Schließlich sollen die unterschiedlichsten Zugangs- und Verwaltungsmöglichkeiten der angeschlossenen Rechner unter einen Hut gebracht werden, um eine "einheitliche und für alle Beteiligten transparente Steuerung zu ermöglichen". Bei den verschiedensten Plattformen und Systemen, die da miteinander kommunizieren sollen, schon eine Aufgabe von babylonischem Ausmaß.

Nach dem Vorbild des Stromnetzes

Die Grundidee des Datengitters lässt sich sehr schön mit der so genannten Stromnetz-Metapher beschreiben: Das elektrische Netz liefert eine standardisierte Spannung und Stromstärke und jedes elektrische Gerät, das diesen Spezifikationen folgt und obendrein über einen ebenfalls standardisierten Stecker verfügt, kann daran angeschlossen werden, ohne dass der Benutzer sich darüber Gedanken machen muss, ob der Saft aus der Steckdose direkt nebenan oder in einem Hunderte Kilometer entfernten Kraftwerk produziert wird.

Das DataGrid-Projekt will nun eine ähnliche Universalität in der Computerwelt schaffen. Foster und Kesselmann beschrieben die Situation in ihrem 1998 erschienen Buch The Grid: Blueprint for a New Computing Infrastructure wie folgt:

Die Situation, die wir momentan im Computerbereich haben, ähnelt in vielen Aspekten der, in der sich die Elektrifizierung im Jahre 1910 befand. Damals war es zwar möglich, elektrischen Strom zu erzeugen und immer neue Geräte wurden entwickelt, die sich Elektrizität zu Nutze machten, aber die Notwendigkeit, dass jeder Anwender sich zunächst einen eigenen Generator besorgen und diesen betreiben musste, hinderte die Verbreitung doch enorm. Die wahre Revolution war somit nicht die Entdeckung der Elektrizität, sondern die Einführung des Stromnetzes.

Mit Hilfe des DataGrids wird es den Benutzern nun möglich sein, über ein einheitliches grafisches User-Interface die gewünschte Computeranwendung zu starten und diese mit den notwendigen Anfangsdaten zu speisen. Das Grid-System wird sich daraufhin selbständig die passenden und verfügbaren Verarbeitungs- und Speicher-Ressourcen zusammensuchen, die jeweiligen Prozesse starten und überwachen, den momentanen Fortschritt anzeigen und schließlich dem Anwender die Ergebnisse präsentieren.

Der Nutzer muss sich dabei weder darum kümmern, welche oder wie viele Rechner gerade an seiner Aufgabe arbeiten, oder gar, wo sich diese befinden. Alles, was der User sieht, ist eine einheitliche Oberfläche, egal mit welchem Gerät oder von wo aus er sich ins Grid einloggt. Die Leistungsfähigkeit des eigenen Rechners spielt bei diesem Verfahren überhaupt keine Rolle mehr.

Im ersten Schritt sollen nun insgesamt zehn Institutionen an das Grid angeschlossen werden, ausgelegt ist das System allerdings für eine unbegrenzte Zahl von beteiligten Rechnern und Subnetzen.

Revolution?

So. Und jetzt wollen wir doch langsam mal die Spekulationsmaschine anwerfen. Da die Geschichte des Web gezeigt hat, wie schnell aus einer kleinen Netzwerkidee, aus dem und für den Forschungsbereich, ein globales Massenmedium werden kann: Was wäre, wenn wir demnächst alle unsere Rechenknechte ans Grid bringen würden? Alte und neue, starke und schwache, große und kleine? Die Leistungsfähigkeit des Zugangsgerätes wäre bekanntlich künftig absolut unerheblich. Ein Smartphone würde ausreichen, um irgendwo im Grid die Leistungsfähigkeit der 3D-Rendering-Engines der Pixar-Studios anzuwerfen und den fertigen Film in Kino-Qualität mal eben irgendwo zwischenzuspeichern, bevor man ihn sich zu Hause auf dem Beamer anschaut. Wo zwischenspeichern? Wo rendern lassen? Mir doch egal! Soll sich doch bitte das Grid darum kümmern! [Hier bitte selbst weiterspinnen...]

Um also wieder zum Anfang zurück zu kehren: Eine Handvoll Rechner von einigen Forschungseinrichtungen werden im Laufe der nächsten Woche eine neue Form von Netzwerkkommunikation in Betrieb nehmen. Traut sich hier jemand, das Wort 'Revolution' in den Mund zu nehmen? Mutige bitte vortreten.