Napster-ähnliche Tauschbörse für die Wissenschaft
Besonders die Zusammenführung der Erläuterungen zum menschlichen Genom von verschiedenen Websites lässt neue Programme notwendig werden
Napster und Co. mögen zum schöner oder kostenlosen Tauschen von Dateien wie Musikstücken, Filmen oder Spielen dienen und sind deshalb erst einmal ungeliebte neue Möglichkeiten für alte Branchen, die ihr Eigentum gerne anders handeln und sichern wollen. Doch das Peer-to-Peer-Computing (P2P) ist nicht gleichbedeutend mit Copyrightverletzungen, sondern eröffnet neue Wege für den E-Commerce, das unkomplizierte Publishing oder die Echtzeit-Suche nach Informationen in den wachsenden Datenbergen. Auch die Wissenschaft, die nicht mit copyrightgeschützten Informationen zu tun hat, könnte von solchen Internetprogrammen profitieren, wie ein Beispiel aus der Genforschung nahelegt oder zumindest beweisen will.
Während sich in der Öffentlichkeit der Wettlauf zwischen dem mit staatlichen Geldern geförderten internationalen Human Genom Project und Celera abgespielt hat, geriet gelegentlich aus dem Blick, dass die Sequenzierung des menschlichen Genoms nur der allererste, sowohl wissenschaftlich als auch ökonomisch weitgehend uninteressante Schritt ist. Die gewonnen Rohdaten sind zwar die Voraussetzung für die weiteren Schritte, erhalten aber erst Bedeutung, wenn aus ihnen die Gene, ihre Funktionen und Produkte sowie ihre Interaktionen identifiziert worden sind.
Aber auch die Sequenzierung des Genoms ist noch keineswegs abgeschlossen, selbst wenn die beteiligten Wissenschaftler im Juni verkündet haben, dass sie eine Arbeitsversion abgeschlossen haben. Die weist auch schon deswegen Lücken und Unvollständigkeiten auf, weil im Zug des Wettlaufs und des Zeitdrucks der ursprüngliche Plan, die genetischen Daten bis zu 12 Mal zu sequenzieren, um die Fehler bei den über drei Milliarden Basenpaaren zu minimieren. Kaum einmal die Hälfte wurde von den beiden Konkurrenten, die sich wieder angenähert haben, geleistet. Um die Sequenzierungsdaten wie angekündigt zu 99,99 Prozent korrekt zu machen, wird mindestens noch einmal ein Jahr, wenn nicht zwei vergehen. Die Verfahren können nur Sequenzen in einer Länge bis zu 1000 Basenpaaren entschlüsseln, die dann zusammengesetzt werden müssen.
Zudem müssen noch die vielen Lücken in der Sequenz geschlossen werden. Bei der Arbeitsversion machen sie noch 15 Prozent aus. Dabei handelt es sich meist um Stellen, an denen sich kurze Sequenzen immer wieder wiederholen. Sie haben vermutlich keine Funktion, sind aber gleichzeitig schwer mit den vorhandenen Mitteln zu erfassen. Ausgelassen von der Sequenzierung wurden weitere 7 Prozent, was dann schon mehr als Fünftel des gesamten Genoms ausmacht. Dabei handelt es sich um das sogenannte Heterochromatin, das sind Bereiche des Genoms, die stark kondensiert, sehr einfach strukturiert und repetitiv sind. Bislang nahm man an, dass sie nicht exprimiert werden, allerdings hat man in diesem Jahr entdeckt, dass im Heterochromatin der Fruchtfliege (D. melanogaster), das allerdings weitaus größer als beim Menschen ist, um die 50 Gene enthalten sind. Womöglich also finden sich auch im menschlichen Genom hier Gene.
Das menschliche Genom enthält nur in einem geringem Umfang Gene. Von über 95 Prozent des Genoms nimmt man an, dass hier keine codierenden Eigenschaften zu finden sind, weswegen man diese Teile auch als "Junk-DNA" bezeichnet. Neben der Identifizierung aller Gene, deren Zahl bislang nach Schätzungen erheblich zwischen 50000 und 100000 oder mehr schwankt (gefunden wurden bislang 36299 Gene, Stand 9. August 2000), müssen auch diejenigen Gene entdeckt werden, die keine Proteine, sondern RNA codieren und mit den bislang vorhandenen Verfahren nicht gefunden werden können. Und dann geht es weiter mit den Interaktionen zwischen Genen, Proteinen sowie Genen und Proteinen, wann und wie Gene aktiviert werden etc.
Es gibt also hinreichend Arbeit, die aber auch dafür sorgt, dass eine gewaltige und daher womöglich auch unübersichtliche Menge an Informationen entsteht, die genetischen Sequenzen zugeordnet, ihnen annotiert werden müssen. Das Sanger Center und das European Bioinformatics Institute (EBI) betreiben gemeinsam seit Ende 1999 das Ensembl-Projekt. Hier gehen die Sequenzierungsdaten an und werden mit Programmen in die richtige Reihenfolge gebracht sowie nach Genen, SNPs und anderen Eigenschaften wie einfachen repetitiven Sequenzen abgesucht. Entwickelt werden soll eine Software, um automatisch das Genom des Menschen, aber auch das anderer Organismen wie das der Maus zu annotieren, um so auch Vergleiche zu ermöglichen. Alle Daten stehen allen, die sich dafür interessieren, offen.
Anders aber als bei der Sequenzierung und der puren bioinformatischen Identifizierung der Gene durch Mustererkennung, sofern dies möglich ist, müssen viele der Eigenschaften der Gene von Wissenschaftlern herausgefunden und angefügt werden. Und dabei kommt es schon jetzt zu Engpässen: "Die Geschwindigkeit der Sequenzierung des menschlichen Genoms hat die Möglichkeiten der Sequenzierungszentren überrundet, die Sequenz zu annotieren und zu verstehen, bevor man sie in den Datenbanken archiviert", erklärt Lincoln Stein vom Cold Spring Harbor Laboratory, New York. "Viele Gruppen sind als dritte Parteien in die Bresche gesprungen und erläutern gegenwärtig die menschliche Gensequenz durch eine Kombination aus computerbasierten und experimentellen Methoden. Ihre analytischen Instrumente, Datenmodelle und Visualisierungsmethoden sind unterschiedlich."
Auch wenn diese Arbeit zahlreicher Gruppen im Prinzip zu einem besseren Verständnis führt, sieht Stein das drohende Risiko einer Fragmentarisierung des Wissens. Es gibt keine zentrale Datenbank mehr, sondern die Wissenschaftler, die sich die Informationen über eine bestimmte Gensequenz beschaffen wollen, müssen nicht nur verschiedene Webseiten aufsuchen, sondern finden dort auch Daten in verschiedenen Formaten, die sich nur mühsam integrieren lassen. Im Prinzip könne man zwar eine zentrale Datenbank einrichten, in die alle Institute ihre Erläuterungen eingeben sollten, wie das mit den Sequenzierungsdaten bei der GenBank geschieht. Doch das bringe eine Reihe von politischen und technischen Problemen mit sich, beispielsweise erlaube die GenBank nur den Einreichern eine Veränderung oder Ergänzung der eingereichten Informationen. Eine andere Möglichkeit wäre eine Website, auf der Links zu den Informationen auf anderen Webseiten angeboten werden, was aber auch nicht das Problem der Datenintegration lösen würde.
Steins Lösung ist das Distributed Sequence Annotation System oder DAS, ein dezentralisiertes, Napster-ähnliches System, bei dem ein Referenzserver nur die grundlegenden Strukturinformationen zum Genom enthält, während die übrigen Websites als "Annotationsserver" dienen. Die Erläuterungen sind eindeutig einer bestimmten Sequenz zugeordnet, deren Beginn und Ende definiert ist. Auf der Grundlage einer Client-Software lassen sich dann mit einer Art Browser wie bei Napster die Annotationsserver nach Informationen zu einer bestimmten Gensequenz durchsuchen. Die Server liefern die Ergebnisse in einem standardisierten Format, so dass der Browser die Erläuterungen von den verschiedenen Servern einbauen und sie in grafischer oder tabellarischer Form darstellen kann.
Schwierig dabei ist allerdings schon die Referenz auf die Genomabschnitte, denn es wird, wie Stein selbst sagt, noch lange Zeit Segmente mit unterschiedlichen Genauigkeiten geben. Das heißt auch, dass das gesamte System der Erläuterungen auf einer dynamischen und sich verändernden Grundlage und willkürlichen hierarchischen Segmentabschnitten aufbauen muss, so dass eine Erläuterung zu einem "Klonende" auch mit einer mRNA-Erläuterung verknüpft ist, auf deren Beginn wiederum die Erläuterung zu einem Exon verweist.
DAS würde zwar bisherige Probleme von biologischen Datenbanken lösen und eine Suche sowie Vergleiche über viele Websites hinweg ermöglichen, aber das System wird nicht von allen begrüßt. So hegt David Lipman, der Direktor des NCBI, von dem die GenBank betrieben wird - die wiederum täglich die Daten mit der japansichen DNA DataBank und der European Molecular Biology Laboratory abgleicht - die Befürchtung, dass die von Menschen gemachten Erläuterungen mit Überflüssiges oder gar Falsches enthalten könnten, weil sie nicht überprüft worden sind. Stein hingegen hofft, dass die guten Erläuterungen ganz darwinistisch die schlechten allmählich verdängen werden. Seine Sorge ist eher, ob eine kontinuierliche Betreuung möglich ist, auch wenn das Personal wechselt oder Forschungsförderungen eingestellt werden.