Wieviele Gene hat der Mensch?

Wissenschaftler bestreiten vornehmlich die Genauigkeiten der Celera-Daten und kritisieren das Vertrauen in die Computer

Der folgende Beitrag ist vor 2021 erschienen. Unsere Redaktion hat seither ein neues Leitbild und redaktionelle Standards. Weitere Informationen finden Sie hier.

Der Wettlauf zwischen dem mit öffentlichen Geldern geförderten Humangenomprojekt und dem von Craig Venter geleiteten Unternehmen Celera bei der Entzifferung des menschlichen Erbguts konnte immerhin, nicht ganz üblich bei wissenschaftlichen Forschungen, in die Schlagzeilen der Zeitungen vordringen. Nicht nur ging es offenbar um den ersten Schritt, durch die Analyse des genetischen Codes den Menschen transparent und möglicherweise auch veränderbar zu machen, sondern dieses Knacken des biologischen Codes mit der Hilfe von Computern zeigte auch, dass Bio- und Computertechnologie verschmelzen und die Zukunft bahnen. Die Größe des Projekts wurde von Wissenschaftlern, Politikern und Medien gerne herausgestrichen. Verglichen hatte man die Sequenzierung des Genoms etwa mit dem Betreten des Mondes durch den ersten Menschen. Sie galt als Höhepunkt der Menschheitsgeschichte und sollte den gläsernen Menschen offerieren.

Daneben konnten noch allerlei ideologische Aspekte ausgetragen werden, je nachdem, mit welcher Seite man sich verband. Auch hier trafen tatsächlich Welten aufeinander, die die Zukunft bestimmen werden. Wird die universitäre Forschung von der privatwirtschaftlich finanzierten abgelöst? Kommt es nur noch darauf an, wer mehr investieren kann, um schneller zum Ziel zu kommen? Sind Unternehmen effektiver als staatlich geförderte Forschungsinstitutionen? Sollen die Forschungsdaten - oder bestimmte Daten wie eben das sequenzierte Genom - für alle öffentlich und kostenlos zugänglich sein? Wie verändert sich Wissenschaft, wenn die Datenbanken abgeschlossen sind und die Verfahren nicht mehr überprüft werden können, also nur noch unter Lizenzbedingungen zugänglich sind?

Eine Kritik rumorte schon lange in manchen Kreisen des Humangenomprojekts, die damit zu tun hat, nämlich ob die von Venter eingeführte "Schrotschuss"-Analyse korrekte Ergebnisse erzeugen kann (Speed Matters VI). Bekanntlich ist Venter mit Celera und viel Geld gestartet, um das Humangenomprojekt nicht nur mit schnellen Sequenzierrobotern zu überholen, sondern auch mit einer neuen Methode, die schneller, besser und billiger das Jahrtausendprojekt zustande bringen sollte(Speed matters III). Venter selbst hatte viel dazu beigetragen, den Wettlauf zu starten und ihn als den zwischen der angeblich effektiveren freien Wirtschaft und den schneckenhaft vorankriechenden staatlichen Forschungsinstitutionen zu inszenieren (Speed matters V; Speed matters IV). Der Name "Celera" sollte schon demonstrieren, um was es geht, das Motto des Unternehmens "Speed matters" hämmerte dies jedem ein, der noch nicht verstand, dass Geschwindigkeit das Zeichen der Zeit ist.

Nach einiger Zeit räumte Venter allerdings ein, dass er die öffentlich zugänglichen Daten des Humangenomprojekts mitverwerten musste. Dadurch schien sich der Verdacht zu bestätigen, dass das von Celera bevorzugte statistische Verfahren alleine nicht dafür taugt, eine genaue Analyse zu realisieren. Während das Humangenomprojekt das Genom in relativ große Einheiten zerlegt, die dann analysiert und wieder zusammengesetzt werden, um so Teil für Teil voranzugehen, wurde bei Venters Celera das Genom, bildlich ausgedrückt, in lauter kleine Teile zerlegt, die man durch massiven Einsatz von Computern dann einzuordnen versucht. Mitte Februar stellten nach einigen gegenseitigen Scharmützeln beide Gruppen in Science (Celera) und Nature (HGP) das angeblich fast völlig sequenzierte menschliche Genom vor und feierten den Erfolg, auch wenn es noch Lücken gab und die wirkliche Fertigstellung noch Zeit benötigt. Doch, wie gesagt, Geschwindigkeit zählt, da wollte denn auch das Humangenomprojekt nicht hinter dem Antreiber Venter zurückstehen, um ihn nicht allen Ruhm einheimsen zu lassen. Denn Recht hat Venter ganz sicher in einem: Wer zuerst mit dem angeblichen Erfolg in die Öffentlichkeit geht, mag zwar nicht der wirkliche Gewinner sein und entlarvt sich womöglich irgendwann sogar auch als Blöffer, aber zieht die Aufmerksamkeit auf sich. Die Nachzügler können dann nur noch das Nachsehen haben.

Nachdem es sich in Bezug auf die Qualität der Celera-Daten bislang eher um Gerüchte und Vermutungen handelte, scheint für die Position der Kritiker nun ein erster Beleg gefunden zu sein, auch wenn dieser in der "gegnerischen" Nature veröffentlicht wurde. Dabei handelt es sich allerdings nicht um das kartierte menschliche Genom, sondern um das der Fruchtfliege, das Celera im März 2000 in der Zeitschrift Science der Öffentlichkeit vorstellte und damit die Effizienz der Schrotschuss-Methode auch für das sehr viel größere menschliche Genom demonstrieren wollte.

Samuel Karlin, Avib Bergman und Andrew Gentles schreiben jedoch in der Zeitschrift Nature (Annotation of the Drosophila gemome. 411, 259-260, 2001), dass sie im Vergleich der Celera-Daten mit bekannten Proteinsequenzen aus der Datenbank SwissProt auf "zahlreiche und signifikante Diskrepanzen" gestoßen seien. Die Gene der Fruchtfliege, dem Lieblingstier der klassischen Genetik, werden schon seit vielen Jahren untersucht, und viele sind auch experimentell beschrieben worden. Die Wissenschaftler verglichen 1.049 Gene (Proteinsequenzen), die vor 1999 in die SwissProt-Datenbank eingegeben worden sind und deren Sequenz und Funktion bekannt waren, mit dem von Celera berechneten Proteom mit dem viel verwendeten Genvorhersageprogramm BLAST. 26,8 Prozent der Swiss-Prot-Sequenzen stimmten mit Sequenzen von Celera überein, 28,8 Prozent hatten dieselbe Länge mit einer Wahrscheinlichkeit von 99 Prozent: "Die restlichen 45 Prozent wiesen Unterschiedene in den Sequenzen von mehr als einem Prozent auf. Hierzu gehören fehlende Übereinstimmungen sowie kleine und große Insertionen und Deletionen, die über die gesamte Länge des Proteins verteilt sind."

Die Unterschiede, so die Wissenschaftler, werden vornehmlich durch Annotationsfehler verursacht, also wenn etwa Teile von Genen fehlen oder Gene vom falschen Ausgangspunkt gelesen wurden, manche auch durch Sequenzierungs- und Zusammenfügungsfehler. Die unterschiedlichen Verfahren, mit denen Gene durch Programme in den sequenzierten Daten entdeckt werden, haben alle ihre Schwächen. Manche vergleichen aufgrund von Datenbanken Eigenschaften von Proteinsequenzen, aber völlig unterschiedliche Gene können damit nicht entdeckt werden. Die Wissenschaftler sagen, dass die Annotation der sequenzierten Gene bei Eukaryoten, also sozusagen die erst wirklich interessante Interpretation der Rohdaten, trotz mehr als 20 unterschiedlicher Programme noch keineswegs zur Zufriedenheit gelöst sei: "Die Vorhersage, die einzig auf der Grundlage von statistischen Methoden und der Suche nach Homologien beruht, kann sich als ungeeignet erweisen, so dass experimentell gewonnene Ergänzungen notwendig werden."

Allgemein stellen die Wissenschaftler fest, dass für die Erforschung der Proteine die Genomsequenz der Fruchtfliege nur von begrenztem Wert ist. Das treffe auch für die Sequenz des menschlichen Genoms zu, weswegen man vorsichtig sein sollte, neue Gene mit den bekannten Verfahren vorherzusagen. Erst müssen alle einzelnen Sequenzen durch wiederholte Untersuchungen und durch ergänzende experimentelle Daten überprüft werden, um ein Genom zu haben, das dann mit Recht vollständig und genau genannt werden könne.

Gegenüber New Scientist sagte Kalrin, dass sowohl die Daten von Celera als auch die des Humangenomprojekts fehlerhaft sein werden, weil sich beide beeilt hätten, auch wenn die langsamere Methode des HGP genauer sei. Kollegen, die die "neuen" Gene von Celera untersuchen, fordert Karlin auf, lieber noch einmal von vorne zu beginnen. Die Gefahr bestehe, sich zu sehr auf die Computer zu verlassen, um Experimente zu vermeiden.

Heather Kowalski, die Sprecherin von Celera, weist die Kritik natürlich zurück. Celera hätte niemals behauptet, dass das Drosophila-Genom hundertprozentig vollständig sei. Analyse und Annotation könnten noch Jahrzehnte dauern. Und Gerry Rubin vom Howard Hughes Medical Institute in Berkeley, der zusammen mit den Celera-Autoren die Daten der Fruchtfliege in Science veröffentlicht hatte, will die Feststellung, dass nur 50 Prozent der Gene richtig vorhergesagt wurden, gar nicht als Kritik, sondern als Kompliment verstehen. Dass dies dennoch ein heißes Eisen ist, kann man daraus erschließen, dass die Wissenschaftler ihren Artikel erst einmal bei der Zeitschrift Science eingereicht haben, von der er abgelehnt wurde.

Übrigens haben sowohl das HGP als auch Celera bei der Veröffentlichung der Sequenzierungsdaten im Februar behauptet, dass der Mensch mit 30-40.000 Genen wesentlich weniger Gene als bislang angenommen haben soll. Zuvor ging man allgemein von 100.000 bis 120.000 aus. Seltsam sahen damals Unternehmen wie Human Genome Sciences oder Affymetrix aus, die behauptet hatten, 90.000 bzw. über 60.000 Gene bereits gefunden und teilweise schon patentiert zu haben. Aufgrund der neuen Forschungsergebnisse könnten sie möglicherweise doch Recht haben. Dabei geht es nicht um die Genauigkeit der Sequenzierungsdaten, sondern eben um deren Analyse mit der Hilfe der Computerprogramme. Normalerweise "übersehen" diese Programme die Hälfte der Gene oder identifizieren Sequenzen als Gene, die keine sind. Das Rätselraten geht also noch weiter, Wetten können abgegeben werden (Wissenschaftler schließen Wetten ab auf die Zahl der menschlichen Gene). Bei Gene Sweepstake setzten die Wissenschaftler im Durchschnitt auf 60.000 Gene. Die niedrigste Schätzung liegt bei 27.000, die höchste bei 150.000 Genen. Da ist noch viel Spielraum.