Auf dem Weg zum Chemieroboter

Bild: Bernd Schröder

Retrosynthese-Software soll die Effizienz der Herstellung organischer Substanzen revolutionieren. Besonders ein Produkt macht gerade medienwirksam von sich reden, doch nicht alle Chemiker sind restlos überzeugt

Der folgende Beitrag ist vor 2021 erschienen. Unsere Redaktion hat seither ein neues Leitbild und redaktionelle Standards. Weitere Informationen finden Sie hier.

Weshalb chemische Reaktionen ablaufen und was dabei unter welchen jeweils gegebenen Bedingungen herauskommen könnte, ist heute zu Wissen gewordener Bestandteil eines größtenteils empirisch erlangten Erfahrungsschatzes. Das Design chemischer Synthesen ist eine sehr anspruchsvolle Aufgabe, die von den damit betrauten Chemikern jahrelange Erfahrung sowie Zeit und Mühe abverlangt. Heute werden dafür verstärkt chemoinformatische Lösungen gesucht.

Erstmals haben Chemiker nun praktisch getestet, ob ein Computerprogramm in der Lage ist, eine vollständige chemische Synthese in allen dafür nötigen Schritten zu planen - ganz ohne menschliche Aufsicht, heißt es, doch das ist so nicht ganz korrekt, schließlich speist sich die Weisheit des Programms aus 250 Jahren organischer Chemiegeschichte, die ihm, auf ein Regelwerk eingedampft, mitgegeben wurden.

Die Ausarbeitung einer chemischen Synthese zerfällt in drei Teilprobleme: die Syntheseplanung selber, die eine geeignete, zum gewünschten Zielmolekül führende Strategie sucht, die Reaktionsplanung, die geeignete Reaktionsbedingungen bestimmt, und die Reaktionsvorhersage mit Details zum erwarteten Reaktionsverlauf. Ein wichtiges Konzept: Die Synthese wird vom Zielmolekül ausgehend rückwärts geplant - retrosynthetisch.

Mit dem Einzug neuer Rechentechnik in die Labore kam auch das Interesse an der Idee auf, die Planung von Synthesen Computern zu überlassen. Die Versuche dazu sind seit den 1970er als CAOS (Computer-Assisted Organic Synthesis) bekannt.

Einer der Pioniere ist der spätere Chemie-Nobelpreisträger Elias James Corey von der Harvard-Universität, der mit dem Syntheseplanungsprogramm OCSS (Organic Chemistry Synthesis Simulator) erste bedeutende Schritte auf dem Gebiet unternahm, dem das bekanntere LHASA (Logic and Heuristics Applied to Synthetic Analysis) folgte. Kurz darauf tauchten SECS (Simulation and Evaluation of Chemical Synthesis) und SYNCHEM auf, wobei der Fokus von letzterem bei Suchproblemen lag, die für Ansätze der künstlichen Intelligenz (AI) typisch sind: SYNCHEM war im Gegensatz zu LHASA und SECS entwickelt worden, um sich ganz unabhängig von Chemiker-Vorschlägen selbst ans Ziel zu bringen.

Bis heute ist eine Vielzahl weiterer Programme erschienen: CAMEO, EROS, WODCA oder SYLVIA etwa. Der große Durchbruch ließ jedoch auf sich warten - trotz jahrzehntelanger Forschung waren bisher Meldungen ausgeblieben, dass es Computern gelungen sei, vollständige Synthesewege zu generieren, die dann erfolgreich im Labor umgesetzt wurden. Meist war der Wissensfundus an chemischen Reaktionen zu beschränkt, oder die Programme waren nicht dafür konzipiert, das riesige Terrain synthetischer Möglichkeiten auf intelligente Art und Weise zu durchkämmen. Denn die Anzahl von Möglichkeiten eines jeden retrosynthetischen Schritts liegt bei rund 100, bei n Schritten sind es 100n Möglichkeiten. Die Herausforderung, bei dieser Ausgangslage nach aussichtsreichen Synthesewegen zu suchen, liegt auf der Hand. Hier sind intelligente Algorithmen gefragt, die nicht sehr vielversprechende Pfade selbständig verlassen und die Suche auf möglichst effiziente Wege konzentrieren.

Chematica: "Software, die begonnen hat, wie ein Chemiker zu denken"

Auch heute versuchen sich Programme an der Syntheseplanung. Zum Beispiel Chematica, das chemische Expertise mit leistungsfähigen Rechnern, Netzwerksuche und AI-Algorithmen verknüpft. Bartosz Grzybowski vom Ulsan National Institute of Science & Technology in Südkorea und der Polnischen Akademie der Wissenschaften hatte 15 Jahre nebst Mitarbeitern daran gearbeitet, bevor er Grzybowski Scientific Inventions (GSI) 2017 an Merck Millipore verkaufte.

Ausgangspunkt war Grzybowskis Erkenntnis, dass die Verknüpfung aller bekannten chemischen Verbindungen mit den vielfältigen zwischen ihnen möglichen chemischen Reaktionen zu einer völlig neuartigen Wissensplattform führen würde, in der die Verknüpfung einer jeden jemals durchgeführte Reaktion und jeder jemals hergestellten Substanz ein kollektives "chemisches Gehirn" entstehen lassen würde, das dann mit Algorithmen durchsucht werden kann, wie sie etwa bei Google oder in Telekommunikationsnetzwerken zur Anwendung kommen. Wie jedoch die durch die Organikliteratur geisternden Unmengen an nicht reproduzierbaren Synthesevorschriften davon abgehalten werden sollen, das Gesamtergebnis zu beeinträchtigen, bleibt unklar, denn publizierte Rezepte, die in Wirklichkeit nicht funktionieren, müssten erst einmal als solche erkannt werden.

Eine generelle Schwierigkeit: die Bewältigung der schieren Datenmenge, die über die Zeit angehäuft wurde. Die Anzahl publizierter Verbindungen in der CAS-Registry-Datenbank zeigt eine um die Jahrtausendwende einsetzende rasante Zunahme. 2015 wurde die hundertmillionste Verbindung registriert. Allein 2014 waren mehr Verbindungen hinzugekommen als in den Jahren von 1965 bis 1990 zusammen. Auch der Umfang an Reaktionsdaten hat gerade in der jüngeren Vergangenheit stark zugelegt. Sie werden in Reaktionsdatenbanken erfasst, wie etwa ChemInform RX (CIRX), die mehr als 1.8 Millionen Reaktionen beherbergt. Bild: www.cas.org

Die Algorithmen sind so programmiert, dass innerhalb von Sekundenbruchteilen Milliarden chemischer Reaktionsmöglichkeiten gescannt werden, die zu einem gewünschten Molekül führen könnten. Das Programm soll vor allem den Suchfähigkeiten menschlicher Chemiker unter die Arme greifen, die wegen der großen Anzahl von Möglichkeiten schlichtweg überfordert sein könnten. Das Programm ist am Ziel, wenn es bei den benötigten Ausgangsmaterialien auf der Stufe von gängigen Chemikalien anlangt: entweder kommerziell erhältlichen - der Sigma-Aldrich-Katalog listet gegenwärtig mehr als 200.000 davon - oder bei den unter Synthesechemikern beliebten, rund 7 Millionen Molekülen aus Patenten und der chemischen Literatur.

Dem Trend zur "grünen Chemie" soll ebenfalls Rechnung getragen werden: durch vorgebbare Einschränkungen, mit denen sich beispielsweise Reaktionen in umweltschädlichen Lösungsmitteln vermeiden oder wahlweise nur mit wasserlöslichen Komponenten ausführen lassen.