Computer-gestützte Syntheseplanung

Computer-gestützte Syntheseplanung

Dieser Abschnitt stellt die historische Entwicklung des im Titel umrissenen Forschungsbereiches von seinen Anfängen bis in die 90er Jahre dar. Neben den zahlreichen Entwicklungen, die im Laufe der Jahre vollzogen worden sind, wird im zweiten Teil das WODCA Programmsystem vorgestellt.

2.1 Syntheseplanung und Computer -
Konzepte und Methoden

Der Versuch, die Planung organischer Synthesen auf eine rationale Grundlage zu stellen, wurde bereits vor mehr als 25 Jahren von Corey [1] unternommen. Er formulierte erstmals Regeln und Schritte, die nach- oder nebeneinander vollzogen werden müssen, um einen Syntheseplan zu entwerfen. Zu dieser Zeit wurde organische Synthese in einer Weise gelehrt, welche die Entwicklung einer Syntheseidee als einen ad hoc Prozeß begriff: Einzelbeispiele von eleganten Synthesen wurden dem Studierenden präsentiert, jedes ohne direkte Beziehung zu einem andern. Induktives Ableiten von Lösungen für neue Probleme war erforderlich. Corey war es, der den Chemikern mit der retrosynthetischen Denkweise ein vielversprechendes, deduktives Werkzeug in die Hand gab, mit dem die Planung organischer Synthesen logischer, systematischer und auch einfacher wurde. Die folgenden zwölf Schritte sind aus [1] entnommen. Sie artikulieren das Fundament der retrosynthetischen Analyse:

1. Vereinfache das Syntheseproblem.

2. Erkenne wichtige Struktureinheiten im Syntheseziel.

3. Erzeuge äquivalente Struktureinheiten und modifizierte diese.

4. Addiere funktionelle Gruppen, die reaktionskontrollierend wirken.

5. Trenne systematisch das Molekülskelett an den Struktureinheiten.

6. Leite die notwendigen Reaktionen ab, welche die Vorstufen zur Zielstruktur umsetzen.

7. Wiederhole die Schritte 1 bis 6 für jede erzeugte Vorstufe und jede Sequenz.

8. Erzeuge Vorstufen, bis geeignete Ausgangsmaterialien produziert wurden.

9. Entferne Inkonsistenzen.

10. Identifiziere offene Probleme.

11. Wiederhole die Schritte 1 bis 10 zur Erzeugung alternativer Wege.

12. Bewerte jeden Weg.

Corey war es auch, der eine Reihe von Begriffen etablierte, die im Bereich der Syntheseplanung, insbesondere in ihrem computer-gestützten Umfeld eine zentrale Rolle spielen.

Zunächst muß deutlich zwischen den beiden möglichen Richtungen der Analyse einer Reaktion unterschieden werden: Als synthetisch bezeichnet man die Richtung der Umsetzung von Edukten zu Produkten, analog zu einer Reaktion, die im Labor durchgeführt wird. Retrosynthetisch oder antithetisch heißt dagegen die umgekehrte Richtung, wenn Produkte hinsichtlich ihrer möglichen Edukte analysiert werden [2]. Im Unterschied zu einer Reaktion wird der umgekehrte Prozeß als Transform bezeichnet [3].

Unter dem Begriff des Synthons, ursprünglich relativ weit gefaßt1, wird heute [4], [5] ein Fragment verstanden, welches das (denkbare) reagierende Intermediat in einer Reaktion umfaßt. Synthone sind meistens geladene Spezies. Von ihnen werden Reagenzien unterschieden, welche die eigentlich eingesetzten Verbindungen bezeichnen. Demgegenüber beschreibt ein Retron [6] diejenige strukturelle Einheit in einem Reaktionsprodukt, welche eine mögliche Reaktion zu ihrem Aufbau signalisiert. Retrone sind damit die Schlüsselelemente zur Entscheidung über die Anwendbarkeit eines bestimmten Transforms. Das Ergebnis einer retrosynthetischen Analyse wird gewöhnlich in Form eines Synthesebaumes dargestellt. Das eigentliche Syntheseziel stellt dabei die Wurzel des Baumes dar, der auf dem Kopf stehend (Wurzel oben) dargestellt wird. Zwischenprodukte sind Knoten innerhalb des Baumes, Ausgangsmaterialien die Endpunkte von Ästen. Kanten repräsentieren Reaktionen.

Abb. 2 - 1

Ein (Retro-)Synthesebaum.


Indem man Heuristiken und Regeln zur Planung einer Synthese angeben kann, ergibt sich automatisch die Möglichkeit, einen solchen Algorithmus in Form eines Computerprogramms zu realisieren. Corey und Wipke haben diesen Ansatz mit OCSS2 [2], dem ersten Prototypen eines Programms zur computer-gestützten Syntheseplanung, verwirklicht. OCSS ist der Urvater einer Reihe ähnlich arbeitender Programme, auf die weiter unten noch eingegangen wird.

Es soll hier jedoch zunächst auf eine andere Publikation verwiesen werden, in der ebenfalls wesentliche Grundzüge der später realisierten computer-gestützten Syntheseplanung vorgeschlagen wurden. Vléduts [7] veröffentlichte bereits 1963 einen Artikel, der sich mit einem eindeutigen System zur Indizierung von Reaktionsdaten befaßte. Als eine potentielle Anwendung beschrieb er dabei, wie sich eindeutig indizierte Reaktionen zur Generierung von Synthesevorschlägen einsetzen ließen. Vléduts' skeleton reaction schemes entsprechen dabei in etwa den Transforms von Corey. Auch der Begriff des Synthesebaums als Bezeichnung für die Gesamtheit der erzeugten Vorstufen findet sich dort.

Doch zurück zu den ersten realisierten Syntheseplanungsprogrammen. Anfang der 70er Jahre war die erste Version des Nachfolgers von OCSS, LHASA3 [3], [8], [9], [10], [11] funktionsfähig. Das wesentliche Arbeitsprinzip ist die rationale Anwendung von Transforms auf ein Syntheseziel, um Vorstufen zu generieren. Dieser Prozeß wird fortgesetzt, bis Vorstufen als verfügbar erkannt werden. Kern eines solchen Systems sind die Menge der bekannten Transforms. Bei LHASA können diese in einer eigens entwickelten Sprache (CHMTRN4 [10]) codiert werden. Dabei wird nicht nur das erforderliche Retron des Transforms codiert, sondern auch Bewertungen spezifiziert, Randbedingungen aufgeführt und Grenzen abgesteckt. Die Transforms sind gruppiert. Funktionalität umwandelnde Transforms werden beispielsweise von solchen zum Aufbau des Kohlenstoff-Skeletts unterschieden. Diese Strukturierung erlaubt die Auswahl von Strategien zur Anwendung bestimmter Transform-Gruppen [12]:

o

o o o o SECS5 [13], [14], SYNCHEM [15], die Programme aus der Umgebung von Bersohn [16], [17], SPEK6 [18] und die Familie RDSS7/TRESOR8 [19] sind ähnlich arbeitende Programme. Die beiden ersten kennen ebenfalls eigene Regelsprachen zur Codierung der Transforms (ALCHEM [13] bzw. eine PL/1-ähnliche Sprache [20]). Auf der Grundlage von SECS wurde das CASP9 Projekt [21] vorangetrieben, das von einem aus schweizer und deutschen Chemieunternehmen bestehendem Konsortium verwirklicht wurde. Hier erreichte die Transform-Bibliothek mehr als 6.000 Einträge. CASP kann als der Endpunkt einer Entwicklung angesehen werden. Offensichtlich macht nicht die Masse in den Transform-Bibliotheken die Fähigkeiten solcher Systeme aus, sondern deren Kombination mit effektiven Methoden der Bewertung von Reaktionspfaden und die Verwendung verschiedener Strategien während der Entwicklungsphase des Synthesebaumes.

Ganz allgemein werden Programme wie die oben beschriebenen als wissensbasierte Systeme bezeichnet. Im Unterschied dazu gibt es eine andere Gruppe von Programmen zur computer-gestützten Syntheseplanung, die auf einer rein mathematisch-logischen Grundlage das Problem in Angriff nehmen. Die Grundlage dafür legten Dugundji und Ugi [22]. Sie benutzten als Strukturabbildung Matrizen, die Bindungen und Elektronen codieren (BE-Matrizen) und statt Transformbibliotheken Reaktions-Matrizen (R-Matrizen), welche die Veränderungen von BE-Matrizen während einer Reaktion beschreiben. Da dieses System stöchiometrieerhaltend arbeitet, wären damit nur Cycloadditionen, Ringöffnungen, Umlagerungen u. ä. möglich. Das wird überwunden, indem einfache Verbindungen wie Wasser, Natronlauge u. dgl. zur BE-Matrix der Zielverbindung hinzugefügt werden. Der große potentielle Vorteil solcher Systeme liegt darin, daß sie - im Gegensatz zu den wissensbasierten Systemen - auch völlig neuartige Reaktionen auf diese Weise generieren können. Jedoch ist eine völlig unkontrollierte Generierung von Reaktionen wenig sinnvoll, da der Anwender dann mit einer Unmenge an chemisch zweifelhaften Vorschlägen überschwemmt wird. Das erste derartige Programm war CICLOPS10 [23]. Andere Programme dieses Typs sind IGOR11 [24], [25] und RAIN12 [26]. Auch die frühen EROS-Versionen (siehe unten) gehörten in diese Kategorie [27]. Man kann diese Systeme als formale Reaktionsgeneratoren auffassen. Mit ihnen wird nicht vordergründig Syntheseplanung betrieben. Vielmehr kann mit ihrer Hilfe gezielt nach noch unbekannten Reaktionen, etwa zur Synthese bestimmter Strukturmerkmale gesucht werden oder sie helfen bei der Formulierung eines Reaktionsmechanismus. Erstere Anwendungen werden auch als Reaktionsplanung [28] oder Reaktionsdesign bezeichnet.

Ein anderer Pionier der computer-gestützten Syntheseplanung ist Hendrickson mit seinem SYNGEN Programm [29]. Sein Ansatz basiert auf der Charakterisierung von Kohlenstoff-Atomen in organischen Verbindungen durch vier Merkmale: die Zahl der -Bindungen () und Mehrfachbindungen () zu anderen Kohlenstoff-Atomen, der Bindungen zu Wasserstoff oder anderen elektropositiven Atomen (H) und der Bindungen zu elektronegativen Heteroatomen (Z) [30]. Dieses System eignet sich zur rationalen Beschreibung der Konstitution beliebiger organischer Verbindungen und ihrer Reaktionen. Weiterentwickelt zum Konzept der Halb-Reaktionen [31] ist es die Grundlage einer ganzen Familie13 von Programmen zur Syntheseplanung. Ein wesentlicher Nachteil seines Ansatzes besteht darin, daß stereogene Merkmale (chirale Atome, cis/trans-Relationen an Doppelbindungen) dabei nicht berücksichtigt werden. In [32] weist Hendrickson nach, daß die Ugischen BE- und R-Matrizen und seine Halb-Reaktionen verschiedene Spielarten eines rationalen Modells zur Beschreibung organischer Verbindungen und ihrer Reaktionen sind. Es kann daher ebenfalls in die Gruppe der mathematisch-logisch basierten Systeme eingeordnet werden.

Ein hybrides System, das sowohl mittels formaler Reaktionsgeneratoren als auch mit wissensbasierten Komponenten arbeitet, ist AIPHOS14 [34]. Der Reaktionsgenerator dient hier dazu, die retrosynthetisch zu brechenden Bindungen auszuwählen (in AIPHOS-Terminologie: strategic sites). Ohne eine drastische Einschränkung der formalen Möglichkeiten zur Reaktionsgenerierung wird man bereits in diesem Schritt von Unmengen an Vorschlägen überflutet. Aus dem Bruch solcher Bindungen resultieren zunächst nur Molekülfragmente. Zur Absättigung dieser Fragmente wird auf eine Wissensbasis zurückgegriffen, die automatisch aus Einzelreaktionen ermittelte Abgangsgruppen enthält. Neben der eigentlichen leaving group sind auch topologische Eigenschaften ihrer Nachbaratome in der ursprünglichen Reaktion vermerkt. In der Praxis werden für die aus einer strategischen Bindung resultierenden Molekülfragmente in der Regel eine ganze Reihe von Abgangsgruppen für vorgeschlagen. Diese erhalten aber eine Bewertung, so daß der Anwender eine Entscheidungshilfe erhält. Stehen die zu brechende Bindung und deren Synthesevorstufen fest, kann AIPHOS in einer weiteren Wissensbasis nach den geeignetsten Reaktionsbedingungen suchen. Die Lösung dieser Aufgabe basiert auf dem Vergleich der aktuellen Abgangsgruppen mit denen in der Wissensbasis für Reaktionsbedingungen. Es werden so aber nur Prototypen für Bedingungen ermittelt.

Desweiteren wurden einige Programme entwickelt, deren explizite Aufgabe darin besteht, Relationen zwischen Synthesezielen und Ausgangsmaterialien zu erkennen. Ein erster solcher Ansatz stammt von Wipke [35]. Sein SST Programm15 sucht in einem Katalog von Ausgangsmaterialien (Aldrich-Katalog, ca. 11.000 Verbindungen) ohne Berücksichtigung irgendwelcher Reaktionswege diejenigen Verbindungen, die sich durch skeletale16 Ähnlichkeit zum Syntheseziel auszeichnen. Dazu abstrahiert das Programm sowohl die Anfrageverbindung (Syntheseziele) als auch die Katalogverbindungen (Ausgangsmaterialien). SST kennt zwei Abstraktionsstufen: eine vollständige Abstraktion und eine funktionale Abstraktion. Die vollständige Abstraktion reduziert eine Verbindung auf ihr Kohlenstoffskelett, wobei nicht-aromatische Mehrfachbindungen zwischen Kohlenstoffatomen zu Einfachbindungen reduziert werden. Aromatische Bindungen, auch die zu Heteroatomen, bleiben dagegen unverändert. Bei der funktionalen Abstraktion wird das Kohlenstoffskelett der höheren Abstraktionsstufe zusätzlich mit Markern an Positionen versehen, an denen ursprünglich chemische Funktionalität in irgendeiner Form (Mehrfachbindungen, Heteroatome) vorhanden war. Suchfunktionen vergleichen dann diese reduzierten Darstellungen und selektieren so eine Liste von Ausgangsmaterialien. Diese Liste wird dann auf der Ebene der reduzierten Darstellungen bewertet, wodurch sich die Liste weiter eingrenzen läßt. Schließlich werden die korrespondierenden Originalstrukturen zu einer abschließenden Bewertung herangezogen. Das Resultat sind Vorschläge für Ausgangsmaterialien für das gegebene Zielmolekül - ohne irgendwelche Reaktionen zu prognostizieren.

Einen weiteren, aber zusätzlich spezialisierten Ansatz stellt das CHIRON Programm17 dar [36]. Wie SST versucht das CHIRON Programm eine synthesebasierte Relation zwischen einem Zielmolekül und möglichen Ausgangsmaterialien herzustellen. Zentraler Schwerpunkt ist dabei die Korrespondenz von stereochemischen Merkmalen. CHIRON steht ein manuell zusammengestellter Katalog von chiralen, racemischen und achiralen Ausgangsmaterialien zur Verfügung. In der gegenwärtigen Version (4.22 vom Februar 1994) umfaßt dieser Katalog 4.567 Verbindungen (davon 1.765 chiral) in13 Dateien. Jedes Katalogmolekül wird auf die Zielverbindung abgebildet, dabei werden Funktionalität, aber besonders auch stereochemische Merkmale verglichen. Lassen sich auf diese Weise keine ausreichenden Übereinstimmungen erzielen, gestattet das Programm begrenzte Transformationen an funktionellen Gruppen der Katalogverbindungen. Dieser Vergleichsprozeß geht einher mit einer Bewertung. Der Wert eines Ausgangsmaterials wird dabei beeinflußt, inwieweit notwendige Refunktionalisierungen machbar sind, dem Maß der Überlappung der Kohlenstoffskelette und inwiefern sich Funktionalität und vor allem die Stereochemie entsprechen. In einem weiteren Operationsmodus können auch CC-Bindungen brechende Transformationen auf der Seite der Katalogverbindungen erlaubt sein, bevor der Vergleichsprozeß abläuft. Als solche brechbaren Bindungen werden nicht-aromatische Doppelbindungen, -carbonylische oder Bindungen an allylischen Positionen betrachtet. Ist auf diese Weise eine Ähnlichkeit zwischen Syntheseziel und einem chiralen Baustein hergestellt, bleibt es dann Aufgabe des Chemikers zu entscheiden, wie der konkrete Syntheseweg vom Ausgangsmaterial zum Produkt durchgeführt werden kann.

Schließlich müssen grundsätzlich in Vorwärtsrichtung, d. h. in Syntheserichtung arbeitende Programme von den bislang erläuterten unterschieden werden. Solche Systeme sollen Voraussagen über die Produkte einer Reaktion machen, das jedoch nicht nur durch Prognose der Produktstrukturen, sondern darüber hinaus der Produkt- bzw. Isomerenverteilungen. Zu dieser Klasse gehören CAMEO18 [37] und EROS619 [38]. Beide Systeme benutzen keine Reaktionsmuster. Vielmehr wird die Reaktivität von Atomen und Bindungen unter bestimmten Bedingungen abgeschätzt, um daraus eine Reaktionsablauf zu prognostizieren.

CAMEO besteht aus zahlreichen, fest programmierten Modulen, die viele Teilbereiche der organischen Chemie (basenkatalysierte und nukleophile Reaktionen [39], [40], [41], [42], [43]; Radikalreaktionen [44]; säurekatalysierte und elektrophile Reaktionen [45], [46]; Pericyclenchemie [47], [48]; Redoxreaktionen [49]) behandeln können.

EROS6 verwendet dagegen keine fest codierten Module, die Wissensbasis dieses Programms ist ladbar und wird unabhängig vom eigentlichen Programm erweitert. In den Reaktionsregeln kann auf eine Reihe von physikochemischen Parametern (Atompartialladungen, Polarisierbarkeiten, Bindungsdissoziationsenergien) zugegriffen werden, mit deren Hilfe eine Reaktivitätsfunktion Vorhersagen quantitativer Natur erlaubt. Sind experimentelle Daten in ausreichendem Umfang publiziert, können sehr exakte Reaktivitätsfunktionen durch statistische Analyse automatisch abgeleitet werden. Diese sind wesentlich genauer als die Schätzungen von CAMEO, dafür aber in der Regel auf einen Reaktionstyp begrenzt.

In neuerer Zeit richtete sich ein Forschungsschwerpunkt aus dem Bereich der computer-gestützten Modellierung von organischen Reaktionen auf den automatischen Wissenserwerb. Mittlerweile sind umfangreiche Datenbanken an Reaktionen vorhanden, die als In-house- Systeme am Arbeitsplatz des Chemikers verfügbar sind oder über Online-Dienste (z. B. via STN: CASREACT [50]) erreicht werden können. Für alle wissensbasierten Systeme aus dem Bereich Syntheseplanung und Reaktionsvorhersage stellen diese Daten einen immensen Fundus an Information dar. In der Praxis treten jedoch eine Reihe von Schwierigkeiten bei der Verwertung dieses Wissens auf. Einige der in diesem Bereich angesiedelten Systeme seien hier vorgestellt.

Schon 1979 beschrieb Bersohn [51] ein Projekt, welches das für ein Syntheseplanungsprogramm erforderliche Wissen aus englisch-sprachigen Journalen extrahieren sollte. Hierbei wurden relevante Artikel über Schlüsselwörter erkannt, Reaktanden und Produkte durch ihren IUPAC-Namen identifiziert und in eine Bindungstabelle umgewandelt. Nachfolgende Schritte sollten fehlende Reaktionspartner diagnostizieren und das Reaktionszentrum identifizieren. Die so ableitbare Transform-Information muß nachfolgend mit bereits vorhandenen Transforms verglichen werden. Daraus resultierend entsteht entweder ein neues Transform, ein bereits vorhandenes kann verfeinert werden oder aber die Information wird verworfen, weil sie bereits Bestandteil der Wissensbasis ist.

Für das EROS6 System wurden eine Reihe von Programmen entwickelt [38], die Reaktionsinformation aus ChemBase-Reaktionsdatenbanken automatisch zu einer Reaktionsregel verarbeiten. Diese Analyseprogramme erkennen nicht nur das Reaktionszentrum. Darüber hinaus werden für die Atome und Bindungen des Reaktionszentrums auch physikochemische Parameter (Atompartialladungen, Polarisierbarkeiten, Bindungsdissoziationsenergien) errechnet und statistisch validiert. Auf diese Weise werden Fensterbereiche für solche Parameter abgeleitet, die als notwendiges Kriterium in die Reaktionsregel einfließen. Sind auch kinetische Daten verfügbar, kann auch eine multi-variate lineare Modellfunktion für die Kinetik der Reaktion abgeleitet werden. Was diesem System fehlt ist die Möglichkeit, direkt Reaktionsdatenbank-Informationen einzuschleusen. Die ChemBase-Datenbanken, die verwendet werden sollen, müssen bestimmten Restriktionen genügen, damit die Analyseprogramme die Daten auswerten können. Sie werden daher manuell erstellt.

Auch die Gruppe um Gelernter sah sich dem Problem ausgesetzt, daß es äußerst schwierig ist, Fachleute (Chemiker) zu langfristigem Aufbau und Engagement in der Pflege einer ausgereiften Wissensbasis (für Syntheseplanung) zu begeistern" [52]. Diese hauptsächlich aus Informatikern bestehende Gruppe wollte daher dieses Problem mit Methoden des maschinellen Lernens lösen. Drei Programme entstanden, die - z. T. auf alternativem Weg - aus verfügbaren Reaktionsdatenbanken Komponenten der Wissensbasis für SYNCHEM20 ableiten.

o

o o Eine Weiterentwicklung von BRANGÄNE und ISOLDE ist das Programm HORACE21 [53]. Es umfaßt die Funktionalität beider Programme. Darüber hinaus kann es empirisch berechnete physikochemische Parameter zur Charakterisierung des Reaktionszentrums heranziehen. Diese physikochemischen Parameter (- und -Elektronegativität sowie Werte zur quantitativen Abschätzung der Stabilisierung positiver oder negativer Ladungen durch Delokalisierung) sind die gleichen, die auch EROS6 bzw. dem WODCA System zur Verfügung stehen.

Das von einer französischen Gruppe betriebene GRAMS-Projekt22 verfolgt ein ähnliches Ziel, realisiert die klassifizierte und generalisierte Reaktionsinformation aber in Form eines hierarchischen Netzes [54]. Während andere Wissensbasen nur noch die in den Transforms codierte Information beinhalten, bleiben die Originalreaktionen im Reaktionsnetz von GRAMS immer erhalten. Das Reaktionsnetz ist baumartig aufgebaut, wobei die Blätter die Einzelreaktionen zum Inhalt haben. Verzweigungsstellen sind Abstraktionen von Einzelreaktionen oder höhere Verallgemeinerungen von bereits generalisierten Reaktionen. Für die Syntheseplanung wird für ein gegebenes Zielmolekül die ähnlichste Produktstruktur im Netz der klassifizierten Reaktionen gesucht. Dies Suche beginnt an der Wurzel des Baumes, das ist die allgemeinste Reaktion. Wird ein Mapping zwischen diesem Knoten und dem Syntheseziel gefunden, wird mit den Vaterknoten fortgesetzt. Die Suche auf einem Ast des Baumes wird abgebrochen, wenn ein Vaterknoten nicht mehr im Syntheseziel gefunden wird. Eine so gefundene Abbildung eines Reaktionsknotens auf das Syntheseziel wird dann bewertet. In diese Bewertung gehen ein: das Niveau der Abstraktion des noch passenden Knotens, die Zahl der zugrundeliegenden Originalreaktionen, die Ausbeuten der Originalreaktionen und deren Konsistenz23. Im Extremfall wird auf diese Weise eine Originalreaktion prognostiziert.

2.2 Das WODCA System -
Ein Pool von Werkzeugen zur Syntheseplanung

Dieser Abschnitt widmet sich ausschließlich der Vorstellung des im Arbeitskreis Gasteiger von Dr. W.-D. Ihlenfeldt entwickelten Programmsystems WODCA24 [55], [56]. Dieses entstand im Zeitraum von etwa 1988 bis 1991. Es baut zu wesentlichen Teilen auf der Datenstruktur und den Algorithmen des EROS Systems auf. Dieses konnte zu dieser Zeit bereits auf mehr als 15-jährige Entwicklungen zurückblicken [27].

Das WODCA System gibt dem Chemiker eine Vielzahl von Methoden in die Hand, die ihn bei der Planung von organischen Synthesen unterstützen - nicht ihn für diesen Schritt überflüssig machen. Zunächst muß man sich vergegenwärtigen, daß der Chemiker selbst eine Synthese für eine organische Zielverbindung nicht in der konsequent rationalen Form entwickelt, wie das in Abbildung 2 - 1 dargestellt wird. Vielmehr vollzieht ein Chemiker den Designprozeß durch Anwendung verschiedenster Methoden, manche davon schwer rationalisierbar. Möglicherweise sieht" er unmittelbar im Syntheseziel eine Schlüsselreaktion, oder aber ein Ausgangsmaterial. Er wird auch ganz rational einige konkrete Syntheseschritte auf dem Papier vornehmen - sowohl retrosynthetisch ausgehend vom Syntheseziel, als auch in Syntheserichtung beginnend bei Ausgangsmaterialien oder Zwischenstufen. Vielleicht versucht er seinen Plan in Richtung einer ihm besonders gut bekannten Reaktion zu entwickeln. Dieses ganze Arsenal von Ansätzen veranschaulicht die folgende Abbildung.

Abb. 2 - 2

Ein durch eine Vielzahl an Methoden eingeschränkter Synthesebaum. Direkte Suchen nach Ausgangsmaterialien, Auswahl und Bewertung strategischer Bindungen, Reaktionsabschätzungen in Syntheserichtung sind die wichtigsten dieser Verfahren. (Vgl. Abb. 2 - 1)


WODCA will den Chemiker bei dieser Art des Denkens in allen Phasen unterstützen. Es bietet daher Methoden zur Suche geeigneter Ausgangsmaterialien, stellt Funktionen zur schrittweisen Retrosynthese bereit und schließt Verfahren zur Bewertung, etwa von Listen von Ausgangsmaterialien, ein. Darüber hinaus besteht das WODCA System nicht aus nur einem monolithischen Programm. Vielmehr steht eine ganze Kollektion an Werkzeugen für dedizierte Aufgaben zur Verfügung. Die folgende Übersicht veranschaulicht diesen Methodenpool.

Abb. 2 - 3

Übersicht über das Programmsystem. Methoden (inhärente Funktionalität) und Werkzeuge (externe Programme) können unterschieden werden.


Die klare Verteilung von Aufgaben auf einzelne Programme hat zahlreiche Vorteile. Die wichtigsten sind die leichtere Wartbarkeit und die Verteilung von Entwicklungsarbeit an Einzelprogrammen sowohl zeitlich als auch personell, die Möglichkeit des flexiblen Anpassens der Arbeitsumgebung eines Anwenders an die zu lösende Aufgabe und die Verwendung einzelner Tools losgelöst vom Gesamtsystem.

Im folgenden sollen einige prinzipielle Methoden des Kernsystems vorgestellt werden.

2.2.1 Methoden zur Suche von Ausgangsmaterialien

Eine erste wichtige Methodengruppe sind die Verfahren zur Suche nach Ausgangsmaterialien für ein Syntheseproblem. Dazu stehen dem WODCA System Strukturdatenbanken zur Verfügung. Zu Beginn der Arbeiten an dieser Dissertation waren das der Katalog der Firma Janssen Chimica, Belgien mit 8.464 Verbindungen, eine Sammlung von Chemikalien der Firma Merck-Suchardt mit 3.561 Verbindungen, desweiteren die auch im Programm CHIRON Version 4.21 verwendete Datenbank mit 2.211 Einträgen und zwei kleinere Datenbanken mit 114 bzw. 274 Verbindungen.25 Es existieren eine Reihe klassischer, stark an chemischen Datenbank-Systemen orientierte Methoden zur Suche von zu einem gegebenen Molekül verwandten Verbindungen:

o

o o o Eine für das WODCA System neu entwickeltes Verfahren zur Ähnlichkeitssuche ist die Transformationssuche [56]: Wird eine Regel zur Manipulation von Atomen und Bindungen auf zwei (oder mehrere) Verbindungen angewendet, und sind die beiden resultierenden Verbindungen danach identisch, kann gefolgert werden, daß die beiden Originalverbindungen hinsichtlich der verwendeten Regel ähnlich sind.

Ein Beispiel soll das verdeutlichen. Die dreifach funktionalisierte, acyclische Verbindung (1) aus Abbildung 2 - 4 und das Cyclopenten-Derivat (2) werden einer Ozonolyse unterworfen. An (1) ändert sich dadurch nichts, der Cyclopentenring dagegen wird aufgebrochen. Nachfolgend werden Substituentenpositionen generalisiert.27 Die beiden so transformierten Verbindungen werden miteinander verglichen. In diesem Fall sind sie identisch, damit sind (1) und (2) bezüglich einer Ozonolyse/Substitutionsoperation einander ähnlich. Zweifellos wäre (2) ein geeignetes Ausgangsmaterial zur Synthese von (1). Um diese Methode effizient zu gestalten, wird auf ein aufwendiges und zeitraubendes Atom-by-Atom-Mapping beim Vergleichen der transformierten Verbindungen verzichtet und statt dessen ein Hashcodevergleich durchgeführt. Als Hashcode soll hier eine eindeutige Zahl verstanden werden, die nur für eine bestimmte chemische Struktur charakteristisch ist. Ein solcher Hashcode kann um Größenordnungen schneller berechnet werden, als ein Mapping-Verfahren arbeiten kann. Der im WODCA System verwendete Hashcode-Algorithmus [57] hat sich im Routinebetrieb als sehr zuverlässig und leistungsfähig bewährt. Durch die kompakte Codierung einer chemischen Struktur in einer einzigen Zahl ist es auch möglich, die Transformationsresultate für einen ganzen Katalog im voraus zu berechnen, in Dateien bereitzuhalten und zur Programmlaufzeit vollständig im Kernspeicher zu halten.28

Abb. 2 - 4

Prinzip der Ähnlichkeitssuche mittels Transformation. Die Transformationsregel (hier Ozonolyse und Substitutionsmuster) wird auf die zu vergleichenden Verbindungen angewendet. Das Ergebnis wird über die resultierenden Hashcodes verglichen.


Die technische Seite der Transformationssuche erläutert Abbildung 2 - 5. Weitere Einzelheiten zu den Transformationssuchen in der aktuellen WODCA Version finden sich in Abschnitt 3.3.

Abb. 2 - 5

Implementation der Transformationssuche. Die Ähnlichkeitsregeln wurden vorab auf alle Datenbankmoleküle angewendet. Die resultierenden Hashcodes werden parallel zur Datenbank in Dateien bereitgehalten. Zum Zeitpunkt der Durchführung einer Transformationssuchen muß nur noch die Anfrageverbindung transformiert, der Hashcode berechnet und dieser gegen einen aus einer Datei geladenen Vektor abgeglichen werden. Übereinstimmende Hashcodes führen zur Selektion der betreffenden Datenbankmoleküls in der Trefferliste.


2.2.2 Schrittweise Vorstufengenerierung

Nicht immer wird es möglich sein, direkt von einem Zielmolekül mittels der Methoden des Abschnitts 2.2.1 zu Ausgangsmaterialien zu gelangen. Der Chemiker würde dann Coreys schrittweisem Retrosyntheseansatz folgen. Das zentrale Problem bei dieser Vorgehensweise ist die Auswahl von Bindungen, die retrosynthetisch gebrochen werden sollen. Nicht jede Bindung ist gleich gut für diesen Zweck geeignet. Eine Zerlegung sollte chemisch sinnvoll sein (durch synthetisch ausnutzbare Reaktivität begründet) und zu einer Vereinfachung der Struktur führen. Man sucht nach sog. strategischen Bindungen. Der Begriff wird schon in [3] verwendet. In dieser Arbeit werden darunter diejenigen Bindungen in einem Syntheseziel (oder einer Vorstufe) verstanden, deren retrosynthetischer Bruch zur Generierung geeigneter Vorstufen sinnvoll ist.29 In der Regel werden solche Bindungsbrüche zur Reduktion der Komplexität der Zielstruktur führen.

Mit der eigentlichen Deklaration einer Bindung als strategisch, ist ein weiteres Problem verknüpft. Durch den retrosynthetischen Bruch entstehen primär Molekülfragmente mit freien Valenzen. Die Absättigung dieser Positionen muß auf geeignete Weise erfolgen, so daß man zu echten Reagenzien kommt.

WODCA stellt für diese Aufgabe zwei prinzipielle Lösungen zur Verfügung: die manuelle Spezifikation von strategischen Bindungen bzw. ihre automatische Ermittlung durch ladbare Funktionen. Die manuelle Spezifikation eröffnet dem Chemiker die unmittelbare Möglichkeit, steuernd in die Planungsrichtung einzugreifen. Die auf seiner Erfahrung basierende Auswahl einer strategischen Bindung lenkt das Synthesedesign. Zum einen betrachtet der Chemiker dadurch das mit WODCA erzielbare Ergebnis eher als seine" Synthese, zum anderen ist diese Möglichkeit wichtig bei selteneren topologischen Merkmalen (spezielle Ringsysteme, ausgefallene Substitutionsmuster) oder auch als Korrekturmöglichkeit von automatisch vorgeschlagenen Bindungsbrüchen. Diese automatischen Verfahren zur Ermittlung strategischer Bindungen bestanden aus ladbaren Funktionen, die in einer speziellen Programmiersprache codiert waren und außerhalb des eigentlichen Programms entwickelt werden konnten.30 Sie waren allerdings in ihrer Mächtigkeit eher begrenzt und auf sehr spezielle Situationen ausgerichtet. Beispiele sind die Erkennung von möglichen Diels-Alder-Reaktionen in Cyclohexenringen, Carbanionenchemie an carbonylischen Zentren oder die Erkennung der Spaltbarkeit von Peptidbindungen [58]. Dennoch konnten damit Vorstufen generiert werden, die dann erneut den Ähnlichkeitssuchen aus Abschnitt 2.2.1 unterworfen wurden. Es war eine Aufgabe dieser Arbeit, die Fähigkeiten des WODCA Systems hinsichtlich der Auswahl strategischer Bindungen durch verbesserte automatische Funktionen zu erweitern (siehe Kapitel 1).

2.2.3 Bewertungsmechanismen

Bewertungen sind an verschiedenen Stellen der Planung einer organischen Synthese wünschenswert und notwendig. Beispielsweise sollten aus eine Liste von möglichen Ausgangsmaterialien diejenigen ausgewählt werden können, die der Referenzverbindung am ähnlichsten sind. Nach vollzogener Generierung von Vorstufen müssen Prüfungen realisierbar sein, welche die Reaktivität der zu verbindenden Atome abschätzen oder Selektivitätsprobleme erkennen können. Derartige Verfahren werden von WODCA in den meisten Fällen wie bei strategischen Bindungen durch ladbare Funktionen vollzogen.

Eine sehr komplexe Bewertungsfunktion existiert zur Beantwortung der Frage: Welche Verbindung aus einer Liste von Ausgangsmaterialien ist die geeignetste zur Synthese eines Zielmoleküls [59]. Diese Bewertungsfunktion überlagert die Zielstruktur mit jeder Verbindung aus der Liste. Es wird die maximale gemeinsame Substruktur der beiden Verbindungen ermittelt. Typischerweise gibt es mehrere solcher maximaler Überlagerungen. Für jede davon werden von der Bewertung dann Bonus- und Maluspunkte für verschiedene Kriterien vergeben:

o

o o o Bei mehreren gemeinsamen Substrukturen erhält das Ausgangsmaterial die höchste errechnete Bewertung. Mittels der so zugeordneten Werte kann eine Liste einfach geordnet oder gar besonders schlecht bewertete Fälle ganz entfernt werden.

Das WODCA System hat auch eine Anbindung an ein Reaktionsvorhersageprogramm (EROS6). Damit kann für vorgeschlagene Vorstufen getestet werden, ob die zugrundeliegende Reaktion in Syntheserichtung anwendbar ist. Das setzt im Falle von EROS6 allerdings eine entsprechende Reaktionsregel voraus.

Ein anderes denkbares Verfahren zur Prüfung der Einsetzbarkeit der vorgeschlagenen Vorstufen wäre die Recherche in einer Reaktionsdatenbank. Diese Möglichkeit war für das zu Beginn dieser Arbeit vorhandene WODCA System nicht gegeben. Dafür ist es nicht notwendig, in WODCA selbst ein solches Recherchesystem einzubauen. Vielmehr sollte sich das Programm in einer Umgebung (d. h. hier: Betriebssystem mit fenster-basierter Benutzeroberfläche) verwenden lassen, wo solche Reaktionsdatenbanken bereits benutzt werden können.

2.2.4 Interaktion mit dem Anwender

Das WODCA System ist interaktiv, d. h. der Chemiker, der das Programm zur Planung einer Synthese einsetzt, greift an vielen Stellen als Entscheidungsträger in den Ablauf ein. Nach dem Start des Programms, bei dem der Anwender über die für diese Sitzung notwendigen Tools entscheidet (Moleküleditor, Displayprogramme u. dgl.), erfolgt die Eingabe eines Zielmoleküls mittels graphischem Editor oder durch Einlesen einer Datei. Diese Zielverbindung wird dann an die Spitze des zu entwickelnden Syntheseplanes eingetragen. Der Chemiker entscheidet nun, welche Methoden er aus dem WODCA Arsenal einsetzten will. Er wird also Ähnlichkeitssuchen benutzen, strategische Bindungen ermitteln, Vorstufen generieren und Bewertungen vornehmen. Dazu wählt er aus Menüpunkten aus, aktiviert Kommandos über Schalter oder setzt Kommandos per Hand ab. Die Ergebnisse dieser Verfahren können sämtlich im Syntheseplan verwaltet werden. Das gibt dem Anwender die Gelegenheit, die Planung zu einem späteren Zeitpunkt wieder aufzunehmen oder aber an verschiedenen Punkten des Planes fortzufahren. Für alle diese Tätigkeiten stehen dem Chemiker mit graphischen Benutzerschnittstellen ausgestattete Programme zur Verfügung. Er arbeitet in einer Fenster-basierten Umgebung namens SunView. Abbildung 2 - 6 gibt den Bildschirm wieder, wie er sich einem Benutzer während einer typischen WODCA Sitzung präsentiert.

Die direkte Einbindung des Chemikers in den Programmablauf kann als Vorteil verstanden werden. Er kommuniziert mit dem System, um von diesem Anregungen zu erhalten. Diese können unmittelbar zu neuen Fragestellungen führen. Der Anwender steht in echtem Dialog mit dem Programm.

Abb. 2 - 6

Typischer Bildschirm einer WODCA Sitzung. Mehrere Programme arbeiten gleichzeitig und präsentieren dem Chemiker Informationen in graphischer Form. Das eigentliche Kernsystem stellt die Funktionalitäten zur Syntheseplanung zur Verfügung. Der browser rechts oben stellt eine Liste von Ausgangsmaterialien einschließlich der vergebenen Bewertung dar. Der zweite browser links unten visualisiert das aktuelle Zielmolekül mit Bewertungen über Bindungen, die als strategisch erkannt wurden. Das plantool rechts unten verwaltet den gesamten Syntheseplan. Der Moleküleditor medtool ist zum Icon geschlossen (Mitte links).


2.2.5 Zielsetzung dieser Arbeit

Zum Verständnis der Zielsetzung ist es erforderlich, an dieser Stelle den Systemaufbau von WODCA zu erläutern. Die Separation bestimmter Funktionen und deren Bereitstellung durch separate Programme wurde bereits auf Seite 12 erwähnt. Aber auch das Kernsystem selbst kann in verschiedene Bereiche unterteilt werden. Es enthält Funktionen zum Lesen und Schreiben chemischer Informationen, es verwaltet Kataloginformationen und erlaubt den Zugriff darauf, es organisiert Synthesepläne, stellt die Substruktur-, Transformations- und alle anderen Suchen bereit. Der Zugriff auf Methoden zur Suche strategischer Bindungen und der Generierung von Vorstufen oder die Bewertungsmechanismen erfolgt über Programmschnittstellen. Dadurch sind die Funktionen, welche die eigentliche Arbeit etwa bei einer Bewertung leisten, nicht Bestandteil des Kernsystems. Stattdessen werden diese in externen Dateien codiert in einer speziellen Sprache (VERGIL+++ [60]) bereitgestellt. Die Vorteile liegen erneut auf der Hand:

o

o o Dem Kernsystem werden diese Methodendefinitionen jedoch in einer anderen Form zur Verfügung gestellt: als Forth-Module. Der Grund dafür liegt in der einfachen Implementation eines Forth-Systems und dem schnellen Laufzeitverhalten von Forth-Code. Diesem Vorteil steht jedoch die ungewöhnliche Syntax und andere spezielle Eigenheiten von Forth gegenüber, welche die Programmierung von Forth-Funktionen selbst für in anderen Sprachen erfahrene Experten erschwert. VERGIL31 sollte daher eine einfachere Sprachdefinition bereitstellen, die auch für Chemiker als Programmier-Laien verständlich ist und so die Akzeptanzbarriere von Forth durchbricht. Zur einfachen Überführung von VERGIL-Code in Forth wurde ein spezieller Crosscompiler geschaffen [60].

Auch die graphische Benutzeroberfläche, die Schnittstelle der Kommunikation zwischen Programm und dem Chemiker ist separat vom Kernsystem implementiert. Sie basiert auf dem Fenstersystem SunView von Sun Microsystems.

Die folgende Abbildung veranschaulicht diesen Systemaufbau.

Abb. 2 - 7

Schematischer Aufbau des WODCA Systems zu Beginn dieser Arbeit. Die Dateisymbole markieren Teilkomponenten, die außerhalb des Kernsystems liegen.


Es ist unschwer zu erkennen, daß auch die Ähnlichkeitskriterien der Transformationssuchen chemisches Wissen darstellen. Daher ist es wünschenswert, daß diese genau wie die Bewertungsmethoden oder Suchmethoden für strategische Bindungen in externen Dateien definiert werden können.

Der akzeptanzbedingte Umweg über eine eigene chemische Programmiersprache zur Definition von chemischem Wissen für das WODCA System verkompliziert vor allem die Wartung und Entwicklung des Programms. Es wäre demnach sinnvoll, im Zuge der Erweiterung des Subsystems, das für die Verarbeitung von externem Wissen zuständig ist, dieses auf einfachere, aber dennoch leistungsfähige Weise zu reimplementieren.

Die Verwendung von SunView als Basis der graphischen Benutzeroberfläche fesselt das WODCA System an Sun Workstations. Mittlerweile ist dieser Standard auch von der Software-Entwicklung überholt worden. Die heutige Standardgrundlage von graphischen Oberflächen im Workstationbereich ist das X Window System des MIT. Daraus ergab sich der Zwang, die Benutzerschnittstelle für das WODCA System neu zu implementieren.

Abschnitt 3.2 zeigt, daß diese Anforderungen mittels einer neuen Standardsprache verwirklichen lassen. Dieser programmtechnische Aspekt ist ein wesentlicher Bestandteil dieser Arbeit.

Darüber hinaus muß dieses sehr flexible und mächtige System mit chemischem Leben erfüllt werden, um den Nachweis antreten zu können, daß das Programm ein sinnvolles Werkzeug für den Chemiker darstellt. Dieser Aufgabe stellt sich diese Arbeit, indem die Ähnlichkeitskriterien für die Transformationssuchen gründlich überarbeitet wurden (Abschnitt 3.3). Darüber hinaus konnten leistungsfähige Funktionen zur Suche nach strategischen Bindungen (Kapitel 4) entwickelt werden.

2.3 Ein kleiner Exkurs -
Programmtechnische Aspekte

Die computer-gestützte Syntheseplanung ging einher mit einer gewaltigen Entwicklung ihrer materiellen Grundlage: der Computertechnik. Die ersten Programme mußten mit wenigen Kilobyte Speicher auskommen und benutzten - aus heutiger Sicht - geradezu archaische Schnittstellen wie Zeichentableau und mehrere Terminalschirme [8]. Heutige Workstations stellen dagegen Hauptspeicher im Bereich von Dutzenden von Megabyte bereit, verwalten Gigabytes an Plattenplatz und präsentieren sich mit Multitasking- und Multiuser-fähigen Betriebssystemen und graphischen Fensteroberflächen. Auch die Arbeitsplatzrechner, ob IBM-kompatibler PC oder Macintosh-Rechner, liegen in ihrem Angebot an Hauptspeicher und Plattenplatz um Größenordnungen über den Maschinen der Pionierzeit der computer-gestützten Syntheseplanung, ganz zu schweigen von den außerordentlich gewachsenen Prozessorleistungen.

Tab. 2 - 1 Zusammenstellung von Syntheseplanungssystemen. Die Einträge sind alphabetisch nach den Programmnamen geordnet.

Programm

Sprache(n)

Referenz

AHMOS

PL/1

[61]

CAMEO

Fortran

[62]

COSYMA

C/Fortran

[63]

EROS

ursprünglich PL/1, z. Z. Fortran
Migration nach C++ in Gang

FLAMINGOES

Basic

[64]

IGOR

PL/1
Fortran/Assembler

[24]
[25]

LHASA-1 / OCSS

Assembler (DECAL)

[3]

LHASA-10

Fortran

[3]

LHASA

Fortran/C/Pascal (CHMTRN)

[65]

Lilith

Fortran

[66]

MASSO

Fortran

[67]

MARSEIL/SOS

Forth

[68]

RDSS

C

[69]

SECS

Fortran (ALCHEM)

[70]

SST

Fortran

[35]

SYNCHEM1/2

PL/1, Assembler (in Version 1),
Migration nach C in Gang

[20]
[71]

SYNGEN

Fortran

[29]

TRESOR

C

siehe RDSS

WODCA

Fortran/C (Forth/VERGIL+++)

-1

Lisp

[16]

-a

Lisp

[72]

-a

Basic

[73]

1
Name des Programms in der Referenz nicht erwähnt.

Ein anderer technischer Aspekt betrifft die einem Programmsystem zugrundeliegende Programmiersprache. Wie die Tabelle 2 - 1 zeigt, existiert dabei eine große Vielfalt, was die verwendeten Sprachen anbetrifft. Es gibt auch Systeme, die eine ganze Reihe verschiedener Sprachen in sich vereinen. Grundsätzlich läßt sich aber erkennen, daß der Schwerpunkt auf wenigen Hochsprachen (Fortran, C) liegt, wobei sich in jüngerer Zeit ein Trend zu objektorientierten Sprachkonzepten (vor allem C++) abzeichnet.





1
Siehe [1]: structural units within a molecule which are related to possible synthetic operations"
2
Organic Chemical Simulation of Synthesis
3
Logic and Heuristics Applied to Synthesis Analysis
4
CHeMical TRaNslator
5
Simulation and Evaluation of Chemical Synthesis
6
Synthesis Planning based on Empirical Knowledge
7
Reaction Design by Synthon Substitution
8
TRacing and Evaluation of Synthons in Organic Reactions
9
Computer Assisted Synthesis Planning
10
Computers In Chemistry, Logic Oriented Planning of Syntheses
11
Interactive Generation of Organic Reactions
12
Reactions And Intermediates Network
13
SYNGEN - das eigentliche Syntheseplanungsprogramm; SYNOUT [29] - ein Visualisierungsprogramm für die SYNGEN-Ergebnisse; RETRIEVE [32] - ein Programm zur Suche von Literaturreferenzen für vorgeschlagene Syntheseschritte; FORWARD [32] - ein Programm zur Suche nach Synthesewegen ausgehend von Ausgangsmaterialien hin zu einem bestimmten Syntheseziel und schließlich COGNOS [33] -ein Reaktions-Retrievalsystem für speziell vorbereitete Reaktionsdatenbanken.
14
Artificial Intelligence for Planning and Handling Organic Synthesis
15
Benannt nach einem amerikanischen Projekt für ein Überschallverkehrsflugzeug (Super Sonic Traffic), daß große Entfernungen nonstop und schnell überwinden können sollte.
16
Skeletale Ähnlichkeit ist über die Verwandtschaft von Molekülskeletten, d. h. meist der C-Skelette, definiert.
17
CHIRal synthON
18
Computer-Assisted Mechanistic Evaluation of Organic reactions
19
Elaboration of Reactions for Organic Synthesis
20
Die zu den LHASA-Transforms analogen Einträge in der Wissensbasis heißen hier Schemas.
21
Hierarchical Organization of Reactions through Attribute and Condition Eduction
22
Générateur de Réseaux pour l'Apprentissage de Méthodes de Synthèse
23
Konsistenz bedeutet hier, daß für die Originalreaktionen möglichst ähnliche Ausbeuten publiziert sind.
24
Workbench for the Organization of Data for Chemical Applications
25
Die Begriffe Katalog, Strukturdatenbank, Datenbank von Ausgangsmaterialien werden im weiteren synonym verwendet. Auf abweichende Bedeutung wird an entsprechender Stelle ausdrücklich verwiesen.
26
Wie im Abschnitt 3.3.2 erläutert wird, muß diese Übereinstimmung nicht unbedingt 100%ig sein. Man denke etwa an Tautomere.
27
Auf welch vielfältige Weise das geschehen kann stellt Abschnitt 3.3.4 ausführlich dar.
28
Die Hashcodes des WODCA Systems sind als 32-Bit-Integer-Zahlen realisiert. Für 10.000 Verbindungen werden im Kernspeicher gerade einmal 40 kByte belegt.
Prinzipiell kann nicht ausgeschlossen werden, daß zwei verschiedene Verbindungen den gleichen Hashcode erhalten. Die Länge des Hashcodes (Zahl der Stellen) begrenzt letztendlich die Menge der kollisionsfrei codierbaren Verbindungen.
29
Man beachte, daß diese Definition nicht notwendiger Weise eine Vereinfachung der Zielstruktur hinsichtlich Funktionalität, skeletaler Topologie oder stereochemischer Merkmale fordert.
30
Zu technischen Einzelheiten siehe Abschnitt 2.2.5.
31
Versatile EROS Reactivity functions Generation and Interpretation Language