II. Suche nach geeigneten Ausgangsmaterialien -
Ähnlichkeitssuchen im Programmsystem WODCA
1. Suchstrategien
Um in einem Chemikalienkatalog über ein bestimmtes Suchverfahren
strukturell ähnliche Verbindungen finden zu können, muß
zunächst eine Anfragestruktur formuliert werden, auf die die
Ähnlichkeit bezogen werden soll. Hierbei können zwei unterschiedliche
Methoden angewendet werden. Die Wahl der Methodik hängt davon
ab, welches Ziel mit der Ähnlichkeitssuche verfolgt wird:
Will man geeignete Ausgangsmaterialien für eine Verbindung
suchen, die man gerne synthetisieren möchte, so definiert man
als Anfragestruktur die Zielverbindung. In der Regel weisen dann die
gefundenen Treffer der Ähnlichkeitssuche eine einfachere Struktur
als die Anfrage auf oder sie stellen eine Untereinheit davon dar.
Im Idealfall eignen sich sogar einige davon als Synthesevorstufe für
die gewünschte Zielverbindung. Diese Methode ist daher prädestiniert
für die Syntheseplanung.
Genauso gut kann man aber auch die Anfragestruktur möglichst
allgemein bzw. einfach definieren, quasi als Typus einer ganzen Verbindungsklasse.
Führt man nun bestimmte Suchverfahren in einem Chemikalienkatalog
aus, so erhält man Treffer, die in der Regel eine komplexere
Struktur als die Anfrage aufweisen. Da alle Treffer jedoch die Strukturmerkmale
der Anfrage enthalten, gehören sie derselben Verbindungsklasse
an. Dieses Verfahren eignet sich somit zur Beurteilung der synthetischen
Zugänglichkeit von Substanzen einer Verbindungsklasse.
Um im weiteren Verlauf dieser Arbeit das Prinzip der Ähnlichkeitssuchen
innerhalb von WODCA zu verstehen, ist es an dieser Stelle unumgänglich,
einen kurzen Einblick in die Grundlagen (Hashcodes) zu gewähren.
Ferner soll der Unterschied zwischen Transformationssuchen - die auf
Hashcodes basieren - und Substruktursuchen aufgezeigt werden.
2. Hashcodes und Identitätssuchen
Der Vergleich zweier Integerzahlen durch einen Computer kann
sehr schnell erfolgen. Erzeugt man aus der Strukturinformation eines
Moleküls einen eindeutigen Zahlencode konstanter Länge (=
Hashcode) und vergleicht diesen mit im voraus berechneten Hashcodes
sämtlicher Verbindungen eines Chemikalienkatalogs, so kann in
kürzester Zeit das Vorhandensein der Anfrageverbindung im Chemikalienkatalog
überprüft werden
[14]
. Dieses Verfahren entspricht somit einer Identitätssuche.
3. Transformationssuchen
Neben dem Hashcode, der sich aus der Molekülstruktur der
Ausgangsverbindung A ergibt, können zusätzlich auch Hashcodes
abgespeichert werden, die auf der Struktur der verschieden transformierten
Ausgangsverbindungen A', A''... beruhen. Unter Transformation wird
in diesem Zusammenhang die definierte Überführung von Molekül
A in Molekül A' (= transformierte Verbindung) verstanden. Liefert
ein Molekül B nach Ausführung derselben Transformation ebenfalls
Molekül A', so sind A und B im Sinne der Transformation ähnlich
und A' kann voraussichtlich als Synthesevorstufe für A und B
verwendet werden. Mit diesem Verfahren ist daher ein Weg zur Bestimmung
synthetisch nutzbarer Ähnlichkeit von Molekülen gefunden
worden
[15]
. Das folgende Schema verdeutlicht dieses Prinzip am Beispiel
der Transformation "carbon skeleton":
Abb. 2: Bestimmung synthetisch nutzbarer Ähnlichkeit über
eine Transformation
Für jedes Molekül, das in den für WODCA verfügbaren
Chemikalienkatalogen enthalten ist, wurde pro Transformation ein zusätzlicher
Hashcode generiert und abgespeichert. Bei einer Transformationssuche
muß daher nur noch der Hashcode der Anfrageverbindung erzeugt
werden. Dieser kann dann sehr schnell mit den verschiedenen Hashcodes
der in WODCA verfügbaren Chemikalienkataloge verglichen werden.
Das folgende Blockschema zeigt den Verlauf einer solchen
Transformationssuche:
:
Abb. 3: Blockschema einer Transformationssuche
Im neuen WODCA in der Version 3 existieren 39 verschiedene Transformationen,
die zum Teil auf allgemeinen chemischen Reaktionen wie Substitutionen,
Eliminierungen, Oxidationen oder auch Reduktionen beruhen. Desweiteren
gibt es auch Transformationen, die nur bestimmte, charakteristische
Teilstrukturen einer Verbindung betreffen und keiner chemischen Reaktion
entsprechen. Diese Transformationen dienen zum Erkennen von Gerüststrukturen
(z.B.: aromatic system including alpha atoms, carbon skeleton including
alpha atoms, largest ring system...) und spielen eine wichtige Rolle
beim Auffinden geeigneter Ausgangsmaterialien, welche die gleiche
Gerüststruktur wie die Zielverbindung aufweisen oder eine Untereinheit
davon darstellen.
Anhand des Riboflavins soll exemplarisch die Wirkung einiger
Transformationen aufgezeigt werden:
Abb. 4: Ausgewählte Transformationen und deren Anwendung
auf Riboflavin
Bei Transformationssuchen wird immer nur das größte
nach Ausführung der Transformation erhaltene Fragment als Treffer
ausgegeben. Für die Größenbestimmung wird zunächst
allein die Atomzahl herangezogen. Zwischen Schweratomen und Wasserstoff
wird hierbei nicht unterschieden, wodurch Phenylsubstituenten und
Heteroatomsubstituenten gegenüber Alkylresten eine Abwertung
erfahren. Liegen in beiden Fragmenten identische Atomzahlen vor, so
dient die Masse des Fragments als weiteres Entscheidungskriterium.
Das folgende Beispiel zeigt den Fall für heteroatomsubstituierte
Ringsysteme:
Abb. 5: Fragmentierung durch Transformation und Auswahl des Treffers
4. Substruktursuchen
Substruktursuchen verfolgen einen anderen Weg als Transformationssuchen.
Bei ihnen muß zunächst manuell eine Anfragestruktur mit
einem Moleküleditor (z.B. CACTVS-Editor) definiert werden. Diese
Anfragestruktur darf Platzhalteratome wie z.B. !H tragen, was bedeutet,
daß an dieser Position ein beliebiges Atom mit Ausnahme von Wasserstoff
sitzen darf. Die in der Anfragestruktur verwendeten Substituenten
können auch offene Valenzen aufweisen. So bedeutet z.B. R-O ein
Alkoxylradikal und Ph-C ein Benzylradikal mit drei ungepaarten Elektronen.
Die so definierte Anfragestruktur wird nun auf sämtliche Einträge
eines Chemikalienkataloges abgebildet. Als Treffer werden die Verbindungen
ausgegeben, die genau dieses Molekülfragment als Substruktur
in ihrem Molekülgerüst tragen.
Substruktursuchen stellen eine nützliche Ergänzung
zu Transformationssuchen dar. Es gibt Fälle, wo nur Substruktursuchen
die gezielte Suche nach bestimmten Untereinheiten in einer Verbindung
erlauben (siehe auch Kap.
VIII
:
Syntheseplanung für Visnadin auf
Seite 77
). Aromatische Systeme sind besonders geeignet für Substruktursuchen,
da an jedem Kohlenstoff des Aromatenkerns stets nur ein
-Atom sitzen kann und die
Zahl der Stellungsisomeren überschaubar bleibt. So gibt es beispielsweise
nur drei verschiedene Dichlorbenzole (ortho, meta und para-Stellung
der Chlorsubstituenten), die Zahl von Dichlorpentanen ist hingegen
mit neun verschiedenen Isomeren ungleich größer. Dieses
hat den Effekt, daß man gesättigte Kohlenstoffketten mit
Substruktursuchen nur schwerlich erfassen kann, da man für jeden
erdenklichen Fall die Anfragestruktur von Hand erzeugen müßte.
Eine Substruktursuche, die alle Dichlorpentane in einem Chemikalienkatalog
auffinden sollte, bedarf der Definition von neun Anfragestrukturen!
Ein weiterer Nachteil ist, daß die bei Substruktursuchen erhaltenen
Treffer beliebig große Moleküle sein können und die
gesuchte Anfrageeinheit auch in einem für die Synthese unbedeutenderen
Molekülteil sitzen kann, so daß dieser Treffer als Ausgangsmaterial
für die Anfrageverbindung weniger geeignet ist:
Abb. 6: Ergebnis einer Substruktursuche
matthias.pfoertner@ccc.chemie.uni-erlangen.de
Copyright © 1996,
Gasteiger et al.,
Computer-Chemie-Centrum,
Institut für Organische Chemie,
Universität Erlangen-Nürnberg,
All rights reserved.