[Inhaltsverzeichnis] [Home DissOnline] [Anfang] [Vorheriges Kapitel] [Nächstes Kapitel] [Ende]

II. Suche nach geeigneten Ausgangsmaterialien -
Ähnlichkeitssuchen im Programmsystem WODCA

1. Suchstrategien

Um in einem Chemikalienkatalog über ein bestimmtes Suchverfahren strukturell ähnliche Verbindungen finden zu können, muß zunächst eine Anfragestruktur formuliert werden, auf die die Ähnlichkeit bezogen werden soll. Hierbei können zwei unterschiedliche Methoden angewendet werden. Die Wahl der Methodik hängt davon ab, welches Ziel mit der Ähnlichkeitssuche verfolgt wird:

Will man geeignete Ausgangsmaterialien für eine Verbindung suchen, die man gerne synthetisieren möchte, so definiert man als Anfragestruktur die Zielverbindung. In der Regel weisen dann die gefundenen Treffer der Ähnlichkeitssuche eine einfachere Struktur als die Anfrage auf oder sie stellen eine Untereinheit davon dar. Im Idealfall eignen sich sogar einige davon als Synthesevorstufe für die gewünschte Zielverbindung. Diese Methode ist daher prädestiniert für die Syntheseplanung.

Genauso gut kann man aber auch die Anfragestruktur möglichst allgemein bzw. einfach definieren, quasi als Typus einer ganzen Verbindungsklasse. Führt man nun bestimmte Suchverfahren in einem Chemikalienkatalog aus, so erhält man Treffer, die in der Regel eine komplexere Struktur als die Anfrage aufweisen. Da alle Treffer jedoch die Strukturmerkmale der Anfrage enthalten, gehören sie derselben Verbindungsklasse an. Dieses Verfahren eignet sich somit zur Beurteilung der synthetischen Zugänglichkeit von Substanzen einer Verbindungsklasse.

Um im weiteren Verlauf dieser Arbeit das Prinzip der Ähnlichkeitssuchen innerhalb von WODCA zu verstehen, ist es an dieser Stelle unumgänglich, einen kurzen Einblick in die Grundlagen (Hashcodes) zu gewähren. Ferner soll der Unterschied zwischen Transformationssuchen - die auf Hashcodes basieren - und Substruktursuchen aufgezeigt werden.

2. Hashcodes und Identitätssuchen

Der Vergleich zweier Integerzahlen durch einen Computer kann sehr schnell erfolgen. Erzeugt man aus der Strukturinformation eines Moleküls einen eindeutigen Zahlencode konstanter Länge (= Hashcode) und vergleicht diesen mit im voraus berechneten Hashcodes sämtlicher Verbindungen eines Chemikalienkatalogs, so kann in kürzester Zeit das Vorhandensein der Anfrageverbindung im Chemikalienkatalog überprüft werden [14] . Dieses Verfahren entspricht somit einer Identitätssuche.

3. Transformationssuchen

Neben dem Hashcode, der sich aus der Molekülstruktur der Ausgangsverbindung A ergibt, können zusätzlich auch Hashcodes abgespeichert werden, die auf der Struktur der verschieden transformierten Ausgangsverbindungen A', A''... beruhen. Unter Transformation wird in diesem Zusammenhang die definierte Überführung von Molekül A in Molekül A' (= transformierte Verbindung) verstanden. Liefert ein Molekül B nach Ausführung derselben Transformation ebenfalls Molekül A', so sind A und B im Sinne der Transformation ähnlich und A' kann voraussichtlich als Synthesevorstufe für A und B verwendet werden. Mit diesem Verfahren ist daher ein Weg zur Bestimmung synthetisch nutzbarer Ähnlichkeit von Molekülen gefunden worden [15] . Das folgende Schema verdeutlicht dieses Prinzip am Beispiel der Transformation "carbon skeleton":

Abb. 2: Bestimmung synthetisch nutzbarer Ähnlichkeit über eine Transformation
Für jedes Molekül, das in den für WODCA verfügbaren Chemikalienkatalogen enthalten ist, wurde pro Transformation ein zusätzlicher Hashcode generiert und abgespeichert. Bei einer Transformationssuche muß daher nur noch der Hashcode der Anfrageverbindung erzeugt werden. Dieser kann dann sehr schnell mit den verschiedenen Hashcodes der in WODCA verfügbaren Chemikalienkataloge verglichen werden.

Das folgende Blockschema zeigt den Verlauf einer solchen Transformationssuche:

:

Abb. 3: Blockschema einer Transformationssuche
Im neuen WODCA in der Version 3 existieren 39 verschiedene Transformationen, die zum Teil auf allgemeinen chemischen Reaktionen wie Substitutionen, Eliminierungen, Oxidationen oder auch Reduktionen beruhen. Desweiteren gibt es auch Transformationen, die nur bestimmte, charakteristische Teilstrukturen einer Verbindung betreffen und keiner chemischen Reaktion entsprechen. Diese Transformationen dienen zum Erkennen von Gerüststrukturen (z.B.: aromatic system including alpha atoms, carbon skeleton including alpha atoms, largest ring system...) und spielen eine wichtige Rolle beim Auffinden geeigneter Ausgangsmaterialien, welche die gleiche Gerüststruktur wie die Zielverbindung aufweisen oder eine Untereinheit davon darstellen.

Anhand des Riboflavins soll exemplarisch die Wirkung einiger Transformationen aufgezeigt werden:

Abb. 4: Ausgewählte Transformationen und deren Anwendung auf Riboflavin
Bei Transformationssuchen wird immer nur das größte nach Ausführung der Transformation erhaltene Fragment als Treffer ausgegeben. Für die Größenbestimmung wird zunächst allein die Atomzahl herangezogen. Zwischen Schweratomen und Wasserstoff wird hierbei nicht unterschieden, wodurch Phenylsubstituenten und Heteroatomsubstituenten gegenüber Alkylresten eine Abwertung erfahren. Liegen in beiden Fragmenten identische Atomzahlen vor, so dient die Masse des Fragments als weiteres Entscheidungskriterium.

Das folgende Beispiel zeigt den Fall für heteroatomsubstituierte Ringsysteme:

Abb. 5: Fragmentierung durch Transformation und Auswahl des Treffers

4. Substruktursuchen

Substruktursuchen verfolgen einen anderen Weg als Transformationssuchen. Bei ihnen muß zunächst manuell eine Anfragestruktur mit einem Moleküleditor (z.B. CACTVS-Editor) definiert werden. Diese Anfragestruktur darf Platzhalteratome wie z.B. !H tragen, was bedeutet, daß an dieser Position ein beliebiges Atom mit Ausnahme von Wasserstoff sitzen darf. Die in der Anfragestruktur verwendeten Substituenten können auch offene Valenzen aufweisen. So bedeutet z.B. R-O ein Alkoxylradikal und Ph-C ein Benzylradikal mit drei ungepaarten Elektronen. Die so definierte Anfragestruktur wird nun auf sämtliche Einträge eines Chemikalienkataloges abgebildet. Als Treffer werden die Verbindungen ausgegeben, die genau dieses Molekülfragment als Substruktur in ihrem Molekülgerüst tragen.

Substruktursuchen stellen eine nützliche Ergänzung zu Transformationssuchen dar. Es gibt Fälle, wo nur Substruktursuchen die gezielte Suche nach bestimmten Untereinheiten in einer Verbindung erlauben (siehe auch Kap. VIII : Syntheseplanung für Visnadin auf Seite 77 ). Aromatische Systeme sind besonders geeignet für Substruktursuchen, da an jedem Kohlenstoff des Aromatenkerns stets nur ein -Atom sitzen kann und die Zahl der Stellungsisomeren überschaubar bleibt. So gibt es beispielsweise nur drei verschiedene Dichlorbenzole (ortho, meta und para-Stellung der Chlorsubstituenten), die Zahl von Dichlorpentanen ist hingegen mit neun verschiedenen Isomeren ungleich größer. Dieses hat den Effekt, daß man gesättigte Kohlenstoffketten mit Substruktursuchen nur schwerlich erfassen kann, da man für jeden erdenklichen Fall die Anfragestruktur von Hand erzeugen müßte. Eine Substruktursuche, die alle Dichlorpentane in einem Chemikalienkatalog auffinden sollte, bedarf der Definition von neun Anfragestrukturen! Ein weiterer Nachteil ist, daß die bei Substruktursuchen erhaltenen Treffer beliebig große Moleküle sein können und die gesuchte Anfrageeinheit auch in einem für die Synthese unbedeutenderen Molekülteil sitzen kann, so daß dieser Treffer als Ausgangsmaterial für die Anfrageverbindung weniger geeignet ist:

Abb. 6: Ergebnis einer Substruktursuche



[Inhaltsverzeichnis] [Home DissOnline] [Anfang] [Vorheriges Kapitel] [Nächstes Kapitel] [Ende]

matthias.pfoertner@ccc.chemie.uni-erlangen.de
Copyright © 1996, Gasteiger et al., Computer-Chemie-Centrum, Institut für Organische Chemie, Universität Erlangen-Nürnberg, All rights reserved.