Unter dem Substitutionsmuster einer Verbindung wird deren Skelett verstanden, auf dem die vorhandene chemische Funktionalität durch Markeratome1 generalisiert wurde.
Was im Einzelnen unter chemischer Funktionalität verstanden werden soll, kann stark variieren (siehe oben) und ist daher im WODCA System durch Schalter steuerbar. Diese Schalter faßt die folgende Tabelle zusammen.
Während die ersten drei Schalter (aromatische Heteroatome zählen als Substituenten oder nicht [AR], -Heteroatome werden generalisiert oder nicht [A1], CC-Mehrfachbindungen sind Substituenten [CCMB]) beeinflussen, wo Substituenten auf einem gegebenen Skelett zu finden sind, bewirken die letzten beiden Schalter nur wie vorhandene Substituenten im Substitutionsmuster erfaßt werden. Weiter oben in der Tabelle stehende Schalter haben dabei Auswirkungen auf weiter unten aufgeführte Bedingungen (siehe Übersicht 3 - 2). Auf diese Weise entsteht eine Hierarchie von Substitutionsmustern.
Die verschiedenen Schalter werden benutzt, um unterschiedliche Ähnlichkeitskriterien zu definieren, die alle auf das Substitutionsmuster abzielen. Diese Kriterien beschreibt Übersicht 3 - 2.
(1) Substitutionsmuster -AR+A1-CCMB-BO-MU
|
|
Alle CX-Bindungen werden gebrochen, ausgenommen sind aromatische CX-Bindungen. An dem so extrahierten Skelett wird danach überall dort, wo ursprünglich mindestens ein Substituent (ganz gleich welcher Bindungsordnung) vorhanden war, ein Chloratom addiert. Nichtaromatische CC-Mehrfachbindungen werden zu Einfachbindungen reduziert. Noch freie Valenzen werden mit Wasserstoffen abgesättigt. Nur das größte Fragment bleibt erhalten.
|
|
(2) Substitutionsmuster -AR+A1+CCMB-BO-MU
|
|
Wie (1). Nichtaromatische CC-Mehrfachbindungen werden jedoch durch Addition je eines Chloratoms je Bindungsatom aufgelöst.
|
|
(3) Substitutionsmuster -AR+A1-CCMB-BO+MU
|
|
Wie (1), jedoch werden je Skelettatom so viele Chloratome addiert, wie ursprünglich Substituenten vorhanden waren.
|
|
(4) Substitutionsmuster -AR+A1+CCMB-BO+MU
|
|
Wie (2), nichtaromatische CC-Mehrfachbindungen werden durch Addition von Chloratomen (je eines pro Bindungsatom und Bindungsgrad über Eins) reduziert. An Skelettatomen werden so viele Chloratome addiert, wie ursprünglich Substituenten vorhanden waren.
|
|
(5) Substitutionsmuster -AR+A1-CCMB+BO+MU
|
|
Wie (3). Für mehrfach gebundene Substituenten werden jedoch eine dem Bindungsgrad entsprechende Anzahl Chloratome vermerkt.
|
|
(6) Substitutionsmuster -AR+A1+CCMB+BO+MU
|
|
Wie (5). Für mehrfach gebundene Substituenten werden jedoch eine dem Bindungsgrad entsprechende Anzahl Chloratome vermerkt.
|
|
(7) Substitutionsmuster -AR-A1-CCMB-BO-MU
|
|
Wie (1). Im Unterschied werden jedoch Bindungen von einem aromatischen Atom zu einem nichtaromatischen Heteroatom unverändert übernommen.
|
|
(8) Substitutionsmuster -AR-A1+CCMB-BO-MU
|
|
Wie (2). Im Unterschied werden jedoch Bindungen von einem aromatischen Atom zu einem nichtaromatischen Heteroatom unverändert übernommen.
|
|
(9) Substitutionsmuster -AR-A1-CCMB-BO+MU
|
|
Wie (3). Im Unterschied werden jedoch Bindungen von einem aromatischen Atom zu einem nichtaromatischen Heteroatom unverändert übernommen.
|
|
(10) Substitutionsmuster -AR-A1+CCMB-BO+MU
|
|
Wie (4). Im Unterschied werden jedoch Bindungen von einem aromatischen Atom zu einem nichtaromatischen Heteroatom unverändert übernommen.
|
|
(11) Substitutionsmuster -AR-A1-CCMB+BO+MU
|
|
Wie (5). Im Unterschied werden jedoch Bindungen von einem aromatischen Atom zu einem nichtaromatischen Heteroatom unverändert übernommen.
|
|
(12) Substitutionsmuster -AR-A1+CCMB+BO+MU
|
|
Wie (2). Im Unterschied werden jedoch Bindungen von einem aromatischen Atom zu einem nichtaromatischen Heteroatom unverändert übernommen.
|
Der untere Teil von Tabelle 3 - 9 veranschaulicht, wie es sich auf eine Ähnlichkeitssuche auswirkt, wenn ein Schalter benutzt (+) oder ignoriert (-) wird: Müssen mehr oder spezifischere Kriterien erfüllt werden, wird ein restriktiverer Ähnlichkeitsbereich definiert. Sind die Kriterien zwangloser, wird der Ähnlichkeitsbereich umfassender. Mit dem Ähnlichkeitsbereich parallel laufen die zu erwartenden Trefferzahlen bzw. die mögliche Zahl an Reaktionen, die eine gefundene Verbindung in die Anfrageverbindung umwandeln: großzügigerer Begriff von Ähnlichkeit höhere mögliche Trefferzahl möglicherweise höhere Zahl an Umsetzungen vom Ausgangsmaterial zur Anfrageverbindung.
Eine Anmerkung zu dem Merkmal Mehrfachbindungen zwischen C-Atomen (CCMB). In der Regel führen Substitutionstransformationen ohne Zählung der CC-Mehrfachbindungen als Substituenten (bei sonst gleichen Parametern) zu höheren Trefferzahlen. Das ist einleuchtend, wenn man beispielsweise ein langkettiges Alken sucht, das eine Doppelbindung in 1-Position und einen Heterosubstituenten in -Position besitzt. Ohne Beachtung der Doppelbindung wird man eine Reihe von einfach-endständig substituierten Alkanen finden können , mit Beachtung der Doppelbindung u. U. (das Substitutionsmuster entspricht dann einem 1,2,-substituierten Alkan) gar keine Verbindung. 6-Hydroxy-hex-1-en (3) als Beispiel (siehe Abb. 3 - 8) führt zu 39 Treffern ohne Dubletten im Fluka-Katalog ohne Beachtung von CC-Mehrfachbindungen. Gefordert wurde außerdem gleiche Bindungsordnung (+BO) und gleiche Anzahl an Substituenten (+MU) wie in der Anfrage. Mit Beachtung von CC-Mehrfachbindungen resultieren nur vier Treffer. Ist die Kettenlänge aber gering, wie beispielsweise im Allylchlorid (4), findet man mit Beachtung der Doppelbindung zusätzlich zu allylisch substituierten Verbindungen auch 1,2,3-substituierte Verbindungen wie Glycerin. Dadurch können mehr Treffer zustandekommen als ohne Beachtung der Doppelbindung. Mit Allylchlorid resultieren 81 Treffer mit, hingegen 89 Treffer ohne Beachtung von CC-Mehrfachbindungen.
-CCMB 1.Treffer -CCMB 2.Treffer -CCMB 3.Treffer +CCMB 1.Treffer +CCMB 2.Treffer +CCMB 3.Treffer
Substitutionsmuster-orientierte Transformationssuchen (-AR+A1±CCMB+BO+MU) einmal mit (+CCMB) und einmal ohne (-CCMB) Beachtung von CC-Mehrfachbindungen. Im oberen Fall resultieren deutlich mehr Treffer ohne Beachtung von CC-Mehrfachbindungen. Mit Allylchlorid sind die Trefferzahlen praktisch gleichauf.
Hierarchie von Substitutionstransformationen: Additive Wirkung mehrerer Schalter, welche die Art des interessierenden Substitutionsmusters beeinflussen. Grau gezeichnete Verzweigungen deuten an, daß auch eine Einstellung in dieser Richtung möglich ist. Aus Platzgründen sind jedoch nur drei Kombinationen dargestellt.
Histogramm der ermittelten Treffer für Substitutionsmustersuchen mit allen möglichen Substitutionspositionen auf acyclischen C5-Skeletten. Bei bis zu zehn Substitutionsmustern werden keinerlei ähnliche Verbindungen gefunden (ganz links). Sehr selten (bei bis zu drei Substitutionsmustern) werden mehr als 50 oder gar 100 Treffer gefunden (rechte Spalten).
Histogramm der ermittelten Treffer für Substitutionsmustersuchen mit allen möglichen Substitutionspositionen auf acyclischen C6-Skeletten. Bei bis zu 102 und wenigstens 74 Substitutionsmustern (von 156 möglichen) werden keinerlei ähnliche Verbindungen gefunden (ganz links). Das bedeutet, daß praktisch die Hälfte der denkbaren Substitutionsmuster nicht als Ausgangsmaterial zur Verfügung steht. Extrem selten (je ein Substitutionsmuster) werden mehr als 50 oder gar 100 Treffer gefunden (rechte Spalten). Man beachte, daß die Skalierung der Häufigkeitsachse anders ist als in Abb. 3 - 10.
Nachdem bislang nur mit abstrakten Trefferzahlen argumentiert wurde, soll nun anhand geeigneter Substitutionsmuster gezeigt werden, inwieweit durch Variation des Substitutionsbegriffs unterschiedliche Trefferlisten erzielt werden. In Frage kommen dazu Verbindungen mit Substitutionsmustern, für die im allgemeinsten Falle hohe Trefferzahlen resultierten.
Suche nach geeigneten Ausgangsmaterialien für 2-Amino-2-methyl-bernsteinsäure-diamid (rechts unten) mittels substitutionsmuster-orientierter Transformationssuchen. Fünf Verbindungen findet man mit dem Kriterium Substitutionsmuster (-AR+A1+CCMB-BO-MU)" im Fluka-Katalog, nur vier Treffer (markiert mit ) mit Substitutionsmuster (-AR+A1-CCMB-BO-MU)".
Ähnlichkeitssuchen mit Isopentylchlorid. 21 Treffer resultieren mit dem Kriterium Substitutionsmuster (-AR+A1-CCMB-BO-MU)". Andere substitutionsmuster-orientierte Transformationssuchen führen zu reduzierten Trefferzahlen. (Erklärung der Markierungen im Text.)
Die verschiedenen Trefferzahlen verdeutlichen es: Von der allgemeinsten Definition eines Substitutionsmusters (17 Treffer) kann durch geeignete Wahl von Zusatzkriterien deutlich eingeschränkt werden (bis auf zwei Treffer). Zweifellos sind das meso-Inosit (13) und dessen Derivat (14) die zu 1,2,3,4,5,6-Hexachlor-cyclohexan ähnlichsten Verbindungen was ihr Substitutionsmuster betrifft.
15 von 173 Treffern, die im Janssen-Katalog für die Anfrageverbindung 1,2,3,4,5,6-Hexachlor-cyclohexan (12, unten rechts) mit der Transformation Substitutionsmuster (-AR+A1+CCMB-BO-MU)" ermittelt werden. Die Bedeutung der markierten Treffer ist im Text erläutert.
Substitutionsmuster-orientierte Ähnlichkeitssuchen mit 3-Amino-4-chlor-benzotrifluorid (17, unten rechts). Dargestellt sind 25 von 41 Treffern erzielt mit dem Kriterium Substitutionsmuster (-AR+A1±CCMB-BO-MU)".
Ein endständig funktionalisierter C4-Baustein mit gestreckter Kette.
o Das C1-Atom in Oxidationsstufe 3, d. h. funktionalisiert als Carbonsäure, Ester, Trihalogenverbindung, Nitril oder dgl.; sonst ohne Heterosubstituenten.
o Mehrfachbindungen auf dem C-Skelett sind erlaubt, etwa weil davon ausgegangen werden kann, daß sie selektiv reduziert werden könnten.
Diese Kriterien lassen sich einfach mit einer einzigen Transformationssuche erfüllen: Substitutionsmuster -AR±A1-CCMB+BO+MU". Man beachte, daß als Anfrage beliebige Repräsentanten der obigen Kriterien dienen können. Das Suchergebnis unterscheidet sich nicht, wenn mit Buttersäure (18), Ortho-Buttersäuremethylester (19) oder Crotonsäure-nitril (20) als Anfrage gearbeitet wird (siehe Abb. 3 - 16). Dagegen sind allein drei einzelne Substrukturen vonnöten, um überhaupt alle möglichen Varianten für eine endständige Oxidationsstufe 3 auf einem n-Butangerüst zu formulieren.5 Um auch CC-Mehrfachbindungen zu erlauben, müssen noch einmal je vier weitere Substrukturen spezifiziert werden. Allene werden dann immer noch nicht erfaßt.
Als Resultat erhält man 32 (Transformationssuche, siehe Abb. 3 - 16) bzw. 42 (Substruktursuchen, siehe Abb. 3 - 17) Treffer. Die 32 Treffer der Transformationssuche sind komplett Bestandteil des Ergebnisses der Substruktursuchen. Die zusätzlich gefundenen Treffer zeigt Abbildung 3 - 18. Die Ursache, warum diese Verbindungen mittels der Transformationssuche nicht gefunden werden, liegt an der Größe des substituierten Butyl-Derivats im Vergleich zu anderen Molekülfragmenten (siehe Abschnitt 3.3.2). Da für das Ergebnis einer Transformationssuche nur das größte resultierende Molekül relevant ist, scheiden sämtliche Verbindungen in Abbildung 3 - 18 aus. Ganz besonders überzeugend ist der Treffer Cholesterylbutyrat (21). Die Butyrat-Gruppe (die geforderte Substruktur) ist ein relativ bedeutungsloser Rest am Steroidgerüst. Richtigerweise werden solche Einträge bei den für die Syntheseplanung entwickelten Transformationssuchen ausgeschlossen. Liegt die Betonung bei einer solchen Suche jedoch darauf, tatsächlich alle Verbindungen aufzuspüren, die eine gegebene Substruktur enthalten, gleich in welchem molekularem Umfeld, dann ist die klassische Substruktursuche die Methode der Wahl.
Transformationssuche nach einer endständig funktionalisierten C4-Einheit mit Tolerierung von CC-Mehrfachbindungen (Substitutionsmuster -AR±A1-CCMB+BO+MU"). Als Anfrage kann jede der dargestellten Verbindungen direkt verwendet werden.
Klassische Substruktursuche mit der gleichen Aufgabe wie in Abb. 3 - 16. Hier müssen eine ganze Reihe von Substrukturen formuliert werden, um das entsprechende Ergebnis zu erzielen.
Neun6 von zehn Treffern, die mit Substruktursuchen zusätzlich gefunden werden. Die Substrukturen sind in den Katalogverbindungen fett markiert.7
Die Suche sollte zunächst mit einem möglichst allgemein definierten Substitutionsmuster durchgeführt werden. Werden sehr hohe Trefferzahlen erzielt, kann durch Variation des Substituentenbegriffs später eingeschränkt werden.
Ô Besitzt die Anfrage keine CC-Mehrfachbindungen und auch keine Heterosubstituenten in vicinaler Relation wird das allgemeinste Substitutionsmuster - und damit die größte mögliche Trefferzahl - mit -AR+A1-CCMB-BO-MU gefunden, andernfalls mit -AR+A1+CCMB -BO-MU.
Ô Die Menge der mit der Anfrage am ähnlichsten Verbindungen findet man meistens mit den Schaltern -AR+A1+CCMB+BO+MU.
Ô Eine bedeutende Verminderung der Trefferzahlen für aromatische Anfrageverbindungen läßt sich durch den Schalter -A1 erreichen.