3.3.4 Substitutionsmuster als selektivere Ähnlichkeitskriterien

Wie bereits im Abschnitt 3.3.2 (vgl. Abb. 3 - 4) erwähnt, ist das Substitutionsmuster eines Syntheseziels oder -bausteins ein bestens geeignetes Ähnlichkeitskriterium, um verwandte Ausgangsverbindungen aufzufinden. Jedoch muß man sich zunächst vergegenwärtigen, was unter dem Begriff Substitutionsmuster verstanden werden soll. Bindungen zwischen Skelett- und Heteroatomen werden zweifellos ein Substitutionsmuster bestimmen. Aber ein Skelettatom (C-Atom) kann ein oder mehrere Heterosubstituenten haben. Solche Heteroatome können über Einfach-, Doppel- oder Dreifachbindungen mit dem Skelett verbunden sein. Schließlich stellt sich die Frage, ob ein Heteroatom in einem aromatischen Heterocyclus einen Substituent für die benachbarten C-Atome darstellt oder es selbst besser als Skelettbestandteil betrachtet werden soll. Eine weitere Besonderheit sind (nichtaromatische) CC-Mehrfachbindungen. Diese könnten als funktionelle Gruppe (d. h. Substituentenäquivalent) oder ausschließlich als Skelettkomponente verstanden werden. Für diese Arbeit wird Substitutionsmuster daher wie folgt definiert:

Unter dem Substitutionsmuster einer Verbindung wird deren Skelett verstanden, auf dem die vorhandene chemische Funktionalität durch Markeratome1 generalisiert wurde.

Was im Einzelnen unter chemischer Funktionalität verstanden werden soll, kann stark variieren (siehe oben) und ist daher im WODCA System durch Schalter steuerbar. Diese Schalter faßt die folgende Tabelle zusammen.

Tab. 3 - 9 Möglichkeiten der Erweiterung oder Einschränkung chemischer Funktionalität, die mit einem Substitutionsmuster erfaßt werden soll.

Merkmal

zutreffend

nicht
zutreffend

Abkürzung

Heteroatome in aromatischen Systemen zählen als Substituenten

+AR

-AR

zu Aromaten -ständige Heteroatome zählen als Substituenten

+A1

-A1

(nichtaromatische) Mehrfachbindungen zwischen C-Atomen zählen als Substituenten

+CCMB

-CCMB

Bindungsordnungen zu Substituenten zählen

+BO

-BO

Mehrfachsubstitution zählt

+MU

-MU

Ähnlichkeitsbereich

zu erwartende Trefferzahl

zu erwartende Zahl der erforderlichen Reaktionen vom gefundenen Ausgangsmaterial zur Anfrageverbindung

Während die ersten drei Schalter (aromatische Heteroatome zählen als Substituenten oder nicht [AR], -Heteroatome werden generalisiert oder nicht [A1], CC-Mehrfachbindungen sind Substituenten [CCMB]) beeinflussen, wo Substituenten auf einem gegebenen Skelett zu finden sind, bewirken die letzten beiden Schalter nur wie vorhandene Substituenten im Substitutionsmuster erfaßt werden. Weiter oben in der Tabelle stehende Schalter haben dabei Auswirkungen auf weiter unten aufgeführte Bedingungen (siehe Übersicht 3 - 2). Auf diese Weise entsteht eine Hierarchie von Substitutionsmustern.

Die verschiedenen Schalter werden benutzt, um unterschiedliche Ähnlichkeitskriterien zu definieren, die alle auf das Substitutionsmuster abzielen. Diese Kriterien beschreibt Übersicht 3 - 2.

Übersicht 3 - 2 Ähnlichkeitskriterien basierend auf dem Substitutionsmuster von Verbindungen

(1) Substitutionsmuster -AR+A1-CCMB-BO-MU

Alle CX-Bindungen werden gebrochen, ausgenommen sind aromatische CX-Bindungen. An dem so extrahierten Skelett wird danach überall dort, wo ursprünglich mindestens ein Substituent (ganz gleich welcher Bindungsordnung) vorhanden war, ein Chloratom addiert. Nichtaromatische CC-Mehrfachbindungen werden zu Einfachbindungen reduziert. Noch freie Valenzen werden mit Wasserstoffen abgesättigt. Nur das größte Fragment bleibt erhalten.

(2) Substitutionsmuster -AR+A1+CCMB-BO-MU

Wie (1). Nichtaromatische CC-Mehrfachbindungen werden jedoch durch Addition je eines Chloratoms je Bindungsatom aufgelöst.

(3) Substitutionsmuster -AR+A1-CCMB-BO+MU

Wie (1), jedoch werden je Skelettatom so viele Chloratome addiert, wie ursprünglich Substituenten vorhanden waren.

(4) Substitutionsmuster -AR+A1+CCMB-BO+MU

Wie (2), nichtaromatische CC-Mehrfachbindungen werden durch Addition von Chloratomen (je eines pro Bindungsatom und Bindungsgrad über Eins) reduziert. An Skelettatomen werden so viele Chloratome addiert, wie ursprünglich Substituenten vorhanden waren.

(5) Substitutionsmuster -AR+A1-CCMB+BO+MU

Wie (3). Für mehrfach gebundene Substituenten werden jedoch eine dem Bindungsgrad entsprechende Anzahl Chloratome vermerkt.

(6) Substitutionsmuster -AR+A1+CCMB+BO+MU

Wie (5). Für mehrfach gebundene Substituenten werden jedoch eine dem Bindungsgrad entsprechende Anzahl Chloratome vermerkt.

(7) Substitutionsmuster -AR-A1-CCMB-BO-MU

Wie (1). Im Unterschied werden jedoch Bindungen von einem aromatischen Atom zu einem nichtaromatischen Heteroatom unverändert übernommen.

(8) Substitutionsmuster -AR-A1+CCMB-BO-MU

Wie (2). Im Unterschied werden jedoch Bindungen von einem aromatischen Atom zu einem nichtaromatischen Heteroatom unverändert übernommen.

(9) Substitutionsmuster -AR-A1-CCMB-BO+MU

Wie (3). Im Unterschied werden jedoch Bindungen von einem aromatischen Atom zu einem nichtaromatischen Heteroatom unverändert übernommen.

(10) Substitutionsmuster -AR-A1+CCMB-BO+MU

Wie (4). Im Unterschied werden jedoch Bindungen von einem aromatischen Atom zu einem nichtaromatischen Heteroatom unverändert übernommen.

(11) Substitutionsmuster -AR-A1-CCMB+BO+MU

Wie (5). Im Unterschied werden jedoch Bindungen von einem aromatischen Atom zu einem nichtaromatischen Heteroatom unverändert übernommen.

(12) Substitutionsmuster -AR-A1+CCMB+BO+MU

Wie (2). Im Unterschied werden jedoch Bindungen von einem aromatischen Atom zu einem nichtaromatischen Heteroatom unverändert übernommen.

Der untere Teil von Tabelle 3 - 9 veranschaulicht, wie es sich auf eine Ähnlichkeitssuche auswirkt, wenn ein Schalter benutzt (+) oder ignoriert (-) wird: Müssen mehr oder spezifischere Kriterien erfüllt werden, wird ein restriktiverer Ähnlichkeitsbereich definiert. Sind die Kriterien zwangloser, wird der Ähnlichkeitsbereich umfassender. Mit dem Ähnlichkeitsbereich parallel laufen die zu erwartenden Trefferzahlen bzw. die mögliche Zahl an Reaktionen, die eine gefundene Verbindung in die Anfrageverbindung umwandeln: großzügigerer Begriff von Ähnlichkeit höhere mögliche Trefferzahl möglicherweise höhere Zahl an Umsetzungen vom Ausgangsmaterial zur Anfrageverbindung.

Eine Anmerkung zu dem Merkmal Mehrfachbindungen zwischen C-Atomen (CCMB). In der Regel führen Substitutionstransformationen ohne Zählung der CC-Mehrfachbindungen als Substituenten (bei sonst gleichen Parametern) zu höheren Trefferzahlen. Das ist einleuchtend, wenn man beispielsweise ein langkettiges Alken sucht, das eine Doppelbindung in 1-Position und einen Heterosubstituenten in -Position besitzt. Ohne Beachtung der Doppelbindung wird man eine Reihe von einfach-endständig substituierten Alkanen finden können , mit Beachtung der Doppelbindung u. U. (das Substitutionsmuster entspricht dann einem 1,2,-substituierten Alkan) gar keine Verbindung. 6-Hydroxy-hex-1-en (3) als Beispiel (siehe Abb. 3 - 8) führt zu 39 Treffern ohne Dubletten im Fluka-Katalog ohne Beachtung von CC-Mehrfachbindungen. Gefordert wurde außerdem gleiche Bindungsordnung (+BO) und gleiche Anzahl an Substituenten (+MU) wie in der Anfrage. Mit Beachtung von CC-Mehrfachbindungen resultieren nur vier Treffer. Ist die Kettenlänge aber gering, wie beispielsweise im Allylchlorid (4), findet man mit Beachtung der Doppelbindung zusätzlich zu allylisch substituierten Verbindungen auch 1,2,3-substituierte Verbindungen wie Glycerin. Dadurch können mehr Treffer zustandekommen als ohne Beachtung der Doppelbindung. Mit Allylchlorid resultieren 81 Treffer mit, hingegen 89 Treffer ohne Beachtung von CC-Mehrfachbindungen.

-CCMB 1.Treffer   -CCMB 2.Treffer   -CCMB 3.Treffer   +CCMB 1.Treffer   +CCMB 2.Treffer   +CCMB 3.Treffer   

Abb. 3 - 8

Substitutionsmuster-orientierte Transformationssuchen (-AR+A1±CCMB+BO+MU) einmal mit (+CCMB) und einmal ohne (-CCMB) Beachtung von CC-Mehrfachbindungen. Im oberen Fall resultieren deutlich mehr Treffer ohne Beachtung von CC-Mehrfachbindungen. Mit Allylchlorid sind die Trefferzahlen praktisch gleichauf.


Schwerer abschätzbar ist die zu erwartende Zahl der Treffer bei Vergleich von zwei Substitutionstransformationen, bei denen mehr als ein Parameter variiert. In der Regel verhalten sich die Variationen additiv, d. h. wenn mit dem Schalter -AR weniger Treffer erwartet werden können, als mit +AR und mit -A1 weniger als mit +A1, dann können mit -AR-A1 weniger Treffer erwartet werden als mit allen anderen Kombinationen von AR und A1. Nicht vorhersagbar ist allerdings, ob mit -AR+A1 oder mit +AR-A1 mehr Treffer zu erwarten sind. Das hängt ausschließlich vom Datenmaterial in den durchsuchten Katalogen ab.

Für die Abschätzung der am meisten spezifisch suchenden bzw. der großzügigsten Substitutionstransformation folgt aus dem Vorangehenden, daß die Substitutionstransformation mit den Schaltern -AR-A1+CCMB+BO+MU das engste Ähnlichkeitskriterium umfaßt, die Schalter +AR+A1-CCMB-BO-MU das allgemeinste.2

Abb. 3 - 9

Hierarchie von Substitutionstransformationen: Additive Wirkung mehrerer Schalter, welche die Art des interessierenden Substitutionsmusters beeinflussen. Grau gezeichnete Verzweigungen deuten an, daß auch eine Einstellung in dieser Richtung möglich ist. Aus Platzgründen sind jedoch nur drei Kombinationen dargestellt.


Die mit den verschiedenen Substitutionsmustern erzielbaren Abstufungen bei Ähnlichkeitssuchen soll im Folgenden an einigen Beispielen verdeutlicht werden.

Zunächst sei daran erinnert, daß auf dem Substitutionsmuster basierende Ähnlichkeitssuchen deshalb von Interesse sind, weil nur skelett-basierte Transformationen u. U. zu große Trefferlisten ergeben (siehe Abschnitt 3.3.3, Seite 49f). Diese haben eine typische Größe von einigen Hundert bis einigen Duzend Treffern. Als Beispiel dienen die acyclischen Pentan- und Hexangerüste, für die alle möglichen Substitutionsmuster generiert wurden [96]. Für das Substitutionsmuster werden hier Bindungsordnungen zu Heteroatomen ignoriert, auch Mehrfachsubstitution wird nicht unterschieden. Das entspricht den Schaltern -AR±A1±CCMB-BO-MU des WODCA Systems. Bindungen zu -aromatischen Heteroatomen sind hier uninteressant. CC-Mehrfachbindungen wurden jedoch einmal beachtet und einmal ignoriert. Daraus ergeben sich leicht unterschiedliche Trefferlisten. Die folgende Abbildung veranschaulicht die Größenordnung der Trefferlisten für Ähnlichkeitssuchen mit allen möglichen substituierten Pentanen (46 Verbindungen) und deren Häufigkeit bezogen auf dieses allgemeinste Substitutionsmuster. Man erkennt, daß nur in sehr seltenen Fällen Trefferlisten zwischen 50 und 100 oder gar darüber auftreten. Allerdings gibt es auch Substitutionsmuster, die überhaupt nicht in Ausgangsmaterial-Katalogen enthalten sind. Das einzige Substitutionsmuster auf C5-Einheiten, das im Janssen-Katalog mit beiden Substitutionsmuster-Definitionen keinerlei Treffer ergibt, ist die Prototyp-Verbindung 2,4-Dichlor-2-methyl-butan. Im Falle des Fluka-Kataloges gilt entsprechendes für 1,3-Dichlor-2-methyl-butan und 1,1`,2,3-Tetrachlor-2-methyl-butan.

Abb. 3 - 10

Histogramm der ermittelten Treffer für Substitutionsmustersuchen mit allen möglichen Substitutionspositionen auf acyclischen C5-Skeletten. Bei bis zu zehn Substitutionsmustern werden keinerlei ähnliche Verbindungen gefunden (ganz links). Sehr selten (bei bis zu drei Substitutionsmustern) werden mehr als 50 oder gar 100 Treffer gefunden (rechte Spalten).


Die analoge Untersuchung für alle möglichen substituierten acyclischen Hexane (siehe Abb. 3 - 11): 156 verschiedene Substitutionsmuster gibt es hier. Deutlich wird, daß der Anteil an Substitutionsmustern, für die keinerlei Analogon im Katalog gefunden werden kann, stark angestiegen ist. Im Janssen-Katalog werden 77 Substitutionsmuster von keiner der beiden Substitutionsmuster-Definitionen gefunden, im Fluka-Katalog sind das immerhin 70. Hohe Trefferraten sind dementsprechend deutlich zurückgegangen.

Abb. 3 - 11

Histogramm der ermittelten Treffer für Substitutionsmustersuchen mit allen möglichen Substitutionspositionen auf acyclischen C6-Skeletten. Bei bis zu 102 und wenigstens 74 Substitutionsmustern (von 156 möglichen) werden keinerlei ähnliche Verbindungen gefunden (ganz links). Das bedeutet, daß praktisch die Hälfte der denkbaren Substitutionsmuster nicht als Ausgangsmaterial zur Verfügung steht. Extrem selten (je ein Substitutionsmuster) werden mehr als 50 oder gar 100 Treffer gefunden (rechte Spalten). Man beachte, daß die Skalierung der Häufigkeitsachse anders ist als in Abb. 3 - 10.


Fazit: Das Substitutionsmuster in seiner allgemeinsten Form ist das geeignete Mittel, um mit zu großzügigen (skelettbasierten) Ähnlichkeitskriterien ermittelte Trefferzahlen zu reduzieren. Manchmal ist die auf dem Substitutionsmuster basierende Ähnlichkeit bereits zu eng gefaßt, so daß keine verwandten Ausgangsmaterialien gefunden werden können. Im Rahmen einer Syntheseplanung wird man dann entweder auf die mit skeletalen Ähnlichkeiten gefundenen Katalogverbindungen zurückgreifen oder aber die Methoden aus Kapitel 4 anwenden.

Nachdem bislang nur mit abstrakten Trefferzahlen argumentiert wurde, soll nun anhand geeigneter Substitutionsmuster gezeigt werden, inwieweit durch Variation des Substitutionsbegriffs unterschiedliche Trefferlisten erzielt werden. In Frage kommen dazu Verbindungen mit Substitutionsmustern, für die im allgemeinsten Falle hohe Trefferzahlen resultierten.

Auf ein (oder mehrere) Beispielmolekül(e) werden alle auf dem Substitutionsmuster basierenden Transformationssuchen angewendet und in einem möglichst repräsentativen Katalog gesucht. Die so ermittelten Zahlen an Treffern dienen zur Ordnung der einzelnen Transformationssuchen nach ihrem Ähnlichkeitsbereich.

Als erstes Beispiel wird ein Aminosäurederivat gewählt: 2-Amino-2-methyl-bernsteinsäurediamid (5). Das C-Skelett ist eine i-Pentaneinheit, dreifach funktionalisiert. Eine Ähnlichkeitssuche im Fluka-Katalog basierend auf dem allgemeinen Substitutionsmuster unter Einschluß von Doppelbindungen (-AR+A1+CCMB-BO-MU) findet die in Abbildung 3 - 12 dargestellten fünf Treffer. (Zum Vergleich: 105 Katalogverbindungen entsprechen exakt diesem C-Skelett) Werden CC-Mehrfachbindungen nicht als Funktionalität gewertet (-AR+A1-CCMB-BO-MU), erzielt man nur vier Treffer: 3-Methyl-3-buten-1-ol (6) wird dann nicht gefunden. Zweifellos sind alle Katalogverbindungen in Abbildung 3 - 12 geeignete Ausgangsmaterialien für die gewählte Anfrageverbindung. Hervorzuheben ist das gefundene Oxetan-Derivat (7). Würde der Oxetan-Sauerstoff als Skelettatom betrachtet, wäre diese Verbindung nicht gefunden worden. Damit wird unterstrichen, daß die Definition des Substitutionsmusters ausgehend vom C-Skelett wesentlich für Anwendungen in der Syntheseplanung ist.

Abb. 3 - 12

Suche nach geeigneten Ausgangsmaterialien für 2-Amino-2-methyl-bernsteinsäure-diamid (rechts unten) mittels substitutionsmuster-orientierter Transformationssuchen. Fünf Verbindungen findet man mit dem Kriterium Substitutionsmuster (-AR+A1+CCMB-BO-MU)" im Fluka-Katalog, nur vier Treffer (markiert mit ) mit Substitutionsmuster (-AR+A1-CCMB-BO-MU)".


Als nächstes Beispiel dient ein häufiger zu findendes Substitutionsmuster: Isopentylchlorid (8). Wiederum wird im Fluka-Katalog zuerst mittels der allgemeineren Substitutionskriterien -AR+A1-CCMB-BO-MU bzw. -AR+A1+CCMB-BO-MU gesucht. Gefunden werden 21 (siehe Abb. 3 - 13) bzw. 14 Treffer (letztere markiert mit ). Will man diese Trefferzahlen einschränken, kann man zunächst fordern, daß die Zahl der Substituenten in Anfrage und Treffer übereinstimmen soll (+MU). Dann werden 15 (-AR+A1-CCMB-BO+MU ) bzw. zehn (-AR+A1+CCMB-BO+MU ) Treffer erzielt. Damit werden Carbonsäureanaloga ausgeschlossen. Schließlich kann auch verlangt werden, daß die Bindungsordnung von Substituenten dem der Anfrage entspricht (+BO). In diesem Fall reduzieren sich die Trefferzahlen auf 13 (-AR+A1-CCMB+BO+MU ) bzw. neun (-AR+A1+CCMB+BO+MU ). Jetzt werden auch Aldehydanaloga ausgeschlossen. Die Trefferreduktion ist deutlich: Aus 16.769 Katalogverbindungen haben 105 das gewünschte C-Skelett, 21 das entsprechende Substitutionsmuster im allgemeinsten Sinn und nur neun das Substitutionsmuster der Anfrageverbindung, bei dem sich die Oxidationsstufen exakt entsprechen. Ohne Frage kann das Isopentylbromid (9), -amin (10) oder der Isopentylalkohol (11) mittels einer Substitutionsreaktion in das gewünschte Chlorid überführt werden.

Abb. 3 - 13

Ähnlichkeitssuchen mit Isopentylchlorid. 21 Treffer resultieren mit dem Kriterium Substitutionsmuster (-AR+A1-CCMB-BO-MU)". Andere substitutionsmuster-orientierte Transformationssuchen führen zu reduzierten Trefferzahlen. (Erklärung der Markierungen im Text.)


Gesucht seien nun all jene Katalogverbindungen, deren größtes zusammenhängendes C-Skelett aus einer Cyclohexan-Einheit besteht, die an allen Skelettatomen mindestens einfach funktionalisiert ist. CC-Mehrfachbindungen sollen als Funktionalität betrachtet werden (-AR+A1+CCMB-BO-MU). Eine solche Suche liefert für den Janssen-Katalog 17 Treffer (siehe Abb. 3 - 14). Die dazu notwendige Anfragestruktur wäre beispielsweise 1,2,3,4,5,6-Hexachlor-cyclohexan (12). Wenn man CC-Mehrfachbindungen ausschließt (-AR+A1 -CCMB-BO-MU), bleiben nur noch zwölf Treffer (in Abb. 3 - 14 mit markiert). Wird verlangt, daß genauso viele Substituenten je Skelettatom in den Treffern vorhanden sind wie in der Anfrage, resultieren acht bzw. elf Treffer (-AR+A1+CCMB-BO+MU bzw. -AR+A1 -CCMB-BO+MU ), je nachdem ob man wiederum CC-Mehrfachbindungen als Funktionalität betrachtet oder nicht. Schließlich kann man auch noch fordern, daß mögliche Substituenten nur über Einfachbindungen - wie in der Anfrage - gebunden sind (-AR+A1 ±CCMB-BO+MU). Dann bleiben nur noch zwei Treffer (), auch bei Betrachtung von CC-Mehrfachbindungen als Substituenten. Es sei angemerkt, daß durchaus unterschiedliche Trefferzahlen im letzten Fall resultieren könnten: 3,5-Cyclohexadien-1,2-diol würde beispielsweise bei Ignorierung der Doppelbindungen nicht als Treffer erscheinen, im anderen Fall aber gefunden werden.

Die verschiedenen Trefferzahlen verdeutlichen es: Von der allgemeinsten Definition eines Substitutionsmusters (17 Treffer) kann durch geeignete Wahl von Zusatzkriterien deutlich eingeschränkt werden (bis auf zwei Treffer). Zweifellos sind das meso-Inosit (13) und dessen Derivat (14) die zu 1,2,3,4,5,6-Hexachlor-cyclohexan ähnlichsten Verbindungen was ihr Substitutionsmuster betrifft.

Abb. 3 - 14

15 von 173 Treffern, die im Janssen-Katalog für die Anfrageverbindung 1,2,3,4,5,6-Hexachlor-cyclohexan (12, unten rechts) mit der Transformation Substitutionsmuster (-AR+A1+CCMB-BO-MU)" ermittelt werden. Die Bedeutung der markierten Treffer ist im Text erläutert.


Als letztes Beispiel dient ein Benzoesäure-Derivat: 3-Amino-4-chlor-benzotri-fluorid (17). Dessen allgemeinstes Substitutionsmuster (-AR+A1±CCMB4-BO-MU) findet sich in 41 Verbindungen des Fluka-Kataloges. 25 davon sind in Abbildung 3 - 15 dargestellt. In diesem Fall führt die Forderung nach gleicher Anzahl an Substituenten je Skelettatom in Anfrage und Katalogverbindung ohne Beachtung von Mehrfachbindungen zu den Substituenten (-AR+A1±CCMB-BO+MU) zu einer drastischen Verminderung der Trefferzahl (vier, markiert in Abb. 3 - 13 mit ): Nur Verbindungen, die wie die Anfrage dreifach an der Methylseitenkette heterosubstituiert sind, werden gefunden. Werden aber CX-Mehrfachbindungen als Äquivalente für Mehrfachsubstitution beachtet (-AR+A1±CCMB+BO+MU), steigt die Trefferzahl wieder an (18, ). Dann sind auch Säure- oder Nitrilgruppen als Äquivalente zulässig. Eine wichtige Besonderheit bei Aromaten sind unmittelbar am Kern vorhandene Heterosubstituenten. Während bei acyclischen Skelettatomen ein Austausch von vorhandenen Heteroatomen durch andere oft problemlos möglich ist, gilt diese Regel für den Aromatenkern nicht. Zwar existieren auch hier Methoden zur Umfunktionalisierung (etwa die Umwandlung von Nitrogruppen in Phenole), jedoch erfordern solche Methoden meist recht drastische Bedingungen. Es ist daher wünschenswert, Ähnlichkeitssuchen basierend auf dem Substitutionsmuster so zu gestalten, daß Heterosubstituenten am Aromatenkern nicht wie andere Substituenten generalisiert werden. Diesem Zweck dient der Schalter A1. Ähnlichkeitssuchen mit dem Schalter -A1 fordern daher für 3-Amino-4-chlor-benzotrifluorid (17), daß mögliche Treffer neben einem Benzyl-Skelett in meta-Position einen Stickstoff- und in para-Position einen Chlor-Substituenten tragen. Damit (-AR-A1±CCMB-BO-MU) werden statt 41 (siehe oben) nur noch fünf Treffer erzielt ().

Abb. 3 - 15

Substitutionsmuster-orientierte Ähnlichkeitssuchen mit 3-Amino-4-chlor-benzotrifluorid (17, unten rechts). Dargestellt sind 25 von 41 Treffern erzielt mit dem Kriterium Substitutionsmuster (-AR+A1±CCMB-BO-MU)".


Es sei an dieser Stelle angemerkt, daß sich die hier dargelegten Ergebnisse auch mittels klassischer Substruktursuchen erzielen lassen. Es gibt jedoch Fälle, bei denen die gewünschte Spezifität der Transformationsregel entweder gar nicht oder nur durch mehrere Substruktursuchen erreicht wird. Ein Beispiel zeigen die folgenden Abbildungen. Gesucht werden sollen Verbindungen, die folgende Kriterien erfüllen:

o

o o Diese Kriterien lassen sich einfach mit einer einzigen Transformationssuche erfüllen: Substitutionsmuster -AR±A1-CCMB+BO+MU". Man beachte, daß als Anfrage beliebige Repräsentanten der obigen Kriterien dienen können. Das Suchergebnis unterscheidet sich nicht, wenn mit Buttersäure (18), Ortho-Buttersäuremethylester (19) oder Crotonsäure-nitril (20) als Anfrage gearbeitet wird (siehe Abb. 3 - 16). Dagegen sind allein drei einzelne Substrukturen vonnöten, um überhaupt alle möglichen Varianten für eine endständige Oxidationsstufe 3 auf einem n-Butangerüst zu formulieren.5 Um auch CC-Mehrfachbindungen zu erlauben, müssen noch einmal je vier weitere Substrukturen spezifiziert werden. Allene werden dann immer noch nicht erfaßt.

Als Resultat erhält man 32 (Transformationssuche, siehe Abb. 3 - 16) bzw. 42 (Substruktursuchen, siehe Abb. 3 - 17) Treffer. Die 32 Treffer der Transformationssuche sind komplett Bestandteil des Ergebnisses der Substruktursuchen. Die zusätzlich gefundenen Treffer zeigt Abbildung 3 - 18. Die Ursache, warum diese Verbindungen mittels der Transformationssuche nicht gefunden werden, liegt an der Größe des substituierten Butyl-Derivats im Vergleich zu anderen Molekülfragmenten (siehe Abschnitt 3.3.2). Da für das Ergebnis einer Transformationssuche nur das größte resultierende Molekül relevant ist, scheiden sämtliche Verbindungen in Abbildung 3 - 18 aus. Ganz besonders überzeugend ist der Treffer Cholesterylbutyrat (21). Die Butyrat-Gruppe (die geforderte Substruktur) ist ein relativ bedeutungsloser Rest am Steroidgerüst. Richtigerweise werden solche Einträge bei den für die Syntheseplanung entwickelten Transformationssuchen ausgeschlossen. Liegt die Betonung bei einer solchen Suche jedoch darauf, tatsächlich alle Verbindungen aufzuspüren, die eine gegebene Substruktur enthalten, gleich in welchem molekularem Umfeld, dann ist die klassische Substruktursuche die Methode der Wahl.

Abb. 3 - 16

Transformationssuche nach einer endständig funktionalisierten C4-Einheit mit Tolerierung von CC-Mehrfachbindungen (Substitutionsmuster -AR±A1-CCMB+BO+MU"). Als Anfrage kann jede der dargestellten Verbindungen direkt verwendet werden.


Abb. 3 - 17

Klassische Substruktursuche mit der gleichen Aufgabe wie in Abb. 3 - 16. Hier müssen eine ganze Reihe von Substrukturen formuliert werden, um das entsprechende Ergebnis zu erzielen.


Abb. 3 - 18

Neun6 von zehn Treffern, die mit Substruktursuchen zusätzlich gefunden werden. Die Substrukturen sind in den Katalogverbindungen fett markiert.7


Aus den gewonnenen Erfahrungen im Umgang mit substitutionsmuster-basierten Ähnlichkeitssuchen ergeben sich folgende Anwendungshinweise:

Ô

Ô Ô Ô



1
Als Markeratome werden von WODCA Chloratome verwendet.
2
Da derzeit keine Substitutionstransformation implementiert ist, die Heteroatome in Aromaten als Substituenten betrachtet (+AR), ist die allgemeinste verfügbare Substitutionstransformation -AR+A1-CCMB -BO-MU.
3
Die nicht dargestellten Treffer sind das Kalium-Salz der Rhodizonsäure (15) und das Brom-Analogon zu Tetrafluoro-p-Benzochinon (16).
4
Der Schalter für CC-Mehrfachbindungen spielt in diesem Beispiel keine Rolle. Das gilt aber nicht grundsätzlich für aromatische Verbindungen. Sind die Seitenketten am Aromatenkern nur lang genug und entsprechend funktionalisiert, spielt auch in diesen Fällen der Schalter CCMB eine Rolle.
5
Man könnte einwenden, daß mit freien Valenzen gearbeitet werden könnte. Ein solches Vorgehen würde aber dazu führen, daß neben den gewünschten Verbindungen auch andere C-Skelette als Treffer gefunden werden.
6
N(6),2'-O-Dibutyryl-adenosin-3',5'-cyclophosphat Natriumsalz Monohydrat (22, Fluka 34988) ist noch ein weiteres Mal im Katalog enthalten (Fluka 34990).
7
In manchen Katalogverbindungen findet sich die Substruktur mehrfach. Auf deren Kennzeichnung wurde verzichtet.