PREV
NEXT

Kapitel 7
Anwendungsbeispiele
Während in den beiden vorausgegangenen Kapiteln die theoretischen Grundlagen sowie die im Rahmen dieser Arbeit entwickelten Ansätze und Applikationen des visuellen Data Minings vorgestellt wurden, sollen im Folgenden die Möglichkeiten des visuellen Data Mining im Allgemeinen als auch die Fähigkeiten der InfVis-Applikation im Speziellen anhand ausgewählter chemischer Datensätze und Fragestellungen beschrieben werden.
Der erste Teil des Kapitels basiert auf der neuartigen Datenbank chemischer Reaktionen der Firma ChemCodes [239]. Dabei wird zunächst auf die Charakteristika der Datenbank sowie auf die Unterschiede zu anderen aktuellen Reaktionsdatenbanken eingegangen. Anhand ausgewählter Datensätze wird anschließend der visuelle Data Mining-Prozess an zwei Anwendungsbeispielen erläutert.
Grundlage für das Anwendungsbeispiele des zweiten Kapitelteils ist die bereits erwähnte Antitumor-Screening-Datenbank des amerikanischen Krebsforschungszentrums [202]. Nach einer kurzen Einführung wird der Einsatz des InfVis-Programms zur visuellen Exploration von Struktur-Aktivitäts-Beziehungen demonstriert.
7.1 ChemCodes-Reaktionsdatenbank
7.1.1 Zielsetzung und Aufbau der Datenbank
Während chemische Verbindungen und Strukturdaten bereits sehr früh in computergestützen Datenbanken archiviert wurden, begann man erst relativ spät mit der elektronischen Speicherung publizierter Reaktionsdaten. Um einen möglichst effektiven Zugriff auf die bis dahin bereits zahlreich vorhandenen Reaktionsdaten zu ermöglichen, wurden sogenannte Reaktionsdatenbanken aufgebaut, die eine elektronische Recherche der Information erlaubten. Zu den bekanntesten Vertretern zählen dabei die ChemInform RX-Datenbank des FIZ Chemie [240] sowie die CrossFireplusReactions-Datenbank von Beilstein Information Systems [241].
Obwohl Reaktionsdatenbanken heute standardmäßig in zahlreichen Anwendungsgebieten wie beispielsweise der Syntheseplanung oder der Reaktionsvorhersage eingesetzt werden, müssen diese Informationsreserrvoire sehr kritisch und mit Vorsicht betrachtet werden. Eines der größten Probleme der in den Datenbanken enthaltenen Information liegt darin begründet, dass für eine Vielzahl der archivierten Reaktionen nicht alle Reaktionsbedingungen angegeben sind. Ein weiteres Problem stellt der Umstand dar, dass die betrachteten Reaktionen unter ganz unterschiedlichen Bedingungen durchgeführt wurden und somit ein Vergleich zwischen den einzelnen Datenwerten kaum möglich ist. Des Weiteren werden in der Regel Nebenreaktionen aber auch solche Reaktionen, die zu unerwünschten Ergebnissen führen, nicht dokumentiert. Diese Fehldaten bzw. Negativergebnisse sind jedoch für eine Mustererkennung oder zur Vorhersage neuer Reaktionsmodelle ebenso wichtig wie positive Reaktionsdaten. Ein weiteres Problem von Reaktionsdatenbanken stellt die unvollständig Funktionelle-Gruppen(FG)-Kompatibilitätsinformation der publizierten Reaktionsdaten dar. So kann mit Hilfe der Datenbankinformation in der Regel keine Aussage darüber getroffen werden, ob ein bestimmtes Eduktderivat, welches sich vom Originaledukt durch zusätzliche oder veränderte funktionelle Gruppen unterscheidet, in gleicher Weise reagiert oder ob eine Nebenreakion bevorzugt wird.
Stellt man die in aktuellen Reaktionsdatenbanken enthaltene Information in Form einer Funktionellen-Gruppen-Reaktivitäts-Matrix dar, so ergibt sich die in Abbildung 7-1a dargestellte Auftragung. Bei der Betrachtung der Matrix wird dabei deutlich, dass ein sinnvolles Data Mining aufgrund des hohen Anteils an Fehlinformation sowie der häufig unzuverlässigen Reaktionsdaten nur bedingt oder überhaupt nicht zu realisieren ist. Eine vernünftige Mustererkennung bzw. zuverlässige Reaktionsmodellvorhersage fordert daher eine möglichst umfassende Erschliessung des chemischen Reaktionsraums sowie eine hohe Konsistenz und Zuverlässigkeit der enthaltenen Reaktionsdaten (Abbildung 7-1b). Der Aufbau einer entsprechenden Reaktionsdatenbank ist ein Ziel der Firma ChemCodes. Um dieses Ziel zu erreichen, hat ChemCodes ein (an dieser Stelle nicht näher beschriebenes) Synthese- und Analyse-Verfahren entwickelt, welches eine High-Throughput-Vermessung von Reaktionen ermöglicht. Dabei sollen zahlreiche für chemische Problemstellungen wichtige funktionelle Gruppen bei unterschiedlichen Reaktionsbedingungen umgesetzt werden. Mit Hilfe einer aus diesen Ergebnissen generierten Reaktionsdatenbank können erstmals die Grenzen von Standardreaktionen aber auch die FG-Kompatibilität ermittelt werden. Darüber hinaus erlaubt der Datensatz die Generierung von Regeln sowie die Vorhersage chemischer Reaktionen.
Im Rahmen dieser Arbeit wurden zwei von der Firma ChemCodes zur Verfügung gestellte Datensätze aus dieser Reaktionsdatenbank mit Hilfe der InfVis-Applikation analysiert. Dabei stand zum einen die Optimierung einer ausgewählten Reaktion und zum anderen eine Reaktionsplanung im Vordergrund.
Abb. 7-1: Matrix-Darstellung der Funktionellen-Gruppen-Reaktivität in a) aktuellen Reaktionsdatenbanken und b) in einer idealen Reaktionsdatenbank (ChemCodes-Ansatz) [14].
7.1.2 Reaktionsoptimierung
7.1.2.1 Zielsetzung
Grundlage des ersten ChemCodes-Datensatz ist die gemischte Aldolkondensation von Benzaldehyd mit Acetophenon, die sogenannte Benzalacetophenon- bzw. Chalcon-Synthese (Abbildung 7-2).

Abb. 7-2: Gemischte Aldolkondensation von Benzaldehyd und Acetophenon.
Die Synthese wurde bereits 1891 erstmals durch Claisen und Claparede [242] sowie durch Schmidt [243] beschrieben und wird daher auch als Claisen-Schmidt-Kondensation bezeichnet. Bis heute wurden nach Angaben des Chemical Abstract Service (CAS) 50 verschiedene Chalcon-Synthesen sowie weitere 670 Synthesen von Chalconderivaten publiziert.
Neben den beiden Edukten - Benzaldehyd (125 mM) und Acetophenon (immobilisiert auf Trägerharz) - kamen in den Reaktionsansätzen von ChemCodes vier verschiedene Lösungsmittel, fünf Basen, zwei unterschiedliche Reaktionstemperaturen sowie zwei verschiedene Trägerharze zum Einsatz:
- 5 Basen (125 mM): LiOH, KOH, NaOMe, iPr2EtN, Keine Base
- 4 Lösungsmittel: MeOH, EtOH/H2O (4/1), DMSO, Dioxan
- 2 Temperaturen: 23 °C, 60 °C
- 2 Trägerharze: Polystyrol (PS), Tentagel (TG)
- 1 Zeit: 12 h
Durch Kombination dieser Reaktionsbedingungen konnten insgesamt achtzig Syntheseansätze realisiert werden, die jeweils nach zwölf Stunden Reaktionszeit abgestoppt und durch massenspektrometrische Verfahren analysiert wurden. Die einzelnen Reaktionsansätze wurden dabei nicht nur einmal sondern bis zu sechs mal druchgeführt und vermessen, um eine möglichst hohe Genauigkeit und Verlässlichkeit der experimentellen Daten zu gewährleisten. Von den sich so ergebenen 480 Reaktionen (80 Einzelreaktionen x 6 Durchläufe) wurden uns die Ergebnisse von 364 Einzelreaktionen in Form einer Excel-Tabelle zur Verfügung gestellt. Dieser eingeschränkte Datensatz enthielt im Gegensatz zum Originaldatensatz nur noch 63 der 80 möglichen Kombinationen.
7.1.2.2 Datenaufbereitung
Der Datensatz mit den 364 verbliebenen Einzelreaktionen enthielt neben den oben aufgeführten Reaktionsbedingungen auch einen ChemCodes-internen Zahlenwert, welcher zur Klassifizierung der Reaktionsergebnisse diente (Tabelle 7-1).
Tab. 7-1: ChemCodes-interne Reaktionskategorisierung.
Kategorie
Beschreibung
1
nur Produkt
2
Produkt + Edukt
4
nur Edukt
7
Meßfehler

Die einzelnen Paralleldurchläufe der 63 Reaktionsansätze sollten zunächst gruppiert und die entsprechenden Ausbeuten gemittelt werden. Dazu wurden die 364 Dateneinträge nochmals überarbeitet, wobei vor allem Ausreisserdaten (stark abweichende Ausbeutenwerte) und missglückte Reaktionsansätze (Tabelle 7-1, Kategorie 7) entfernt wurden. Da die im Datensatz angegebenen Ausbeutewerte lediglich Faktoren des ChemCodes-internen Analyseprogramms darstellen, mussten die gemittelten Werte im Anschluss auf eine 100 Prozentskala normiert werden, um allgemein übliche, prozentuale Reaktionsausbeuten zu erhalten. Die so aufbereiteten Daten wurden schließlich mit dem InfVis-Programm visuell analysiert.
7.1.2.3 Visuelles Data Mining
Nach dem Einlesen der Daten wurden die einzelnen Datendimensionen auf die graphischen Attribut-Eigenschaften des InfVis-Programms abgebildet. Dabei wurde die ChemCodes-Reaktionskategorie auf die x-Achse, die Lösungsmittel auf die y-Achse sowie die Trägerharze auf die z-Achse aufgetragen (Abbildung 7-3, links).

Abb. 7-3: InfVis-Programm; 364 Reaktionen aus der ChemCodes-Datenbank.
Abb. 7-4: Legende für die Abbildungen 7-3 bis 7-7.
Die Reaktionsausbeute wurde durch die Größe der graphischen Objekte und die Temperatur durch die Objektform repräsentiert (Abbildung 7-4). Die Objektfarbe diente ebenfalls zur Darstellung der Reaktionskategorie (Abbildung 7-4). Darüber hinaus wurde jeweils ein graphischer Filter in Form eines Schiebereglers für Basen, Temperatur und Trägerharze eingefügt (Abbildung 7-3, rechts).
Bei der visuellen Exploration des Datensatzes konnten zunächst zwei grundsätzliche Tendenzen festgestellt werden. So zeigten zum einen Reaktionen, die bei höheren Temperaturen (60 °C) durchgeführt wurden, deutlich niedrigere Ausbeuten als Ansätze bei Raumtemperatur (Abbildung 7-5a). Zum anderen konnte beobachtet werden, dass Reaktionen auf Polystyrolharz ebenfalls zu kleineren Ausbeuten bzw. zu höheren Nebenproduktanteilen (kleine Objektgrößen bzw. Ausbeuten in Kategorie 1) führten als die entsprechenden Reaktionen auf Tentagel-Trägerharz (Abbildung 7-5b).

Abb. 7-5: InfVis-Programm mit gefilterten Reaktionsdatensatz: a) Reaktionen bei 60 °C, b) Reaktionen auf Polystyrol-Harz (Farbabbildung: Anhang A, Abbildung A-15a, b).
Abb. 7-6: InfVis-Programm mit gefilterten Reaktionsdatensatz: a) Reaktionen mit Kaliumhydroxid bei 23 °C auf Tentagel, b) Reaktionen mit Lithiumhydroxid bei 23 °C auf Tentagel (Farbabbildung: Anhang A, Abbildung A-15c, d).
Mit Hilfe des Basenfilters wurde anschließend der Einfluss der diversen Basen sowie der Lösungsmitteleffekte genauer betrachtet. Dabei konnte eine Abnahme der Produktausbeuten für die Basenreihenfolge KOH > NaOMe > LiOH > kein Base > iPr2EtN beobachtet werden (Abbildung 7-6 und 7-7).
Die höchsten Aubeuten wurden im ChemCodes-Experiment mit Kaliumhydroxid in einem 4:1-Gemisch aus Ethanol und Wasser sowie mit reinem Ethanol als Lösungsmittel bei 23 °C und unter Verwendung von Tentagel erzielt (Abbildung 7-6). In DMSO waren die Ausbeuten aufgrund von Nebenreaktionen wesentlich geringer und in Dioxan wurde das Edukt schließlich nur noch in geringen Maße umgesetzt (Abbildung 7-6a, grüne Kugel).
Der Einsatz von Lithiumhydroxid in Ethanol/Wasser zeigte im Gegensatz zu Kaliumhydroxid eine deutliche Zunahme der Nebenprodukte während die Reaktion in reinem Ethanol zu unvermindert hohen Ausbeuten führte. Der Einsatz von Dioxan und DMSO zeigte hingegen keine nennenswerte Umsetzung der Edukte (Abbildung 7-6b). Im Gegensatz zu mit Kaliumhydroxid aktivierten Reaktionen konnten mit Lithiumhydroxid in Ethanol auch noch bei hohen Reaktionstemperaturen moderate Ausbeuten erzielt werden.
Bei der Verwendung von Natriummethanolat konnten insbesondere in Ethanol/Wasser sowie in DMSO hohe Ausbeuten erzielt werden. Entsprechende Reaktionen in Ethanol und Dioxan führten allerdings zu geringeren Umsätzen sowie einer höheren Nebenproduktrate (Abbildung 7-7a). Während diese Beobachtungen auf Ansätzen mit Tentagel beruhten, zeigten die analogen Ansätze auf Polystyrol nur geringe Ausbeuten.
Abb. 7-7: InfVis-Programm mit gefilterten Reaktionsdatensatz: a) Reaktionen mit Natriummethanolat bei
23 °C auf Tentagel, b) Reaktionen ohne Zugabe von Basen bei 23 °C auf Tentagel (Farbabbildung: Anhang A, Abbildung A-15e, f).
Chalcon-Synthesen ohne Zugabe von Basen führten lediglich in DMSO bei 23 °C auf Polystyrol zu einer Produktbildung (Abbildung 7-7b). Die Ansätze mit Diisopropylethylamin wurden nicht näher betrachtet, da die entsprechenden Ansätze extrem fehlerbehaftet waren und große Unterschiede in den Ausbeuten zeigten. Die genaue Ursache hierfür ist uns nicht bekannt.
7.1.2.4 Diskussion
ChemCodes nutzt zur Analyse und Auswertung der generierten Datensätze eine Vielzahl sowohl externer Programme als auch eigene computergestützte Analysemethoden. Dennoch gestaltet sich die Auswertung dieser Datensätze aufgrund der Datenmenge, aber vor allem auch aufgrund des multidimensionalen Charakters der Daten oft umständlich und schwierig. So wurde in der Vergangenheit der oben beschriebene Datensatz mit Hilfe von zweidimensionalen Scatterplot-Darstellungen visualisiert und analysiert. Um eine gleichzeitige Darstellung aller sechs Dimensionen (Lösungsmittel, Base, Temperatur. Trägerharz, Ausbeute und Reaktionskategorie) zu ermöglichen, war ein paralleles Abbilden mehrerer Datendimensionen auf den x- und y-Achsen notwendig (z. B. Lösungsmittel und Reaktionskategorie auf der x-Achse), was zu unübersichtlichen Darstellungen führte und letztendlich die visuelle Identifikation der gewünschten Ergebnisse erschwerte (Abbildung 7-8).
Abb. 7-8: Spreadsheet-Darstellung (Spotfire [214]) mit ChemCodes-Datensatz [14].
Im Gegensatz zu solchen Standardvisualisierungsansätzen ist die Darstellung und Analyse multidimensionaler und multivariater Datensätze im InfVis-Programm problemlos zu realisieren. So können mit Hilfe der drei Raumdimensionen als auch durch die diversen Objekteigenschaften zahlreiche Dimensionen gleichzeitig dargestellt werden, ohne dabei den Benutzer visuell zu überfordern. Der Einsatz aller zur Verfügung stehenden retinalen Eigenschaften ist dabei nicht immer zwingend erforderlich und kann in einigen Fällen sogar unzweckmäßig sein. So werden beispielsweise im obigen Ansatz nicht alle graphischen Eigenschaften genutzt, um jeweils eine Datendimension abzubilden. Vielmehr dient sowohl die Objektfarbe als auch die x-Achsenauftragung zur Vermittlung der Reaktionskategorie, während die unterschiedlichen Basen nicht durch ein eigenes graphisches Attribut symbolisiert werden. Eine solche Entscheidung kann in einigen Fällen zu einer übersichtlicheren Darstellung der Datenpunkte führen. Obwohl die Baseninformation auf diese Weise nicht direkt dargestellt werden kann, steht mit Hilfe der Dynamic Query-Filter-Technologie ein geeignetes, alternatives Werkzeug zur Verfügung, das eine Darstellung der Baseneinflüsse in der graphischen Szene erlaubt. Dabei führen die vom Benutzer vorgenommenen Änderungen der Filtereinstellungen zu einer unmittelbaren Aktualisierung der dargestellten Datenpunkte. Auf diese Weise können auch mehr als die durch die sechs graphischen Eigenschaften darstellbaren Datendimensionen visualisiert werden. Die Dynamic Query-Filter eignen sich nicht nur zur Analyse von multidimensionalen Datensätzen, sondern erlauben auch eine schnelle Exploration großer Datenmengen. So reichte im oben geschilderten Fall lediglich ein Mausklick auf dem Temperatur- bzw. Trägerharz-Filter aus, um die allgemeine Ausbeutenabnahme bei höheren Temperaturen bzw. bei Verwendung von Polystyrol-Harz zu erkennen. Komplizierte Fragestellungen, wie beispielsweise die Suche nach Reaktionsausbeuten unter Verwendung von Kaliumhydroxid bei 23 °C auf Tentagelharz sind einfach durch Kombination der entsprechenden Filter möglich. Der oben geschilderte visuelle Data Mining-Prozess der 364 Einzelreaktionen benötigte daher lediglich ein paar Minuten.
Obwohl das Anwendungsbeispiel in erster Linie zur Darstellung der InfVis-Fähigkeiten diente, sollen im Folgenden auch kurz die Ergebnisse des Data Mining-Prozesses diskutiert werden. Der verwendete Datensatz zählte zu den ersten experimentellen Studien der Firma ChemCodes und diente vor allem zur Evaluierung und Feinabstimmung des experimentellen Workflows. Dies zeigt sich vor allem anhand der stark abweichenden Ergebnisse zwischen Tentagel- und Polystyrol-basierten Reaktionen, was auf damalige, grundsätzliche Probleme bei den Reaktionen auf Polystyrol-Trägerharzen schließen lässt. Darüber hinaus konnten zum damaligen Zeitpunkt auch einige Reaktionen mit bestimmten Basen wie beispielsweise Diisopropylethylamin nicht in der gewünschten Form umgesetzt werden. Trotz dieser Probleme, die heute zum größten Teil behoben sind, zeigt die visuelle Exploration des Datensatzes, dass der Großteil der durchgeführten Reaktionen den veröffentlichten Daten entspricht bzw. allgemein gültigen, chemischen Tendenzen wie den Lösungsmitteleffekten folgt. So lassen sich beispielsweise die nicht bzw. nur in geringen Ausbeuten beobachteten Reaktionen in Dioxan durch den unpolaren Charakter des Lösungsmittels erklären. Dieser führt zum einen zu einer schlechteren Löslichkeit der ionischen Basen und verhindert zum anderen die Stabilisierung der ionischen Zwischenstufe. Die im Vergleich mit Ethanol bzw. Ethanol/Wasser schlechteren Ausbeuten von Reaktionen in Dimethylsulfoxid können auf die starke Solvatation der Metall-atome durch Dimethylsulfoxid zurückgeführt werden. Die Solvatation erschwert dabei die Bildung des cyclischen Übergangszustands, der sich aus dem Carbonyl- und dem Enolat-Sauerstoffatom sowie aus dem als Lewis-Säure fungierenden Kation zusammensetzt [244].
7.1.3 Reaktionsplanung
7.1.3.1 Zielsetzung
Neben der umfassenden Analyse spezifischer Reaktionsklassen erlaubt die ChemCodes-Reaktionsdatenbank nach ihrer Fertigstellung ebenfalls die Lösung des Funktionelle-Gruppen-Kompatibilitätsproblems. Das Wissen über die Funktionelle-Gruppen-Kompatibilität (FG-Kompatibilität) erlaubt eine hochselektive Reaktionsplanung. So kann der Synthesechemiker bei Vorlage eines Eduktes bzw. einer Vorstufe mit mehreren, reaktiven funktionellen Gruppen genau die Reaktionsbedingungen aus der Datenbank abfragen, die lediglich zu einer Umsetzung der gewünschten funktionellen Gruppe führen, während die anderen funktionellen Gruppen nicht beeinflusst werden. Auf diese Weise kann die Reaktion in einem einstufigen Prozess durchgeführt werden und der aufwendige, mehrstufige Einsatz von Schutzgruppen entfällt.
Da diese Information erst in einigen Jahren zur Verfügung stehen wird, wurde von ChemCodes ein prototypischer Datensatz generiert, der das Potential eines solchen Ansatzes verdeutlichen soll. Im vorliegenden Datensatz wurden dazu die 48 wichtigsten funktionellen Gruppen mit 37 gängigen Reagenzien und 6 sogenannten Quenchern in 11 Lösungsmitteln bei 25 °C umgesetzt. Die Reagenzien dienen dabei zur Aktivierung des reaktiven Zentrums bzw. der funktionellen Gruppe, wobei die Reagenzienpalette so zusammengestellt wurde, dass eine abgestufte Aktivierung beispielsweise durch unterschiedliche Säurestärken gewährleistet ist. Auf diese Weise lassen sich Aussagen darüber treffen, wann eine bestimmte funktionelle Gruppe noch aktiviert wird und wann nicht mehr.
Die aktivierten Gruppen werden schließlich durch die Quencher - prototypische, hochreaktive Gegenreagenzien (elektrophil, nucleophil, etc.) - abgefangen und auf diese Weise detektiert.
Die 126.115 Einzelreaktionen umfassende Datenbank wurde im vorliegenden Fall dazu verwendet, um solche Reaktionsbedingungen zu identifizieren, die für eine beliebige Aminobenzaldehyd-Verbindung nur zu einer Reaktion der enthaltenen Aminogruppe und nicht der Aldehydgruppe oder des aromatischen Systems führten (Abbildung 7-9). Die Reaktionsbedingungen sollten darüber hinaus jedoch mild genug sein, um nur die Bildung eines einzelnen Hauptproduktes und keiner Nebenprodukte zu bewirken.
Abb. 7-9: Aminobenzaldehyd. Nur die markierte Aminogruppe soll umgesetzt werden.
7.1.3.2 Datenaufbereitung
Die experimentellen Daten der zahlreichen Einzelreaktionen wurden zunächst in Form einer MySQL-Datenbank gespeichert. In einem zweiten Schritt wurden anschließend mit Hilfe eines SQL-Befehls alle Reaktionsansätze gesucht, in denen die Aldehydgruppe, der Phenylring oder auch die Aminogruppe umgesetzt wurden. Dieser 7.326 Einzelreaktionen umfassende Datensatz wurde schließlich in die InfVis-Applikation eingelesen und visuell ausgewertet.
7.1.3.3 Visuelles Data Mining
Zur visuellen Analyse des Datensatzes wurden die Produktanzahl auf die x-Achse, die Lösungsmittel auf die y-Achse und die drei funktionellen Gruppen auf die z-Achse des Koordinatensystems aufgetragen. Während die Objektform ebenfalls die Anzahl der Produkte und die Objektfarbe die jeweilige funktionelle Gruppe symbolisierte, wurde die Objektgröße nicht zum Abbilden einer Datendimension genutzt (Abbildung 7-10). Vielmehr wurden alle Datenpunkte durch graphische Objekte mit einer definierten Standardgröße dargestellt (Abbildung 7-11).
Neben den einzelnen graphischen Attributen kamen des Weiteren zwei dynamische Filter zum Einsatz - zum einen ein Filter für die Reagenzien, der durch einen Schieberegler gesteuert wird, sowie ein Checkbox-basiertes Filterwerkzeug für die unterschiedlichen Quencher.

Abb. 7-10: Legende zur Abbildung 7-11.

Abb. 7-11: InfVis-Applikation mit gefilterten Reaktionsdatensatz: Reaktionen mit 1,3-Diisopropylcarbodi-amid und 1-Phenyl-2-thioharnstoff in verschiedenen Lösungsmitteln. Alleinige Umsetzung der Aminogruppe nur in Toluol und N,N-Dimethylformamid (Farbabbildung: Anhang A, Abb. A-16).
Mit Hilfe der Filterfunktionen wurden im Folgenden alle Reagenzien-Quencher-Kombinationen dargestellt und in den resultierenden 3D-Szenen nach solchen Lösungsmitteln gesucht, in denen das gewünschte Produktverhältnis (Aminogruppe = 1 Produkt sowie Aldehyd und Phenylring = kein Produkt) zwischen den drei funktionellen Gruppen vorlag. Abbildung 7-11 zeigt eine solche Kombination. Dabei können für 1,3-Diisopropylcarboamid als Reagenz und 1-Phenyl-2-thioharnstoff als Quencher zwei Lösungsmittel (Toluol und N,N-Dimethylformamid) identifiziert werden, in denen nur die Aminogruppe reagiert während der Phenylring und die Aldehydgruppe unbeeinflusst bleiben.
Insgesamt konnten auf diese Weise 23 Reaktionen bzw. Reaktionsbedingungen für die Aminogruppe identifiziert werden (Tabelle 7-2). Zwei entsprechende, visuelle Data Mining-Ansätze für die Aldehyd- bzw. Phenylgruppe führten zur Identifikation von 17 bzw. 104 geeigneten Reaktionsbedingungen.

Tab. 7-2: Reaktionsbedingungen die nur zur Umsetzung der Aminogruppe (Abbildung 7-9) führten.
Lösungsmittel
Reagenz
Quencher
Wasser
Kein Reagenz
Trifluormethansulfonylchlorid
Methanol
1,3-Diisopropylcarbodiimid
Kein Quencher
N,N-Dimethylformamid
1,3-Diisopropylcarbodiimid
1-Phenyl-2-thioharnstoff
Toluol
1,3-Diisopropylcarbodiimid
1-Phenyl-2-thioharnstoff
Wasser
Essigsäure
Phenylisocyanat
N,N-Dimethylformamid
Ammoniak, 2.0 M in Ethanol
1-Phenyl-2-thioharnstoff
Pyridin
Ammoniak, 2.0 M in Ethanol
1-Phenyl-2-thioharnstoff
N,N-Dimethylformamid
Ammoniak, 2.0 M in Ethanol
Trifluormethansulfonylchlorid
Tetrahydrofuran
Ammoniumchlorid
Kein Quencher
Essigsäure
Bortrifluoriddiethyletherate
Butylamin
Acetonitril
Chlortrimethylsilan
Kein Quencher
Methanol
Diisobutylaluminiumhydrid
1-Phenyl-2-thioharnstoff
Acetonitril
Wasserstoffperoxid,
50% in H2O
Butylamin
Essigsäure
Methansulfonylchlorid
1-Phenyl-2-thioharnstoff
N,N-Dimethylformamid
Methanol
Styrol
N,N-Dimethylformamid
Kaliumhydroxid, 35 % in Öl
Trifluormethansulfonylchlorid
Methanol
Kaliumhydroxid
Styrol
Acetonitril
Kaliummethanolat
Trifluormethansulfonylchlorid
N,N-Dimethylformamid
Natriumazid
Trifluormethansulfonylchlorid
Acetonitril
Tetrabutylammoniumfluorid-hydrate
Styrol
Tetrahydrofuran
Thionylchlorid
1-Phenyl-2-thioharnstoff
Pyridin
Triethylamin
Trifluormethansulfonylchlorid
Essigsäure
Wasser
Trifluormethansulfonylchlorid

7.1.3.4 Diskussion
Für die Auswertung des Experiments wurde bis dato ein Online-Dienst eingesetzt, der in Zusammenarbeit zwischen der Firma ChemCodes und dem Computer-Chemie-Centrum entwickelt wurde. Die Datenbankausgaben wurden dabei in Form einer farblich gestalteten Tabellendarstellung repräsentiert und konnten je nach Anzahl der eingesetzten funktionellen Gruppen sowie der Auswahl der diversen Reaktionsbedingungen einige zehn bis hundert Seiten umfassen. Trotz der farblichen Bewertung der Ergebnisse war eine Analyse großer Datensätze wie beispielsweise des oben aufgeführten, 7.326 Datenpunkte umfassenden Datensatzes extrem schwierig.
Im Gegensatz zur tabellarischen HTML-Darstellung konnten im InfVis-Programm alle 7.326 Reaktionsansätze kompakt und übersichtlich im dreidimensionalen Koordinatensystem dargestellt werden. Beim Mapping der unterschiedlichen Datendimensionen auf die graphischen Eigenschaften wurden wie auch beim Reaktionsdatensatz aus Abschnitt 7.1.2 nicht alle in InfVis implementierten graphischen Dimensionen bzw. Eigenschaften verwendet. Tatsächlich wurden lediglich drei der fünf Datendimensionen durch graphische Attribute repräsentiert. Da keine Datendimension mit typischen "Größenwerten" wie beispielsweise Ausbeuten oder Meßwerten existierte, wurde auf eine Nutzung der Objektgröße als retinale Eigenschaft verzichtet. Auf diese Weise blieb die Szene übersichtlich und auf das Wesentliche nämlich das Vorliegen oder Fehlen von Datenpunkten beschränkt. Dieses Beispiel zeigt auf anschauliche Weise, dass der Abbildungsvorgang stark vom Datensatz und der mit ihm verbundenen Fragestellung abhängt. Natürlich spielen dabei auch persönliche Vorlieben des Benutzers eine entscheidende Rolle. So könnte ein anderer Anwender eine andere Auftragung der Daten bevorzugen.
Das ChemCodes-Experiment basierte lediglich auf Einzelreaktionen der eingesetzten funktionellen Gruppen, so dass die in Tabelle 7-2 aufgelisteten Reaktionsbedingungen nur mit Vorsicht zu betrachten sind. Induktive oder elektronische Effekte zwischen den einzelnen funktionellen Gruppen oder zwischen den funktionellen Gruppen und dem aromatischen Ringsystem konnten durch den experimentellen Ansatz nicht berücksichtigt werden. Aus diesem Grund wurde auch die Stellung (ortho, meta, para) der funktionellen Gruppen zueinander nicht berücksichtigt. Obwohl die chemische Reaktivität der funktionellen Gruppen nur unzureichend und stark verallgemeinert repräsentiert wird, zeigt der Datensatz sowie dessen visuelle Analyse das eigentliche Potential der ChemCodes-Reaktionsdatenbank. Nach der Fertigstellung der Datenbank werden auch aufwendige Fragestellungen sowie komplexe Wechselwirkungen zwischen den funktionellen Gruppen berücksichtigt werden können.
7.2 NCI Antitumor-Screening-Datenbank
7.2.1 Zielsetzung und Aufbau der Datenbank
Die Bekämpfung von Krebs zählt zu den größten Anliegen der modernen Medizin. Ein Ansatz zur Identifikation neuer Wirkstoffe war und ist dabei das sogenannte Screening von Naturstoffen und synthetischen Verbindungen, bei dem die biologische Aktivität der entsprechenden Verbindung gegen bestimmte Krebszelllinien ermittelt wird. Vor 1985 wurde der Screeningprozess an Mäusen durchgeführt, welche die Leukämie-P388-Zelllinie trugen. Ein Hauptproblem dieses Ansatzes war jedoch die Unsicherheit, ob die gefundenen potentiellen Wirkstoffe auch gegen menschliche Krebsarten wirkten.
Zwischen 1985 und 1990 wurde deshalb am amerikanischen Krebsforschungsinstitut ein alternativer Screeningansatz zum üblichen in vivo Experiment entwickelt - der NCI in vitro Anticancer Drug Discovery Screen [203, 204]. Dieses im April 1990 von Drug Therapeutics Program [202] fertiggestellte in vitro Experiment umfasste dabei verschiedene menschliche Krebszelllinien, die sowohl eine repräsentative Auswahl der wichtigsten Krebsarten wie Brust-, Lungen-, Eierstock-, Prostata-, Augen- und Darmkrebs, Leukämie, Melanome und Krebsarten des Zentralen Nervensystems als auch der diversen biochemischen Wirkungsmechanismen darstellte. Nach einer dreijährigen Erprobungsphase wurden weitere acht Brustkrebsarten sowie zwei Prostatakrebszelllinien in den Screeningtest integriert. Um weiterhin eine konstante Gesamtzahl von 60 Zelllinien zu gewährleisten, wurden im Gegenzug zehn Krebszelllinien entfernt, die entweder redundant oder technisch schwierig zu handhaben waren. Eine Übersicht der aktuellen Krebszelllinien kann Anhang C entnommen werden. Seit seiner Einführung wurden über 80.000 chemische Verbindungen analysiert, von denen 41.000 öffentlich zugänglich sind (Stand: April 2002).
Die Ermittlung der drei bereits in Kapitel 6 (vgl. Abschnitt 6.1.2) beschriebenen biologischen Aktivitäten (GI50, TGI, LC50) für alle 60 Krebszelllinien erlaubt die Generierung eines eindeutigen, hochspezifischen Wirkungsvektors, der daher auch als Fingerabdruck (engl. Fingerprint) bezeichnet wird. Diese für eine bestimmte Verbindung charakteristischen Fingerprints spiegeln das Wirkungsverhalten einer Substanz wider und werden unter anderen in quantitativen Struktur-Aktivitäts-Beziehungs-Studien (engl.: quantitative structure activity relations, QSAR) eingesetzt. Grundlage solcher Untersuchungen ist die Annahme, dass strukturell ähnliche Verbindungen über ähnliche molekulare Eigenschaften verfügen und somit auch ähnliche biologische Effekte hervorrufen können [245]. Zahlreiche QSAR- und Data Mining-Studien wurden in den letzten Jahren mit den Daten der NCI-Datenbank durchgeführt und führten unter anderen zur Identifikation neuer Wirkstoffverbindungen in bereits definierten Klassen mit bekannten biochemischen Mechanismen. Darüber hinaus konnten durch diese Studien aber auch neue mechanistische Klassen identifiziert werden.
7.2.2 QSAR-Studien mit Platin-Verbindungen
7.2.2.1 Zielsetzung
Wie bereits im vorausgegangenen Abschnitt erläutert wurde, können strukturell ähnliche Verbindungen ein ähnliches Wirkungsmuster aufweisen. Trotz dieser allgemein gültigen Struktur-Wirkungs-Beziehung wurden auch Verbindungsklassen identifiziert, die trotz eines ähnlichen bzw. identischen Aktivitätsmechanismus (engl.: mechanism of action, MOA) sich aus strukturell diversen Verbindungen zusammensetzen. Analog dazu wurden ebenfalls strukturell ähnliche Verbindungen klassifiziert, die unterschiedliche Wirkungsmuster aufweisen.
Die unterschiedlichen Ausprägungen von Struktur-Aktivitätsbeziehungen sollen anhand der in der NCI-Datenbank enthaltenen Platin-Verbindungen veranschaulicht werden. Ähnliche Wirkungsmuster sollen dabei mit Hilfe des InfVis-Programms identifiziert und zu eigenständigen Teildatensätzen zusammengefasst werden. Die gefundenen Aktivitätscluster sollen schließlich unter Berücksichtigung der zweidimensionalen Strukturinformation interpretiert werden. Die Klasse der Platinverbindungen wurden gewählt, weil die NCI-Datenbank sowohl hochwirksame Platin-Cancerostatika als auch biologisch inaktive Platinverbindungen enthält.
7.2.2.2 Datenaufbereitung
Grundlage für die visuelle Analyse und Clusterung der Platinverbindungen waren die zwei im vorangegangenen Kapitel erwähnten NCI-Datenbanken (CACTVS-basierte und MySQL-basierte NCI-Datenbank). In einem ersten Schritt wurden von den 1381 in der NCI-Datenbank enthaltenen Platinverbindungen solche Strukturen isoliert, zu denen auch biologische Aktivitätsdaten in der MySQL-Datenbank vorlagen. Da nicht für alle resultierenden 346 Verbindungen alle drei Aktivitätswerte (GI50, LC50 und TGI) vorhanden waren, wurde der Datensatz erneut auf die Verbindungen eingegrenzt, die sowohl über GI50-, LC50- und TGI-Werte verfügten.
Zu den 150 verbliebenen Strukturen wurden in einem zweiten Schritt die zugehörigen biologischen Aktivitätsdaten für alle 60 Krebszelllinien aus der MySQL-Datenbank entnommen. Der auf diese Weise erhaltene Datensatz wurde im Anschluss von allen Aktivitätsdaten bzw. Verbindungen befreit, die nicht bei der Standardkonzentration (0.001 mol/l) vermessen wurden. Durch diese Vorgehensweise war ein problemloser Vergleich aller Aktivitätsdaten sichergestellt. Da für die vergleichende Betrachtung der Aktivitätsdaten vor allem der wachstumshemmende Effekt von Bedeutung ist, wurden die entsprechenden GI50-Werte aus dem Datensatz extrahiert. Diese Werte wurden jedoch nicht direkt bei der visuellen Analyse verwendet sondern vorher in einem letzten Aufarbeitungsschritt in die Mean-Graph-Repräsentation [206] überführt. Diese relative bzw. "Fingerprint"-Darstellung der Aktivitätsdaten hebt dabei die spezifischen Effekte einer einzelnen Verbindungen gegenüber einer bestimmten Krebszelllinie im Gegensatz zur direkten (absoluten) Auftragung hervor und ermöglicht somit eine bessere Klassifizierung der Wirkungsmuster.
7.2.2.3 Visuelles Data Mining
Zur visuellen Mustererkennung und Clusterung der Aktivitätsdaten wurden die Platinverbindungen auf die x-Achse, die Krebszelllinien auf die z-Achse und die relativen Aktivitäten auf die y-Achse aufgetragen. Die Objektfarbe wurde ebenfalls zur Hervorhebung der relativen Aktivitätswerte verwendet (Abbildung 7-13). Objektgröße und Objektform wurden nicht zum Abbilden von Datendimensionen eingesetzt (Abbildung 7-12).

Abb. 7-12: InfVis-Programm mit 2939 GI50-Aktivitätswerten. Aufsicht auf die zy-Ebene (Krebszelllinien-Aktivitätswert-Ebene, Auftragung der Verbindungen verläuft in Blickrichtung des Betrachters) (Farbabbildung: Anhang A, Abbildung A-17).
Abb. 7-13: Legende für die Abbildungen 7-12, 7-14 - 7-18.
Mit Hilfe eines dynamischen, Checkbox-Filters wurden die Aktivitätsmuster der einzelnen Verbindungen bewertet und Strukturen mit ähnlichen Wirkungsmuster zu Teildatensätzen zusammengefasst.
Um die spezifischen Aktivitäten einer einzelnen Verbindung gegenüber allen Krebszelllinien zu identifizieren, wurde die dreidimensionale Szene so ausgerichtet, dass eine Aufsicht auf die zy-Ebene (Krebszelllinien-Aktivitätswert-Ebene) gewährleistet war. Die Auftragung der einzelnen Verbindungen verlief dabei in Blickrichtung des Betrachters. Überdurchschnittlich hohe Aktivitäten gegenüber spezifischen Krebszellen wurden bei der relativen Aktivitätsdarstellung durch graphische Objekte oberhalb der y-Achsen-Nullpunktebene dargestellt, während Objekte unterhalb der Ebene unterdurchschnittliche Aktivitäten symbolisierten (Abbildung 7-12). Diese Darstellungsform gewährleistete ebenfalls einen bestmöglichen Vergleich der Verbindungs-spezifischen Wirkungsmuster. Neben der relativen GI50-Darstellung wurden auch die absoluten Werte der GI50-, LC50- und TGI-Aktivitäten der isolierten Cluster dargestellt (Abbildungen 7-14-7-18).
Bei der visuellen Analyse des Datensatzes konnten zunächst drei Ausreisserdaten aufgrund ihrer unverhältnismässigen Aktivitäten identifiziert werden, die vor einer weiteren Bearbeitung des Datensatzes entfernt wurden. Die verbliebenen 2936 Datenpunkte wurden anschließend hinsichtlich ihrer Aktivitätsähnlichkeiten in fünf Verbindungsklassen unterteilt. Die einzelnen Cluster sowie die Auswahlkriterien, die zu ihrer Isolierung führten, werden im Folgenden näher beschrieben.
In einem ersten Schritt wurden zunächst solche Verbindungen isoliert, die gegenüber allen Krebszelllinien keine nennenswerte Wachstumsinhibition (GI50-Aktivitäten) zeigten (Abbildung 7-14a (relative Aktivitäten) und 7-14b (absolute Aktivitäten)). Dieses Ergebnis konnte auch, wie erwartet, anhand der Aktivitäten der korrespondierenden LC50- und TGI-Werte bestätigt werden (Abbildung 7-14c,d). Der Cluster umfasste dabei insgesamt 33 inaktive Verbindungen (vgl. Anhang D).
Im Anschluss wurden 15 weitere Verbindungen identifiziert, die ebenfalls gegenüber dem Großteil der getesteten Krebszellen keine Aktivität aufwiesen. Im Gegensatz zu den Strukturen aus der ersten Gruppe zeigten diese Verbindungen jedoch gegenüber ein bis zwei vereinzelten Krebszelllinien hohe Aktivitätswerte. Interessanterweise wies dabei jede Verbindung gegenüber einer anderen Krebsart dieses Verhalten auf, was das Vorliegen von Meßfehlern vermuten ließ (Abbildung 7-15a,b). Da jedoch auch die entsprechenden LC50- und TGI-Werte dieses Verhalten teilweise bestätigten (Abbildung 7-15c,d), wurden die identifizierten Verbindungen in einen eigenständigen Cluster zusammengefasst, um eine spätere Analyse mit Hilfe der Strukturinformation zu gewährleisten.

Abb. 7-14: InfVis-Programm mit Cluster 1 (33 Verbindungen): a) relative GI50-Werte (Auftragung der Substanzen in Blickrichtung, Krebszelllinien von links nach rechts), b) absolute GI50-Werte, c) absolute LC50-Werte, d) absolute TGI-Werte (Farbabbildung: Anhang A, Abbildung A-18a).

Abb. 7-15: InfVis-Programm mit Cluster 2 (15 Verbindungen): a) relative GI50-Werte (Auftragung der Substanzen in Blickrichtung, Krebszelllinien von links nach rechts), b) absolute GI50-Werte, c) absolute LC50-Werte, d) absolute TGI-Werte (Farbabbildung: Anhang A, Abbildung A-18b).

Abb. 7-16: InfVis-Programm mit Cluster 3 (50 Verbindungen): a) relative GI50-Werte (Auftragung der Substanzen in Blickrichtung, Krebszelllinien von links nach rechts), b) absolute GI50-Werte, c) absolute LC50-Werte, d) absolute TGI-Werte (Farbabbildung: Anhang A, Abbildung A-18c).

Abb. 7-17: InfVis-Programm mit Cluster 4 (26 Verbindungen): a) relative GI50-Werte (Auftragung der Substanzen in Blickrichtung, Krebszelllinien von links nach rechts), b) absolute GI50-Werte, c) absolute LC50-Werte, d) absolute TGI-Werte (Farbabbildung: Anhang A, Abbildung A-18d).

Abb. 7-18: InfVis-Programm mit Cluster 5 (14 Verbindungen): a) relative GI50-Werte (Auftragung der Substanzen in Blickrichtung, Krebszelllinien von links nach rechts), b) absolute GI50-Werte, c) absolute LC50-Werte, d) absolute TGI-Werte (Farbabbildung: Anhang A, Abbildung A-18e).

Im Gegensatz zu den beiden zuvor isolierten Verbindungsklassen zeigten die verbliebenen Strukturen sowohl über- als auch unterdurchschnittliche Wachstumsaktivitäten gegenüber allen getesteten Krebszelllinien. Dabei konnten jedoch keine hochselektiven Effekte gegenüber spezifischen Krebszellen, wie sie von anderen Verbindungsklassen bekannt sind [246], festgestellt werden. Vielmehr variierten die Aktivitätswerte sehr stark über das gesamte Krebszellenspektrum. Um dennoch eine weitere Unterteilung der verbliebenen 109 Verbindungen zu ermöglichen, wurden bestimmte Grenzwerte für ausgewählte Krebszelllinien definiert, die für die Zugehörigkeit zu einem Cluster nicht über- bzw. unterschritten werden durften. Als besonders geeignet erschienen dabei die beiden Leukämiezelllinien SR (2. vertikale Kugelreihe von links, Abbildung 7-16a,b) und K-562 (16. Reihe von links, Abbildung 7-16a).
Zunächst wurden dabei solche Verbindungen identifiziert, die sowohl überdurchschnitt-liche Aktivitäten für SR als auch für K-562 aufwiesen. Darüber hinaus sollten die jeweiligen Aktivitäten der restlichen Krebszellen zwischen den einzelnen Verbindungen tendenziell übereinstimmen und in einem begrenzten Wertebereich vorliegen. Strukturen mit hohen Aktivitäten für SR und K-522 aber stark abweichenden Aktivitätswerten für eine andere Zelllinien wurden deshalb nicht im dritten Teildatensatz berücksichtigt. Auf diese Weise konnten schließlich 50 weitere Platinverbindungen isoliert werden (Abbildung 7-16, vgl. Anhang D). Die entsprechenden LC50- und TGI-Werte waren erwartungsgemäß kleiner und zeigten zum Teil ein leicht verändertes Wirkungsprofil (Abbildung 7-16c,d).
Analog zu der für Cluster 3 beschriebenen Vorgehensweise wurden 26 weitere Platinverbindungen isoliert, welche über überdurchschnittliche Aktivitätswerte gegenüber SR und unterdurchschnittliche GI50-Werte für K-562 verfügten (Abbildung 7-17, vgl. Anhang D). Dabei wurden auch in diesem Fall Verbindungen mit stark abweichenden Aktivitätswerten für andere Krebszelllinien nicht im Teildatensatz berücksichtigt.
Die 14 restlichen Verbindungen wurden schließlich zu einer fünften Verbindungsklasse zusammengefasst (Abbildung 7-18, vgl. Anhang D). Nach Abschluss der visuellen Clusterung wurden die jeweiligen Verbindungsgruppen mit Hilfe der zweidimensionalen Strukturinformation (vgl. Anhang D) bewertet und interpretiert.
7.2.2.4 Auswertung und Diskussion
Der cytostatische bzw. cytotoxische Effekt einiger Platinverbindungen wie beispielsweise cis-Diaminodichloroplatin(II) (cis-Platin, DDP) oder 1,2-Cyclohexandiamintetrachloroplatin (Tetraplatin) wurde früh erkannt und bereits Ende der Siebziger Jahre zur therapeutischen Behandlung von Krebspatienten genutzt [247, 248]. Die Platinverbindungen zählen dabei zu der Klasse der alkylierenden Cancerostatika und wirken, indem sie direkt an die Nukleoside (vor allem Guanosin) der DNA binden und diese somit schädigen. Aus diesem Grund wirken Platinverbindungen nicht selektiv gegen bestimmte Zelllinien sondern auf das ganze Spektrum an Zelllinien, was auch bei der Betrachtung der Wirkungsmuster im vorangegangenen Abschnitt deutlich wurde. Dieses unspezifische Wirkungsverhalten kann bei vielen DNA-schädigenden Verbindungsklassen beobachtet werden [246]. Obwohl einige Platinverbindungen zu den wirksamsten Cancerostatika zählen und daher auch zu den Standardwirkstoffen in der Chemotherapie zählen, zeigen nicht alle Vertreter dieser Verbindungsklasse einen cytostatischen Effekt. Besonders auffällig ist dabei die unterschiedliche Wirksamkeit der cis- und trans-Form von Diaminodichloroplatin(II).
Unter Verwendung der zweidimensionalen Strukturinformation wurden die mit Hilfe des InfVis-Programms generierten Cluster qualitativ analysiert. Dabei wurde hinterfragt, ob mit Hilfe des visuellen Clusterings eine Trennung der aktiven und inaktiven Strukturen möglich ist und ob dieser Prozess darüber hinaus eine weitere Unterteilung der aktiven Verbindungen gestattet.
Zu den Verbindungen des ersten Clusters (vgl. Anhang D) zählt zum einen die nicht wirksame trans-Form des Diaminodichloroplatins (NSC131558). Darüber hinaus enthält der Cluster diverse Strukturen mit großen und käfigartigen Ringsystemen (z.B. NSC631895, NSC532607, NSC685548), die wahrscheinlich aus sterischen Gründen eine Schädigung der DNA verhindern. Eine weitere Gruppe inaktiver Strukturen stellen Platinkomplexe dar, in denen das Platin durch Amino- und/oder Hydroxygruppen von Phosphon- und Aminophosphonsäurederivaten koordinativ gebunden ist (z.B. NSC627008, NSC632612, 639614). Des Weiteren zeigen auch Bisaminoethylsilanderivate keine biologische Aktivität (NSC643120, NSC643121). Allerdings konnten aktive, kürzerkettige Silanderivate in den nachfolgenden Clustern identifiziert werden. Schließlich enthält der Cluster noch eine Gruppe von 1,2-Diamincyclohexan-Derivaten (z.B. NSC623314, NSC623321). Da von dieser Verbindungsklasse auch aktive Vertreter bekannt sind, liegt die Vermutung nahe, dass es sich bei den isolierten Strukturen um inaktive Konformere handelt.
Bei der Betrachtung der Strukturen aus Cluster 2 (vgl. Anhang D) können vor allem Verbindungsklassen wie Phosphonsäure- (z.B. NSC632614), Diamincyclohexan- (z.B. NSC623320) und Silanderivate (z.B. NSC643122) identifiziert werden, die auch in Cluster 1 vertreten sind. Diese Beobachtung bestätigt somit die anfängliche Vermutung, dass es sich bei den Strukturen aus Cluster 2 ebenfalls um inaktive Substanzen handelt, deren beobachtete, selektive Aktivität für einzelne Krebszelllinien auf experimentelle Meßfehler zurückzuführen sein dürfte. Diese Vermutung wird auch durch das generell unspezifische Wirkungsverhalten von Platin enthaltenen Cancerostatika bekräftigt. Neben den bereits erwähnten Verbindungsklassen wurde noch eine weitere interessante Verbindung identifiziert - NSC644190. Die inaktive, DMSO enthaltene Verbindung ist deshalb interessant, da auch in diesem Fall aktive, strukturell ähnliche Verbindungen isoliert werden konnten (siehe Cluster 3). Der Aktivitätsunterschied ist dabei wahrscheinlich auch auf konformative Unterschiede zurückzuführen.
Bei der Analyse des ersten Clusters mit aktiven Verbindungen (Cluster 3) können zunächst zwei große Strukturklassen identifiziert werden - Aminocyclohexanderivate (11 Verbindungen) und Aminomethylsilanderivate (12 Verbindungen). Im Gegensatz zu den in Cluster 1 und 2 enthaltenen Cyclohexanverbindungen scheinen die analogen Strukturen dieses Clusters in der aktiven Konformerform vorzuliegen. Allerdings scheinen einige dieser Derivate jedoch sowohl in der cis- als auch in der trans-Form aktiv zu sein, was die parallele Existenz der beiden Verbindungen NSC265459 und NSC265460 im Cluster erklärt. Leider lässt sich diese Fragestellung aufgrund fehlender genauerer struktureller Information nicht endgültig klären. Die Strukturklasse enthält darüber hinaus zwei bekannte Vertreter der Antitumor-Standardwirkstofftabelle des DTP (NSC271674 und NSC363812). Bei den Derivaten der Aminosilanverbindungen scheint die Aktivität von der Länge der am Platin koordinierten Aminoalkanketten abzuhängen. Während die Aminoethylsilane aus dem ersten und zweiten Cluster noch keine Aktivität zeigten, können für die Aminomethylsilane (z.B. NSC603577) des dritten Clusters hohe Aktivitäten festgestellt werden. Ob die Koordination des Platinatoms dabei über zwei offenkettige Monoaminomethylsilane oder durch ein einzelnes Bis(aminomethyl)silan erfolgt, scheint dabei keine Rolle zu spielen. Neben den beiden großen Substanzklassen können des Weiteren fünf Chinolin- (z.B. NSC632790), drei Thiazol- (z.B. NSC641054) und drei Phosphinderivate (z.B. NSC685468), einige DMSO- (z.B. NSC644188) und Anilin-haltige Komplexe sowie einige Schwefelderivate wie Thiocarbonsäuren und Sulfoxide identifiziert werden. Die Aktivität der Platin-DMSO-Komplexe scheint dabei auch in diesem Fall auf konformative Unterschiede zu basieren, da strukturell ähnliche Verbindungen in Cluster 1 und 2 keine biologische Aktivität zeigten.
Der vierte isolierte Cluster enthält unter anderen den wohl bekanntesten, cancerostatischen Vertreter der Platinverbindungen - das cis-Platin (NSC119875). Neben ähnlich kleinen Komplexen wie dem Diaminodibromoplatin (NSC141523) und dem Bis(aziridin)dichloroplatin (NSC170896) beinhaltet der Cluster auch diverse Platin-Sauerstoff-koordinierte Verbindungen wie beispielsweise die beiden Antitumor-Standardwirkstoffe 1,1-Cyclobutandicarboxylatoplatin (NSC241240) und 2-Propanamindichlorodihydroxoplatin (NSC256927). Darüber hinaus enthält der Cluster auch einige größere Komplexsysteme und Käfigstrukturen (z.B. NSC683426), ionische Verbindungen sowie Zinn- und Selen-Komplexe (z.B. NSC626669). Allerdings finden sich auch bekannte Verbindungsmotive aus dem dritten Cluster wie beispielsweise eine Phosphin- (NSC615542), eine Silan- (NSC645355) und einige Diamincyclohexan-Verbindungen (z.B. NSC623317). Letztere Vertreter lassen darauf schliessen, dass der Verlauf der biologischen Aktivitäten zwischen den beiden Clustern verschwommen und eine eindeutige Zuordnung der Verbindungen daher ausgeschlossen ist. Im Vergleich mit dem dritten Cluster kann in der vorliegenden Gruppierung eine größere Anzahl an kleinen, offenkettigen Platinkomplexen festgestellt werden.
Der letzte Cluster enthält unter anderen, bis auf einen Vertreter, alle Imidazolderivate der untersuchten Platinverbindungen (z.B. NSC647619). Die nicht enthaltene Imidazolverbindung (NSC647615) wurde dem dritten Cluster zugeordnet. Im Gegenzug enthält der fünfte Cluster eine Thiazolverbindung (NSC641053), während die übrigen Vertreter dieser Verbindungsklasse im dritten Cluster enthalten sind. Dies lässt auf eine enge Beziehung zwischen Cluster 3 und Cluster 5 schließen. Eine weitere interessante Verbindungsklasse stellen die beiden Aminosilane des Clusters dar. Während im ersten und zweiten Cluster nur inaktive Aminoethylsilanderivate und in den Clustern 3 und 4 nur aktive Aminomethylsilane identifiziert werden konnten, handelt es sich bei den vorliegenden Silanen um Platinverbindungen, in denen das Platinatom sowohl über eine Aminoethyl- als auch über eine Aminomethylkette koordiniert wird. Wie auch in allen zuvor beschriebenen Clustern enthält Cluster 5 eine Reihe von Aminocyclohexanderivaten (z.B. NSC255917). Offensichtlich neigt diese Verbindungsklasse zu stark unterschiedlichen Aktivitätsmustern, was eine eindeutige Zuordnung der Strukturen unmöglich macht.
Obwohl Platinverbindungen aufgrund ihres Wirkungsmechanismus im Allgemeinen unspezifisch und gleichförmig gegen alle Krebszelllinien wirken, konnten mit Hilfe des visuellen Data Minings fünf Verbindungscluster identifiziert werden. Dabei konnte zum einen sicher zwischen aktiven und inaktiven Verbindungsvertretern unterschieden werden. Darüber hinaus konnten die aktiven Platinstrukturen in drei weitere Untergruppen aufgeteilt werden. Diese visuelle Aufteilung der aktiven Substanzen führte dabei für die in dem Datensatz enthaltenen Antitumor-Standardwirkstoffe zu den gleichen Ergebnissen, wie sie auch von anderen Arbeitsgruppen mit klassischen QSAR-Studien erarbeitet wurden [246]. Dies spricht letztendlich für die Qualität des visuellen Ansatzes. Der postulierte Zusammenhang zwischen Struktur und Aktivität konnte in vielen Fällen nachgewiesen werden, da bestimmte Strukturen ausschließlich oder zumindestens mit hohem Anteil in einem einzigen Cluster vorlagen. Beispiele für entsprechende Struktur-Aktivitäts-Beziehungen sind die Thiazol-, Chinolin- und Pyridinderivate im Cluster 3 sowie die Imidazolderivate in Cluster 5. Allerdings konnten auch Ausnahmefälle von diesem Prinzip beobachtet werden. So enthielten zum einen biologisch ähnliche Cluster strukturell stark diverse Verbindungen, während zum anderen ähnliche Strukturmotive wie beispielsweise die Aminocyclohexanderivate in vielen Clustern wiedergefunden wurden und vollkommen unterschiedliche biologische Aktivitäten zeigten.

PREV
NEXT

Copyright © 2003, Frank Oellien, Universität Erlangen-Nürnberg. All rights reserved.