3 Analyse von Verbindungsdatensätzen mit selbstorganisierenden neuronalen Netzen



3.1 Topologieerhaltende Karten nach Kohonen

Von sämtlichen bekannten selbstorganisierenden Lernverfahren stellen die von Teuvo Kohonen[3,4,7] entwickelten, topologieerhaltenden Karten das am häufigsten genutzte Modell dar. Es ist das Ziel selbstorganisierender neuronaler Netzwerke, relative Beziehungen zwischen Mustern eines Eingaberaums zu analysieren. Mit Hilfe des Algorithmus werden ähnliche Eingabemuster ermittelt und zu Gruppen (engl.: cluster) zusammengefaßt.

Diese Art der neuronalen Netze konnten bereits in einer Vielzahl von Studien mit Erfolg zur Bearbeitung verschiedener pharmazeutischer Fragestellungen eingesetzt werden. So konnten beim visuellen Vergleich des elektrostatischen Potentials auf der Moleküloberfläche charakteristische Gemeinsamkeiten in den Kohonen-Karten von Liganden, die alle an muskarinische Rezeptoren binden, gefunden werden, die in den Karten von Liganden, die an nikotinische Rezeptoren binden, nicht enthalten waren. Gleiches galt für die umgekehrte Betrachtungsweise.[14] In einer Untersuchung strukturell verschiedener allosterischer Modulatoren muskarinischer Rezeptoren konnte durch Beurteilung der Kohonen-Karten von molekularen Oberflächeneigenschaften, trotz unbekannter Struktur des Rezeptors, ein Vorschlag für die aktive Konformation eines Modulators unterbreitet werden. Darüber hinaus wurde für die untersuchten Substanzen ein gemeinsames Pharmakophormodell entworfen.[15] Während in den bisher erwähnten Studien jeweils ein neuronales Netz pro Verbindung generiert wurde, ist es ebenso möglich, Zusammenhänge zwischen Verbindungen eines größeren Datensatzes zu untersuchen. Zu diesem Zweck muß der Umweg über einen Moleküldeskriptor gegangen werden, der die Aufgabe hat, eine Verbindung unter Einbezug von strukturellen und physikochemischen Eigenschaften in Form eines Vektors zu kodieren. Auf der Basis der Molekülbeschreibung durch Autokorrelationsvektoren konnte gezeigt werden, daß ein selbstorganisierendes Netz in der Lage ist, Verbindungen mit unterschiedlicher biologischer Aktivität, Benzodiazepin-Agonisten und Dopamin-Agonisten, zu unterscheiden. Selbst nach der Erweiterung des Datensatzes um die Verbindungen eines Chemikalienkatalogs blieb die Trennung zwischen den Molekülen der beiden Klassen bestehen.[16] Auch auf dem Gebiet der kombinatorischen Chemie wurden Kohonen-Netzwerke bereits erfolgreich eingesetzt. So konnte gezeigt werden, daß eine auf dem Xanthen-Gerüst basierende Bibliothek und eine Bibliothek mit Cuban als Grundgerüst unterschiedliche „chemische Räume“ einnehmen. Andererseits wurde herausgefunden, daß sich die Räume einer Cuban- und einer Adamantan-Bibliothek stark überschneiden.[17]


(3.1)

entstehende, in der Regel zweidimensionale Karte () kann als Ausgaberaum Y interpretiert werden. Bei der Projektion in den Raum niedrigerer Dimensionalität bleibt die Topologie des Eingaberaums weitgehend erhalten. Muster, die im Eingaberaum X benachbart sind, liegen auch im Ausgaberaum Y in unmittelbarer Nähe zueinander. Diese Eigenschaften sind in Abbildung. 3.1 illustriert. Der Eingaberaum X, der Muster zweier Klassen enthält, wird in einen zweidimensionalen Ausgaberaum Y transformiert. Trotz der Dimensionsreduktion bilden die Muster der beiden Klassen im Ausgaberaum, wie im Eingaberaum, abgeschlossene Gruppen. Im Ausgaberaumes Y werden die Muster den als Gitter angeordneten Quadraten zugeteilt, die die Neuronen des Netzwerkes darstellen. Ein Kohonen-Netzwerk kann somit auf die Präsentation eines bestimmten Eingabemusters mit der Lage des Musters im Ausgaberaum antworten. Dessen Position wird durch die diskreten Koordinaten und des Gitters charakterisiert.



Abbildung. 3.1: Topologieerhaltung durch Selbstorganisation.

Im trainierten Netzwerk bleibt die Topologie des Eingaberaums erhalten. Die beiden Klassen der Muster im Eingaberaum werden auch in der Karte, die dem Ausgaberaum Y entspricht, als zusammenhängende Gruppen wiedergefunden.




Im selbstorganisierenden Training ist es Aufgabe des Netzwerkes, sich über die Positionen der Muster ein Bild vom Eingaberaum zu machen. Diese innere Repräsentation des Eingaberaumes im Netzwerk ermöglicht schließlich das Kartographieren der Muster im Ausgaberaum. Die Netzwerkarchitektur, mit der Kohonen-Netze dieser Aufgabenstellung gerecht werden, ist für die Projektion in einen zweidimensionalen Ausgaberaum in Abbildung 3.2 dargestellt. Kohonen-Netzwerke sind ausschließlich einschichtige Netzwerke, d.h. sie werden aus nur einer Schicht aktiver Neuronen aufgebaut. In der Regel werden die Neuronen in Form eines rechtwinkligen Gitters angeordnet. Im Beispiel aus Abbildung 3.2 ist das Kohonen-Netzwerk in der xy-Ebene aus 8x6 Neuronen aufgebaut. Jedes Neuron des Netzwerkes wird in z-Richtung aus insgesamt M Gewichten aufgebaut, wobei M gleichzeitig der Dimension des Eingaberaumes entsprechen muß.



Abbildung 3.2
: Architektur eines Kohonen-Netzwerkes.

Die Neuronen bilden in der xy-Ebene ein einschichtiges Gitter, wobei jedes Neuron aus M Gewichten besteht, die in z-Richtung angeordnet sind. Die Anzahl der Gewichte M stimmt mit der Länge der Eingabemuster überein.




Das Training eines neuronalen Netzes erfolgt in einem iterativen Prozeß. Durch die Einführung einer Zeitvariable t, die die Anzahl der bisher durchlaufenen Trainingszyklen wiedergibt, wird das Fortschreiten des Lernens protokolliert. Das Muster, das zu einem Zeitpunkt t des Trainings ins Netzwerk eingespeist wird, wird mit

(3.2)

bezeichnet. Die Neuronen des Netzwerkes werden durch einen Gewichtsvektor definiert, der ebenso wie die Vektoren der Eingabemuster die Länge M aufweist:

. (3.3)

Durch den Index j werden die Neuronen des Netzwerkes identifiziert. Die Einträge des Neurons werden als Gewichte bezeichnet.

Der Kohonen-Algorithmus ist speziell darauf ausgerichtet, mit Hilfe einer zweidimensionalen Schicht von Neuronen den M-dimensionalen Eingaberaum zu kartographieren. Dazu wird eine Nachbarschaftsfunktion eingeführt, die angibt wie stark zwei, durch die Distanz d voneinander getrennte Neuronen aneinander gekoppelt sind. Eine weitere Variable, die sogenannte Lernrate , regelt das Ausmaß der Gewichtsanpassungen während des Trainings. Beide Größen, die Nachbarschaftsfunktion und die Lernrate , sind Funktionen der Zeit t bzw. der Anzahl der durchlaufenen Trainingszyklen.

Zu Beginn des Trainings wird das Kohonen-Netzwerk initialisiert. Die Gewichte der Neuronen werden zufällig gesetzt. Weiterhin werden die Startpunkte der Nachbarschaftsfunktion sowie der Lernrate festgelegt. Ein Iterationszyklus des Algorithmus unterteilt sich in mehrere Schritte:

1. Schritt:

Aus dem M-dimensionalen Eingaberaum wird ein einzelnes Muster nach dem Zufallsprinzip ausgewählt und dem Netzwerk vorgeführt.

2. Schritt:

Von allen Neuronen des Kohonen-Netzes wird das Gewinnerneuron c ermittelt, das in Reaktion auf die Präsentation von die größte Erregung aufweist. Dabei wird das Ausmaß der Erregung eines Neurons j über die euklidische Distanz seines Gewichtsvektors zum Eingabemuster bestimmt, wobei maximale Erregung mit geringster Distanz gleichgesetzt wird:

(3.4)

3. Schritt:

Die Neuronen des Netzwerkes werden in Abhängigkeit von ihrer Lage zum Gewinnerneuron c über die Nachbarschaftsfunktion und die Lernrate nach

(3.5)

aktualisiert. Je kleiner dabei die Distanz eines Neurons j zum Gewinnerneuron c ist, desto stärker erfolgt die Anpassung seiner Gewichte hin zum präsentierten Muster .

4. Schritt:

Die festgelegten Stoppkriterien zur Terminierung des Trainings werden überprüft. Sind die Bedingungen nicht erfüllt, wird das Lernen mit der 1. Stufe des Algorithmus fortgesetzt.

Die Schritte 1 bis 4 des Kohonen-Algorithmus werden unter dem Begriff Zyklus zusammengefaßt. Als Epoche im Lernprozeß wird dagegen der Zeitraum bezeichnet, der erforderlich ist, um jedes Muster des Eingaberaums genau einmal dem neuronalen Netzwerk vorzuführen.

3.2 Kohonen-Netz-Simulator KMAP

Das Programm KMAP zur Erzeugung von Kohonen-Netzwerken und Karten wird seit 1993 im Arbeitskreis von Prof. Johann Gasteiger entwickelt und gepflegt. Die Grundlage zum Kohonen- Netz-Simulator KMAP wurde von X. Li gelegt, dessen Arbeit von M. Wagener fortgesetzt wurde. Im Rahmen dieser Arbeit wurde das vollständig in der Programmiersprache C[18] implementierte, bestehende Programm analysiert und die Routinen zur Berechnung von Netzwerken und Karten von den Routinen zur Visualisierung der Kohonen-Karten separiert. Aufbauend auf dieser Trennung wurde eine Schnittstelle geschaffen, die die Steuerung des Kohonen-Netz-Simulators über die Skriptsprache Tcl/Tk[19] ermöglicht. Dabei mußte der gesamte Programmteil zur graphischen Darstellung von Kohonen-Karten überarbeitet und ergänzt werden. Unter der Verwendung der entwickelten Tcl/Tk-Kommandos wurde eine komfortable graphische Benutzeroberfläche für KMAP implementiert, mit der interaktiv Kohonen-Netze trainiert und Karten visualisiert werden können. Durch gleichzeitige Integration von KMAP in das von W.-D. Ihlenfehlt entwickelte System zur Verarbeitung chemischer Informationen, CACTVS[20], konnte der Anwendungsschwerpunkt des Programms auf die Analyse von Datensätzen chemischer Verbindungen verlagert werden. KMAP wird in Abschnitt 5.2 ausführlicher vorgestellt.

Über das Internet stehen weitere Programme, mit denen Kohonen-Netzwerke simuliert werden können, frei zur Verfügung. An erster Stelle ist das von Kohonen selbst an der Technischen Universität Helsinki entwickelte Programm SOM-PAK[21] zu nennen. SOM-PAK besitzt keine eigene graphische Oberfläche. Neben einer Vielzahl weiterer Algorithmen zur Simulation neuronaler Netzwerke enthält der Stuttgarter-Neuronale-Netze-Simulator SNNS[22] auch das Modell der Kohonen-Netze. Im Gegensatz zu KMAP, das speziell zur Bearbeitung chemischer Problemstellungen implementiert wurde, zielt SNNS auf eine möglichst universelle Einsetzbarkeit ab.

3.2.1 Lernalgorithmus

In Abschnitt 3.1 wurde der Kohonen-Algorithmus zur Erzeugung selbstorganisierender Karten in allgemeiner Art und Weise formuliert. Im Rahmen dieses Kapitels soll die Realisierung wichtiger Parameter bei der Generierung von Kohonen-Netzen im Programm KMAP vorstellt werden.

3.2.1.1 Netzwerktopologie und topologische Distanz

Die Architektur der Kohonen-Netzwerke ist entscheidend für ihr Vermögen, hochdimensionale Eingaberäume unter Topologieerhaltung in einem zweidimensionalen Ausgaberaum abzubilden. Während die Neuronen in KMAP ausschließlich in Form eines quadratischen bzw. rechtwinkligen Gitters angeordnet sein können, existieren zwei verschiedene Netzwerktopologien. Unter dem Begriff der Netzwerktopologie versteht man die Art und Weise, wie die Neuronen des Netzes untereinander verknüpft sind. Die zwei verschiedenen Topologien werden in Abbildung 3.3 vorgestellt. Bei einer rechtwinkligen Netzwerktopologie - nicht zu verwechseln mit der bereits erwähnten rechtwinkligen Gitteranordnung der Neuronen - wird das Kohonen-Netz von den Kanten der äußersten Neuronen begrenzt. Demzufolge besitzt ein Kantenneuron fünf direkte Nachbarn, ein Eckneuron dagegen nur drei. Anders verhält es sich bei einem Netzwerk mit toroidaler Topologie. Ein solches Netz ist nach außen unbegrenzt. Fügt man das Netz an den, in der zweidimensionalen Darstellung von Abbildung 3.3 auftretenden, gegenüberliegenden Kanten, wie die Pfeile andeuten, zusammen, so erhält man ein dreidimensionales Objekt mit der Form eines Torus. In einer solchen Anordnung ist jedes Neuron zu acht weiteren Neuronen direkt benachbart.



Abbildung 3.3
: Netzwerktopologie von Kohonen-Netzen.

Während die Kanten von Netzen mit rechtwinkliger Topologie echte Grenzen darstellen, sind die Netze mit toroidaler Topologie nach außen unbegrenzt sind. Sämtliche Neuronen eines toroidalen Netzes besitzen alle identische Nachbarschaftsverhältnisse. Dagegen unterscheiden sich die Neuronen rechtwinkliger Netze je nach Lage in der Anzahl der Nachbarneuronen.



Die topologische Distanz d ist als ein Maß für die Nachbarschaft zweier Neuronen zu verstehen. So weist ein Neuron zu sich selbst die Distanz auf. Liegt ein Neuron in der ersten Nachbarschaft zu einem anderen, so gehört es zu dessen direkten Nachbarn. Die topologische Distanz ist demzufolge . Analoges gilt für die Neuronen der zweiten, dritten und weiteren Nachbarschaft. Wie Abbildung 3.3 zeigt, steht die Netzwerktopologie in direktem Zusammenhang zur Distanz. Während beispielsweise das mit À gekennzeichnete Neuron bei toroidaler Topologie noch zur zweiten Nachbarschaftssphäre des Neuron Á im rechten, unteren Bereich des Netzes gehört, würde es bei rechtwinkliger Topologie die größtmögliche Entfernung zu diesem aufweisen.

Kohonen-Netzwerke mit toroidaler Topologie können, da sie nach außen unbegrenzt sind, zu Visualisierungszwecken wie Kacheln aneinandergefügt werden. Auf diese Weise sind die Nachbarschaftsbeziehungen zwischen den Neuronen deutlicher erkennbar. Abbildung 3.4 zeigt eine gekachelte Darstellung des toroidalen Netzwerkes aus Abbildung 3.3. Hier ist es offensichtlich, daß Neuron À zur zweiten Nachbarschaftssphäre des Neuron Á gehört.



Abbildung 3.4
: Gekachelte Darstellung von Kohonen-Netzen.

Kohonen-Netze mit toroidaler Netzwerktopologie dürfen wie Kacheln aneinandergefügt werden. Die vierfache Darstellung des Netzes aus Abbildung 3.3 macht die tatsächliche Distanz zwischen den Neuronen À und Á deutlicher.




In der Praxis hat sich gezeigt, daß die Verwendung von Netzwerken mit rechtwinkliger Topologie besonders bei vergleichsweise heterogenen Datensätzen sinnvoll ist. In einem solchen Fall tendieren die Netze dazu, Randgruppen von Eingabemustern in den äußeren Neuronen zu lokalisieren. Für homogene Datensätze bieten sich dagegen Netzwerke mit toroidaler Topologie an, in denen jedes Neuron konzeptionell identisch ist.

3.2.1.2 Nachbarschaftskopplung der Neuronen

Zwischen den Neuronen eines Kohonen-Netzwerkes, die in Form eines rechtwinkligen Gitters angeordnet sind, besteht eine Nachbarschaftsbeziehung. Sie wurde bereits als Funktion in Gleichung (3.5) eingeführt. Mit der Nachbarschaftsfunktion wird das Ausmaß der Kopplung der Neuronen in Abhängigkeit von der zwischen ihnen liegenden Distanz d festgelegt. Durch ihren Beitrag zur Steuerung der Anpassung der Gewichtsvektoren der Neuronen ist

neben der allgemeinen Netzwerkarchitektur hauptverantwortlich für die Fähigkeit, hochdimensionale Räume unter Topologieerhaltung in Räume niedrigerer Dimensionalität abzubilden.

In der Literatur sind eine Reihe von Nachbarschaftsfunktionen mit unterschiedlicher geometrischer Form beschrieben.[12] In der von KMAP verwendeten Kopplung werden die x-Richtung und die y-Richtung des Netzwerkes separat behandelt. Dies ermöglicht, die Parametrisierung von auf die Geometrie des Netzes abzustimmen. Die Nachbarschaftsfunktion ist definiert als

. (3.6)

Hier beschreiben und die Entfernung zweier Neuronen in x- und y-Richtung. Die Parameter und entscheiden im konkreten Fall, nach welcher der beiden Möglichkeiten aus Gleichung (3.6) berechnet wird. Wie Abbildung 3.5 zeigt, nimmt die Nachbarschaftskopplung nach obiger Definition die Form eines Dreiecks an. Die als Spannweiten (engl.: span) bezeichneten Größen bzw. entsprechen dabei der halben Grundlänge des Dreiecks. Im Training kommt ihnen eine besondere Bedeutung zu. Sie entscheiden, welche Gewichte angepaßt werden. Neuronen, deren topologische Distanz zum Gewinnerneuron größer ist als die aktuelle Spannweite, erfahren keine Veränderung ihrer Gewichtsvektoren.

In KMAP können die Spannweiten und mit zunehmender Anzahl an Trainingszyklen t verringert werden. Die Spannweiten variieren mit der Zeit nach

, (3.7)

wobei für eine definierte Anzahl von Zyklen steht. Sind Zyklen durchlaufen worden, werden die Spannweiten um den festgelegten Betrag von bzw. verkleinert. Die Dreiecksform der Nachbarschaftskopplung sowie deren zeitliche Veränderung sind in Abbildung 3.5 anhand eines Beispiels verdeutlicht.



Abbildung 3.5
: Die Nachbarschaftskopplung als Funktion der Zeit.
Im ersten Zyklus des Trainings besitzt die Spannweite den Wert . Mit verändert sich erst im 11. Zyklus. Die Spannweite wird dann um auf reduziert. Für die Distanz bleibt die Kopplung während des gesamten Trainings mit konstant.




Die Veränderung der Spannweiten mit der Zeit soll dazu beitragen, daß sich zu Beginn des Trainings eine Fernordnung der Eingabemuster im Kohonen-Netz ausbilden kann. Mit fortschreitendem Lernen wird schließlich mehr Gewicht auf die Erzeugung einer Nahordnung gelegt.

3.2.1.3 Lernrate

Die Lernrate aus Gleichung (3.5) stellt, wie auch die Nachbarschaftskopplung , eine Gewichtung der Anpassung der Neuronen während des Trainings dar. Für konstante Werte von

und würden die Gewichte des Kohonen-Netzwerkes proportional zur Differenz zwischen Eingabemuster und Gewichtsvektor des Gewinnerneurons verändert werden. Aus Gründen der Konvergenz wird mit der Lernrate ein Faktor eingeführt, der zu Beginn des Trainings einen großen Lerneffekt durch eine starke Änderung der Gewichtsvektoren bewirkt. Mit einer wachsenden Anzahl an durchlaufenen Trainingszyklen wird durch Reduzierung der Lernrate die Anpassung der Neuronen immer geringer ausfallen, so daß auch das Ausmaß des Lernerfolgs zurückgeht. In der Regel handelt es sich bei um eine streng monoton fallende Funktion, deren Wertebereich auf begrenzt ist.

Im Programm KMAP kann das Verhalten der Lernrate , wie bei der Nachbarschaftskopplung , über das Intervall von Trainingszyklen gesteuert werden. So wird nach

(3.8)

der Wert der Lernrate erst dann mit dem Lernfaktor multipliziert, wenn Zyklen vergangen sind. Andernfalls bleibt konstant. Der Wert des Lernfaktors ist dabei auf den Bereich beschränkt.

Abbildung 3.6 zeigt den Kurvenverlauf der Lernrate als Funktion der Zeit t. Für wird der Wert der Lernrate in jedem Zyklus verringert. Die Kurve fällt exponentiell ab. Über die Größe des Intervalls , in dem die Lernrate nicht manipuliert wird, kann ein zu starker Abfall verhindert werden. Daraus resultiert ein stufenförmiger Kurvenverlauf.



Abbildung 3.6
: Die Lernrate als Funktion der Zeit.

Beide Kurvenverläufe wurden für einen Startwert von und einen Lernfaktor erzeugt. Für fällt die Kurve exponentiell ab. Durch Erhöhung der Anzahl der Zyklen mit konstanter Lernrate auf kann der starke Abfall abgebremst werden.




3.2.2 Erzeugung von Kohonen-Karten

Während des Trainings von Kohonen-Netzwerken wird der Eingaberaum in den Gewichten der Neuronen abgebildet. Um aus dieser Information nach Vorschrift (3.1) den Ausgaberaum

zu erzeugen, muß nach Beendigung des Lernprozesses der gesamte Trainingsdatensatz noch einmal dem Netz präsentiert werden. Zu jedem Eingabemuster wird die Lage des Gewinnerneurons durch die zugehörigen Koordinaten und bestimmt. Betrachtet man die Situation von der Seite des Netzwerkes, so wird ermittelt, welche Muster des Eingaberaums in die einzelnen Neuronen fallen.

Der Ausgaberaum kann in einfacher Weise visualisiert werden, wenn zu jedem Muster des Datensatzes eine oder mehrere Eigenschaften bekannt sind. Dabei kann es sich sowohl um diskrete Werte, wie die Zuordnung zu einer Klasse, als auch um Werte einer kontinuierlichen Größe handeln. Aus den Eigenschaftswerten der Eingabemuster, die ein bestimmtes Neuron besetzen, wird ein repräsentativer Wert abgeleitet, über den dieses Neuron anhand einer Farbpalette eingefärbt wird. Auf diese Weise wird mit allen Neuronen des Kohonen-Netzes verfahren. Es ergibt sich eine zweidimensionale, rechtwinklige Darstellung, die im folgenden als Kohonen-Karte bezeichnet wird. In Abschnitt 3.2.4 werden derartige Karten für ein Testbeispiel vorgestellt.

Zur Erzeugung von Kohonen-Karten sind verschiedenste Regeln denkbar. In KMAP sind folgende Einfärbemöglichkeiten gegeben:

Die Visualisierung der Projektion durch Kohonen-Karten ist ein vom Training des Netzwerkes vollständig getrennter Prozeß. Damit besteht bei der Erzeugung der Karten keine Beschränkung auf den Datensatz, an dem das neuronale Netz sein Wissen erlernt hat.

3.2.3 Erweiterung des Algorithmus zur Bearbeitung von Regressionsproblemen

Die Kohonen-Netze, wie sie bisher vorgestellt worden sind, erzeugen die Projektion . Sollen diese Netzwerke zur Behandlung von Regressionsproblemen eingesetzt werden, hat sich die Aufgabenstellung grundlegend verändert. Anstelle des Abbilds des Eingaberaums als Projektion wird nun nach einer Beziehung zwischen den Eingabemustern und einer mit ihnen assoziierten Eigenschaft gesucht. Ziel ist es, diese Beziehung mit Hilfe des neuronalen Netzes als Funktion

(3.9)

zu modellieren. In dieser Beziehung stellen die Muster X die Variablen dar, während die Gewichte W als Parameter durch das Training des Netzes ermittelt werden. Die approximierte Eigenschaft Y kann dabei sowohl eine skalare als auch eine vektorielle Größe sein.

Um eine solche Aufgabenstellung bearbeiten zu können, muß das Konzept des Kohonen-Algorithmus erweitert werden.[23] Das Muster , mit dem das neuronale Netzwerk zum Zeitpunkt t trainiert wird, setzt sich nach

(3.10)

aus den ursprünglichen, M-dimensionalen Eingabemustern und den assoziierten,

M'-dimensionalen Eigenschaften zusammen. Die Dimension von beträgt demnach

. Abbildung 3.7 zeigt die erweiterte Architektur des Netzwerkes. Wie beim einfachen Kohonen-Netzwerk sind die Neuronen in einem einschichtigen, rechtwinkligen Gitter in der xy Ebene arrangiert. Ein M-dimensionaler Teil der Neuronen ist für die Eingabe, ein M' dimensionaler Teil für die Ausgabe verantwortlich.



Abbildung 3.7: Architektur eines zur Behandlung von Regressionsproblemen erweiterten Kohonen-Netzwerkes.

Die Neuronen bilden in der xy-Ebene ein einschichtiges Gitter, wobei jedes Neuron, entsprechend der Eingabemuster, aus einem M-dimensionalen Eingabeteil und einem M'-dimensionalen Ausgabeteil besteht.




Während eines Trainingszyklus wird das Muster des Datensatzes dem Netzwerk präsentiert. Zur Ermittlung des Gewinnerneurons c über die euklidische Distanz zwischen Muster und Gewichtsvektoren wird nach

(3.11)

nur der tatsächliche Eingabeteil von berücksichtigt. Nach der Bestimmung des Gewinners werden die Gewichte des Netzes angepaßt. An dieser Stelle werden sowohl Eingabeteil als auch Ausgabeteil der Gewichtsvektoren nach

(3.12)

variiert. Die Lernrate und die Nachbarschaftskopplung verhalten sich während des Trainings wie bei der Erstellung von Projektionen mit Kohonen-Netzen (vgl. Abschnitte 3.2.1.3 und 3.2.1.2).

Da Gleichung (3.12) die Differenz zwischen den Ausgabewerten der Muster und den zugehörigen Gewichten beinhaltet, kann die geschilderte Methode als überwachtes Lernverfahren interpretiert werden. Obwohl sich für diese Netzwerke die Bezeichnung Counterpropagation-Netze eingebürgert hat, sollten sie nicht mit dem gleichnamigen, von Hecht-Nielsen[24] entwickelten neuronalen Netzen verwechselt werden, die als Vertreter der hybriden Modelle aus einer Kohonen-Schicht sowie aus einer Grossberg Schicht[25] aufgebaut werden. In jüngerer Zeit wurden die erweiterten Kohonen-Netze erfolgreich zur Vorhersage von Infrarotspektren angewandt.[26]

3.2.4 Testbeispiel: Tetraeder I

Bei der Projektion des Eingaberaumes in die zweidimensionale Anordnung von Neuronen stellt die Topologieerhaltung das wesentliche Merkmal der Kohonen-Netzwerke dar. Dieser Wesenszug soll im folgenden anhand eines Testbeispiels belegt werden. Gleichzeitig soll ein Einblick in die Vorgänge, die während des Netztrainings ablaufen, gewährt werden.

Geometrische Gebilde, deren topologische Zusammenhänge durch Form und Gestalt eindeutig festgelegt sind, stellen geeignete Vorbilder für derartige Zwecke dar. Aus einem Tetraeder, wie er in Abbildung 3.8 skizziert ist, wurde ein Testdatensatz konstruiert. Durch die Punkte A, B, C und D wird der Tetraeder eindeutig definiert. Auf jeder der vier Dreiecksflächen wurden zufällig 250 Punkte verteilt. Die Eingabevektoren der Muster des Datensatzes wurden aus den x-, y- und z Koordinaten der Punkte zusammengesetzt, wobei jedes Muster mit einem zusätzlichen Eigenschaftswert zwischen 0 und 3 versehen wurde, der die Zugehörigkeit zu einer der vier Dreiecksflächen symbolisiert. Wie Abbildung 3.8 belegt, bewegen sich die Werte der Koordinaten im Bereich zwischen –1 und 1. Insgesamt umfaßt der Testdatensatz 1000 Eingabemuster. Zur Validierung und Parametrisierung der entwickelten Methode zur Auswahl relevanter Deskriptoren wird der Tetraeder-Datensatz in erweiterter Form erneut verwendet (vgl. Abschnitt 4.6).


Abbildung 3.8
: Erstellung des Tetraeder-Testdatensatzes.

Je 250 Punkte werden zufällig auf den Dreiecksflächen des durch die Punkte A, B, C und D definierten Tetraeders verteilt. Aus den x-, y- und z-Koordinaten der Punkte werden 1000 Eingabemuster gebildet. Ein weiterer Wert zwischen 0 und 3 beschreibt, von welcher Dreiecksfläche ein Datenpunkt stammt.






Für den Testdatensatz wurden mit den in Tabelle 3.1 aufgeführten Netz- und Trainingsparametern Kohonen-Netzwerke trainiert. Um das Fortschreiten des Trainings aufzeichnen zu können, wurde das Netz zu Beginn sowie nach 10 000, 20 000, 30 000 und 40 000 Lernzyklen abgespeichert. Zur Visualisierung des Netzstatus wurde zu jeder dieser Momentaufnahmen eine Kohonen-Karte erzeugt. Die Neuronen wurden abhängig von der häufigsten, in den Neuronen auftretende Zugehörigkeit zu einer Dreiecksfläche eingefärbt. Abbildung 3.9 zeigt diese Kohonen-Karten in chronologischer Reihenfolge.

Tabelle 3.1: Netz- und Trainingsparameter für das Testbeispiel

Parameter

Wert

Netzwerkgröße

20 x 15 Neuronen

Netzwerktopologie

toroidal

Dimension der Neuronen

3

Anzahl der durchlaufenen Zyklen

0, 10 000, 20 000, 30 000, 40 000

Lernrate zu Beginn

0,9

Lernfaktor

0,9

Spannweiten zu Beginn ,

5.0

Änderung der Spannweiten ,

0,1

Zyklen konstanter Trainingsparameter

500


Vier identische Kohonen-Karten sind kachelartig jeweils zu einer größeren Karte zusammengefügt worden. Durch das Aneinanderreihen der Kohonen-Karten von Netzwerken mit toroidaler Topologie ist jedes Neuron, das beim Betrachten einer isolierten Karte in deren Randbereichen läge, mindestens einmal als Mittelpunkt des Netzwerkes vertreten. Zu diesem Neuron bilden die übrigen Neuronen des Netzes die aus der toroidalen Topologie resultierende Umgebung. Gruppierungen von Mustern mit gleichen Eigenschaftswerten können so leichter erkannt werden.


Abbildung 3.9: Entwicklung der Projektion des Tetraeders.

Die „gekachelten“ Kohonen-Karten zeigen den Zustand des Netzes zu verschiedenen Zeitpunkten des Trainings. Die Anzahl der durchlaufenen Lernzyklen ist jeweils unter der Karte angegeben. In der untersten Karte sind die Gebiete, in die die Eckpunkte A, B, C und D des Tetraeders fallen, gesondert gekennzeichnet. Das Kohonen-Netz wurde nach den Parametern aus Tabelle 3.1 trainiert.





Wie Abbildung 3.9 zeigt, sind die Muster des Beispieldatensatzes vor Beginn des Trainings wahllos im zufällig initialisierten Kohonen-Netzwerk verteilt. Zwischen den Punkten einer Dreiecksfläche ist kein Zusammenhang erkennbar. Bereits nach 10 000 Zyklen hat sich eine Fernordnung innerhalb der Muster herausgebildet. Die Datenpunkte sind nach ihrer Zugehörigkeit zu den Flächen des Tetraeders gruppiert. Es fällt auf, daß große Gebiete von nicht gefärbten Neuronen im Netzwerk existieren, die keine Muster beherbergen. Während der nächsten 10 000 Iterationen des Lernens werden diese Lücken zu großen Teilen geschlossen. Gegenüber dem Status des Netzes nach 10 000 Zyklen haben sich die Schwerpunkte der Gruppierungen in diesem Zeitraum noch verschoben. Nach 30 000 Trainingszyklen hat die Anzahl der unbesetzten Neuronen weiter abgenommen. Eine weitere Verschiebung in den Lagen der gleich eingefärbten Neuronen wird nicht beobachtet. Der Vergleich der Kohonen-Karte des Netzes nach 40 000 Lernzyklen mit der Karte nach 30 000 Zyklen zeigt, daß nur noch geringfügige Unterschiede auftreten. Die Lernrate und die Spannweiten haben bereits so stark abgenommen, daß Veränderungen allein innerhalb der Nahordnung der einzelnen Gruppierungen auftreten. Die Koordinaten der Neuronen, in die die einzelnen Dreiecksflächen abgebildet werden, sowie die Anzahl der unbesetzten Neuronen bleiben nahezu konstant.

Am Beispiel der Tetraederoberfläche kann die Fähigkeit der Kohonen-Netzwerke belegt werden, während der Projektion die Topologie des Eingaberaumes zu erhalten. In den Kohonen-Karten treten alle Dreiecksflächen des Tetraeders gleichberechtigt auf. Nach 40 000 Lerniterationen nehmen sie annähernd gleich große Neuronenflächen in Anspruch. Bei genauerer Analyse der Karten findet man die Gebiete, in denen die Eckpunkte des Tetraeders liegen. Innerhalb der Karte bilden diese eine Raute. In diesen Regionen treten nur drei der vier möglichen Einfärbungen auf. Gleichzeitig zeigt dieses Beispiel die Robustheit des Kohonen-Algorithmus. Trotz einer zufälligen Initialisierung wird eine sehr gute Abbildung des Eingaberaumes erzielt. Eine andere Zufallsinitialisierung hätte eine Projektion mit unterschiedlicher Besetzung der Neuronen zur Folge. Verglichen mit den hier dargestellten Kohonen-Karten, könnten sich die Gruppierungen in Form und Lage unterscheiden. Die Beziehungen zwischen den Mustern blieben aber weiterhin offensichtlich.

10 000 Zyklen des Trainings des Kohonen-Netzes benötigten auf einer Workstation mit 600MHz Pentium-III-Prozessor und 256MB Arbeitsspeicher unter Linux2.2 im Durchschnitt 2.8s Rechenzeit.

3.3 Moleküldeskriptoren

Moleküldeskriptoren bilden die Grundlage für die Modellierung einer Beziehung zwischen einer Eigenschaft einer Verbindung, wie der biologischen Aktivität, und ihrer chemischen Struktur. Um einen solchen Zusammenhang in mathematisch faßbarer Form herleiten zu können, muß auch die chemische Molekülstruktur in einer mathematischen Form kodiert werden. Im konkreten Fall bedeutet dies, daß zur Repräsentation eines Datensatzes ein Eingaberaum konstruiert werden muß, in dem jede Verbindung definiert ist. Für Kohonen-Netzwerke ist damit die Art der Molekülkodierung auf reelle Vektoren festgelegt. Nicht jede denkbare Methode zur Beschreibung von Molekülen kann zur Analyse eines Datensatzes eingesetzt werden. Die Moleküldeskriptoren müssen drei Grundforderungen erfüllen:

  1. Beschränkung der Länge der Vektoren auf M

  2. Translationsinvarianz

  3. Rotationsinvarianz

Die Forderung nach Vektoren der gleichen Länge trifft alle Moleküldeskriptoren. Unabhängig von der Größe des Moleküls bzw. der Anzahl seiner Atome muß für jede Verbindung eines Datensatzes gewährleistet sein, daß der zugehörige Vektor exakt M Einträge besitzt. Translations- und Rotationsinvarianz können und müssen nur diejenigen Molekülbeschreibungen aufweisen, die die chemische Struktur als Funktion der räumlichen Gestalt kodieren wollen. Für sie gilt, daß die Berechnung des Deskriptors unabhängig von Lage und Orientierung eines Moleküls im Raum immer zu demselben Ergebnis führen muß.

Von der Vielzahl der in der Literatur beschriebenen Repräsentationen von Molekülstrukturen werden an dieser Stelle nur diejenigen beschrieben, die in den durchgeführten Studien zum Einsatz kamen (vgl. Abschnitt 3.4).

3.3.1 Fingerprints

Binäre Vektoren, die die Konstitution von Molekülen kodieren, werden weitläufig als Fingerprints bezeichnet. Sie wurden ursprünglich für Datenbankanwendungen, wie beispielsweise Ähnlichkeitssuchen, entwickelt.[27] Als kommerzielles Produkt haben sich die sogenannten 2D-Fingerprints der Firma Daylight[28] etabliert. Die Berechnung der Fingerprints basiert auf Strukturmustern, die in einem Molekül auftreten. Dabei ist ein wesentliches Merkmal der Fingerprints, daß diese Muster nicht im Sinne von funktionellen Gruppen vordefiniert sind. Statt dessen wird ein Muster durch ein Atom und dessen, über eine bestimmte Anzahl von Bindungen entfernte, Nachbaratome festgelegt. Bis zu einer definierten Obergrenze der Pfadlänge der Bindungen werden für ein Molekül alle möglichen Muster generiert, registriert und numeriert. Auf Grundlage der gefundenen Atomgruppen werden im binären Fingerprint Bits gesetzt. Da die Anzahl der auftretenden Muster in der Regel die Länge des binären Fingerprint-Vektors übersteigt, sind die einzelnen Positionen des Bitvektors mehrdeutig. Um zu ermitteln, welche Bits im Vektor für ein bestimmtes Muster gesetzt werden, dient die Nummer des Musters zur Initialisierung eines Zufallsgenerators. Typischerweise werden vier bis fünf Bits pro auftretendem Muster gesetzt. In dieser Methode zur Generierung von Moleküldeskriptoren besteht die theoretische Möglichkeit, daß zwei verschiedene Verbindungen durch identische Vektoren beschrieben werden. Die Wahrscheinlichkeit für das Auftreten eines solchen Falles ist jedoch gering. Vielmehr konnte für Diversitätsanalysen[29,30] gezeigt werden, daß Fingerprints ein probates Mittel zur Kodierung von Molekülen darstellen. Zur Erzeugung von Kohonen-Netzwerken werden die binären Fingerprints als reelle Vektoren behandelt.

3.3.2 Autokorrelationsfunktionen

Die Autokorrelationsfunktionen wurden von Moreau und Broto zur Beschreibung der Molekülkonstitution eingeführt.[31] Sie verknüpfen eine Verteilung von Atomeigenschaften mit sich selbst. Dazu werden die Eigenschaften und zweier Atome i und j nach

(3.13)

über die -Funktion in Verbindung gebracht. Die Funktion nimmt nur dann den Wert 1 an, wenn die Distanz d, gemessen als die kleinste Anzahl der Bindungen zwischen zwei Atomen, dem Wert der Distanz zwischen den Atomen i und j entspricht. Für alle anderen Distanzen d besitzt die -Funktion den Wert 0. Durch die Summation über die Produkte sämtlicher im Molekül auftretenden Atompaare erhält man die Autokorrelationsfunktion in Abhängigkeit von der Variablen d. Die Einführung der -Funktion bewirkt eine Diskretisierung der Funktion .

Das den Autokorrelationsfunktionen zugrundeliegende Konzept kann von der Konstitution auf die räumliche Gestalt eines Moleküls übertragen werden. Dazu wird der Distanz d eine andere Bedeutung zugeordnet. Statt der Anzahl der Bindungen gibt sie die räumliche Entfernung zwischen zwei Punkten wieder. Wie bei den Autokorrelationsfunktionen der molekularen Konstitution können für die Verteilung einer atomaren Eigenschaft die Lagen der Punkte mit den Atomkoordinaten zusammenfallen. Darüber hinaus besteht die Möglichkeit, die Autokorrelationsfunktionen auf der Basis von Moleküloberflächen zu berechnen.[32] Auf der Oberfläche werden, wie in Abbildung 3.10 dargestellt, Punkte generiert und deren Eigenschaften über die Distanz d zu Autokorrelationsfunktionen verknüpft.



Abbildung 3.10
: Kodierung einer Oberflächeneigenschaft.

Wird die Distanz d als Entfernung zwischen zwei beliebigen Punkten auf der Oberfläche eines Moleküls interpretiert, kann die Verbindung nach Gleichung (3.13) durch eine Autokorrelationsfunktion einer Oberflächeneigenschaft beschrieben werden.



Um als Eingabevektoren für das Training von neuronalen Netzen dienen zu können, müssen die Autokorrelationsfunktionen, die über den Bereich definiert sind, in Vektoren mit einer endlichen Länge transformiert werden. Deshalb müssen zuerst Untergrenze und Obergrenze für die Variable d festgelegt werden, so daß sich der Definitionsbereich auf reduziert. Dieser wird entsprechend der Länge M des Eingabevektors in gleich große Intervalle unterteilt. Der Koeffizient des Autokorrelationsvektors , der dem Distanzintervall zwischen und zugeordnet ist, wird nach

(3.14)

errechnet. Liegt die Distanz zwischen zwei Punkten i und j innerhalb des von und abgegrenzten Intervalls, geht das Produkt der Eigenschaften in die Summation ein. Der Wert der Summe wird mit der Anzahl L der Distanzen im Intervall gewichtet.

Die konstitutionellen und räumlichen Autokorrelationsvektoren der Atomeigenschaften werden mit dem Programm AUTOCORR[33] berechnet. Dabei können folgende Eigenschaften p, die vom Programm PETRA[34] nach empirischen Ansätzen zur Verfügung gestellt werden, Verwendung finden:

Das Programm SURFACE[39] berechnet zur räumlichen Struktur eines Moleküls entweder eine van der Waals- oder eine Connolly-Oberfläche[40] und erzeugt die Autokorrelationsvektoren. Dazu werden auf Basis der obigen Atomeigenschaften für verschiedene, zufällig auf der Oberfläche verteilte Punkte, die folgenden Eigenschaften p abgeleitet:

3.3.3 Atom-Radialverteilungsfunktionen

Mit Hilfe der Atom-Radialverteilungsfunktionen, die bereits intensiv zur Untersuchung der Korrelationen zwischen Molekülstruktur und Infrarotspektrum eingesetzt wurden[44,45,46], können chemische Verbindungen durch kontinuierliche Funktionen beschrieben werden. Die physikalischen Eigenschaften von Atomen sowie deren Positionen im Raum bilden die Grundlage zur Berechnung dieser Deskriptoren:

. (3.15)

Die Atomeigenschaften und werden über den exponentiellen Term in Verbindung gesetzt. Dabei fließt Information über die räumliche Struktur des Moleküls durch die räumliche Entfernung zwischen den Atomen i und j ein, die im Falle der Atom-Radialverteilungsfunktionen traditionell mit bezeichnet wird. Der Parameter B deutet als sogenannter Unschärfeparameter auf den Urspung der Atom-Radialverteilungsfunktion in der Röntgenspektroskopie hin. Er symbolisiert die Abhängigkeit der Lage der Atome von der Temperatur, bei der ein Beugungsexperiment durchgeführt wird. Jedem Atom wird so die Freiheit eingeräumt, sich um seine eigentliche Position zu bewegen. Diese Unschärfe wird über den exponentiellen Term als Unschärfe der räumlichen Entfernung in die Atom-Radialverteilungsfunktionen eingebracht.

Ursprünglich wurden die Ordnungszahlen, also die Anzahl der Elektronen eines Atoms, als Eigenschaften und eingesetzt. Dadurch wurde die Atom-Radialverteilungsfunktion eines Moleküls, nach einer Normierung auf 1, im physikalischen Sinne interpretierbar. Sie liefert den Wert der Wahrscheinlichkeit im Raum zwei Elektronen anzutreffen, deren Entfernung zueinander genau r beträgt. Die allgemeine Formulierung der Atom-Radialverteilungsfunktion nach Gleichung (3.15) läßt jedoch die Verwendung beliebiger Atomeigenschaften zu. Mit dem Programm ARC[47] können Atom-Radialverteilungsfunktionen zu den Atomladungen , , , den atomaren Elekronegativitäten , , , der Atompolarisierbarkeit sowie zur Identität berechnet werden (vgl. Abschnitt 3.3.2).

Die Vektorisierung der Atom-Radialverteilungsfunktionen unterscheidet sich leicht von der Vektorisierung der Autokorrelationsfunktionen. Auf einen festgelegten Distanzbereich

werden M Stützstellen äquidistant verteilt. Die Koeffizienten k der Vektordarstellung werden nach

(3.16)

als Werte der Atom-Radialverteilungsfunktion an den Stützstellen berechnet. Eine separate Gewichtung der Koeffizienten wird nicht vorgenommen.

Wie ein Vergleich der Definitionen der Atom-Radialverteilungsfunktionen (3.15) und der Autokorrelationsfunktionen (3.13) zeigt, besteht ein direkter Zusammenhang zwischen den beiden Moleküldeskriptoren. Je größer der Unschärfeparameter B wird, desto eingeschränkter ist die Bewegungsfreiheit der Atome eines Moleküls. Die Atom-Radialverteilungsfunktion nähert sich immer mehr der Autokorrelationsfunktion an. Im Grenzfall geht der exponentielle Term nach

(3.17)

in die -Funktion über. Demzufolge können die Autokorrelationsfunktionen nach

(3.18)

als Spezialfall der Atom-Radialverteilungsfunktionen für bzw. diese als Verallgemeinerung der Autokorrelationsfunktionen angesehen werden.

3.3.4 Skalierung von Moleküldeskriptoren

Prinzipiell können Moleküldeskriptoren, wie sie die Programme AUTOCORR und SURFACE berechnen, direkt zum Training von Kohonen-Netzwerken eingesetzt werden. Eine Vorbereitung der Daten ist nicht zwingend vorgeschrieben, kann aber, je nach Art der Deskriptoren, zu besseren Ergebnissen führen. Im Falle der Vektoren der Autokorrelations- und Atom-Radialverteilungsfunktionen sind die einzelnen Vektorkomponenten über die Variable der Distanz verknüpft. Eine einfache Normierung[48] der Eingabevektoren nach

(3.19)

auf die Länge 1, wobei der Normierungsfaktor für jedes Muster berechnet wird, erhält diese Beziehungen im einzelnen Moleküldeskriptor. Dagegen gehen die Relationen der Deskriptorkomponenten innerhalb des gesamten Datensatzes verloren. Abhilfe schafft die Einführung einer zusätzlichen Vektorkomponente .[49] Der Wert von für das Muster

wird nach

(3.20)

errechnet, wobei der Parameter A größer als der größte Betrag der Datensatzmuster, gewählt wird. Durch die anschließende Division

(3.21)

ergeben sich Moleküldeskriptoren, in denen die relativen Größenbeziehungen der Eingabemuster erhalten bleiben. Es hat sich jedoch gezeigt, daß die zusätzliche Komponente Einfluß auf die Ergebnisse nehmen kann. In Datensätzen, in denen die Größe der Eingabemuster stark variiert, kann auch ein breites Zahlenspektrum abdecken und so bei der Berechnung der euklidischen Distanz zwischen zwei Mustern den größten Beitrag liefern. Daher ist es möglich, daß auch die Bestimmung der Gewinnerneuronen beim Training von Kohonen-Netzen nach Gleichung (3.4) dominiert. Aus diesem Grund ist eine Standardisierung[50] der Eingabevektoren des Datensatzes vorzuziehen. Diese Methode wird auch als Autoskalierung oder z Transformation bezeichnet. Nach

(3.22)

wird die i-te Komponente des Vektors unter Berücksichtigung des Mittelwerts und der Standardabweichung über sämtliche Koeffizienten i der Muster des Datensatzes transformiert. Nach dieser Skalierung weisen alle Komponenten i der Eingabemuster, bezogen auf den gesamten Datensatzes, den Mittelwert und die Standardabweichung auf. Auf diese Weise sind alle Koeffizienten der Moleküldeskriptoren gleichgestellt. Keine Vektorkomponente dominiert die Berechnung der euklidischen Distanz.

3.4 Untersuchungen an einer kombinatorischen Bibliothek

In den folgenden Abschnitten wird eine Studie vorgestellt, die im Rahmen eines Industriepraktikums in Zusammenarbeit mit der Abteilung Leitstrukturfindung der Firma Boehringer Ingelheim Pharma KG in Ingelheim durchgeführt wurde.

Im Mittelpunkt der Untersuchungen stand die Frage, ob es möglich ist, mit Hilfe von neuronalen Netzen, insbesondere Kohonen-Netzwerken, Struktur-Wirkungsbeziehungen innerhalb von kombinatorischen Bibliotheken aufzudecken. Zu diesem Zweck stellte die Firma Boehringer Ingelheim Daten über eine Verbindungsbibliothek und das Abschneiden der Verbindungen im High-Throughput-Screening zur Verfügung.

3.4.1 Die Hydantoin-Bibliothek

Das Grundgerüst der untersuchten kombinatorischen Bibliothek bildet ein Hydantoin-Ringsystem. Wie Abbildung 3.11 zeigt, stellt Hydantoin drei Ringpositionen bereit, mit Hilfe derer durch Variation der Substituenten eine kombinatorische Verbindungsbibliothek aufgebaut werden kann. Im vorliegenden Fall wurde aus sämtlichen Kombinationen von 18 Aminosäuren, 24 Aldehyden und 24 Isocyanaten eine Bibliothek synthetisiert, die insgesamt Verbindungen umfaßt.



Abbildung 3.11
: Die Hydantoin-Bibliothek.

Durch Variation der Reste R1, R2 und R3 wurden in der kombinatorischen Synthese Verbindungen erzeugt.




Die Hydantoin-Bibliothek durchlief das High-Throughput-Screening für verschiedene Testassays, wobei nicht immer der komplette Satz an Verbindungen getestet wurde. Für die Analyse der kombinatorischen Bibliothek wurden zwei Assays, die im folgenden mit Assay I und Assay II bezeichnet werden, ausgewählt. Diese Auswahl fand nach zwei Gesichtspunkten statt:

  1. Die Anzahl der Verbindungen, für die Daten aus den Screeningexperimenten vorlagen, sollte möglichst groß sein. Dies diente einerseits dazu, die Leistungsfähigkeit der Kohonen-Netzwerke überprüfen zu können, andererseits konnte so sichergestellt werden, daß die Untersuchung an Datensätzen durchgeführt wurde, die einen für kombinatorische Bibliotheken typischen Umfang aufweisen.

  2. Der Anteil der im High-Throughput-Screening als Hits eingestuften Verbindungen durfte nicht zu hoch sein, um auf eine Spezifität der Assays schließen zu können. Gleichzeitig mußte der Anteil der Hits aber noch hoch genug sein, um zu gewährleisten, daß überhaupt Struktur-Wirkungsbeziehungen gefunden werden können.

Aus den Verbindungen der gesamten Hydantoin-Bibliothek wurden zwei Datensätze extrahiert, die jeweils die Strukturen enthalten, für die experimentelle Daten aus dem High-Throughput-Screening mit Assay I oder Assay II vorliegen. Sie bilden die Basis der vorgestellten Studie. Tabelle 3.2 zeigt die Zusammensetzung der Datensätze.

Tabelle 3.2: Eigenschaften der Datensätze zu den ausgewählten Assays


Assay I

Assay II

Anzahl der Verbindungen im High-Throughput-Screening

2304

5513

Anzahl der Hits

119

185

Hitanteil

5.2%

3.4%


Eine Verbindung wurde dann als Hit eingestuft, wenn das Ergebnis des Screeningexperiments unterhalb der 50%-Schranke eines Kontrollwertes lag.

3.4.2 Berechnung der Deskriptoren

Für die Verbindungen der Datensätze Assay I und Assay II wurden verschiedene Arten von Moleküldeskriptoren berechnet. Als Eingabemuster für das Training der Kohonen-Netzwerke dienten die in Abschnitt 3.3 vorgestellten Autokorrelationsfunktionen, Atom-Radialverteilungsfunktionen sowie die binären Fingerprints der Firma Daylight. Den Ausgabeteil der Muster bildete die Zahl 0, wenn es sich bei der beschriebenen Verbindung um ein nicht-aktives Molekül handelte, oder die Zahl 1 im Falle eines Hits.

Die Berechnung der konstitutionellen Autokorrelationsfunktionen erfolgte entsprechend der in Tabelle 3.3 spezifizierten Parameter. Insgesamt wurden acht konstitutionelle Autokorrelationsfunktionen erhalten, je eine pro gegebener Atomeigenschaft. Auf denselben atomaren Eigenschaften basierte auch die Erzeugung der räumlichen Autokorrelationsfunktionen und der Atom-Radialverteilungsfunktionen.

Tabelle 3.3: Parameter zur Berechnung der konstitutionellen Autokorrelationsfunktionen

Parameter

Wert

Maximale Distanz

16 Bindungen

Berücksichtigung der Wasserstoffatome

nein

Atomeigenschaften

I, , , , , , ,


Um die von der räumlichen Distanz abhängigen Deskriptoren errechnen zu können, muß zu jedem Molekül eine dreidimensionale Molekülgeometrie gegeben sein. Diese wurden mit dem Programm CORINA[51] erzeugt. Dabei basiert die Erstellung der dreidimensionalen Struktur auf molekülgeometrischen Regeln, Kraftfeldrechnungen und kristallographischen Daten[52,53,54]. Vor der Berechnung der auf der 3D-Struktur basierenden Deskriptoren wurde die maximale räumliche Entfernung zweier Atome in den Verbindungen der Hydantoin-Bibliothek als 22.1Å ermittelt. Anhand dieses Wertes wurden die Distanzbereiche der Deskriptoren, wie z.B. der räumlichen Autokorrelationsfunktionen (vgl. Tabelle 3.4), festgelegt.

Tabelle 3.4: Parameter zur Berechnung der räumlichen Autokorrelationsfunktionen

Parameter

Wert

Länge der Deskriptorvektoren

24

Distanzbereich -

0.0Å-23.0Å

Berücksichtigung der Wasserstoffatome

nein

Atomeigenschaften

I, , , , , , ,


Der wesentliche Unterschied zwischen den räumlichen Autokorrelationsfunktionen und den Atom-Radialverteilungsfunktionen liegt in der Länge der Deskriptorvektoren. Wie aus Tabelle 3.5 hervorgeht, wurden die Atom-Radialverteilungsfunktionen mit der zehnfachen Auflösung erstellt. Mit einem Distanzumfang von 0.1Å pro Vektorkomponente liegt eine Auflösung vor, wie sie typischerweise bei der Simulation von Infrarotspektren verwendet wird.

Tabelle 3.5: Parameter zur Berechnung der Atom-Radialverteilungsfunktionen

Parameter

Wert

Länge der Deskriptorvektoren

225

Distanzbereich -

0.1Å-22.5Å

Berücksichtigung der Wasserstoffatome

nein

Unschärfeparameter B

100

Atomeigenschaften

I, , , , , , ,


Die Oberflächen-Autokorrelationsfunktionen, die nach den in Tabelle 3.6 zusammengestellten Parametern berechnet wurden, stellen eine eigene Klasse von Moleküldeskriptoren dar. Sie sind unabhängig von den atombasierten Deskriptoren zu sehen, da sie mit den Oberflächeneigenschaften andere Merkmale der Verbindungen kodieren.

Tabelle 3.6: Parameter zur Berechnung der Oberflächen-Autokorrelationsfunktionen

Parameter

Wert

Länge der Deskriptorvektoren

25

Distanzbereich -

0.0Å-24.0Å

Punktdichte

10.0Å-2

Oberflächeneigenschaften

ESP, HBP, HYD


Als Vertreter der kommerziellen Deskriptoren wurden die in Abschnitt 3.3.1 vorgestellten Daylight 2D-Fingerprints der Länge 256, 512 und 1024 erzeugt. Dabei betrug die maximale Pfadlänge der Molekülfragmente sieben Bindungen. Die Fingerprints wurden mit dem Ziel berechnet, eine Referenz zu schaffen, mit deren Hilfe die Ergebnisse der übrigen Deskriptoren beurteilt werden können.

3.4.3 Projektion der Datensätze

Für das Auffinden von Struktur-Wirkungsbeziehungen ist die Wahl eines geeigneten Deskriptors essentiell. Kodiert der Deskriptor Eigenschaften der Moleküle, die in keiner Beziehung zur modellierten Wirkung stehen, kann keine, wie auch immer ausgelegte Methode zum Erfolg führen. Durch die Projektion der Moleküldeskriptoren in Kohonen-Netzwerke kann der Zusammenhang zwischen den Eingabemustern und der zugehörigen Eigenschaft untersucht werden.

Im Falle der Hydantoin-Bibliothek wurden sowohl für Assay I als auch für Assay II Kohonen-Netze zu sämtlichen generierten Moleküldeskriptoren trainiert. Das Ziel dieser Vorgehensweise war es, die Art der Kodierung zu finden, die eine möglichst gute Trennung zwischen Hits und Nicht-Hits des High-Throuput-Screenings in den Projektionen erlaubte. Beschreibt der Deskriptor die entscheidenden, strukturellen Eigenschaften der Verbindungen, so sollen die als Hits eingestuften Moleküle auch ähnliche Deskriptorvektoren aufweisen. Diese Ähnlichkeit kann vom Kohonen-Netzwerk erkannt werden. Als Folge davon, werden die Hits idealerweise in eine zusammenhängende Gruppe benachbarter Neuronen projiziert. Im Gegensatz dazu kann die Einstufung als Nicht-Hit auf einer Vielzahl von Gründen beruhen. Die Deskriptoren dieser Verbindungen spannen, aufgrund ihrer strukturellen Vielfalt und ihres Übergewichts in den Datensätzen, den Eingaberaum für das Training des Kohonen-Netzwerkes auf.

3.4.3.1 Assay I

Zu jedem erzeugten Deskriptor wurde ein Kohonen-Netzwerk bestehend aus 1200 Neuronen trainiert, so daß auf ein Neuron ca. zwei Eingabemuster entfielen. Für die Netzwerke wurde eine toroidale Topologie gewählt. Weitere Netz- bzw. Trainingsparameter werden in Tabelle 3.7 zusammengefaßt.

Tabelle 3.7: Netz- und Trainingsparameter für die Projektion von Assay I (2304 Verbindungen)

Parameter

Wert

Netzwerkgröße

40 x 30 Neuronen

Netzwerktopologie

toroidal

Dimension der Neuronen

17, 24, 225, 25, 256, 512, 1024

Anzahl der durchlaufenen Zyklen

100 000

Lernrate zu Beginn

0,8

Lernfaktor

0,95

Spannweiten zu Beginn ,

10

Änderung der Spannweiten ,

0,2

Zyklen konstanter Trainingsparameter

400


Die Kohonen-Karten für die auf physikochemischen Atomeigenschaften basierenden Moleküldeskriptoren werden in Abbildung 3.12 gezeigt. Um die Verteilung der Hit-Verbindungen im Netzwerk zu visualisieren, sind die Neuronen, die mindestens ein als Hit eingestuftes Molekül enthalten, violett eingefärbt. Während in die roten Neuronen ausschließlich Nicht-Hits fallen, sind die weißen Neuronen unbesetzt. Für alle drei Arten der Molekülbeschreibung, konstitutionelle und räumliche Autokorrelationsfunktionen sowie Atom-Radialverteilungsfunktionen, ergibt sich ein ähnliches Bild. Die schlechtesten Ergebnisse werden für die Atomeigenschaften Identität, Polarisierbarkeit und -Elektronegativität erhalten. In den zugehörigen Kohonen-Karten wird sichtbar, daß die Hit-Verbindungen über das gesamte Netzwerk verteilt sind. Zu besseren Ergebnissen führt die Elektronegativität der freien Elektronenpaare und die -Elektronegativität, wobei letztere im Falle der Atom-Radialverteilungsfunktionen eine Ausnahme bildet und eine schlechtere Trennung zwischen Hits und Nicht-Hits bewirkt. Die besten Resultate liefern die partiellen Ladungen , und der drei atombasierten Moleküldeskriptoren. In deren Kohonen-Karten läßt sich die Konzentration von Hit-Verbindungen in zusammenhängenden Gebieten von Neuronen beobachten.


Abbildung 3.12
: Kohonen-Karten der atombasierten Moleküldeskriptoren für Assay I.

Neuronen, die mindestens einen Hit enthalten, sind violett, Neuronen, die nur von Nicht-Hits besetzt werden, sind rot und leere Neuronen weiß eingefärbt. Die Kohonen-Netze wurden nach den Parametern aus Tabelle 3.7 trainiert.





Verglichen mit den Kohonen-Karten der auf Atomeigenschaften beruhenden Deskriptoren schneiden die mit Oberflächen-Autokorrelationsfunktionen erzeugten Karten deutlich schlechter ab. Wie Abbildung 3.13 zeigt, lassen sich allenfalls in der Karte des Potentials der Wasserstoffbrücken (HBP) kleine Gruppierungen von Neuronen ausmachen, die Hit-Verbindungen enthalten. Die Karten der Daylight 2D-Fingerprints weisen eine ähnlich schlechte Qualität auf. Dabei kann kein Zusammenhang zwischen der Länge der binären Deskriptoren und der erzielten Qualität der Projektionen erkannt werden.



Abbildung 3.13
: Kohonen-Karten der Oberflächen-Autokorrelationsfunktionen und der 2D-Fingerprints für Assay I.

Neuronen, die mindestens einen Hit enthalten, sind violett, Neuronen, die nur von Nicht-Hits besetzt werden, sind rot und leere Neuronen weiß eingefärbt. Die Kohonen-Netze wurden nach den Parametern aus Tabelle 3.7 trainiert.




Von allen Deskriptoren liefern die atombasierten für den Datensatz Assay I die besten Ergebnisse. Die Tatsache, daß für die Atomeigenschaften dieser Deskriptoren ein ähnlicher Trend in der Qualität der Karten erkennbar ist, läßt den Schluß zu, daß die kodierten Atomeigenschaften einen stärkeren Einfluß auf die Ergebnisse nehmen als die Art der Deskriptoren. Im direkten Vergleich von räumlichen Autokorrelationsfunktionen und Atom-Radialverteilungsfunktionen zeigt sich, daß die höhere Auflösung der Atom-Radialverteilungsfunktionen nicht zwangsläufig zu besseren Resultaten führt.

3.4.3.2 Assay II

Als Reaktion auf die größere Anzahl von Verbindungen im Datensatz Assay II im Vergleich zu Assay I, wurde die Anzahl der Neuronen der Kohonen-Netzwerke erhöht. Mit 2700 Neuronen entfielen erneut ca. zwei Verbindungen auf ein Neuron. Ein Überblick über die weiteren Netz- und Trainingsparameter gibt Tabelle 3.8.

Tabelle 3.8: Netz- und Trainingsparameter für die Projektion von Assay II (5513 Verbindungen)

Parameter

Wert

Netzwerkgröße

60 x 45 Neuronen

Netzwerktopologie

toroidal

Dimension der Neuronen

17, 24, 225, 25, 256, 512, 1024

Anzahl der durchlaufenen Zyklen

100 000

Lernrate zu Beginn

0,8

Lernfaktor

0,95

Spannweiten zu Beginn ,

10

Änderung der Spannweiten ,

0,2

Zyklen konstanter Trainingsparameter

400


























Abbildung 3.14: Kohonen-Karten der atombasierten Moleküldeskriptoren für Assay II.

Neuronen, die mindestens einen Hit enthalten, sind violett, Neuronen, die nur von Nicht-Hits besetzt werden, sind rot und leere Neuronen weiß eingefärbt. Die Kohonen-Netze wurden nach den Parametern aus Tabelle 3.8 trainiert.


Die Kohonen-Karten, die mit atombasierten Moleküldeskriptoren erhalten wurden, werden in Abbildung 3.14 gezeigt. In keiner der abgebildeten Karten formieren sich die Neuronen, die mindestens eine Hit-Verbindung enthalten, zu einer zusammenhängenden Gruppe. Die Karten der Atomeigenschaften Identität, Polarisierbarkeit sowie der Elektronegativitäten , und weisen ungefähr die gleiche Qualität auf. Nur in kleinen Teilen der Karten werden Anhäufungen von Hit-Verbindungen vorgefunden. Für die partiellen Atomladungen werden bessere Ergebnisse erhalten. Die Anzahl der Neuronen mit Hit-Verbindungen, die keinem großen Verbund von gleichartigen Neuronen zugeordnet werden kann, ist deutlich niedriger. Dabei nimmt die Projektion der konstitutionellen Autokorrelationsfunktionen zur partiellen Atomladung eine Sonderstellung ein. Zwar formen die Hit-Verbindungen hier eine vergleichsweise große Anzahl von Neuronenverbänden, aber gleichzeitig sind gerade diese Gruppierungen ausgesprochen kompakt. Das beste Ergebnis liefern die räumlichen Autokorrelationsfunktionen der -Ladung. In der Kohonen-Karte bilden die Hits zwei deutlich erkennbare Inseln violetter Neuronen, die großflächig von Neuronen, die nur Nicht-Hits enthalten, umgeben sind.


Wie Abbildung 3.15 zeigt, variiert die Qualität der Kohonen-Karten der Oberflächen-Autokorrelationsfunktionen stark mit der kodierten Oberflächeneigenschaft. Während die Hit-Verbindungen in der Projektion des elektrostatischen Potentials (ESP) über das gesamte neuronale Netz verteilt sind, bilden sie für das Hydrophobizitätspotential (HYD) bereits kleinere Gruppierungen aus. In der Karte des Potentials der Wasserstoffbrücken nehmen die Neuronen der Hit-Verbindungen einen klar abgrenzbaren, relativ kompakten Bereich ein. Für die Daten des Assays II stellt diese Projektion das beste Ergebnis dar. Für die Daylight 2D-Fingerprints läßt sich erneut keine Beziehung zwischen der Güte der Resultate und der Länge der binären Vektoren ableiten. Die Qualität ihrer Kohonen-Karten bewegt sich im Bereich der mit dem Hydrophobizitätspotential erzielten Projektion.



Abbildung 3.15
: Kohonen-Karten der Oberflächen-Autokorrelationsfunktionen und der 2D-Fingerprints für Assay II.

Neuronen, die mindestens einen Hit enthalten, sind violett, Neuronen, die nur von Nicht-Hits besetzt werden, sind rot und leere Neuronen weiß eingefärbt. Die Kohonen-Netze wurden nach den Parametern aus Tabelle 3.8 trainiert.




Wie bei Assay I, zeigt der Vergleich der Ergebnisse der räumlichen Autokorrelationsfunktionen mit denen der Atom-Radialverteilungsfunktionen, daß die höhere Auflösung der Atom-Radialverteilungsfunktionen für die Daten des Assays II zu keiner Verbesserung der Projektionsergebnisse führt. Während jedoch bei Assay I die besten Resultate mit Hilfe der Autokorrelationsfunktionen der partiellen Atomladungen erzielt werden konnten, sind es bei Assay II die Oberflächen-Autokorrelationsfunktionen zum Potential der Wasserstoffbrücken, die die besten Ergebnisse liefern. Ein solcher Wechsel entspricht genau den Erwartungen, da für verschiedene Moleküleigenschaften, wie das Abschneiden im High-Throughput-Screening für Assay I und II, in der Regel auch unterschiedliche physikochemische Eigenschaften der Verbindungen verantwortlich sein sollten.

Auf einer Silicon Graphics O2-Workstation mit einem R10000-Prozessor und 256MB Arbeitsspeicher variierte die für das Training eines Kohonen-Netzes benötige Rechenzeit, je nach der Größe des Netzes und der Länge des verwendeten Moleküldeskriptors, zwischen 15min und 3h.

Eine 30 Generationen umfassende Optimierung durch einen genetischen Algorithmus benötigte auf einer Workstation mit 600MHz Pentium-III-Prozessor und 256MB Arbeitsspeicher unter Linux2.2 im Mittel 75min Rechenzeit.

3.4.4 Aufbau eines Klassifizierungssystems

Wie die im vorherigen Abschnitt erläuterten Projektionsergebnisse der Datensätze Assay I und Assay II belegen, können in beiden Fällen die Meßwerte des High-Throughput-Screenings mit strukturellen Eigenschaften der Verbindungen in Relation gebracht werden. Da die Kohonen-Karten bisher nur visuell beurteilt werden konnten, kann keine Aussage über das Ausmaß einer solchen Beziehung gemacht werden. Um von der visuellen Begutachtung zu einer quantitativen Abschätzung des Zusammenhangs zwischen Moleküldeskriptoren und Screening-Ergebnissen zu gelangen, wurde untersucht, ob sich auf Basis der in Abschnitt 3.4.2 vorgestellten Deskriptoren und unter Verwendung von Kohonen-Netzwerken, Klassifizierungssysteme für beide Assays ableiten lassen.

Die Aufgabe eines Klassifizierungssystems besteht darin, Muster eines Datensatzes in verschiedene Klassen einzuordnen. Im konkreten Fall heißt dies, das Kohonen-Netz muß aus den vorhandenen Daten lernen, Hits von Nicht-Hits zu unterscheiden. Dabei wird das erlernte Wissen in den Gewichten W des Netzwerkes gespeichert. Der Aufbau eines Klassifizierungssystems für Kohonen-Netze erfolgt in vier Schritten:

  1. Unterteilung der Muster des Datensatzes in Trainings- und Testdatensatz.

  2. Training eines Kohonen-Netzes zum Erlernen der Beziehung zwischen den Eingabemustern des Trainingsdatensatzes.

  3. Definition einer Klassifizierungsregel , mit der nach

(3.23)

beliebige Verbindungen den Klassen zugeordnet werden können.

  1. Beurteilung der Klassifizierungsregel durch Vergleich der vorhergesagten mit der für die Muster des Testdatensatzes bekannten Klasseneigenschaften.

Die Einteilung der Verbindungen von Assay I und Assay II in Trainings- und Testdatensatz wurde zufällig vorgenommen. Als Einschränkung wurde die Bedingung aufgestellt, daß das Verhältnis der Molekülanzahl in den Trainingsdatensätzen zur Molekülanzahl in den Testdatensätzen bei ca. 2:1 liegen sollte. Im gleichen Rahmen bewegte sich das Verhältnis der Anzahl der Hits in den Trainings- und Testdatensätze. Die Zusammensetzung der Datensätze war für alle untersuchten Moleküldeskriptoren identisch. Einen genauen Überblick über die Verhältnisse in den Trainings- und Testdatensätzen gibt Tabelle 3.9.

Tabelle 3.9: Zusammensetzung der Trainings- und Testdatensätze für Assay I und II

Assay

Aufgabe

Anzahl der Hits

Anzahl der Nicht-Hits

gesamt

I

Training

82

1475

1557

I

Test

37

710

747

II

Training

118

3567

3685

II

Test

67

1761

1828


Nach der Gruppierung der Datensätze wurde sowohl für Assay I als auch für Assay II zu jedem Moleküldeskriptor aus Abschnitt 3.4.2 jeweils ein Kohonen-Netzwerk trainiert. Die Größe der Netze wurde so gewählt, daß, verglichen mit den Netzwerken der reinen Projektionen, das Verhältnis von Höhe und Breite des Netzes annähernd konstant blieb. Gleichzeitig wurde die Anzahl der Neuronen so reduziert, daß erneut ca. zwei Verbindungen des Trainingsdatensatzes auf ein Neuron entfielen. Demzufolge entspricht die Anzahl der Moleküle des Testdatensatzes ungefähr der Anzahl der Neuronen der Kohonen-Netze. Die weiteren Netz- und Trainingsparameter sind in Tabelle 3.10 zusammengestellt.

Tabelle 3.10: Netz- und Trainingsparameter für die Klassifizierung von Assay I und II

Parameter

Wert

Netzwerkgröße

32 x 24 Neuronen (Assay I)
48 x 38 Neuronen (Assay II)

Netzwerktopologie

toroidal

Dimension der Neuronen

17, 24, 225, 25, 256, 512, 1024

Anzahl der durchlaufenen Zyklen

100 000

Lernrate zu Beginn

0,8

Lernfaktor

0,95

Spannweiten zu Beginn ,

10

Änderung der Spannweiten ,

0,2

Zyklen konstanter Trainingsparameter

400


Da Kohonen-Netzwerke Vertreter der nicht-überwachten Lernverfahren sind, steht ihnen während des Lernens keine Information über die Klassenzugehörigkeit der einzelnen Eingabemuster zur Verfügung. Um mit Hilfe der Kohonen-Netze Klassifizierungsaufgaben bearbeiten zu können, ist es notwendig, Regeln aus den erhaltenen Projektionen abzuleiten, mit denen beliebige Muster einer Klasse zugeordnet werden können.

Für die Klassifizierung der Verbindungen der Hydantoin-Bibliothek nach dem Abschneiden im High-Throughput-Screening wurden vier verschiedene Klassifizierungsregeln untersucht. Alle Regeln wurden aus der Besetzung der Neuronen des Kohonen-Netzes mit den Verbindungen des Trainingsdatensatzes abgeleitet. Zur Klassifizierung einer Verbindung wird zuerst das Gewinnerneuron zum Moleküldeskriptor bestimmt:

Regel I:
Verbindungen, die in Neuronen fallen, die mehr Hits als Nicht-Hits enthalten, werden als Hits klassifiziert. Sind die Anzahl der Hits und Nicht-Hits im Gewinnerneuron identisch, wird zugunsten der Klasse der Nicht-Hits entschieden.

Regel II:
Fällt der Deskriptor einer Verbindung in ein Neuron, das mehr Hits als Nicht-Hits enthält, oder in ein dazu direkt benachbartes Neuron, wird die Verbindung als Hit klassifiziert. Regel II stellt somit eine Erweiterung von Regel I dar.

Regel III:
Enthält das Gewinnerneuron eines Moleküls mindestens eine Hit-Verbindung, wird auch diese Verbindung der Klasse der Hits zugeordnet.

Regel IV:
In Erweiterung von Regel III wird ein Molekül auch dann als Hit eingestuft, wenn es in ein Neuron fällt, das mindestens eine Hit-Verbindung enthält oder zu einem solchen direkt benachbart ist.

Diese Klassifizierungsregeln sind in Abbildung 3.16 illustriert. Aus der Projektion des Trainingsdatensatzes in die Neuronen eines toroidalen Kohonen-Netzwerkes werden die Regeln I bis IV abgeleitet. Jedem Neuron wird eine Farbe zugeordnet, abhängig davon, in welche Klasse die Verbindungen, die in dieses Neuron fallen, eingestuft werden. Hits werden durch violette, Nicht-Hits durch rote Neuronen identifiziert. Durch die Erweiterung auf die Bereiche der ersten Nachbarschaft werden durch die Regeln II und IV deutlich mehr Verbindungen als Hits charakterisiert als durch die Regeln I und III.


Abbildung 3.16
: Klassifizierungsregeln I bis IV.

Aus der Projektion des Testdatensatzes werden die Klassifizierungsregeln abgeleitet. Verbindungen, die in violette Neuronen fallen, werden als Hits, Verbindungen, die in rote Neuronen fallen, werden als Nicht-Hits klassifiziert. Der direkte Vergleich mit der Projektion des Testdatensatzes gibt Auskunft über das Klassifizierungsvermögen des Netzes. Den Klassifizierungsregeln I bis IV liegen in dieser Darstellung Netzwerke mit toroidaler Topologie zugrunde.





Abbildung 3.16 zeigt weiterhin, wie im letzten Schritt der Ableitung eines Klassifizierungssystems das Klassifizierungsvermögen beurteilt wird. Zu jeder Verbindung des Testdatensatzes wird das Gewinnerneuron ermittelt und die Klassenzugehörigkeit entsprechend den Regeln I bis IV vorhergesagt. Die Anzahl der korrekt vorhergesagten Hits und Nicht-Hits erlaubt eine quantitative Aussage über die Qualität des Systems. Die Anteile der zutreffenden Vorhersagen über die Ergebnisse des High-Throughput-Screenings sind in den Tabellen 3.11 und 3.12 für Assay I und Assay II zusammengefaßt.

Tabelle 3.11: Vorhersagequalität in Abhängigkeit von Moleküldeskriptoren und Klassifizierungsregeln für Assay I. Angaben erfolgen als zutreffende Vorhersagen für Hits / Nicht-Hits in Prozent. Die zugehörigen Kohonen-Netze wurden nach den Parametern aus Tabelle 3.10 trainiert.

Deskriptor

Eigenschaft

Regel I

Regel II

Regel III

Regel IV

konstitutionelle

I

14 / 98

43 / 85

38 / 91

84 / 55

Autokorrelationsfunktionen

5 / 97

30 / 85

24 / 91

86 / 55


24 / 98

54 / 86

62 / 90

89 / 66


11 / 99

57 / 86

41 / 92

95 / 56


16 / 99

49 / 90

46 / 90

89 / 65


0 / 99

24 / 93

54 / 87

97 / 65


22 / 98

54 / 87

49 / 92

92 / 65


30 / 98

70 / 90

68 / 92

89 / 69

räumliche

I

16 / 98

38 / 85

30 / 89

68 / 56

Autokorrelationsfunktionen

5 / 99

19 / 84

41 / 91

78 / 56


24 / 98

70 / 83

57 / 90

92 / 68


19 / 98

49 / 86

59 / 91

92 / 56


16 / 97

59 / 83

43 / 89

95 / 62


3 / 99

51 / 83

62 / 88

95 / 67


14 / 98

59 / 87

38 / 92

86 / 69


27 / 99

57 / 89

51 / 92

84 / 68

Atom-Radialverteilungs-

I

14 / 98

41 / 90

49 / 89

92 / 58

funktionen

11 / 99

24 / 88

57 / 89

89 / 56


14 / 98

62 / 88

54 / 88

92 / 70


27 / 99

57 / 85

62 / 91

95 / 57


11 / 98

32 / 89

51 / 90

86 / 60


14 / 98

43 / 85

68 / 83

86 / 65


19 / 99

46 / 91

49 / 91

92 / 73


22 / 99

54 / 94

68 / 88

89 / 70

Oberflächen-

ESP

8 / 98

30 / 88

32 / 90

86 / 54

Autokorrelationsfunktionen

HBP

11 / 98

41 / 89

62 / 87

86 / 69


HYD

8 / 98

38 / 81

38 / 93

78 / 55

Daylight 2D-Fingerprints

256-dim.

16 / 99

46 / 89

59 / 89

86 / 63


512-dim.

27 / 99

46 / 96

62 / 88

92 / 63


1024-dim.

19 / 99

49 / 95

65 / 87

89 / 65


Tabelle 3.12: Vorhersagequalität in Abhängigkeit von Moleküldeskriptoren und Klassifizierungsregeln für Assay II. Angaben erfolgen als zutreffende Vorhersagen für Hits / Nicht-Hits in Prozent. Die zugehörigen Kohonen-Netze wurden nach den Parametern aus Tabelle 3.10 trainiert.

Deskriptor

Eigenschaft

Regel I

Regel II

Regel III

Regel IV

konstitutionelle

I

10 / 99

34 / 94

43 / 96

82 / 76

Autokorrelationsfunktionen

3 / 99

42 / 91

22 / 96

79 / 73


19 / 99

46 / 91

52 / 95

76 / 79


10 / 99

39 / 93

46 / 94

79 / 75


4 / 99

22 / 89

28 / 94

78 / 70


21 / 99

55 / 96

46 / 88

88 / 73


19 / 99

43 / 93

55 / 96

81 / 80


19 / 99

61 / 92

55 / 96

87 / 83

räumliche

I

27 /100

61 / 90

37 / 96

84 / 77

Autokorrelationsfunktionen

16 / 99

49 / 88

37 / 95

81 / 76


18 / 99

43 / 90

52 / 95

78 / 75


16 / 99

42 / 89

48 / 95

78 / 75


15 /100

57 / 94

37 / 95

79 / 77


21 / 99

48 / 92

46 / 92

81 / 72


22 / 99

69 / 92

51 / 96

88 / 81


16 / 99

70 / 93

48 / 96

90 / 84

Atom-Radialverteilungs-

I

10 / 99

42 / 93

57 / 94

91 / 78

funktionen

19 / 99

42 / 91

48 / 93

88 / 72


13 / 99

42 / 95

70 / 91

87 / 76


12 / 99

37 / 93

57 / 94

82 / 75


27 /100

45 / 94

63 / 93

88 / 76


18 / 99

40 / 97

58 / 87

82 / 75


28 / 99

64 / 91

69 / 94

91 / 82


24 / 99

60 / 93

60 / 95

90 / 83

Oberflächen-

ESP

6 / 99

21 / 91

25 / 94

72 / 64

Autokorrelationsfunktionen

HBP

21 / 99

63 / 96

66 / 96

96 / 92


HYD

9 / 99

33 / 92

36 / 95

87 / 75

Daylight 2D-Fingerprints

256-dim.

9 /100

30 / 95

45 / 89

81 / 72


512-dim.

13 / 99

33 / 95

54 / 90

85 / 73


1024-dim.

15 /100

31 / 97

46 / 89

84 / 71


Durch die geringe Anzahl der Neuronen, die nach der Klassifizierungsregel I Verbindungen in die Gruppe der potentiellen Hits einordnen, werden sowohl für Assay I als auch für Assay II ein Großteil der Nicht-Hits des Testdatensatzes korrekt identifiziert. Gleichzeitig wird nur ein geringer Anteil der Hit-Verbindungen erkannt. So werden für Assay I mit dem Deskriptor der konstitutionellen Autokorrelationsfunktionen zur Atomeigenschaft zwar 99% der Nicht-Hits, aber 0% der Hits zutreffend klassifiziert. Für Assay II ergibt sich ein ähnliches Bild. Bis zu 100% der Nicht-Hits werden erkannt, während im geringsten Fall nur 3% der Hits wiedergefunden werden. Die Erweiterung der Gebiete im Kohonen-Netz, die Verbindungen als Hits bewerten, um die Neuronen der ersten Nachbarschaft bewirkt, daß mit Hilfe der Klassifizierungsregel II bereits eine deutlich bessere Unterscheidung zwischen Hits und Nicht-Hits vorgenommen werden kann. Für beide Assays führt die Verwendung der Atomeigenschaft zu den besten Ergebnissen. Mit den konstitutionellen Autokorrelationsfunktionen werden 70% der Hits im Testdatensatz von Assay I und 90% der Nicht-Hits richtig identifiziert. Für Assay II sind es die räumlichen Autokorrelationsfunktionen, mit denen 70% der Hits und 93% der Nicht-Hits wiedergefunden werden können. In der Klassifizierungsregel III wird im Vergleich zur Regel I die Anzahl der Neuronen, die Verbindungen als Hits klassifizieren, nicht durch die Berücksichtigung der ersten Nachbarschaftssphäre vergrößert, sondern dadurch, daß nur eine Hit-Verbindung des Trainingsdatensatzes in einem solchen Neuron liegen muß. So können für beide Assays Ergebnisse erzielt werden, die mit denen nach Regel II vergleichbar sind. Im Falle des Assays I sind es erneut die konstitutionellen Autokorrelationsfunktionen zur Eigenschaft , mit denen 68% der Hits und 92% der Nicht-Hits ordnungsgemäß beurteilt werden. Beim Assay II sind die Atom-Radialverteilungsfunktionen zur Ladung und die Oberflächen-Autokorrelationsfunktionen zum Potential HBP hervorzuheben. Mit ihnen werden 69% bzw. 66% der Hits und 94% bzw. 96% der Nicht-Hits des Testdatensatzes identifiziert. Die zusätzliche Einbeziehung der Neuronen der ersten Nachbarschaft führt zu einer weiteren Anhebung der Anteile der erkannten Hits auf Kosten der Nicht-Hits. Einen besonderen Beleg hierfür geben die konstitutionellen Autokorrelationsfunktionen zur Eigenschaft . Liegt, wie erläutert, der Anteil der korrekt eingestuften Hits für das Assay I unter Anwendung der Klassifizierungsregel I bei 0%, kann er mit Regel IV auf 97% gesteigert werden. Gleichzeitig sinkt der Anteil der wiedergefundenen Nicht-Hits von 99% auf 65%. Für das Assay II nehmen die Oberflächen-Autokorrelationsfunktionen zum Potential der Wasserstoffbrücken (HBP) eine Ausnahmestellung ein. Mit 96% richtig erkannter Hits bei 92% identifizierter Nicht-Hits stellt dieses System das beste abgeleitete Klassifizierungsmodell dar.

Die auf der Grundlage der Klassifizierungsregeln III und IV erzielten Ergebnisse stehen im Einklang mit der visuellen Beurteilung der Projektionen der gesamten Hydantoin-Bibliothek aus Abschnitt 3.4.3. Für das Assay I können die mit atombasierten Deskriptoren abgeleiteten Modelle am besten zwischen Hit und Nicht-Hits unterscheiden, wobei die Ladungen , und

sowie die Elektronegativität zu den besten Resultaten führen. Die mit Oberflächen-Autokorrelationsfunktionen und Daylight 2D-Fingerprints erzeugten Klassifizierungssysteme weisen eine ähnliche Qualität auf, die jedoch deutlich unterhalb der Systeme der atombasierten Deskriptoren liegt. Für das Assay II schneiden bei den atombasierten Deskriptoren erneut die partiellen Ladungen sowie die Identität I besser ab als die übrigen Atomeigenschaften, deren Modelle sich mit denen der 2D-Fingerprints vergleichen lassen. Innerhalb der Oberflächen-Autokorrelationsfunktionen wird erneut die Abstufung nach physikochemischen Oberflächeneigenschaften gefunden. Das deutlich beste Ergebnis liefert das Potential der Wasserstoffbrücken HBP, gefolgt von der Hydrophobizität HYD. Das elektrostatische Potential ESP schneidet am schlechtesten ab.

Mit den vorgestellten Regeln können für die Klassifizierung der Verbindungen der Hydantoin-Bibliothek gegensätzliche Strategien verfolgt werden. Einerseits ist es mit den Regeln II und III möglich, den Anteil der korrekt identifizierten Nicht-Hits zu optimieren und gleichzeitig gute Ergebnisse für die Beurteilung der Hits zu erhalten. Andererseits erlaubt die Regel IV, das Augenmerk auf die Identifizierung der Hits zu richten. Da dieses Ziel in der vorliegenden Studie verfolgt wurde, wurde für das Assay I das System mit der größten Erkennungsrate der Hits zum besten Modell erklärt, ungeachtet des Anteils der erkannten Nicht-Hits. Abbildung 3.17 zeigt das mit konstitutionellen Autokorrelationsfunktionen zur Eigenschaft abgeleitete Klassifizierungssystem für Assay I. Nach Regel IV wurde aus der Projektion des Trainingsdatensatzes die Klassifizierungsregel abgeleitet, die in Form einer Kohonen-Karte dargestellt ist. Der Vergleich dieser Karte mit der Karte zur Projektion des Testdatensatzes zeigt, daß der Großteil der Hit-Verbindungen, aber auch einige Nicht-Hits in das violette Gebiet fallen, in dem alle Verbindungen als Hits eingestuft werden.



Abbildung 3.17
: Klassifizierungssystem des Assays I .

Aus der Projektion des Trainingsdatensatzes wird die Klassifizierungsregel abgeleitet, mit deren Hilfe die Eigenschaften der Verbindungen des Testdatensatzes vorhergesagt werden. Als Deskriptoren werden konstitutionellen Autokorrelationsfunktionen zur partiellen Ladung eingesetzt. Das zugehörige Kohonen-Netz wurde nach den Parametern aus Tabelle 3.10 trainiert.




Für das Assay II ist die Wahl des besten Klassifizierungsmodells eindeutig. Unter der Prämisse, möglichst viele Hit-Verbindungen wiederzufinden, kann kein anderes System an das Modell des Potentials der Wasserstoffbrücken heranreichen, das in Abbildung 3.18 dargestellt ist. Verglichen mit der Klassifizierungsregel des Assays I besitzt die hier dargestellte Klassifizierungsregel des Systems ein in Relation zur Netzgröße deutlich kleineres Gebiet violetter Neuronen. Dies ist der Grund für die hohe Genauigkeit des Klassifizierungssystems bei der Identifizierung der Nicht-Hits im Testdatensatz. Weiterhin ist die große Ähnlichkeit zwischen den Kohonen-Karten des Trainings- und des Testdatensatzes auffällig. In beiden Karten formieren sich die violetten Neuronen zu einer annähernd identischen Gestalt. Aufgrund der unterschiedlichen Anzahl der Eingabemuster in Trainings- und Testdatensatz weist die Kohonen-Karte des Testdatensatzes eine geringe Dichte an besetzten Neuronen auf.



Abbildung 3.18
:Klassifizierungssystem des Assays II.

Aus der Projektion des Trainingsdatensatzes wird die Klassifizierungsregel abgeleitet, mit deren Hilfe die Eigenschaften der Verbindungen des Testdatensatzes vorhergesagt werden. Als Deskriptoren werden Oberflächen-Autokorrelationsfunktionen zum Potential der Wasserstoffbrücken (HBP) eingesetzt. Das zugehörige Kohonen-Netz wurde nach den Parametern aus Tabelle 3.10 trainiert.




Ein weiteres Maß zur Beurteilung der Klassifizierungssysteme ist der Anreicherungsfaktor . Er setzt die Gruppe der als Hits ausgewählten Verbindungen in Beziehung zur Zusammensetzung des Testdatensatzes. Aus der Anzahl der Hits und Nicht-Hits der Auswahl und der Anzahl der Hits und Nicht-Hits des Testdatensatzes wird der Anreicherungsfaktor nach

(3.24)

als Quotient aus der anteiligen Zusammensetzung der Auswahl und des Testdatensatzes berechnet. Dieser Quotient kann durch Verwendung des Anteils der korrekt identifizierten Hits des Testdatensatzes und des Anteils der als Hits eingestuften Nicht-Hits vereinfacht werden. Der zweite Term aus Gleichung (3.24) zeigt, daß der Anreicherungsfaktor nicht von der absoluten Anzahl der korrekt erkannten Verbindungen, sondern nur noch von der relativen Zusammensetzung der Auswahl abhängt. Damit sind Fälle denkbar, in denen ein hoher Anreicherungsfaktor erzielt wird, obwohl der Anteil der erkannten Hits klein ist. Aus diesem Grund sollte der Anreicherungsfaktor nur eingesetzt werden, wenn die Anzahl der zutreffend eingeordneten Hits annähernd mit der Anzahl der Hit-Verbindungen im Testdatensatz übereinstimmt.

Für die beiden abgeleiteten Klassifizierungssysteme der Assays I und II ist diese Voraussetzung erfüllt. Aus den Werten der Tabelle 3.11 ergibt sich für Assay I mit der Klassifizierungsregel IV ein Anreicherungsfaktor von . Im Falle des Assays II ist das Klassifizierungsvermögen deutlich ausgeprägter. Mit Hilfe der Oberflächen-Autokorrelationsfunktionen zum Potential der Wasserstoffbrücken wird ein Anreicherungsfaktor von erreicht. Das zum Klassifizierungssystem gehörende Kohonen-Netzwerk kann in diesem Fall als eine mathematische Formulierung der Beziehung zwischen Molekülstruktur und dem Resultat des High-Throughput-Screenings interpretiert werden. Ein Ergebnis dieser Güte ist um so erstaunlicher, wenn man berücksichtigt, daß Schwankungen in der Größenordnung von zehn Prozentpunkten im High-Throughput-Screening keine Ausnahme darstellen.[55] Hinzu kommt die Dominanz der Nicht-Hits in der Hydantoin-Bibliothek. Würde man jede Verbindung des Testdatensatzes als Nicht-Hit klassifizieren, wären 96% der Fälle korrekt vorhergesagt. Im abgeleiteten System sinkt diese Zahl nur leicht auf 92%, während 96% der Hit-Verbindungen des Testdatensatzes auch als solche erkannt werden.

3.4.5 Anwendungen des Klassifizierungssystems

Im vorherigen Abschnitt konnte für den Datensatz Assay II die Beziehung zwischen Struktur und Screening-Ergebnis der Verbindungen über die Oberflächen-Autokorrelationsfunktionen des Potentials der Wasserstoffbrücken-Bindungen abgeleitet werden. Auf der Grundlage dieser Beziehung wurden die im folgenden beschriebenen Fragestellungen untersucht.

3.4.5.1 Konzentrationsabhängigkeit der Screening-Ergebnisse

Die Konzentration der Testsubstanzen beeinflußt sowohl die experimentelle Gestaltung als auch die Meßergebnisse des High-Throughput-Screenings. Oftmals kann eine zu hohe Soll-Konzentration aufgrund von Löslichkeitsproblemen nicht für alle Verbindungen einer Bibliothek erreicht werden. Auf der anderen Seite muß bei einer geringeren Konzentration der Schwellenwert für die Einstufung als Hit nach oben verschoben werden, um die gleiche Anzahl an Hits zu erzielen, die ein Screening bei höherer Konzentration liefern würde. Damit ist jedoch die Gefahr verbunden, zuviele Moleküle als Hits einzustufen, die sich in nachfolgenden Untersuchungen als Nicht-Hits herausstellen.

Das Klassifizierungssystem von Assay II wurde mit Screening-Daten abgeleitet, die bei einer Konzentration von 25mg/ml gemessen wurden. Daneben standen für 5377 Verbindungen der Hydantoin-Bibliothek auch Meßergebnisse bei einer Konzentration von 5mg/ml zur Verfügung. Für diese Moleküle wurde untersucht, wie weit der Schwellenwert für die Einordnung als Hit angehoben werden kann, ohne die gefundene Struktur-Wirkungsbeziehung zu verlieren und zuviele Nicht-Hits falsch zu klassifizieren. Dazu wurde das Kohonen-Netzwerk, das bei der Projektion der gesamten Verbindungsbibliothek mit Oberflächen-Autokorrelationsfunktionen zum Potential der Wasserstoffbrücken trainiert wurde, als Basis herangezogen. In diesem Netzwerk wurde zu jeder der 5377 Verbindungen das Gewinnerneuron ermittelt. Wie Abbildung 3.19 zeigt, wurden aus der Besetzung des Netzes Klassifizierungsregeln abgeleitet, wobei der Schwellenwert zur Identifizierung von Hit-Verbindungen stufenweise um fünf Prozentpunkte angehoben wurde. Der Vergleich mit der Kohonen-Karte der ursprünglichen Projektion zeigt, daß bis zu einem Schwellenwert von 60% die Anordnung der Hit-Verbindungen nachgebildet wird. Bei einem Grenzwert von 65% kommt die erste Gruppe von Hit-Neuronen hinzu, die sich in der Referenz-Karte nicht wiederfinden läßt. Mit zunehmendem Schwellenwert wächst die Anzahl der Neuronen, die Verbindungen als Hits einstufen, wobei die Struktur-Wirkungsbeziehung, erkennbar an der zentralen Gruppierung der Hit-Neuronen, immer mehr an Qualität einbüßt.



Abbildung 3.19
: Klassifizierungsregeln für Assay II bei einer Konzentration von 5mg/ml.

Für verschiedene Schwellenwerte der Hit-Einstufung (in %) sind die Klassifizierungskarten der Kohonen-Karte der Projektion bei 25mg/ml Screening-Konzentration als Referenz gegenübergestellt. Das zugehörige Kohonen-Netz wurde nach den Parametern aus Tabelle 3.8 trainiert.




Die abgebildeten Klassifizierungsregeln wurden auf den Datensatz von 5513 Verbindungen angewandt, mit dem das Netzwerk ursprünglich trainiert worden war. Dabei wurde ermittelt, wieviele der bei 25mg/ml gemessenen Screening-Ergebnisse korrekt vorhergesagt werden konnten. Abbildung 3.20 zeigt die Abhängigkeit der Anteile der zutreffenden Klassifizierungen von der Lage des Schwellenwertes. Durch die wachsende Anzahl der Neuronen, die die Verbindungen als Hits einstufen, steigt der Anteil der korrekt vorhergesagten Hits kontinuierlich mit einem höheren Schwellenwert an. Im Bereich von 50% bis 70% liegt der Anteil der erkannten Nicht-Hits bei 99%. Dieser Wert nimmt immer stärker ab, je größer der Grenzwert für die Hit-Einstufung wird. Die Kurve des Anteils der korrekten Einstufungen, unabhängig davon, ob es sich bei einer Verbindung um einen Hit oder einen Nicht-Hit handelt, durchläuft bei einem Schwellenwert von 90% ein Maximum. An dieser Stelle wird für nur 61% der Verbindungen des Datensatzes das Screening-Ergebnis bei 25mg/ml korrekt vorhergesagt.



Abbildung 3.20
: Klassifizierungsverhalten in Abhängigkeit vom Schwellenwert der Hit-Einstufung.

Für die Verbindungen von Assay II ist neben den Kurvenverläufen der Hits und Nicht-Hits auch die Abhängigkeit des Anteils der zutreffenden Vorhersagen ohne Berücksichtigung der Klassenzugehörigkeit aufgetragen (gesamt).




Diese Untersuchung belegt, daß sich die Ergebnisse eines High-Throughput-Screenings bei einer höheren Konzentration nicht ohne weiteres aus den Ergebnissen des Screenings bei einer niedrigeren Konzentration simulieren lassen. Im vorliegenden Fall sollte ein Schwellenwert für die Einstufung als Hit zwischen 70% und 80% gewählt werden, da auf diese Weise nur wenige Nicht-Hits als Hits betrachtet werden. Gleichzeitig können so zwischen 45% und 61% der Hits des Experiments bei 25mg/ml wiedergefunden werden. Darüber hinaus deuten die als Kohonen-Karten dargestellten Klassifizierungsregeln an, daß für diesen Bereich die Struktur-Wirkungsbeziehung erhalten bleibt.

3.4.5.2 Übertragbarkeit des Klassifizierungssystems

Die Tatsache, daß das Klassifizierungssystem für das Assay II anhand einer kombinatorischen Bibliothek erstellt wurde, wirft die Frage auf, ob das Modell auf Verbindungen übertragen werden kann, die sich strukturell stark von den Molekülen dieser Bibliothek unterscheiden. Zur Untersuchung dieser Fragestellung stellte die Firma Boehringer Ingelheim einen weiteren Datensatz zur Verfügung, der aus insgesamt 3319 Verbindungen bestand, die kein Hydantoin-Grundgerüst enthielten. Von allen Verbindungen war bekannt, daß sie im High-Throughput-Screening im Assay II als Hits aufgetreten sind. Im folgenden wird dieser Datensatz mit Assay IIa bezeichnet.

Für die Verbindungen des Datensatzes Assay IIa wurden Oberflächen-Autokorrelationsfunktionen zum Potential der Wasserstoffbrücken nach der in Abschnitt 3.4.2 beschriebenen Vorgehensweise berechnet. Auf dieser Basis konnte bestimmt werden, wieviele Verbindungen durch das abgeleitete Klassifizierungsmodell als Hits erkannt wurden. In Abbildung 3.21 sind die Klassifizierungsregel und die Kohonen-Karte der Projektion von Assay IIa einander gegenübergestellt. Die Kohonen-Karte zeigt deutlich, daß die Verbindungen des Assays IIa über das gesamte Netzwerk verteilt sind. Über die Klassifizierungsregel können nur 17% der Verbindungen als Hits eingeordnet werden.



Abbildung 3.21: Klassifizierung des Assay IIa.

Die Kohonen-Karte der Projektion von Assay IIa zeigt, daß viele Verbindungen in Neuronen außerhalb des violetten Gebiets der Klassifizierungsregel liegen und somit als Nicht-Hits eingestuft werden. Das zugehörige Kohonen-Netz wurde nach den Parametern aus Tabelle 3.10 trainiert.




Dieses Ergebnis entspricht durchaus den Erwartungen. Neuronale Netze, wie die Kohonen-Netzwerke, sind für die Bearbeitung von Interpolationsaufgaben ausgelegt. Der Datensatz, an dem das neuronale Netz während des Trainings sein Wissen ableitet, bestimmt gleichzeitig den Gültigkeitsbereich, in dem ein Muster liegen muß, damit das Netz zu einer sinnvollen Aussage kommen kann. Im Fall des abgeleiteten Klassifizierungssystems wurden die Verbindungen durch Autokorrelationsfunktionen beschrieben, die die gesamte Molekülstruktur der Verbindungen kodieren. Für das Abschneiden im High-Throughput-Screening sind aber sicherlich einzelne Elemente, nicht die gesamte Struktur verantwortlich. Für die Verbindungen der Hydantoin-Bibliothek stellt diese Teilinformation einen signifikanten Beitrag zum Moleküldeskriptor dar. Dagegen wird diese Information bei einem Großteil der Verbindungen von Assay IIa aufgrund der höheren strukturellen Diversität von zusätzlicher Information überlagert. Damit können Hits dieses Datensatzes durch das Klassifizierungssystem nicht mehr identifiziert werden.





[14]Gasteiger, J.; Li, X. Mapping the Electrostatic Potential of Muscarinic and Nicotinic Agonists with Artificial Neural Networks. Angew. Chem. Int. Ed. Engl. 1994, 33, 643-646, Angew. Chem. 1994, 106, 671-674.

[15]Holzgrabe, U.; Wagener, M.; Gasteiger, J. Comparison of Structurally Different Allosteric Modulators of Muscarinic Receptors by Self-organizing Neural Networks. J. Mol. Graphics 1996, 14, 185-221.

[16]Bauknecht, H.; Zell, A.; Bayer, H.; Levi, P.; Wagener, M.; Sadowski, J.; Gasteiger, J. Locating Biologically Active Compounds in Medium-sized Heterogeneous Datasets by Topological Autocorrelation Vectors. J. Chem. Inf. Compu. Sci. 1996, 36, 1205-1213.

[17]Sadowski, J.; Wagener, M.; Gasteiger, J. Assessing Similarity and Diversity of Combinatorial Libraries by Spatial Autocorrelation Funcions and Neural Networks. Angew. Chem. Int. Ed. Engl. 1995, 34, 2674-2677, Angew. Chem. 1995, 107, 2892-2985.

[18]Kernighan, B. W.; Ritchie, D. M. Programmieren in C. 2. Ausgabe; Carl Hanser Verlag: München, 1990.

[19]Ousterhout, J. K. Tcl and the Tk Toolkit. Addison-Wesley Publishing Company: Reading, MS, 1984.

[20]Ihlenfeldt, W.-D.; Takahashi, Y.; Abe, H.; Sasaki, S. Computation and Management of Chemical Properties in CACTVS: An Extensible Networked Approach toward Modularity and Compatibility. J. Chem. Inf. Comput. Sci. 1994, 34, 109-116.

[21]Kohonen, T.; Kangas, J.; Laaksonen, J. SOM-PAK, The Self-Organizing Map Program Package, Version 3.1, Helsinki University of Technology, 1995, http://ww.cis.hut.fi/research/som_pak.

[22]SNNS, Version 4.0, Zell, A., Stuttgarter-Neuronale-Netze-Simulator. Universität Stuttgart, 1995, ftp://ftp.informatik.uni-stuttgart.de/pub/SNNS.

[23]Zupan, J.; Novic, M.; Gasteiger, J. Neural Networks with Counterpropagation Learning Strategy Used for Modelling, Chemom. and Intell. Lab. Syst. 1995, 27, 175-187.

[24]Hecht-Nielsen, R. Counterpropagation networks. In Proceedings of the IEEE First International Conference on Neural Networks; Vol. 2; Caudill, M.; Butler, C., Eds.; San Diego, CA, 1988, 19-32.

[25]Grossberg, S. Adaptive Pattern Classification and Universal Pattern Recognition: I. Parallel Development and Coding of Neural Feature Detectors, Biol. Cybern. 1976, 23, 121-134.

[26]Schuur, J.; Gasteiger, J. Infrared Spectra Simulation of Substituted Benzene Derivatives on the Basis of a 3D Structure Representation, Anal. Chem. 1997, 69, 2398-2405.

[27]Barnard, J. M. Structure Representation. In Encyclopedia of Computational Chemistry; Schleyer, P. v. R.; Allinger, N. L.; Clark, T.; Gasteiger, J.; Kollman, P. A.; Schaefer, III, H. F.; Schreiner, P. R., Eds.; John Wiley & Sons, Inc.: Chichester, UK, 1998, 2818-2826.

[28]Daylight Chemical Information Systems, Inc., 27401 Los Altos, Mission Viejo, CA 92691, USA, http://www.daylight.com.

[29]Brown, R. D.; Martin, Y. C. Use of Structure-Activity Data to Compare Structure-Based Clustering Methods and Descriptors for Use in Compound Selection. J. Chem. Inf. Comput. Sci. 1996, 36, 572-584.

[30]Downs, G. M.; Willett, P. Similarity Searching and Clustering of Chemical-Structure Databases Using Molecular Property Data. J. Chem. Inf. Comput. Sci. 1994, 34, 1094-1102.

[31]Moreau, G.; Broto, P. Autocorrelation of Moelecular Structures. Nouv. J. Chim. 1980, 4, 757-764.

[32]Wagener, M.; Sadowski, J.; Gasteiger, J. Autocorrelation of Molecular Surface Properties for Modeling Corticosteroid Binding Globulin and Cytosolic Ah Receptor Activity by Neural Networks. J. Am. Chem. Soc. 1995, 117, 7769-7775.

[33]AUTOCORR, Version 1.0, Sadowski, J; Gasteiger, J., Universität Erlangen-Nürnberg.

[34]PETRA, Marsili, M; Saller, H.; Hutchings, M. G.; Fröhlich, A.; Gasteiger, J., Universität Erlangen-Nürnberg, 1995.

[35]Gasteiger, J.; Marsili, M. Iterative Partial Equalization of Oribital Electronegativity - A Rapid Access to Atomic Charges. Tetrahedron 1980, 36, 3219-3228.

[36]Hutchings, M. G.; Gasteiger, J. Residual Electronegativity - An Empirical Quantification of Polar Influences and its Application to the Proton Affinity of Amines. Tetrahedron Lett., 1983, 24, 2541-2544.

[37]Gasteiger, J.; Saller, H. Calculation of Charge Distribution in Conjugated Systems by a Quantification of the Resonance Concept. Angew. Chem. Int. Ed. Engl. 1985, 24, 687-689, Angew. Chem. 1985, 97, 699-701.

[38]Gasteiger, J.; Hutchings, M. G. Quantification of Effective Polarisability. Apptication to Studies of X-Ray Photoelectron Spectroscopy and Alkylamine Protonation. J. Chem. Soc. Perkin Trans. 1984, 2, 559-564.

[39]SURFACE, Version 1.0, Sadowski, J; Gasteiger, J., Universität Erlangen-Nürnberg, 1994.

[40]Connolly, M. L. Analytical molecular surface calculation. J. Appl. Crystallogr. 1983, 16, 548-558.

[41]Gerthsen, C.; Kneser, H. O.; Vogel, H. Physik. 16. Auflage; Springer-Verlag: Berlin, 1992, 274.

[42]Vedani, A.; Huhta, D. W. A New Force Field for Modeling Metalloproteins. J. Am. Chem. Soc. 1990, 112, 4759-4762.

[43]Heiden, W.; Moeckel, G.; Brickmann, J. A new approach to analysis and display of local lipophilicity/hydrophilicity mapped on molecular durfaces. J. Comp.-Aided. Mol. Design 1993, 7, 503-514.

[44]Steinhauer, L.; Steinhauer, V.; Gasteiger, J. Obtaining the 3D Structure of Infrared Spectra of Organic Compounds Using Neural Networks. In Software Development in Chemistry, Vol. 10; Gasteiger, J., Ed.; Gesellschaft Deutscher Chemiker: Frankfurt, 1996, 315-322.

[45]Gasteiger, J.; Schuur, J.; Selzer, P.; Steinhauer, L.; Steinhauer, V. Finding the 3D Structure of a Molecule in its IR Spectrum. Fresenius J. Anal. Chem. 1997, 359, 50-55.

[46]Hemmer, M. C.; Steinhauer, V.; Gasteiger, J. Deriving the 3D structure of organic molecules from their infrared spectra. Vibrational Spectroscopy 1999, 19, 151-164.

[47]ARC, Version 1.1, Hemmer, M. C.; Gasteiger, J., Universität Erlangen-Nürnberg, 1998.

[48]Otto, M. Chemometrie - Statistik und Computereinsatz in der Analytik. VCH Verlagsgesellschaft: Weinheim, 1997, 138.

[49]Dayhoff, J. Neural Network Architectures. Van Nostrand Reinhold: New York, 1990, 198-203.

[50]Box, G. E. P.; Hunter, W. G.; Hunter J. S. Statistics for Experimenters. John Wiley & Sons: New York, 1978, 48.

[51]CORINA, Version 2.4, Sadowski, J; Schwab, C. H.; Gasteiger, J., Universität Erlangen-Nürnberg, 1998.

[52]Gasteiger, J.; Rudolph, C.; Sadowski, J. Automatic Generation of 3D-Atomic Coordinates for Organic Molecules. Tetrahedron Comput. Method. 1992, 3, 537-547.

[53]Gasteiger, J.; Sadowski, J. From Atoms and Bonds to Three-Dimensional Atomic Coordinates: Automatic Model Builders. Chem. Rev. 1993, 93, 2576-2581.

[54]Sadowski, J.; Gasteiger, J.; Klebe, G. Comparison of Automatic Three-Dimensional Model-Builders Using 639 X-Ray Structures. J. Chem. Inf. Comput. Sci. 1994, 34, 1000-1008.

[55]Köppen, H., Persönliche Mitteilung, Boehringer Ingelheim Pharma KG, 1998.





Konvertiert vom Dissertationen Online Team im CCC der Univ. Erlangen
dissertationen@ccc.chemie.uni-erlangen.de Yoobay.NET Count