Vorige Seite Kapitelanfang Vorige Seite Nächste Seite Nächstes Kapitel
VERN Home navigation
 
Chemoinformatik
Einführung in die Chemoinformatik
Repräsentation chemischer Strukturen
Repräsentation chemischer Reaktionen
Datentypen/Datenformate
Datenbanken/Datenquellen
Suchmethoden
Deskriptoren für chemische Verbindungen
Methoden zur Datenanalyse
Anwendungen
Einführung
Struktur-Eigenschafts-Beziehung
Strukturaufklärung
Spektrensimulationen
Einführung
Strukturcodierung
Netz-Training
Spektrensimulation
  Strukturvorhersage
Literatur
Syntheseplanung
Reaktionsvorhersage und Reaktionsdatenbanksysteme
Drug Design

Startseite

Strukturvorhersage

Ein CPG-Netzwerk kann auch umgekehrt arbeiten, was die Vorhersage eines Strukturcodes ermöglicht. Die Eingabe eines Anfragespektrums in ein trainiertes CPG-Netzwerk liefert einen Strukturcode-Vektor, der die radiale Verteilungsfunktion mit diskreten Werten von g(r) darstellt. Dieser RDF-Code muß dann entschlüsselt werden, um die kartesischen Koordinaten einer 3D-Struktur zu liefern. De facto wird, in unüberwachtem Training, nur das IR-Spektrum verwendet um das zentrale Neuron festzustellen, während die Feineinstellung des Gewichtes des IR-Spektrums und des Strukturcodes berücksichtigt wird.

Strukturvorhersage aus einem Spektrum

Strukturvorhersage aus einem Spektrum

Um das CPG-Netzwerk zu trainieren wird eine IR-Spektren-Datenbank (die SpecInfo-Datenbank von ChemicalConcepts enthält ca. 13.500 IR-Spektren) nach den 50 Spektren durchsucht, die die größte Übereinstimmung mit dem Anfragespektrum, aus dem die Struktur abgeleitet werden soll, haben. Die Ähnlichkeit von IR-Spektren wird mit Hilfe des Korrelationskoeffizienten zwischen dem Spektrum aus der Datenbank und dem Anfragespektrum ermittelt. Die Datenbank enthält sowohl das IR-Spektrum als auch die Bindungsliste des Moleküles. In einem zweiten Schritt werden die 3D-Modelle des Moleküls mit einem Strukturgenerator auf der Basis der Ähnlichkeit ihrer IR-Spektren, aus der Bindungsliste erzeugt. Nachdem die physikochemischen Atomeigenschaften berechnet wurden, werden die 3D-Modelle in diskrete Werte ihrer radialen Verteilungsfunktion umgewandelt. Ein CPG-Netzwerk wird mit den ausgewählten Strukturen in Form ihres RDF-Codes und des IR-Spektrums trainiert. Das Anfragespektrum wird in das CPG-Netzwerk eingegeben. Der Strukturcode des "Winning Neuron" ist der Ausgabewert. Strukturcodes, die dem Strukturcode aus dem zentralen Neurons des CPG-Netzwerkes, ähnlich sind, werden in einer dazugehörigen Datenbank der 3D-Modelle gesucht. Der ähnlichste Strukturcode stellt das Startmodell dar. Dieses Model wird solange durch Veränderung der Molekülstruktur manipuliert, bis dessen radiale Verteilungsfunktion mit der aus dem CPG-Netzwerk am besten übereinstimmt.

Umwandlung der radialen Verteilungsfunktion

Die Umwandlung der radialen Verteilungsfunktion (RDF) aus dem CPG-Netzwerk in eine 3D-Struktur beginnt mit der Durchsuchung einer Datenbank nach einem Molekül mit einem RDF-Code, der dem aus dem CPG-Netzwerk möglichst ähnlich ist. Dieses Molekül ist das Startmodell. Zu diesem Zweck werden die Moleküle, die in der Datenbank des National Cancer Institute (NCI) (mehr als 126.000 Strukturen) zu finden sind, als Basis für einen Datensatz aus RDF-Codes und 3D-Strukturen verwendet. Die Bindungsliste aus der NCI-Datenbank wurden mit dem 3D-Strukturgenerator CORINA in dreidimensionale Koordinaten konvertiert. Aus den Bindungslisten konnten 99,7% erfolgreich in die 3D-Struktur umgewandelt werden. Aufgrund der Tatsache, daß die NCI-Datenbank keine stereochemischen Informationen enthält, kann das von CORINA erzeugte 3D-Modell nicht immer mit der wirklichen 3D-Struktur übereinstimmen. Ohne verfügbare stereochemische Information muss CORINA Annahmen machen, die dem Konfigurations- und Konformationsenergieminimum nahekommen. Falls mehrere Konfigurationen und Konformationen niedriger Energie existieren, könnte die willkürliche Annahme die Stereochemie des Moleküls nicht exakt wiedergeben.

Entschlüsselung eines RDF Codes

Entschlüsselung eines RDF Codes

Der RDF-Code aus dem CPG-Netzwerk wird mit dem, vorher berechneten, RDF-Code des Moleküls aus der Datenbank verglichen. Der Strukturcode wird ohne Berücksichtigung der Wasserstoffatome erzeugt, die nach dem Konvertierungsprozess implizit wieder hinzugefügt werden können. Jedoch werden die Positionen der Wasserstoffatome gespeichert und später als mögliche Positionen für andere Atome verwendet. Es können verschiedene Ähnlichkeitskriterien für den RDF-Code ausgewählt werden: Der mittlere quadratische Fehler, der Korrelationskoeffizient nach Pearson (R), und die Unterschiede in der Anzahl und Position von Maxima und Minima zweier RDF-Codes. Die Position der Peaks sind wichtige Informationen des RDF-Codes. Zwei RDF-Codes, die dieselben Positionen der Peaks zeigen, müssen die gleichen Abstände im Molekül haben und deshalb eine ähnliche Grundstruktur. Die Unterschiede der RDF-Codes können dann Unterschieden in den atomaren Eigenschaften zugerechnet werden. Durch Verwendung atomarer Eigenschaften, die nicht von der chemischen Umgebung abhängen, wird diese Art des Vergleichens sehr nützlich für Startmodelle, die ähnliche Grundgerüste besitzen und die dann durch Veränderund der Atome und Verdrehungen optimiert werden können. Das ausgesuchte Startmodell und das Ähnlichkeitskriterium für den RDF-Code legen die Optimierungsstrategie fest.


© Prof. Dr. J. Gasteiger, Dr. Th. Engel, CCC Univ. Erlangen, Wed Jun 9 12:55:24 2004 GMT
navigation BMBF-Leitprojekt Vernetztes Studium - Chemie