[Top] [Prev] [Next] [Bottom]
Diese Arbeit ist Teil der Dissertationen unter http://www2.chemie.uni-erlangen.de/services/dissonline/


3. Datenstrukturen zur Repräsentation von Molekülen

Bindungslisten, die auf dem VB-Modell beruhen, sind die am weitesten verbreitete Form, um chemische Strukturen in computerlesbarer Form darzustellen. Sie werden auch häufig als interne Repräsentation in Programmen verwendet, die sich mit der Behandlung von chemischen Problemen befassen. Da Bindungslisten jedoch keine eindeutige Beschreibung chemischer Strukturen zulassen und zudem Mängel bei der Behandlung delokalisierter Teilstrukturen aufweisen, wurden eine Vielzahl von Varianten entwickelt, die je nach Anwendung unterschiedliche Anforderungen erfüllen.

Im folgenden wird ein Überblick über Strukturrepräsentationen gegeben, die entweder in weit verbreiteten Systemen verwendet werden oder die spezielle Lösungen zur Repräsentation von Verbindungen mit delokalisierten -Systemen anbieten.

3.1. Bindungslisten

In Datenbanksystemen ist es unabdingbar, für jede gespeicherte Verbindung eine eindeutige und kanonische Darstellung ihrer Struktur zu gewährleisten. Auf diese Weise ist es einfach, zu überprüfen, ob eine Verbindung schon in einer Datenbank enthalten ist oder als Neueintrag hinzugefügt werden muß. Somit darf es für jedes Molekül nur eine einzige mögliche Repräsentation geben, unabhängig von der Struktur, in der es eingegeben wurde. In der Datenbank des Chemical Abstracts Service`s werden Strukturen in unique chemistry registration records" (UCRR) gespeichert [28] . Diese bestehen aus vier Komponenten: der Konstitution in Form einer Bindungsliste, einem Textdeskriptor, Isotopenmarkierungen und einer zusätzlichen Komponente. Da eine sehr große Anzahl von Strukturen gespeichert werden muß, wird die Konstitution einer Struktur nicht jeweils explizit in einer Bindungsliste abgespeichert, sondern diese setzt sich auch aus Bausteinen unterschiedlicher Größe zusammen. So gibt es eine globale Liste mit allen bisher vorgekommenen Ringsystemen. Jedes Ringsystem ist dort nur einmal gespeichert, und erhält eine Identifikationsnummer. Die Bindungsliste eines Eintrags besteht dann aus einer Liste aller Ringidentifizierer, einer Bindungsliste der acyclischen Teile, den Verbindungen zwischen beiden Listen und einer Kreuzreferenz zwischen der speziellen Numerierung des Eintrags und der Numerierung in der Ringliste. Die verwendeten Bindungslisten sind eindeutig. Dies ist notwendig, damit nicht dieselbe Struktur mehrere Bindungslisten und somit auch mehrere UCRRs erhält. Um eindeutige Strukturen zu erzeugen, werden die eingegebenen Strukturen einer Kanonisierung und Normalisierung unterworfen. Die Kanonisierung erlaubt eine eindeutige Numerierung [29] , die Normalisierung löst das Problem der Mesomerie und Tautomerie [30] .

Bei der Normalisierung werden sich abwechselnde Einfach- und Doppelbindungen in Ringen gesucht und in den speziellen Bindungstyp alternierende Bindungen umgewandelt, bei denen die Bindungsordnung nicht mehr festgelegt ist. Es wird jedoch nicht zwischen aromatischen und nicht aromatischen Verbindungen unterschieden. Die Ringbindungen z. B. in Benzol aber auch in Cyclooctatetraen werden alle als alternierend eingestuft. Bindungen zwischen Heteroatomen, die eine tautomere Gruppe bilden, wird ebenfalls ein eigener Bindungstyp, die tautomere Bindung zugeordnet, in der die Bindungsordnung nicht festgelegt ist.

In der Beilstein-Faktendatenbank werden Verbindungen getrennt von den Daten gehandhabt [31] , [32] , die Faktendaten werden in einer Faktendatei, die Strukturen der Verbindungen in einer gesonderten Strukturdatei abgelegt. Letztere enthält für jede Struktur eine Beilstein Registry Connection Table" (BRCT). Auch die BRCT genügt den für eine Datenbankanwendung notwendigen Bedingungen: Sie ist eindeutig, jede Bindungsliste kodiert nur eine einzige Struktur und es gibt für jede Struktur nur eine Bindungsliste, d. h. verschiedene Tautomere und mesomere Grenzformen erzeugen den gleichen Eintrag. Um dies zu erreichen, werden zunächst alle möglichen tautomeren Gruppen mit einem Verfahren gesucht, das demjenigen, welches bei CAS verwendet wird, ähnlich ist. Danach wird jede Struktur einem Morgan-Verfahren zur eindeutigen Numerierung unterworfen. Es wird eine Bindungsliste erzeugt, in der für jedes Atom nur die Bindung zum Atom mit der niedrigsten Nummer enthalten ist. Alle weiteren Bindungen eines Atoms sind Ringschlußbindungen, die gesondert gespeichert werden. Dies gewährleistet eine kompakte Darstellung, die den Speicherbedarf gering hält und eine schnelle Übertragung zwischen unterschiedlichen Applikationen ermöglicht. Mesomere Strukturen werden anders behandelt als im CAS Registry System, indem auf ein Verfahren zurückgegriffen wird, das von Gasteiger vorgeschlagen wurde [33] , [34] , [35] . Darin werden Mehrfachbindungen nicht direkt dargestellt, sondern jedem Atom, das an einem -System beteiligt ist, wird die Anzahl an Elektronen, die es zum -System besteuert, zugeordnet. So ergeben die drei mesomeren Grenzformen des Naphthalins nur eine mögliche Darstellung mit je einem -Elektron an jedem Kohlenstoffatom. Freie Elektronenpaare werden gesondert behandelt.

In den Gmelin-Faktendatenbanken werden Verbindungen hierarchisch gespeichert [36] . Die oberste Ebene der Hierarchie enthält die Information, aus wievielen Komponenten sich eine Substanz zusammensetzt. Jede Komponente kann aus einem oder mehreren Fragmenten bestehen. Jedes Fragment wird klassifiziert, ob sich eine Strukturformel für dieses Fragment ableiten läßt oder nicht, d. h. ob man es zeichnen kann, und entsprechend weiterbehandelt. Fragmente, die sich nicht zeichnen lassen, wie z. B. Legierungen, werden in einer Inorganic Structure Table" (IST) abgelegt, die außer der Summenformel weitere Informationen über die Substanz wie den Typ oder ihre Modifikation enthält. Zur Speicherung von Strukturen, die sich zeichnen lassen, werden ebenfalls BRCTs verwendet.

Auch Programme zur Syntheseplanung und Reaktionsvorhersage, wie z. B. LHASA, SECS, CAMEO, verwenden intern Bindungslisten, die auf dem VB-Modell beruhen. Häufig beinhalten die dort verwendeten Datenstrukturen keine besondere Darstellung aromatischer oder delokalisierter Bindungen. Vielmehr kommen Verfahren zum Einsatz, die Hinweise auf die Aromatizität der Verbindungen aus ihrer Konnektivität ableiten und diese zusätzliche Information bei der Planung von Synthesen oder Reaktionsgenerierung berücksichtigen [5] .

Auch bei den Dateiformaten zum Austausch chemischer Information sind verschiedene Formate entwickelt worden. Zu ihnen gehören das MDL-Molfile-Format [37] und das SMD-Format [38] , [39] . Das MDL-Molfile-Format ist wohl das bekannteste und am weitesten verbreitete Dateiformat unter ihnen. Es beschreibt chemische Strukturen in Bindungslisten, die auf dem VB-Modell basieren und unterliegt daher ebenfalls deren Restriktionen bei der Darstellung chemischer Strukturen. Für aromatische Bindungen gibt es jedoch einen eigenen Bindungstyp. Das SMD-Format beruht ebenfalls auf der Beschreibung von chemischen Strukturen in Bindungslisten und wurde zum Datenaustausch für organische Verbindungen entwickelt.

Die concise connection table" (CCT) [40] wurde entwickelt, um die automatische Übersetzung von IUPAC Namen in eine Moleküldatenstruktur zu erleichtern, die zudem sehr kompakt ist. In ihr werden nicht explizit alle Bindungen zwischen den Atomen eines Moleküls aufgelistet, sondern hierarchisch miteinander verbundene Strukturelemente in tabellarischer Form abgelegt. Zunächst werden Grundgerüste, Ketten und Ringe, aus der Nomenklatur abgeleitet und am Anfang der Tabelle eingetragen. Danach werden Substrukturen aus den Substituenten abgeleitet und hierarchisch unter dem jeweiligen Grundgerüst eingetragen und dem Verknüpfungspunkt zugewiesen.

3.2. BE-Matrizen und ihre Erweiterungen

Die Syntheseplanungsprogramme CICLOPS, IGOR und RAIN verwenden Bindungs- und Elektronenmatrizen (BE-Matrizen) [9] zur Darstellung von Molekülen und R-Matrizen zur Repräsentation der Elektronenumordnungsprozesse in Reaktionen. Sowohl BE- als auch R-Matrizen beruhen auf dem Valence-Bond Modell zur Darstellung von Molekülen. Eine BE-Matrix enthält die Bindungen und freien Elektronen eines Reaktionsensembles in einer quadratischen Matrix, deren Dimension der Anzahl der Atome im Ensemble entspricht. Die Diagonalelemente enthalten jeweils die Zahl der freien Elektronen eines Atoms, die Nichtdiagonalelemente die Bindungsordnung zwischen zwei Atomen. In R-Matrizen beschreiben die Diagonalelemente die Änderung der Zahl der freien Elektronen während einer Reaktion und die Nichtdiagonalelemente die Änderung der Bindungsordnungen. Um die Einschränkungen des in BE-Matrizen dargestellten VB-Modells zu überwinden, wurden zwei neue Modelle auf der Basis der BE-Matrizen entwickelt, die die Repräsentation von delokalisierten Bindungen erlauben, sogenannte XBE- [41] und s XBE-Matrizen [42] . Für die Reaktionsgenerierung stehen XR- und s XR-Matrizen zur Verfügung. Diese Erweiterungen der BE-Matrizen wurden entwickelt, um den gewachsenen Anforderungen an die Variationsbreite der darstellbaren chemischen Verbindungen Rechnung zu tragen. XBE-Matrizen enthalten zusätzlich zu einer BE-Matrix weitere Reihen und Spalten. Im Teil der ursprünglichen BE-Matrix werden weiterhin die lokalisierten Bindungen angegeben. Die zusätzlichen Spalten enthalten delokalisierte Bindungen. Für alle Atome, die zu einer delokalisierten Bindung gehören, sind die Einträge in den entsprechenden zusätzlichen Spalten und Reihen ungleich null, im Diagonalelement ist die Anzahl der darin delokalisierten Elektronen angegeben, die lokalisierten Bindungen werden weiterhin durch die BE repräsentiert. Dies erlaubt eine Darstellung von delokalisierten Elektronen in konjugierten -Systemen sowie in Elektronenmangelverbindungen. XR-Matrizen enthalten ebenfalls zusätzliche Reihen und Spalten, in denen die Änderung der Zusammensetzung von delokalisierten Bindungen gespeichert wird. s XBE-Matrizen unterscheiden sich von XBE-Matrizen durch die Bedeutung der Matrix-Elemente. Sie stellen nun nicht mehr Bindungsordnungen dar, sondern wurden durch symbolische Bindungstypen ersetzt. Es gibt 7 Bindungstypen, 4 für lokalisierte Einfach- und Mehrfachbindungen und drei für delokalisierte Bindungen. Jedem Bindungstyp ist implizit die Zahl der in ihm enthaltenen Elektronen zugeordnet. Sie ist gleich dem Doppelten der Bindungsordnung für die lokalisierten Bindungstypen. Die folgenden delokalisierten Bindungstypen wurden definiert: pisys für delokalisierte -Systeme mit 2 impliziten Elektronen und edsys für delokalisierte Sigmabindungen sowie coord für koordinative Metallkomplexbindungen mit je mit null impliziten Elektronen. Auch die Bedeutung der Einträge einer s XR-Matrix hat sich gewandelt. Sie enthalten nun sogenannte Umwandlungsfunktionen, die die verschiedenen Bindungstypen ineinander umwandeln.

Ein alternatives Verfahren zu den XBE- und s XBE-Matrizen stammt von Dietz [43] , das ebenfalls die Darstellung von Delokalisation, Elektronenmangelbindungen und metallorganischen Verbindungen erlaubt. Die Grundlage seines Modells ist ein molekularer Multigraph, d. h. ein ungerichteter Graph, in dem die Knoten Atome und die Kanten Bindungen repräsentieren. In Multigraphen ist es erlaubt, zwei Knoten durch mehr als eine Kante zu verbinden, es können also mehrere Bindungen zwischen zwei benachbarten Atomen vorhanden sein. Daher ist es nicht möglich, Moleküle in Matrixform darzustellen. Stattdessen werden zwei Mengen gebildet. Die erste enthält alle Atome, wobei jedes Atom wiederum durch ein Tripel aus Ordnungszahl, Zahl der freien Elektronen und einem Index besteht. Die zweite Menge enthält alle Bindungen. Jede Bindung besteht aus einer Menge an Atompaaren und der Zahl der in der Bindung lokalisierten Elektronen. Dabei werden die Atome eines Paares jeweils als Nachbarn betrachtet, woraus sich die Konstitution eines Moleküls ergibt. Da Bindungen mehr als ein Atompaar enthalten können, erlaubt es auch diese Darstellung, delokalisierte Bindungen zu beschreiben.

3.3. Z-Matrizen

Semi-empirische und ab-initio Programme optimieren die dreidimensionale Struktur von Verbindungen mit dem Ziel, möglichst nieder-energetische Strukturen zu finden. Z-Matrizen waren bis vor kurzem die einzige Strukturrepräsentation, die als Eingabeformat für diese Programme gedient hat [44] . Sie enthalten die räumliche Position der Atome in Form von internen Koordinaten. Dabei wird zur Beschreibung jedes Atoms eine Zeile verwendet, in der ein Abstand, ein Winkel und Diederwinkel in Bezug auf schon definierte Atome angegeben sind. Nur die ersten drei Zeilen unterscheiden sich dadurch, daß sie nur einen Winkel und einen Abstand bzw. nur einen Abstand oder, am Anfang der Z-Matrix, überhaupt keine interne Koordinate enthalten. Die Einträge einer Z-Matrix beschreiben nicht unbedingt wirkliche Bindungsverhältnisse, sondern dienen nur dazu, die relativen Positionen der Atome zu definieren.

3.4. Die Linearnotation SMILES

SMILES [45] , [46] ist eine flexible, leicht erlernbare Sprache zur Repräsentation chemischer Strukturen in Form einer Liniearnotation. Sie wird von Daylight Chemical Information Systems im Daylight Toolkit, aber auch in vielen anderen Systemen zur Eingabe von Strukturen verwendet. Sie hat inzwischen große Bedeutung als Struktureingabeformat für chemische Anwendungen im Internet erlangt, da die kompakte Kodierung als Text kein grafisches Eingabetool verlangt und zudem eine schnelle Übertragung erlaubt. Die Grundlage der Notation ist die Repräsentation eines Moleküls als Graph, wobei Bindungen zwischen Atomen nach dem Valence-Bond Modell beschrieben werden. Außer Einfach- und Mehrfachbindungen wurde auch ein aromatischer Bindungstyp eingeführt. Ein SMILES-String besteht aus einer fortlaufenden Reihe von Atomsymbolen. Nebeneinander stehende Atome sind benachbart. Für jeden Bindungstyp steht ein Zeichen zur Verfügung, mit dem zwei benachbarte Atome verbunden werden können. Verzweigungen werden hinter dem verzweigten Atom in geschachtelten Klammern angegeben. Zur Beschreibung von Ringen, werden Ringschlußbindungen aufgebrochen und beide Atome, deren Bindung nicht direkt angegeben werden kann, mit der selben Ziffer markiert.



[Top] [Prev] [Next] [Bottom]
Diese Arbeit ist Teil der Dissertationen unter http://www2.chemie.uni-erlangen.de/services/dissonline/