[Top] [Prev] [Next] [Bottom]
Diese Arbeit ist Teil der Dissertationen unter http://www2.chemie.uni-erlangen.de/services/dissonline/


5. Physikochemische und topologische Eigenschaften

Im vorigen Kapitel wurden Konzepte vorgestellt, anhand derer eine allgemeine Repräsentation von Molekülen möglich ist. Viele Anwendungen, mit deren Hilfe Reaktionen oder Zusammenhänge zwischen chemischen Verbindungen und spektroskopischen oder biologischen Daten modelliert werden, benötigen außer der Konstitution eines Moleküls auch Eigenschaften, die sich aus der Konnektivität ableiten lassen. Darunter fallen physikochemische und topologische Eigenschaften sowohl der Atome und Bindungen als auch der Moleküle oder Ensembles in ihrer Gesamtheit. In unserer Arbeitsgruppe existiert bereits eine große Anzahl von Methoden zur Berechnung von physikochemischen bzw. topologischen Eigenschaften von Molekülen, die jedoch häufig nur für neutrale organische Verbindungen mit O, N, S, Cl, F und P als Heteroatomen parametrisiert sind. Die Methoden zur Berechnung dieser Eigenschaften sollen in Zukunft auf eine breitere Basis gestellt werden und dem RICOS-Modell angepaßt werden. Da in diese Methoden jedoch ein großer Schatz an Erfahrung und Zeit investiert wurde, war es im Rahmen dieser Arbeit nicht möglich, sie alle in das neue Modell umzusetzen. Um nun auch für RICOS physikochemische Eigenschaften zur Verfügung stellen zu können, wurden zwei parallele Ansätze verfolgt. Einerseits wurde eine Konvertierung in das bisherige Datenformat, das auf einer Bindungsliste basiert geschaffen, um über diesen Weg, die schon vorhandene Eigenschaftsberechnungen in einer Übergangsphase verwenden zu können. Dies ist natürlich nur für organische Verbindungen möglich, die sich auch mit Bindungslisten darstellen lassen, jedoch nicht für Verbindungen mit Mehrzentrenbindungen oder koordinativen Bindungen. Andererseits wurde begonnen, einige der Verfahren zur Bestimmung topologischer Eigenschaften, die für die Behandlung von Molekülstrukturen in einem Reaktionsvorhersagesystem unerläßlich sind, zu erweitern und auf RICOS zu übertragen.

5.1. Übersicht über die implementierten Eigenschaften

Tabelle 5-1 gibt einen Überblick über alle Eigenschaften, die für RICOS bisher implementiert wurden. Der Zugriff auf diese Eigenschaften erfolgt über die Schlüsselwörter, die in der zweiten Spalte aufgeführt sind. Jedes Schlüsselwort beginnt mit einem Präfix, das angibt, für welchen chemischen Typ die Eigenschaft definiert ist, A_ für Atome, EL_ für Elektronensysteme, M_ für Moleküle, AG_ für Aggregate und E_ für Ensembles.

Tab. 5-1: Eigenschaften, die für RICOS zur Verfügung stehen.

Beschreibung Schlüsselwort
Ladungszentrum A_CHARGECENTER
Äquilibrierte Ladung des Atoms A_EQUILCHARGE
Atomhashcode A_HASH
Atomhashgruppe A_HGROUP
Flag, das angibt, ob ein Atom als Metallatom definiert ist A_ISMETAL
Isotopenmasse des Atoms A_ISOTOPE
IUPAC Gruppennummer A_IUPAC_GROUP
Flag, das angibt, ob sich ein Atom in einer endständigen Kette eines Moleküls befindet. A_PERIPH
Index des größten -Elektronensystem, an dem das Atom beteiligt ist A_PISYS
Radikalzentrum A_RADICCENTER
Summe der äquilibrierten Ladung aller Atome des Elektronensystems EL_EQUILCHARGE
Elektronensystemhashcode EL_HASH
Elektronensystemhashgruppe EL_HGROUP
Flag, das angibt, ob sich ein Elektronensystem in einer endständigen Kette eines Moleküls befindet EL_PERIPH
Molekülladung M_CHARGE
Molekülhashcode M_HASH
Molekülhashgruppe M_HGROUP
Molekülname M_NAME
Aggregathashcode AG_HASH
Aggregathashgruppe AG_HGROUP
Ensemblehashcode E_HASH
Identifikator des Ensembles E_IDENT
Flag, das angibt, ob die Hashcode Berechnung mit einem Seed initialisiert werden soll. E_SEEDHASH
Eigenschaft, mit der die Hashcode Berechnung initialisiert werden soll. E_SEED_PROP

5.2. Ladungen

Die Repräsentation von Molekülen mit delokalisierten Elektronensystemen bedeutet, daß eine ganzzahlige Verteilung von Formalladungen auf einzelne Atome eines Moleküls nicht direkt aus den Elektronensystemen eines Atoms abgeleitet werden kann. Um jedoch abschätzen zu können, ob Atome partial positiv oder negativ geladen sind, wurden zwei Methoden zur Berechnung von Ladungen an Atomen entwickelt. Einerseits werden äquilibrierte Ladungen berechnet, in dem die Elektronen gleichmäßig auf alle Atome eines Elektronensystems verteilt werden. Andererseits wird die Ladung denjenigen Atomen eines -Elektronensystems zugeordnet, die in einer VB-Struktur eine ganzzahlige Formalladung tragen können.

5.2.1. Äquilibrierte Ladung

In die Berechnung der äquilibrierten Ladung eines Atoms gehen die Anzahl der Elektronen im Grundzustand, sowie die Elektronensysteme, an denen es beteiligt ist ein. Für Atome, die nur über -Elektronensysteme und -Elektronensysteme gebunden sind, wird sie wie folgt, berechnet:

(5-1)

Dabei steht qe für die äquilibrierte Ladung des betrachteten Atoms, nelG für die Anzahl der Valenzelektronen des Elements, neli für die Anzahl der Elektronen eines Elektronensystems und natomi für die Anzahl der Atome des Elektronensystems.

In koordinativen Bindungen steuert der Ligand häufig sämtliche Elektronen in die Bindung bei. Bei einer Gleichverteilung der Elektronen auf alle Atome eines Elektronensystems würden Metallatome in diesen Fällen eine sehr hohe negative äquilibrierte Ladung erhalten. Daher wurde für Metallatome, die an koordinativen Bindungen beteiligt sind, die Berechnung der äquilibrierte Ladung folgendermaßen definiert:

(5-2)

Bei der Berechnung der äquilibrierten Ladung werden also nur Elektronen aus - und -Elektronensystemen berücksichtigt, Elektronen koordinativer Bindungen jedoch nicht.

Für Nichtmetallatome, die Bestandteil eines Liganden sind, werden alle Elektronensysteme berücksichtigt ( Gleichung 5-3 ), es wird in koordinativen Bindungen (coordsys) jedoch nur die Zahl der Ligandatome (nligatom) miteinbezogen.

(5-3)

Beispiele für äquilibrierte Ladungen an Atomen einer Verbindung mit Mehrzentren-Elektronensystemen, sowie einer organischen und metallorganischen Verbindung zeigt Abbildung 5-1 . In Diboran ( Gleichung 5-1 ) sind die beiden Boratome partial negativ geladen, die verbrükkenden Wasserstoffatome partial positiv, und die terminalen Wasserstoffatome sind ungeladen. In Furan ( Gleichung 5-1 ) steuert das Sauerstoffatom zwei Elektronen in das delokalisierte -Elektronensystem bei. Daher ist es positiv geladen, die Kohlenstoffatome, sind negativ geladen, die nicht dargestellten Wasserstoffatome sind ungeladen. In Ferrocen tragen alle Kohlenstoffatome die Ladung -0.2 ( Gleichung 5-3 ), das Eisenatom die Ladung 2.0 ( Gleichung 5-2 ), die nicht dargestellten Wasserstoffatome sind formal ungeladen.

Abb. 5-1: Äquilibrierte Ladungen in Diboran (a), Furan (b) und Ferrocen (c).

Ausgehend von den äquilibrierten Ladungen von Atomen werden auch äquilibrierte Ladungen von Elektronensystemen durch Summation der Ladungen aller Atome eines Elektronensystems berechnet. Die Ladung von Molekülen ergibt sich ebenfalls aus der Summe der äquilibrierten Ladung aller Atome eines Moleküls. Die Ladung der Aggregate und Ensembles setzt sich aus den Molekülladungen zusammen.

5.2.2. Lokalisierte Ladungen in Molekülen

Die Modellierung von Reaktionen in der Massenspektrometrie basiert auf der Modellierung der Reaktivität von Kationen. Einige der dort verwendeten Reaktionsregeln basiert auf heterolytischen Bindungsbrüchen, an denen formal positiv geladene Atome beteiligt sind. Auch bei organischen Reaktionen können geladen Atome Bestandteile des Reaktionszentrums sein. Um diese Information zur Verfügung zu stellen, wurde ein Verfahren entwickelt, das alle Atome im Molekül sucht, die eine ganzzahlige Ladung tragen können.

Bei geladenen Atomen, die nicht an delokalisierten Elektronensystemen beteiligt sind, ergibt die oben beschriebene Methode zur Bestimmung von äquilibrierten Ladungen ( Gleichung 5-1 ) geradzahlige Werte ( Abbildung 5-2 ).

Abb. 5-2: Ladung von Atomen ohne delokalisierte Elektronensysteme.

Für geladene Verbindungen, in denen die Ladung über mehrere Atome in -Elektronensystemen delokalisiert ist, wurde ein Algorithmus entwickelt, der alle Atome sucht, die die Ladung tragen können.

Bevor die eigentliche Suche stattfindet, werden alle Atome eines -Elektronensystems vorbehandelt. Bei der Suche nach positiven Ladungen wird für jedes -Elektronensystem geprüft, ob die Zahl der Atome kleiner als die Zahl der Elektronen ist. Trifft dies zu, enthält das -Elektronensystem Heteroatome, die formal ungeladen sind, wenn ihnen ein freies Elektronenpaar zugeordnet wird und positiv geladen, wenn ihnen eine Doppelbindung zugeordnet wird. Diese Atome werden gesondert markiert. Wenn die Verbindung negativ geladen ist, wird geprüft, ob das -Elektronensystem Heteroatome enthält, die keine negative Ladung tragen können und diese ebenfalls markiert.

Auf den restlichen Atomen des -Elektronensystems wird dann ein Verfahren zur Bestimmung von Atomen angewendet, die die Ladung tragen können und gleichzeitig erlauben, eine gültige VB-Struktur zu erzeugen, in der zwischen allen anderen Atome alternierende Einfach- und Doppelbindungen liegen. Dieses Verfahren wird in der Konvertierung von RICOS zu einer VB-Struktur ebenfalls verwendet und in Kapitel 7.2.2 detailliert beschrieben. Jedem so gefundenen Atom wird dann als Eigenschaftswert der Quotient aus Ladung und Zahl der geladenen Atome zugewiesen. Wenn ein geladenes Atome Teil mehrerer -Elektronensysteme ist, die keine freien Elektronen repräsentieren, wird die Ladung auf alle Atome der -Elektronensysteme verteilt. Abbildung 5-3 zeigt Beispiele für Kationen und Anionen. Die -Elektronensysteme wurden der Übersichtlichkeit halber in VB-Darstellung mit lokalisierter Ladung gezeichnet. Sie erstrecken sich jeweils über das gesamte Gerüst aus Schweratomen. Die ersten drei Beispiele sind einfach positiv geladen, das letzte einfach negativ.

Abb. 5-3: Lokalisierte Ladungen in delokalisierten -Elektronensystemen. Die delokalisierten -Elektronensysteme sind der Übersichtlichkeit halber als VB-Grenzform mit lokalisierter Ladung gezeichnet. Sie erstrecken sich jeweils über das gesamte Gerüst aus Schweratomen.

5.3. Radikalzentren

Die Behandlung der radikalinduzierten Reaktionen in der Massenspektrometrie erfordert es, in radikalischen Verbindungen diejenigen Atome zu erkennen, die ein Radikalzentrum sein können. Die Bestimmung der radikalischen Atome verläuft ähnlich wie die der geladenen Atome. In allen -Elektronensystemen einer Verbindung, die eine ungerade Anzahl von Elektronen tragen, wird das Verfahren zur Bestimmung von Atomen, die freie Elektronen tragen können, angewendet und jedem so gefundenen Atom, die Eigenschaft zugewiesen, ein Radikalzentrum zu sein. Im -Elektronensystem der Verbindung in Abbildung 5-4 sind die Atome, die das radikalische Elektron tragen können, mit einem Stern markiert. Auch hier ist das -Elektronensystem der Übersichtlichkeit wegen in einer der möglichen VB-Strukturen dargestellt.

Abb. 5-4: Radikalzentren in verzweigten delokalisierten -Elektronensystemen. Alle Atome, die das radikalische Elektron tragen können, sind mit einem Stern markiert. Das -Elektronensystem enthält alle Kohlenstoffatome und ist der Übersichtlichkeit wegen als VB-Struktur dargestellt.

5.4. Hashcode

Die schnelle und nicht redundante Behandlung von Reaktionen in den Reaktionsvorhersageprogrammen EROS und MASSIMO benötigt ein schnelles und zuverlässiges Verfahren zur Erkennung identischer Moleküle. Um zu bestimmen, ob zwei Moleküle identisch sind, wurde in unserer Arbeitsgruppe für das EROS-System ein Hashcoding-Verfahren [54] entwickelt, das sich als sehr zuverlässig erwiesen hat. Ein Hashcode ist eine hochkomprimierte Darstellung einer komplexen Datenstruktur in einem festen Wertebereich und mit konstanter Länge. Die Berechnung eines Hashcodes ist ein nicht umkehrbares Verfahren, bei dem der Hashcode nicht in die ursprüngliche Informationseinheit zurücktransformiert werden kann. Hashcodes werden im allgemeinen als Zugriffsschlüssel oder Indizes in großen Tabellen eingesetzt. Da der Wertebereich eines Hashcoding-Verfahrens begrenzt ist, kann es zu sogenannten Kollisionen kommen, wenn die Zahl der zu transformierenden Daten der Zahl der möglichen Hashcodes nahekommt. Als Kollision wird der Fall bezeichnet, wenn zwei verschiedene Datenstrukturen denselben Hashcode erhalten. Das oben genannte Hashcode-Verfahren erzeugt einen 32-bit Hashcode aus Molekülen, die in Valenz-Bond-Repräsentation kodiert sind. Es ist ausreichend, um Datensätze mit bis zu 10 000 Molekülen kollisionsfrei transformieren zu können. Da aber die Größe verfügbarer Strukturdatenbanken in den letzten Jahren stark angewachsen ist, wurde das Verfahren auf einen 64-bit Code erweitert, mit dem es auch möglich ist, Datenbanken mit bis zu 10 000 000 Einträgen kollisionsfrei zu kodieren [55] . Dieses Verfahren zur Hashcodeerzeugung wurde nun dahingehend geändert, daß es auf Moleküle, die mit RICOS repräsentiert werden, anwendbar ist.

Abb. 5-5: Schematischer Ablauf des Hashcoding-Verfahrens, (a) nach Ihlenfeldt, (b) Modifikation für RICOS.

Abbildung 5-5 a zeigt schematisch den schrittweisen Ablauf des ursprünglichen Verfahrens, Abbildung 5-5 b die Modifikationen dieses Schemas für RICOS. Beiden Verfahren ist gemein, daß zunächst Atomhashcodes bestimmt werden, aus denen sich Molekül- und Bindungshashcodes bzw. Elektronensystemhashcodes berechnen lassen. Ensemblehashcodes wurden ursprünglich direkt aus den Molekülhashcodes ermittelt. In RICOS wird jedoch noch die Berechnung der Aggregathashcodes eingeschoben. Im Folgenden werden alle Stufen des Verfahrens erläutert.

5.4.1. Bestimmung der Seedparameter

Die erste Stufe des Hashcoding-Verfahrens nach Ihlenfeldt besteht in der Ladungsäquilibrierung. Wie bereits mehrfach erläutert, erweist sich das Auftreten von Resonanzstrukturen bei der Repräsentation von geladenen Verbindungen nach dem Valenz-Bond-Modell als problematisch. Die Berechnung eines Hashcodes darf natürlich nicht von der gewählten Resonanzstruktur abhängig sein. Daher werden zunächst alle -Systeme eines geladenen Moleküls bestimmt und die darin lokalisierte Ladung gleichmäßig auf alle Atome verteilt. In RICOS ergibt sich das Problem der Ladungsverteilung nicht, da delokalisierte Ladungen bereits in -Elektronensysteme verteilt sind. Dieser Schritt entfällt daher.

Der zweite Schritt besteht darin, jedem Atom einen Anfangswert zuzuweisen, der einerseits unterschiedliche Atome von Anfang an differenzieren soll, andererseits für äquivalente Atome gleich sein soll. Um dies zu erreichen, werden Parameter, die die Atome unterscheiden, als Indizes in einer Primzahltabelle verwendet. Alle so bestimmten Primzahlen werden miteinander zum Startwert, dem Seed, multipliziert. Jeder Parameter hat einen Wertebereich, der mit einem eigenen Sektor in einer Primzahltabelle korrespondiert, um zufällige Übereinstimmung zu vermeiden. Zur Bestimmung des Seeds werden die in Tabelle 5-2 angegebenen Faktoren herangezogen.

Tab. 5-2: Parameter, aus denen der Seed der Hashcodeberechnung bestimmt wird.

Parameter Ihlenfeldt RICOS
Zahl der Nachbarn (0 . . . 8) X X
Zahl der H-Nachbarn (0 . . . 6) X X
Ordnungszahl (1 . . . 113) X X
Zahl der Atome des Moleküls modulo einer Primzahl (257) X X
optional: Atom Sterodeskriptor (-1, 0, 1) X
Äquilibrierte Ladung (-3 . . . 3) X
Summe der Elektronen aller Elektronensysteme modulo einer Primzahl (29) X
Summe aller Elektronensysteme, die mindestens ein Elektron enthalten. X
optional: Atomeigenschaften, normiert auf einen Bereich zwischen 1 und 100 X

Für RICOS wurden nur die ersten vier Parameter zur Bestimmung des Seeds übernommen, die anderen wurden neu formuliert, um die speziellen Eigenschaften der Datenstruktur zu berücksichtigen. Der einzige Parameter, der die Elektronenverteilung innerhalb eines Moleküls berücksichtigt, wird bei Ihlenfeldt aus der äquilibrierten Ladung wie folgt bestimmt:

(5-4)

Die äquilibrierte Ladung qe eines Atoms bewegt sich in einem Bereich zwischen -3.0 und +3.0. Sie wird durch die Addition in eine positive Zahl transformiert und dann durch die Multiplikation mit 5 auf einen größeren Wertebereich gespreizt. Da die Modulooperation nur mit ganzen Zahlen möglich ist, wird das reellwertige Ergebnis vorher abgerundet. In größeren -Systemen mit einer Gesamtladung von Eins führt diese Rundung dazu, daß Unterschiede zwischen geladenen Verbindungen und ihren neutralen Äquivalenten aufgehoben werden. Dies sei am Beispiel von Benzol und seinem Radikalkation erläutert. Die äquilibrierte Ladung der Kohlenstoffatome in Benzol ist Null, es ergibt sich also vor der Modulooperation ein Wert von 15. Die äquilibrierte Ladung der Kohlenstoffatome des Radikalkations ist 0.17, der Wert nach der Spreizung beträgt 15.85 und wird auf 15 abgerundet. Die Kohlenstoffatome in beiden Verbindungen erhalten demnach den gleichen Seedwert und entsprechend identische Hashcodes. Dieses Manko würde sich in der Behandlung von Reaktionen im Massenspektrometer stark auswirken, da hier häufig Verbindungen auftreten, die sich nur durch ihre Ladung, nicht aber durch die anderen Parameter unterscheiden. Zudem kann die äquilibrierte Ladung für RICOS auch nicht verwendet werden, um zwischen Verbindungen zu unterscheiden, die zwar das gleiche -Elektronensystemgerüst besitzen, jedoch unterschiedliche Verteilung der Elektronen auf die -Elektronensysteme, wie dies in Carbenen oder ionisierten Amiden der Fall ist. Um solche Verbindungen ebenfalls unterscheiden zu können, wurden zwei neue Startparameter eingeführt. Zum einen wird für jedes Atom die Summe aller Elektronen aller Elektronensysteme, an denen es beteiligt ist, bestimmt. Dies erlaubt, zwischen geladenen und ungeladenen Verbindungen zu unterscheiden. Der zweite Parameter ist die Summe aller Elektronensysteme eines Atoms, die mindestens mit einem Elektron besetzt sind. Somit werden verschieden angeregte Zustände eines Moleküls leicht unterscheidbar.

Der letzte Parameter ist optional, es können mehrere zusätzliche Atomeigenschaften in den Seed miteinbezogen werden. Diese Möglichkeit war schon in der 32-bit Hashcode Version gegeben, ist aber für den 64-bit Hashcode des CACTVS-Systems nicht implementiert. Alle Werte dieser Atomeigenschaften innerhalb eines Ensembles werden im Bereich von 1 bis 100 skaliert. Als Eigenschaften, die optional in den Hashcode miteinbezogen werden können, sind Stereodeskriptoren oder auch Isotopenmarkierungen geeignet.

5.4.2. Atomhashcodes

Das eigentliche Verfahren zur Berechnung von Atomhashcodes aus den Seedwerten besteht aus Rotations- und Exklusive-Oder-Verknüpfungen (XOR) der Startwerte in 32 Zyklen. Über die Rotationsoperationen wird die Bitverteilung, die zu Beginn hauptsächlich in den unteren Bits dominant ist, auf den gesamten Bitvektor verteilt. Danach werden XOR-Verknüpfungen mit den Hashcodes der benachbarten Atome durchgeführt. Dabei muß jeweils überprüft werden, ob ein Hashcode schon einmal aufgetreten ist. In diesem Fall wird vorher noch eine Rotationsoperation um so viele Bits durchgeführt, wie oft der Hashcode bisher aufgetreten ist. Damit wird vermieden, daß sich eine gerade Anzahl von XOR-Verknüpfungen mit dem selben Wert gegenseitig auslöschen. Auf diese Weise wirkt sich die Umgebung jeden Atoms auf seinen Hashcode aus. Je größer die Zyklenzahl, desto weitreichender ist der Einfluß der äußeren Sphären eines Atoms.

Abbildung 5-6 zeigt für Furan und Carben, wie sich die unterschiedlichen Startwerte auf die Atomhashcodes auswirken. In neutralem Furan erhalten das Sauerstoffatom und das benachbarte Kohlenstoffatom als Seedparameter den Wert 12, in der Form, in der das aromatische -Elektronensystem ionisiert ist, je 11, in der Form in der das freie Elektronenpaar ionisiert ist, 11 und 12. Der Einfluß der Hashcodes der Nachbaratome bewirkt jeweils, daß Atome mit dem gleichen Seedwert unterschiedliche Hashcodes erhalten. In den beiden unterschiedlichen Carbbenen erhält jedes der beiden Kohlenstoffatome einen anderen Seed für die Zahl der besetzten Elektronensysteme. Auch hier wirkt sich dieser Anfangswert auf die benachbarten Atome aus, die Wasserstoffatome beider Zustände haben verschiedene Hashcodes.

Abb. 5-6: Einfluß des Seeds auf Verbindungen mit dem gleichen Elektronensystemen in unterschiedlicher Besetzung mit Elektronen. Neben den Atomen steht jeweils der Seedwert und der ermittelte Atomhashcode. Die Hashcodes sind als Hexadezimalzahlen angegeben.

Auf der Grundlage der Atomhashcodes können nun sowohl Elektronensystem- als auch Molekülhashcodes berechnet werden.

5.4.3. Elektronensystemhashcodes

Im EROS-System sind Bindungseigenschaften gerichtete Eigenschaften, das heißt, es gibt pro Bindung ein Wertepaar. Diese Werte können sich entweder vollständig oder nur im Vorzeichen unterscheiden. Nur in symmetrischen Bindungen sind beide Werte gleich. Um dieses Verhalten auch in den Bindungshashcodes wiederzuspiegeln, berechnet das Verfahren nach Ihlenfeldt für jede Bindung zwei gerichtete Hashcodes, die nur in symmetrischen Bindungen identisch sind. Da die Atomzahl in Elektronensystemen bei RICOS jedoch nicht auf zwei festgelegt ist, gibt es pro Elektronensystem nicht exakt ein Paar aus benachbarten Atomen. Wieviele Paare benachbarter Atome ein Elektronensystem enthält, hängt von der Art des Elektronensystems und der Anzahl seiner Atome ab. Es ist daher nicht sinnvoll, für jedes Elektronensystem zwei gerichtete Hashcodes zu berechnen, jedem Elektronensystem wird nur ein Hashcode zugeordnet.

Auch bei der Bestimmung von Elektronensystemhashcodes wird jedes Elektronensystem zunächst mit einem Startwert initialisiert, der dann in mehrern Zyklen durch die anderen Elektronensystemhashcodes verfeinert wird. Dabei werden drei Fälle unterschieden. Wenn ein Atom -Elektronensysteme besitzt, die sowohl freie Elektronen als auch unbesetzte Orbitale repräsentieren, muß zwischen diesen unterschieden werden. Der Elektronensystemhashcode wird aus dem Atomhashcode bestimmt, indem dieser um die Anzahl der Elektronen im Elektronensystem nach links rotiert wird. In Fällen, in denen ein Elektronensystem aus zwei Atomen besteht, wird jeweils der größere der beiden Atomhashcodes um ein Bit nach links rotiert, bevor er mit dem zweiten XOR-verknüpft wird. Wenn ein Elektronensystem aus mehr als zwei Atomen besteht, werden zur Bestimmung des Initialwerts alle Atomhashcodes durch XOR-Operationen miteinander verknüpft. Falls der gleiche Atomhashcode mehrfach vorhanden ist, wird bestimmt, wie oft er bisher aufgetreten ist, und vor der XOR-Operation um diesen Wert nach links rotiert. Dadurch werden Auslöschungen durch eine gerade Anzahl gleicher Hashcodes vermieden.

In Verbindungen ohne Ringsysteme ist damit die Bestimmung des Elektronensystemhashcodes beendet. Für cyclische Verbindungen reicht dieses Verfahren nicht aus, da in Molekülen wie Biphenylen unterschiedliche -Elektronensysteme zwischen äquivalenten Atomen auftreten ( Abbildung 5-7 ) und allein auf der Basis von Atomhashcodes nicht differenziert werden können. Sie können jedoch durch eine Pfadsuche unterschieden werden. Dazu werden zuerst alle Bindungen ausgewählt, die sich nicht in einer terminalen Kette des Moleküls befinden und die aus zwei Atomen bestehen. Für diese werden dann alle möglichen Pfade zwischen beiden an der Bindung beteiligten Atomen gesucht, und sich deren Länge und Häufigkeit gemerkt. Sich kreuzende Pfade werden nicht berücksichtigt, d. h. jedes Atom wird nur einmal traversiert. Jeder Elektronensystemhashcode wird nun durch mehrere Rotationen und XOR-Verknüpfungen modifiziert, wobei die Bitverschiebungen von der Länge und Häufigkeit der gefundenen Pfade abhängen. Danach werden wiederum mehrere Zyklen durchgeführt, in denen diese Hashcodes auf die Elektronensystemhashcodes benachbarter Elektronensysteme einschließlich der zuvor ausgenommenen Elektronensysteme propagiert werden, und sich so auch auf diese auswirken.

Abb. 5-7: Zwei Paare von -Elektronensystemen zwischen den äquivalenten Atomen in Biphenylen sind unterscheidbar, diejenigen, die Teil eines Benzolrings sind und diejenigen, die zwischen beiden Benzolringen liegen.

Durch die Pfadsuche werden -Elektronensysteme wie in Biphenylen sicher differenziert. So werden für die -Elektronensysteme in den Benzolringen 4 Pfade der Länge 1, 3, 5 und 7 gefunden, für die -Elektronensysteme zwischen den Benzolringen 5 Pfade der Länge 1, 3, 7 (2x) und 11.

5.4.4. Molekül-, Aggregat- und Ensemblehashcodes

Ein Molekülhashcode wird durch XOR-Verknüpfungen der Hashcodes aller Atome ermittelt. Wenn ein Molekül nur ein Atom enthält, ist der Molekülhashcode gleich dem Atomhashcode. Um eine Auslöschung durch identische Werte zu vermeiden, wird vor der Hashcodeberechnung für jeden Atomhashcode bestimmt, das wievielte Mal er im Molekül auftritt. Wenn ein Atomhashcode mehrfach vorhanden ist, wird er vor der XOR-Verknüpfung um den zuvor ermittelten Wert nach links rotiert.

Ein Aggregathashcode wird im ersten Schritt nach dem gleichen Verfahren aus den Molekülhashcodes generiert wie diese aus Atomhashcodes. Danach wird zusätzlich noch ein Gruppenhashcode aus allen Atomen der Wechselwirkungsgruppen, die ein Aggregat bilden, erzeugt und dieser ebenfalls mit dem Aggregathashcode durch den XOR-Operator verknüpft. Dadurch werden für Aggregate, die zwar aus den gleichen Molekülen bestehen, aber unterschiedliche Wechselwirkungsgruppen haben, verschiedene Hashcodes erzeugt. Dies gilt sowohl für Wechselwirkungsgruppen verschiedener Art als auch für Wechselwirkungen der gleichen Art, die jedoch zwischen verschiedenen, nicht äquivalenten Atomen oder Elektronensystemen bestehen.

Die Ensemblehashcodes werden auch durch XOR-Verknüpfungen aus den Molekül- und Aggregathashcodes eines Ensembles generiert. Enthält ein Ensemble nur ein Molekül oder Aggregat, erhält es dessen Hashcode.

5.4.5. Äquivalenzklassen

Anhand der Hashcodes werden die Äquivalenzklassen der Atome, Elektronensysteme, Moleküle und Aggregate in einem Ensemble bestimmt und gezählt, wieviele äquivalente Objekte es pro Äquivalenzklasse gibt. Diese Information wird in der Reaktionsgenerierung verwendet, um zu verhindern, daß Reaktionen mit äquivalenten Atomen oder Elektronensystemen mehrfach ausgeführt werden, und um die Symmetriezahl einer Reaktion zu bestimmen.

5.5. Physikochemische Parameter auf der Basis von Valenz-Bond-Strukturen

Im Rahmen dieser Arbeit konnten nur die wichtigsten topologischen Eigenschaften auf das RICOS-Modell übertragen werden. Um aber Reaktionsvorhersage auf der Basis von physikochemischen Eigenschaften durchführen zu können, war es vonnöten, auch in der Übergangsphase den größtmöglichen Satz an bisher entwickelten physikochemischen Eigenschaften zur Verfügung zu haben. Es wurde eine Konvertierung organischer Verbindungen von RICOS in VB-Strukturen entwickelt, die in Kapitel 7.2 detailliert beschrieben wird. Sie wird auch dazu verwendet, um Verbindungen, deren Eigenschaften berechnet werden sollen, in konventionelle Bindungslisten zu übertragen, und auf ihnen die Verfahren zur Berechnung von physikochemischen Eigenschaften anzuwenden. Diese Konvertierung kann natürlich nicht ohne Informationsverlust in Bezug auf die Elektronenverteilung in orthogonalen -Elektronensystemen stattfinden, zudem wird für jede Struktur nur eine der möglichen Resonanzstrukturen erzeugt. Sie ist aber ausreichend, um alle Eigenschaften, in deren Berechnungsmethode eine Behandlung von Resonanzstrukturen integriert ist, in das neue Modell zu übernehmen. Der Ablauf der Berechnung dieser Eigenschaften ist in Abbildung 5-8 schematisch dargestellt. Ein Ensemble in RICOS-Kodierung wird in das Datenformat von EROS konvertiert. Auf dieser Datenstruktur werden die Eigenschaften berechnet. Anhand einer Übersetzungstabelle werden danach die Eigenschaften den entsprechenden chemischen Objekten in RICOS zugewiesen und die EROS-Datenstruktur wieder verworfen.

Abb. 5-8: Berechnung physikochemischer Eigenschaften über die Konvertierung in das VB-Modell.

Die Datenstruktur in EROS besteht aus Ensembles, die Moleküle aus Atomen und Bindungen enthalten. In EROS gibt es das Konzept eines Aggregats und von Wechselwirkungsgruppen nicht. Abbildung 5-9 zeigt, welche Konzepte in beiden Datenstrukturen miteinander korrespondieren. Die Linien verbinden die chemischen Einheiten miteinander, deren Eigenschaften aufeinandergepaßt werden. Eigenschaften von Atomen und Molekülen sind direkt übertragbar. Die Eigenschaften von Ensembles sind in der Regel aus allen Moleküleigenschaften zusammengesetzt. Sie sind dann übertragbar, wenn die Wechselwirkungen innerhalb von Aggregaten vernachlässigt werden. Am schwierigsten gestaltet sich die Übertragung von Bindungseigenschaften, da die Definition einer Bindung in beiden Konzepten stark voneinander abweicht. In der EROS-Datenstruktur beinhalten Bindungseigenschaften nicht nur Eigenschaften des -Bindungsgerüsts, sondern auch des -Anteils einer Bindung. Eine direkte Korrespondenz mit - oder -Elektronensystemen ist nicht gegeben. Daher werden die Eigenschaften von Bindungen nicht Elektronensystemen in RICOS zugeordnet, sondern Paaren von benachbarten Atomen. Da Bindungseigenschaften in EROS gerichtet sind, gibt es für jede Bindung ein Wertepaar. Beide Werte werden so kopiert, daß der erste Wert mit der Bindung vom Atom mit einem niedrigeren Index zum Atom mit einem höheren Index korrespondiert und der zweite Wert für die umgekehrte Bindungsrichtung gültig ist.

Abb. 5-9: Korrespondenz zwischen RICOS und der EROS-Datenstruktur bei der Übertragung von physikochemischen Eigenschaften.

Tabelle 5-3 enthält alle Eigenschaften, die auf der EROS-Datenstruktur berechnet werden und auf RICOS übertragen werden. Neben der Kurzbeschreibung ist jeweils das Schlüsselwort und die Einheit der Eigenschaft angegeben. Bindungseigenschaften erhalten den Präfix B_.

Tab. 5-3: Physikochemische Parameter, die von der EROS-Datenstruktur übernommen werden.

Beschreibung Schlüsselwort Einheit
Aromatizitätsinformation A_AROMATIC
Atompolarisierbarkeit ( ) [56] A_POLARIZ [Angström**3]
Elektronegativität der freien Elektronen A_ENLP [eV]
-Elektronegativität ( ) [57] A_ENPI [eV]
-Elektronegativität ( ) [57] A_ENSIG [eV]
Mesomeriestabilisierung durch freie Elektronenpaare A_LPSTAB
-Atompartialladung (q ) [58] A_QPI [e]
-Atompartialladung (q ) [59] A_QSIG [e]
gesamte Atompartialladung A_QTOT [e]
Standardbildungswärme ( Hf) [60] M_DELTAHF [kJ/mol]
Molekülpolarisierbarkeit M_POLARIZ [Angström**3]
aromatische Stabilisierungsenergie M_STABIL [kJ/mol]
Standardbildungswärme aller Moleküle
des Ensembles
E_DELTAHF [kJ/mol]
Polarisierbarkeit aller Moleküle des Ensembles E_POLARIZ [Angström**3]
aromatische Stabilisierungsenergie aller
Moleküle des Ensembles
E_STABIL [kJ/mol]
Differenz der -Elektronegativität der
Bindungsatome je Bindung ( )

B_DENPI [eV]
Differenz der -Elektronegativität der
Bindungsatome je Bindung ( )
B_DENSIG [eV]
Differenz der -Atompartialladungen der
Bindungsatome je Bindung ( q )
B_DQSIG [e]
Differenz der -Atompartialladungen der
Bindungsatome je Bindung ( q )
B_DQPI [e]
Differenz der (Gesamt-)Atompartialladungen der Bindungsatome je Bindung ( q) B_DQTOT [e]
Bindungspolarisierbarkeit B_POLARIZ [Angström**3]
die durch den PEOE-Algorithmus über die Bindung verschobene Ladungsmenge [59] B_SQIT [e]
(Gesamt-)Delokalisierungsstabilisierung von Ladungen bei heterolytischen
Bindungsbruch (D±) [61]
B_SDELOC [eV]
Delokalisierungsstabilisierung einer negativen Ladung bei heterolytischem
Bindungsbruch (D+) [61]
B_NDELOC [eV]
Delokalisierungsstabilisierung einer positiven Ladung bei heterolytischem
Bindungsbruch (D-) [61]
B_PDELOC [eV]
Bindungsordnung in der EROS-Datenstruktur B_BOORD

Auf der Basis der auf diese Weise zur Verfügung gestellten physikochemischen Eigenschaften können nun in der Neuentwicklung des EROS-Systems sofort Modelle zur Reaktionsvorhersage organischer Reaktionstypen entwickelt werden. Auch die bisher entwickelten Modelle zur Reaktionsvorhersage können auf das neue System übertragen werden und sind damit auch in Zukunft verfügbar.



[Top] [Prev] [Next] [Bottom]
Diese Arbeit ist Teil der Dissertationen unter http://www2.chemie.uni-erlangen.de/services/dissonline/