Previous PageNext Page

8. Modellierung

Wir haben schon gesehen, daß selbst bei Klassifikationsproblemen ein neuronales Netz Werte zwischen Null und Eins, also ein Kontinuum an Werten, ausgibt. Man kann aber ein neuronales Netz auch mit reellen Erwartungswerten trainieren und die Ausgabewerte direkt in ihrer reellen Größe verwenden, so wie man üblicherweise einen Funktionswert aus einer Reihe von Variablen berechnet. Für diese Aufgabe, aus Daten über ein Objekt (Verbindung, Reaktion, Spektrum etc.) eine weitere Eigenschaft dieses Objektes abzuleiten, hat sich der Ausdruck "Modellierung" eingebürgert, und so wollen wir ihn im folgenden auch verstehen. Das neuronale Netz übernimmt also die Aufgabe, aus eingegebenen Variablen (Daten) eines Objekts den Wert einer davon abhängigen Größe (oder auch mehrerer) zu ermitteln. Ein neuronales Netz bietet dabei den großen Vorteil, daß man den Zusammenhang nicht durch eine explizite mathematische Gleichung formulieren muß. Das neuronale Netz findet einen Zusammenhang selbst und drückt ihn implizit durch die Gewichte der Verbindungen zwischen den Neuronen aus.

8.1. HPLC-Analyse

Ein einfaches Beispiel soll stellvertretend für viele Anwendungsmöglichkeiten in der analytischen Chemie stehen.
Bei der HPLC-Analyse spanischer Weine wurde die Trennung der Komponenten, ausgedrückt als Selektivitätsfaktor SF, in Abhängigkeit vom Ethanolgehalt (10, 20, 30 Vol.-%) und vom pH-Wert der mobilen Phase (5.0, 5.5, 6.0) bestimmt. Die neun experimentellen Punkte wurden mit Standardmodellierungstechniken an eine quadratische Gleichung angepaßt [57]. Das Ergebnis ist in Gleichung (r) wiedergegeben (x1 = Vol.-% Ethanol, x2 = pH-Wert);

(r)

dieser funktionale Zusammenhang ist außerdem in Form von Linien mit gleichem Selektivitätsfaktor in Abbildung 40 dargestellt.

Abb. 40. HPLC-Analyse spanischer Weine: Darstellung des Selektivitätsfaktors SF in Abhängigkeit vom Ethanolgehalt x1 und vom pH-Wert der mobilen Phase x2. Die geschwungenen Pfeile weisen auf den maximalen und den minimalen SF hin.

Mit den gleichen neun experimentellen Daten wurde ein neuronales Netz aus zwei Eingabeeinheiten - eine für den Ethanolgehalt, eine für den pH-Wert -, einem Ausgabeneuron - für den Selektivitätsfaktor - und sechs Neuronen in der Zwischenschicht nach dem Backpropagation-Algorithmus trainiert [58].
In dieses Netz wurden dann Werte für den Ethanolgehalt und den pH-Wert eingegeben. Die Ergebnisse sind dem Diagramm der Abbildung 41 zu entnehmen. Auch hier wurden wie in Abbildung 40 Linien mit gleichem Selektivitätsfaktor gezogen.

Abb. 41. Mit dem oben gezeigten neuronalen Netz erhaltene Abhängigkeit des Selektivitätsfaktors vom Ethanolgehalt und vom pH-Wert bei der HPLC-Analyse spanischer Weine. Siehe auch Abbildung 40.

Der Vergleich der Abbildungen 40 und 41 zeigt, daß beide Verfahren, Standardmodellierungstechniken und neuronales Netz, zu recht ähnlichen Ergebnissen kommen. Insbesondere werden die Lagen von minimalem und maximalem Selektivitätsfaktor ganz ähnlich ermittelt.
Der Vorteil des neuronalen Netzes ist klar: Beim statistischen Modellieren mußte die mathematische Form des funktionalen Zusammenhangs - hier eine quadratische Gleichung - explizit vorgegeben werden. Beim neuronalen Netz ist dies nicht notwendig, es findet den Zusammenhang implizit durch Vergabe geeigneter Gewichte.

8.2. Quantitative Struktur-Wirkungs-Beziehungen (QSAR)

Die Suche nach quantitativen Struktur-Wirkungs-Beziehungen (Quantitative Structure Activity Relationships, QSAR) ist eines der wichtigsten Anwendungsgebiete für Modellierungstechniken. Speziell zur Vorhersage pharmakologischer und biologischer Daten wird viel Arbeit und Mühe investiert. Um so überraschender ist es, daß bisher nur wenige Arbeiten über den Einsatz neuronaler Netze zur Aufstellung quantitativer Beziehungen zwischen der Struktur und der biologischen Aktivität einer Verbindung publiziert wurden. Eine typische Studie sei hier kurz erwähnt [59][60].
In dieser Studie wurde bewußt ein Datensatz gewählt, der bereits mit statistischen Modellierungstechniken, einer multilinearen Regressionsanalyse, untersucht worden war, um die Leistungsfähigkeit eines neuronalen Netzes mit der einer Standardmethode aus dem Bereiche der QSAR vergleichen zu können. Der untersuchte Datensatz umfaßte 39 zum Teil anticarcinogene para-Chinone (Schema 2).

Schema 2. Doppelt aziridinsubstituierte para-Benzochinone, eine Verbindungsklasse, die anticarcinogene Substanzen umfaßt. R1, R2 beispielweise = CH3, C6H5, etc.

Der Einfluß der Substiuenten R1 und R2 wurde durch sechs physikochemische Parameter beschrieben: den Beitrag des Substituenten R1 oder beider Substituenten zum molaren Brechnungsindex, MR1 bzw. MR1,2, ihr Beitrag zur Hydrophobie, p1 bzw. p1,2, sowie die Substituentenkonstanten des Feld- (F) und Resonanzeffekts (R). Für diese Beschreibung der Substituenteneinflüsse waren demnach sechs Eingabeeinheiten nötig (Abb. 42).

Abb. 42. Neuronales Netz zur Vorhersage der anticarcinogenen Aktivität von para-Benzochinonen.

Als Ergebnis sollte das neuronale Netz die minimale effektive Dosis bei einer einzigen Injektion des Medikaments liefern. Die minimale effektive Dosis gibt diejenige Menge an Substanz (angegeben als lg1/c), die zu einer 40proz. Verlängerung der Lebensdauer führt. Zur Ausgabe des Wertes von lg1/c war ein einziges Neuron vorhanden. Eine Zwischenschicht mit 12 Neuronen vervollständigte die Netzwerkarchitektur (Abb. 42).
35 Benzochinone wurden zum Training des Mehrschichtennetzwerks nach dem Backpropagation-Algorithmus verwendet. Die mit dem Netz erhaltenen Werte für lg1/c wurden mit denen verglichen, die sich mit einer durch multilineare Regressionsanalyse bestimmten Gleichung errechnen lassen. In 17 Fällen waren die Ergebnisse mit dem neuronalen Netz besser, bei 6 etwa gleich gut und bei 12 schlechter, d.h. die Ergebnisse mit dem neuronalen Netz sind signifikant besser. Allerdings läßt sich das Problem durch einen linearen Ansatz schon ganz gut lösen, so daß ein neuronales Netz nicht mehr viel verbessern kann. Bei QSAR-Problemen, die nichtlineare Zusammenhänge umfassen, mag mit neuronalen Netzen bedeutend mehr gewonnen werden.

8.3. Chemische Reaktivität

Während wir uns im Abschnitt 7.1 mit einer Ja-nein-Aussage zur chemischen Reaktivität - bricht eine Bindung leicht polar oder nicht - begnügten, wollen wir hier quantitative Aussagen zum Ablauf einer chemischen Reaktion machen.
Die elektrophile aromatische Substitution an monosubstituierten Benzolen kann prinzipiell zu drei Isomeren führen, ortho-, meta- bzw. para-Produkt (Schema 3). Die Abhängigkeit der Isomerenverteilung von der Art des Substiuenten X ist ein klassisches Problem der Organischen Chemie. Im wesentlichen lassen sich Substituenten in zwei Klassen einteilen: Elektronenliefernde Substituenten (induktiv oder mesomer), die bevorzugt in o- und p-Stellung dirigieren, und mesomere Elektronenacceptoren, die in m-Stellung lenken. Die Faktoren, die das o/p-Verhältnis bestimmen, sind sowohl sterischer als auch elektrostatischer Art.

Schema 3. Isomerenverteilung bei der elektrophilen aromatischen Substitution.

In einer Untersuchung der Produktverhältnisse bei der Nitrierung monosubstituierter Benzole [61] wurden die Mengen an ortho- und para-Produkten zusammengefaßt. Daher wurde ein Ausgabeneuron für den Gehalt an o- + p-Isomer und ein zweites für den an m-Isomer verwendet. Wie bereits erwähnt, wird die Produktverteilung von der Art des Substituenten, insbesondere von den von ihm ausgehenden elektronischen Effekten bestimmt. Um diese zu erfassen, wurden zwei Kodierungen der Eingabeinformation erprobt. Im ersten Ansatz wurden die partiellen Atomladungen auf den sechs Kohlenstoffatomen des Benzolrings herangezogen, so wie sie mit dem semiempirischen quantenmechanischen Programmpaket MOPAC [62] nach der Mullikenschen Populationsanalyse berechnet werden. Dafür wurden sechs Eingabeeinheiten verwendet; hinzu kam eine Zwischenschicht mit zehn verdeckten Neuronen, so daß insgesamt 6 x 10 + 10 x 2 = 80 Gewichte zu bestimmen waren.
In einem zweiten Ansatz wurde die Struktur des Substituenten auch direkt in Form einer Bindungsliste (Connection Table) repräsentiert. Diese hatte die Dimension 5 x 5; jede Zeile enthielt zunächst die Ordnungszahl des betrachteten Atoms, dann die Atomnummer, die Nummer vorausgehenden Atoms, an das es gebunden ist, die Ordnung dieser Bindung sowie die formale Ladung des betrachteten Atoms. Für jedes Atom des Substituenten, außer für Wasserstoffatome, wurde eine neue Zeile ergänzt. Die erste Zeile gibt die Verhältnisse an dem Atom, das direkt an den Ring gebunden ist, wieder. Mit jeder folgenden Zeile wird weiter durch den Substituenten fortgeschritten (vgl. Abb. 43). Hatte der Substituent weniger als fünf Nichtwasserstoffatome, so wurde der Rest der 25 Positionen mit Nullen aufgefüllt, hatte er mehr als fünf Schweratome, so wurden die Atome, die vom Anknüpfungspunkt des Substituenten an den Ring (Atom 1) weiter entfernt waren, weggelassen. Abbildung 43 erläutert am Beispiel des Acetanilids diese Kodierung durch eine Bindungsliste. Für diese Kodierungsform wurden 5 x 5 = 25 Eingabeeinheiten benötigt; die Zwischenschicht hatte fünf Neuronen, das Netz also 25 x 5 + 5 x 2 = 135 Gewichte.

Ordnungszahl

Bindung zwischen
Atom1 und Atom2

Bindungs
ordnung

Ladung

7

2

1

1

0

6

3

2

1

0

8

4

3

2

0

6

5

3

1

0

0

0

0

0

0

Abb. 43. Beispiel für die Repräsentation monosubstituierter Benzole durch eine Bindungsliste für den Substituenten.

Das Netz wurde mit 32 monosubstituierten Benzolen nach dem Backpropagation-Algorithmus trainiert; mit 13 weiteren Benzolderivaten wurde das Netz dann getestet. In diesem Beispiel war die enorme Zahl von 100000 Epochen, also Trainingscyclen nötig, bis der Fehler im Trainingsdatensatz genügend klein war.
Von den beiden Kodierungsformen und den dabei verwendeten neuronalen Netzen lieferte der zweite Ansatz, die Eingabe des Substituenten durch eine Bindungsliste, die eindeutig besseren Ergebnisse. Um die Qualität der Ergebnisse zu beurteilen, genügt es, sich auf die Prozentzahlen der meta-Produkte zu konzentrieren (Tabelle 2).

Tabelle 2. Ergebnisse der beiden im Text erläuterten neuronalen Netze zur Vorhersage der Menge an meta-Produkt bei der Nitrierung monosubstituierter Benzole und Vergleich mit den Ergebnissen des Expertensystems CAMEO sowie mit den Vorhersagen dreier Chemiker. Angegeben ist die Größe des Fehlers der Vorhersage in Prozent.

Methode

Trainingsdatensatz
(32 Verbindungen)

Testdatensatz
(13 Verbindungen)

neuronales Netz aufgrund von Ladungswerten

5.2

19.8

neuronales Netz aufgrund von Bindungslisten

0.3

12.1

CAMEO

18.0

22.6

Chemikerwissen

-

14.7

Der Trainingsdatensatz konnte bis auf einen mittleren Fehler von 0.3 % beim Gehalt an m-Isomeren gelernt werden; beim Netz, das mit den Ladungswerten erhalten wurde, gelang dies nur bis zu einem mittleren Fehler von 5.2 %. Beim Testdatensatz an 13 Verbindungen, die das Netz noch nicht gesehen hatte, ergab sich mit der Bindungslistenkodierung eine mittlere Abweichung von 12.1 % im vorhergesagten Gehalt an m-Produkt. Bei der Ladungsrepräsentation war der Fehler mit 19.8 % merklich höher.
Die Ergebnisse dieser beiden neuronalen Netze wurden mit den Werten, die mit CAMEO [63], einem Expertensystem zur Reaktionsvorhersage, erhalten wurden, verglichen. Die Vorhersagen mit den beiden neuronalen Netzen waren durchweg besser als die mit CAMEO erzielten. Und zu guter Letzt wurden die 13 monosubstituierten Benzole noch drei Organikern gegeben, damit sie den zu erwartenden Anteil an m-Produkt bei der Nitrierung vorhersagen sollten. Die von ihnen angegebenen Werte wurden gemittelt; es ergab sich ein Fehler von 14.7 %. Damit waren die Chemiker besser als das neuronale Netz mit der Ladungskodierung und als CAMEO, wurden aber von dem neuronalen Netz mit der Bindungslisteneingabe geschlagen!
So ermutigend die Ergebnisse über die Produktverhältnisse bei der Nitrierung monosubstituierter Benzole mit dem auf der Bindungslistenkodierung basierenden neuronalen Netz sind, so sollen sie hier doch noch näher kommentiert werden.
Zum einen ist nicht überraschend, daß die Kodierung der Benzolderivate durch die Partialladungen auf den sechs Ringatomen wenig überzeugende Ergebnisse liefert. Abgesehen von den bekannten Unzulänglichkeiten der Mullikenschen Populationsanalyse ist die Grundzustandsladungsverteilung nur einer der Faktoren - und nicht einmal der wichtigste elektronische Effekt -, der die Produktverhältnisse bei der elektrophilen aromatischen Substitution beeinflußt. Somit können die Ladungswerte die Benzolderivate nur unzureichend bei der Erklärung der Produktverhältnisse der Nitrierung repräsentieren.
Die Kodierung der Benzolderivate durch die 5 x 5 Bindungsliste, so zufriedenstellend die Ergebnisse auch scheinen mögen, kann zur Erklärung der Effekte, die dirigierende wirken, zur Aufklärung des Einflusses der Reaktionsbedingungen und zur Vorhersage der Produkt-verhältnisse bei di- und polysubstituierten Benzolen nichts beitragen. Dazu muß man schon eine andere Repräsentation für die Benzolderivate wählen. Und das ist tatsächlich machbar [64]. Man darf dabei den Substituenten nicht global beschreiben, sondern muß seinen Einfluß auf die einzelnen Positionen des aromatischen Ringes direkt repräsentieren; für jede Ringposition muß man einen Wert für den Resonanzeffekt, das lokale elektrostatische Potential und den sterischen Effekt angeben. Da damit der Einfluß eines Substituenten individuell auf jede einzelne Ringposition wiedergegeben wird, kann von monosubstituierten Benzolen auf di- und poly-substituierte geschlossen und für diese Vorhersagen über die Isomerenverteilung bei weiterer Substitution gemacht werden. Zusätzlich läßt sich auch der Einfluß des Mediums berücksichtigen, indem eine weitere Eingabeeinheit für die Konzentration der Schwefelsäure zur Verfügung gestellt wird und das Netz damit, zusammen mit den Deskriptoren der Substituenteneinflüsse, trainiert wird [64].

8.4. Zusammenfassung

Modellierungsaufgaben stellen sich häufig und in vielen Bereichen der Chemie. Hier eröffnet sich ein breites Anwendungsgebiet für neuronale Netze. Zur Zeit dominieren bei diesen Anwendungen nahezu ausschließlich Mehrschichtennetze und der Backpropagation-Algorithmus. Dies muß aber nicht so sein; andere neuronale Netze, insbesondere mit dem Counterpropagation-Algorithmus [27] trainierte, können durchaus ebenso zur Modellierung verwendet werden.
Der Einsatz neuronaler Netze zur Modellierung, d.h. zur Vorhersage einer Objekteigenschaft aus einer Reihe von Parametern oder Messungen an diesem Objekt, sollte immer gegenüber der Verwendung statistischer Methoden abgewogen werden. Hat man eine relativ klare Vorstellung, welche Variablen die gesuchte Eigenschaft beeinflussen, und liegt ein weitgehend linearer Zusammenhang vor, so bieten traditionelle Methoden, z. B. eine multilineare Regressionsanalyse, eindeutige Vorteile: Man kommt schneller und mit weniger Rechenzeit zu einem Ergebnis, man kann Maßzahlen für die Güte der ermittelten Beziehung angeben und vor allem läßt die aus der statistischen Modellierung erhaltene Gleichung die Einflüsse der einzelnen Effekte auf die gesuchte Eigenschaft gut interpretieren.
Neuronale Netze sollte man aber einsetzen, wenn anzunehmen ist, daß nichtlineare Beziehungen zwischen der abhängigen und der unabhängigen Variablen bestehen, und wenn nicht genau angegeben werden kann, welche Parameter die untersuchte Eigenschaft beeinflussen.
Ob statistische Verfahren oder neuronales Netz, der Erfolg einer Untersuchung hängt entscheidend von der Wahl des Datensatzes, von der Repräsentation der Information und von den Methoden zur Validierung der Ergebnisse ab. Auch beim Einsatz neuronaler Netze haben die folgenden Punkte große Bedeutung:

-

Wahl eines homogenen Datensatzes zum Training (z. B. durch Experimental-Design-Techniken oder durch ein Kohonen-Netz (vgl. Abschnitt 10.1)

-

Aufspaltung des Datensatzes in repräsentative Trainings- und Testdatensätze

-

Wahl geeigneter Parameter als Eingabedaten zur Beschreibung der Objekte

Previous PageNext Page


Johann.Gasteiger@chemie.uni-erlangen.de