Previous PageNext Page

7. Klassifikation

Klassifikationsprobleme sind eines der verbreitetsten Einsatzgebiete neuronaler Netze. Ein Objekt wird durch Meßdaten charakterisiert und aufgrund dessen einer bestimmten Kategorie zugeordnet, oder es wird festgestellt, daß es eine bestimmte Eigenschaft nicht hat oder nicht zu der betrachteten Klasse gehört. Die Ausgabedaten sind also binärer Natur- eine Eigenschaft ist vorhanden oder nicht, das Objekt gehört einer bestimmten Klasse an oder nicht. Die Eingabedaten, die das Objekt charakterisieren, können binärer Natur oder auch reelle Werte (Meßdaten) sein. Klassifikation ist ein traditionelles Gebiet für den Einsatz von statistischen oder Mustererkennungsmethoden. Neuronale Netze bieten den Vorteil, daß sie auch bei sehr komplizierten Zusammenhängen zwischen den Objektdaten und der gesuchten Klassenzugehörigkeit noch eingesetzt werden können. Auch für Zusammenhänge, die sich nicht oder nur schwer in explizite Gleichungen fassen lassen oder die eindeutig nichtlinear sind, sind neuronale Netze noch geeignet. Im folgenden wollen wir Beispiele aus mehreren Bereichen der Chemie geben, wobei entweder eine einzige Eigenschaft zu diagnostizieren (Abschnitt 7.1), eine Kategorie aus einer ganzen Reihe von Klassen auszuwählen (Abschnitt 7.5) oder ein Objekt gleichzeitig mehreren Klassen zuzuordnen ist (Abschnitte 7.2-7.4).

7.1. Chemische Reaktivität

Der Chemiker leitet seine Erkenntnisse über die Reaktivität von Bindungen und funktionellen Gruppen aus einer Vielzahl von Beobachtungen an einzelnen Reaktionen ab. Wie kann nun dieser Prozeß auf ein neuronales Netz übertragen werden? Behandeln wir das Problem des polaren Bindungsbruches (Schema 1), den einleitenden Schritt vieler organischen Reaktionen [29].

Schema 1. Der polare Bindungsbruch.

Die Reaktivität soll hier sehr grob nur darüber charakterisiert werden, ob eine Bindung leicht oder schwer heterolytisch gespalten wird. Dazu genügt ein einziges Neuron als Ausgang des neuronalen Netzes, das auf Eins gesetzt wird, wenn die Bindung leicht gespalten werden kann, und den Wert Null erhält, wenn der Bindungsbruch schwer zu realisieren ist. Nun muß noch der polare Bindungsbruch durch Faktoren charakterisiert werden, die diesen Vorgang beeinflussen. Dazu wurde eine Reihe energetischer und elektronischer Effekte verwendet: Bindungsdissoziationsenergie BDE, Differenz der Gesamtladung Dqtot, Differenz der p-Ladung Dqp, Differenz der s-Elektronegativität Dcs, s-Polarität Qs, Bindungspolarisierbarkeit ab, und Ausmaß der Resonanzstabilisierung R± der Ladungen, die beim polaren Bindungsbruch entstehen. Werte für diese Größen wurden mit empirischen Verfahren berechnet [30]-[34]. Für diese sieben Parameter benötigt man sieben Einheiten, in die die (reellen) Werte der einzelnen Größen eingegeben werden. Eine Zwischenschicht mit drei Neuronen vervollständigt die Netzwerkarchitektur dieser Studie (Abb. 30).

Abb. 30. Architektur und Eingabeparameter für ein neuronales Netz, das die Brechbarkeit von Bindungen vorhersagen soll. Einzelheiten siehe Text.

Ein Datensatz aus 29 aliphatischen Verbindungen, die 385 Bindungen enthielten, wurde erstellt. Da jede Bindung in zwei Richtungen heterolytisch gespalten werden kann (siehe Schema 1), sind insgesamt 770 polare Bindungsbrüche möglich. Aus diesen wurden 149 Heterolysen von Einfachbindungen ausgewählt und davon 64 zum Training des Netzes mit dem Backpropagation-Algorithmus verwendet; mit den restlichen 85 Bindungsbrüchen wurde das Netz getestet (die Einteilung in Trainings- und Testdatensatz wird im Abschnitt 10.1 erläutert). Abbildung 31 zeigt eine Auswahl an Molekülen aus dem Datensatz, in die die als brechbar und die als nicht brechbar klassifizierten Bindungen eingezeichnet sind.

Abb. 31. Auswahl an Strukturen aus dem Trainingssatz mit der Angabe, welche Bindungen leicht (Pfeile) und welche schwer (durchgestrichene Pfeile) heterolytisch gespalten werden können. Die Pfeilrichtung gibt an, zu welchem Atom das Elektronenpaar der Bindung beim Bindungsbruch verschoben wird, welches Atom also die negative Ladung erhält.

Nach 1300 Cyclen (Epochen) hatte das Netz alle 64 Bindungsbrüche des Trainingsdatensatzes korrekt gelernt. Nun wurden die Bindungsbrüche aus dem Testdatensatz über das fertig trainierte neuronale Netz geschickt. Diese 85 Bindungsbrüche, über die das Netz also vorher noch keine Information erhalten hatte, wurden ebenfalls als korrekt klassifiziert. Die Einteilung der Bindungen in leicht und schwer brechbare wurde vom Netz genau so vorhergesagt, wie sie vom Chemiker festgelegt worden war. Das Netz hatte also die Zusammenhänge zwischen den elektronischen und energetischen Variablen und dem polaren Bindungsbruch gelernt.
Damit konnte das Netz nun auch auf Verbindungen angewendet werden, die weder im Trainings- noch im Testdatensatz enthalten sind. Und es machte korrekte Vorhersagen auch bei Bindungstypen, die Atome enthielten, die gar nicht zum Training verwendet wurden. In Abbildung 32 werden die vorhergesagten reaktiven Bindungen einer Struktur gezeigt, die nicht zum Training des Netzes verwendet wurde. Als besonders reaktiv ergaben sich die allylständigen C-Br- und C-S-Bindungen sowie die C-H-Bindung des zentralen Allyl-C-Atoms und die S-H-Bindung. Die allylischen Positionen an den Enden des Systems wurden als weniger acid eingeschätzt, wobei die Position, bei der das Bromsubstituent induktiv stabilisierend wirken kann, noch die höhere Acidität erhielt. Alle diese Ergebnisse stimmen mit der chemischen Erfahrung überein.

Abb. 32. Durch das für polare Bindungsbrüche trainierte neuronale Netz vorhergesagte Bindungsbrüche in einer Struktur, die nicht im Lernverfahren verwendet wurde. Die Pfeilrichtungen geben die Verschiebung der Elektronenpaare an, die Zahlenwerte die vorhergesagte Wahrscheinlichkeit des Bindungsbruchs.

Bemerkenswert ist dabei noch, daß auch die Reaktivität der SH-Gruppe richtig beurteilt wird, obwohl im Trainingsdatensatz keine einzige Struktur mit einem Schwefelatom enthalten war. Dies ermöglichen die elektronischen und energetischen Parameter, die den Einfluß eines Atoms in allgemeiner Form in den zur Berechnung eingesetzten Methoden enthalten, so daß ein Atomtyp berücksichtigt werden kann, sofern er in diesen Rechenverfahren enthalten ist, auch wenn er im aktuellen Trainingssatz nicht vorkommt.
Dieses so entwickelte neuronale Netz kann für ein breites Spektrum aliphatischer Strukturen vorhersagen, welche Bindungen leicht und welche schwer polar gebrochen werden können.

7.2. Prozeßkontrolle

Bei vielen chemischen Prozessen lassen sich die Beziehungen zwischen Prozeßdaten und Steuerparametern nur - wenn überhaupt - durch nichtlineare Gleichungen wiedergeben. Diese Prozesse sind deshalb schwierig zu modellieren und in ihrem Verlauf vorherzusagen. Es überrascht daher nicht, daß neuronale Netze intensiv für Aufgaben der Prozeßkontrolle eingesetzt werden [35]-[41]. Dabei versucht man sowohl bestimmte Ereignisse zu klassifizieren (Ja-nein-Entscheidungen) als auch Steuerparameter zu modellieren (Vorhersage eines reellen Wertes).
Ein Beispiel, bei dem zwischen verschiedenen Klassenzugehörigkeiten auszuwählen ist, soll die Einsatzmöglichkeiten illustrieren [36]. Für einen Reaktortank, kontinuierlich gerührt, in dem eine exotherme Reaktion ablief, sollten Fehlfunktionen aus sechs verschiedenen Meßdaten abgeleitet werden.
Folgende Größen wurden gemessen (vgl. Abb. 33): (1) Die Auslaßkonzentration des Edukts, Ce, (2) die Reaktortemperatur Tr, (3) das Reaktorfüllvolumen Vr, (4) die Auslaßfließgeschwindigkeit FRp, (5) die Kühlwassertemperatur Tc und (6) die Kühlwasserfließgeschwindigkeit FRc. Anhand dieser Daten sollten mehrere Fehlverhalten des Reaktors diagnostiziert werden. Fehlfunktionen können durch die Einlaßkonzentration des Edukts, Ceo, die Einlaßtemperatur Te, und die Einlaßfließgeschwindigkeit FRe verursacht werden. Weichen diese Größen um mehr als 5 % vom Normalwert nach oben oder unten ab, liegt eine Fehlfunktion des Reaktors vor.

Abb. 33. Modell des Reaktortanks mit Angabe der sechs Meßgrößen Ce, Tr, Vr, FRp, Tc und FRc sowie der Zustandsgrößen, die eine Fehlfunktion verursachen (Ceo, Te und FRe).

Jede der Fehlfunktionen beeinflußt fast alle "Symptome", also alle sechs Meßwerte, so daß eine bestimmte Fehlfunktion nicht direkt aus einer einzigen Messung abgeleitet werden kann. Darüber hinaus können sich auch mehrere Fehlfunktionen in den Meßdaten gegenseitig kompensieren oder synergistisch verstärken. Außerdem können die Fehlfunktionen nicht nur einzeln, sondern auch zu mehreren gleichzeitig auftreten.
Welche Netzwerkarchitektur wurde nun gewählt? Einzugeben sind sechs - reelle - Meßdaten, also werden sechs Eingabeeinheiten benötigt. Ausgabeneuronen wurden ebenfalls sechs gewählt, und zwar für jede der drei entscheidenden Einlaßparameter Ceo, Te, und FRe jeweils ein Neuron für eine Abweichung vom Normalwert nach oben und ein Neuron für eine Abweichung nach unten. Das jeweilige Ausgabeneuron sollte also aktiviert werden, wenn die entsprechende Fehlfunktion eintritt. Fünf Neuronen in der Zwischenschicht vervollständigten das Mehrschichtennetz (Abb. 34).

Abb. 34. Neuronales Netz zur Diagnostik von Fehlfunktionen des chemischen Reaktors der Abbildung 33.

In diesem neuronalen Netz waren demnach 6 x 5 + 5 x 6 = 60 Gewichte zu bestimmen. Zwölf einzelne Fehlfunktionen wurden absichtlich erzeugt und mit den dabei gemessenen Daten das neuronale Netz unter Verwendung des Backpropagation-Algorithmus trainiert. Das so trainierte Netz konnte die Reaktordaten bei Normalfunktion, die nicht im Lernprozeß verwendet wurden, als ungestörtes Verhalten identifizieren. Außerdem wurden vier Mehrfachfehlfunktionen eingestellt; das neuronale Netz konnte diese ebenfalls korrekt aus den dabei gemessenen Daten ableiten.
Neuronale Netze werden sicherlich in der Prozeßkontrolle große Bedeutung erlangen. Man könnte auch das auf einen bestimmten Prozeß eintrainierte neuronale Netz auf einem Chip fest einprogrammieren und dieses Chip in den Kontrollprozeß einbauen.

7.3. Zusammenhang zwischen Struktur und IR-Spektrum

In den Beispielen der Abschnitte 7.1 und 7. 2 wurden noch recht einfache neuronale Netze mit relativ wenigen Gewichten verwendet. Bei der nun folgenden Anwendung wurde ein erheblich größeres Netz mit fast 10000 Gewichten entworfen.
Die moderne Strukturaufklärung basiert auf spektroskopischen Methoden. Da die Beziehungen zwischen der Struktur und den spektroskopischen Daten einer organischen Verbindung aber zu komplex sind, um sie in einfache Gleichungen fassen zu können, gibt es eine Vielzahl empirischer Regeln. Da eine Unmenge an spektroskopischen Daten zur Verfügung steht, ist eine ideale Voraussetzung für das Training neuronaler Netze gegeben. Die ersten Schritte wurden bereits unternommen, um die Zusammenhänge zwischen Struktur und spektroskopischen Daten in neuronale Netze einzuspeichern; wir werden aber sehen, daß auf diesem Gebiet noch viel Entwicklungsarbeit zu leisten ist.
Munk et. al. [42] gingen der Frage nach, inwieweit mit einem neuronalen Netz aufgrund eines IR-Spektrums Aussagen über die in einer Verbindung enthaltenen Teilstrukturen gemacht werden können. Der Bereich eines IR-Spektrums von 400 - 3960 cm-1 wurde in 256 Intervalle eingeteilt und jedes dieser Intervalle einem Eingabeelement zugeordnet. Befand sich in diesem Bereich eine Bande, so wurde deren Intensität in das Eingabeelement eingegeben. Das neuronale Netz hatte 36 Ausgabeneuronen, die für 36 verschiedene funktionelle Einheiten (Substrukturen, z.B. primärer Alkohol, Phenol, tertiäres Amin, Ester) zuständig waren. War eine Substruktur in der untersuchten Verbindung enthalten, so erhielt das entsprechende Neuron den Wert Eins, andernfalls den Wert Null. Weiterhin wurde eine Zwischenschicht mit 34 verdeckten Neuronen verwendet, so daß in diesem Mehrschichtennetz 256 x 34 + 34 x 36 = 9928 Gewichte festzulegen waren. Die prinzipielle Vorgehensweise und die Architektur des neuronalen Netzes ist in Abbildung 35 skizziert.

Abb. 35. Neuronales Netz, das die Zusammenhänge zwischen dem IR-Spektrum einer Verbindung und den darin enthaltenen Substrukuren lernen soll.

Um die Gewichte des neuronalen Netzes zu bestimmen, wurde das Netz mit 2499 IR-Spektren und den zugehörigen, in die Substrukturen zerlegten Strukturen nach dem Backpropagation-Algorithmus trainiert. 416 IR-Spektren wurden zum Test der Vorhersagefähigkeit des Netzes verwendet. Ein einziger Cyclus durch alle Spektren erforderte 10 min CPU-Zeit auf einer VAX 3500; für ein Training mit vielen Cyclen (Epochen), typischerweise waren 100 Epochen nötig, wurde ein Cray-Supercomputer verwendet.
Für jede Substruktur wurde die Qualität der Ergebnisse durch eine Zahl, den A50-Wert, beschrieben. Dieser Wert gibt die Genauigkeit bei 50 % Informationsrückgabe an, d.h. mit welcher Genauigkeit eine Substruktur bestimmt werden kann, wenn der Schwellenwert auf den Mittelwert der Verteilungskurve gesetzt wird.
Als typisches Ergebnis sind in Abbildung 36 die Resultate für primäre Alkohole angegeben. Der Schwellenwert lag bei einem Ausgabewert von 0.86. Bei diesem Wert werden von den 265 im Trainingssatz enthaltenen primären Alkoholen 132 korrekt identifiziert, aber es werden auch 34 Verbindungen fälschlicherweise als primäre Alkohole eingeordnet. Der A50-Wert für diese Gruppe ist also 132/(132 + 34) = 79.5 %. Dieser Wert wurde noch als gut bezeichnet. Mit ähnlicher oder besserer Qualität konnten 30 der 36 Substrukturen bestimmt werden.

Abb. 36. Prozentuale Verteilung der Ausgabewerte Y des neuronalen Netzes für primäre Alkohole. Die durchgezogene Linie gilt für Verbindungen, die primäre Alkohole sind, die gepunktete Linie für alle anderen Verbindungen. Der Mittelwert der Ausgabewerte für primäre Alkohole lag bei 0.86.

Die Ergebnisse dieses Netzwerkes mit einer Zwischenschicht wurden auch mit der Klassifikationsfähigkeit eines Netzes ohne Zwischenschicht verglichen [43]. Es konnte dabei gezeigt werden, daß die Neuronenzwischenschicht zu einer wesentlichen Verbesserung der Ergebnisse beitrug.
Diese Untersuchung hat natürlich das Problem, die Zusammenhänge zwischen IR-Spektrum und Struktur aufzuklären, nicht gelöst. Im wesentlichen hat man sich auf einige wichtige Substrukturen konzentriert und das Gerüst außer acht gelassen. Dennoch sind die Vorhersagen nur mäßig; von 265 primären Alkoholen nur 132 zu erkennen und dazu noch 34 falsche Zuordnungen zu treffen ist enttäuschend. Setzt man den Schwellenwert höher, so kann mit großer Sicherheit gesagt werden, ob eine bestimmte Substruktur vorhanden oder nicht vorhanden ist, zugleich hat man aber einen weiten Bereich von Verbindungen, bei denen keine sicheren Vorhersagen möglich sind. In einem System zur automatischen Strukturaufklärung kann aber dank derartiger Vorhersagen der Suchraum bedeutend eingeschränkt werden. Hierin liegt der Wert dieser Ergebnisse.
Damit ist natürlich noch nicht das letzte Wort zum Zusammenhang zwischen Struktur und IR-Daten gesprochen. In weiteren Untersuchungen müßte vor allem versucht werden, die Gerüstschwingungen zuzuordnen, dazu müßten die Strukturen aber noch anders kodiert werden.

7.4. Zusammenhang zwischen Struktur und Massenspektrum

Die Zusammenhänge zwischen Massenspektren und Strukturen sind noch komplizierter als die zwischen IR-Spektren und Strukturen. Dennoch wurde auch dieses Problem bereits mit neuronalen Netzen angegangen.
Auch hier wurde ein Mehrschichtennetz mit einer Zwischenschicht nach dem Backpropagation-Algorithmus trainiert [44]. Die Massenspektren wurden durch 493 Merkmale beschrieben; dazu gehörten die Logarithmen der Intensitäten der Peaks zwischen m/z 40 und 219, die Logarithmen der Neutralabspaltungen zwischen D(m/z) 0 und 179, Autokorrelationssummen, Modulo-14-Werte, Seriennummern usw. Die Werte dieser 493 Spektrencharakteristika wurden auf ebenso viele Eingabeeinheiten gegeben.
Auch hier wurde die Struktur einer organischen Verbindung durch 36 Substrukturen - allerdings zum Teil andere als bei der Studie mit den IR-Spektren - charakterisiert; dazu waren 36 Ausgabeneuronen nötig. Die Zahl der Neuronen in der Zwischenschicht betrug 80, so daß also 493 x 80 + 80 x 36 = 42320 Gewichte bestimmt werden mußten.
Dementspechend wurden auch größere Datensätze untersucht: mit 31926 Massenspektren zum Training und 12671 Massenspektren zum Testen der Ergebnisse. Mit solch großen Datensätzen und einem Netzwerk mit so vielen Gewichten benötigt das Lernverfahren - auch hier wurde der Backpropagation-Algorithmus verwendet - natürlich schon erhebliche Zeit: Eine Epoche, also der Vorgang, alle 32000 Spektren einmal über das Netz zu schicken, erforderte 6 h CPU-Zeit auf einer HP-9000/370- oder SUN-4-Workstation. Typischerweise waren 50 Epochen nötig, so daß das Training ungefähr zwei Wochen an reiner Rechenzeit auf einen leistungsfähigen Arbeitsplatzrechner benötigte.
Die Klassifikationsergebnisse mit dem fertig trainierten neuronalen Netz, MSnet, wurden mit Resultaten aus STIRS [45] verglichen. STIRS aus der Gruppe von McLafferty ist ein leistungsfähiges Expertensystem, um das Vorhandensein funktioneller Gruppen aus Massenspektren abzuleiten.
Die Klassifikationsergebnisse mit MSnet waren etwas besser als diejenigen aus STIRS. MSnet bietet aber noch einige zusätzliche Vorteile: (1) Für die Zugehörigkeit einer Verbindung zu einer bestimmten Klasse kann ein Wahrscheinlichkeitswert angegeben werden. (2) Nicht nur die Anwesenheit, sondern auch die Abwesenheit einer funktionellen Gruppe kann diagnostiziert werden. (3) Die Rechenzeiten bei der Abfrage sind bei MSnet um zwei Größenordnungen niedriger als bei STIRS.
Dies muß betont werden: Mag auch das Training eines neuronalen Netzes viel Rechenzeit erfordern, mit einem fertig trainierten Netz können Vorhersagen mit einem Minimum an Rechenzeit gemacht werden.
Solch ein globaler Anspruch, den Zusammenhang zwischen der molekularen Struktur und spektroskopischen Daten für den gesamten Bereich der Organischen Chemie darzustellen oder zu lernen, muß mit einem grundsätzlichen Problem der statistischen Verteilung von Daten kämpfen. Ein Beispiel: Der Datensatz aus 32000 Verbindungen enthielt 33 Phthalsäureester, die einen sehr charakteristischen Peak bei m/z 149 ergeben. Aber die meisten Spektren, die bei m/z 149 einen Peak haben, stammen gerade nicht von Phthalsäureestern, da ja im Datensatz nur sehr wenige Phthalsäureester enthalten sind, und folglich werden Phthalsäureester nicht erkannt.
In dieser Arbeit [44] wird ein interessanter Versuch gemacht, dieses generelle Problem anzugehen. Es wird eine Hierarchie an neuronalen Netzen vorgeschlagen (Abb. 37). Während ein übergeordnetes Netz erst eine Einteilung nach den wichtigsten funktionellen Gruppen vornimmt, werden die einzelnen Verbindungsklassen dann durch spezialisierte neuronale Netze weiter verfeinert. So wurde ein spezielles Netz entwickelt, das Verbindungen, die die O-C=O-Gruppe enthalten, auf 22 Unterklassen (gesättigte Ester, aromatische Ester, Lactone, Anhydride etc.) aufteilt. Diese Idee einer Hierarchie neuronaler Netze könnte auch bei anderen Problemen gute Dienste leisten.

Abb. 37. Hierarchie neuronaler Netze zur Ableitung von Substrukturen aus Massenspektren.

7.5. Sekundärstruktur von Proteinen

Hatte man es in dem Beispiel des vorhergehenden Abschnitts noch mit einer recht einfachen Netzwerkarchitektur zu tun, so wird jetzt über Fälle mit einer ziemlich umfangreichen Codierung der Eingabedaten berichtet. Dementsprechend liegt ein recht komplexes neuronales Netz mit einer Vielzahl von Gewichten vor.
Um tieferen Einblick in die physiologischen Eigenschaften von Proteinen zu erhalten, muß man deren Sekundärstruktur kennen. Daher fehlt es nicht an Versuchen, die Sekundärstruktur von Proteinen aus deren Primärstruktur, also aus der Aminosäuresequenz, abzuleiten. Chou und Fasman [46] führten eine heute viel verwendete Methode ein, um aus der Aminosäuresequenz abzuleiten, welche Sekundärstruktur die Teile eines Proteins einnehmen. Dieses Verfahren kann für die einzelnen Aminosäuren eines Proteins mit einer Trefferquote von 50-53 % vorhersagen, ob sie an einer a-Helix, einem b-Faltblatt oder an einer unregelmäßigen Knäuelstruktur teilnehmen [47]. In den letzten Jahren erschienen nun in kurzer Folge einige Arbeiten [48]-[56] über die Vorhersage der Sekundär- oder sogar der Tertiärstruktur von Proteinabschnitten aus der Aminosäuresequenz mit Hilfe neuronaler Netze.
Hier soll anhand der Arbeit von Qian und Sejnowski [48] die prinzipielle Vorgehensweise aufgezeigt werden; die meisten anderen Untersuchungen [49]-[56] haben eine sehr ähnliche Strategie gewählt.
Sowohl der Methode von Chou und Fasman [46] als auch dem Einsatz neuronaler Netze liegt die Annahme zugrunde, daß die Aminosäure (AS) selbst und ihre unmittelbare Umgebung, also die Aminosäuren in der Sequenz unmittelbar vor und nach der betrachteten AS, darüber entscheiden, an welcher Sekundärstruktur diese Aminosäure teilnimmt.
Um diese Abhängigkeit der Sekundärstruktur von der Sequenz zu berücksichtigen, werden die gerade betrachtete Aminosäure und die jeweils sechs Aminosäuren, die dieser Aminosäure in der Sequenz vorausgehen bzw. nachfolgen, in das neuronale Netz eingegeben. Aus der Aminosäuresequenz wird also ein "Fenster" von 13 Aminosäuren herausgeschnitten. Dieses Fenster muß dann in Schritten über die gesamte Aminosäuresequenz geschoben werden, damit jede AS der Sequenz sich einmal im Zentrum dieses Fensters befindet (Abb. 38).

Abb. 38. Ausschnitt ("Fenster") von 13 Aminosäuren aus einer Proteinsequenz, mit dessen Hilfe bestimmt werden soll, an welcher Sekundärstruktur die betrachtete Aminosäure, in diesem Fall Valin, teilnimmt.

Wie wurden nun die einzelnen Aminosäuren codiert? Für jede AS des Fensters aus 13 AS wurde ein Bitvektor der Länge 21 verwendet. In diesem Bitvektor ist für jede der 20 natürlichen AS eine bestimmte Position reserviert, d.h. beispielsweise das 14. Bit wird auf Eins gesetzt, wenn die AS Prolin vorliegt. Eine weitere Position wird benötigt, um kennzuzeichnen, wenn das Fenster am Anfang oder am Ende des Proteins keine AS mehr enthält. Insgesamt werden für die Größe des Fensters und für die Identität einer AS also 13 x 21 = 273 Eingabeeinheiten benötigt, wobei jeweils nur ein Bit, also Null oder Eins, in das neuronale Netz eingegeben wird.
Ausgabeneuronen hatte das Netz drei, eines für das Vorkommen einer a-Helix, eines für b-Faltblatt und eines für eine geknäuelte Struktur. Als optimales Netz wurde nach Versuchen mit 0 - 80 Zwischenneuronen eine Architektur mit einer Zwischenschicht von 40 Neuronen gewählt, so daß 273 x 40 + 40 x 3 = 11040 Gewichte zu bestimmen waren. Auch hier wurde das Backpropagation-Lernverfahren gewählt. Die Gesamtarchitektur ist in Abbildung 39 dargestellt.

Abb. 39. Neuronales Netz zur Ableitung der Sekundärstruktur eines Proteins aus dessen Aminosäuresequenz.

Das Netz wurde mit 106 Proteinen, die insgesamt 18105 Aminosäuren enthielten, trainiert. Getestet wurde die Leistungsfähigkeit des Netzes mit 15 zusätzlichen Proteinen, die insgesamt 3520 AS umfaßten. Damit konnte eine Vorhersagegenauigkeit von 62.7 % erzielt werden.
Mit 62.7 % Korrektheit kann also angegeben werden, ob eine Aminosäure an einer a-Helix, einem b-Faltblatt oder einer geknäuelten Sekundärstruktur teilnimmt. Dies ist eine merkliche Verbesserung gegenüber den traditionellen Methoden zur Vorhersage der Sekundärstruktur, läßt aber noch einiges zu wünschen übrig, so daß verständlich wird, weshalb auf diesem Gebiet so aktiv geforscht wird [48]-[56].

7.6. Zusammenfassung

Die Anwendungen aus ganz unterschiedlichen Bereichen der Chemie unterstreichen die breite Einsatzmöglichkeit neuronaler Netze zur Klassifikation. In allen vorgestellten Beispielen wurde ein Mehrschichtennetz verwendet, das mit dem Backpropagation-Lernverfahren trainiert wurde.
Die Zahl der Neuronen in der Zwischenschicht wird meist durch systematische Versuchsreihen festgelegt. Mit zu wenigen Neuronen läßt sich eine Problemlösung nicht korrekt lernen; mit einer wachsenden Zahl an Neuronen sinkt der Fehler beim Lernen, man benötigt dann aber auch längere Trainingszeiten. Zu viele Neuronen und zu langes Training können zu einem weiteren Problem führen: Overtraining. Darunter versteht man, daß ein neuronales Netz zwar den Trainingsdatensatz ohne Fehler wiedergibt, bei neuen Daten aber zu schlechten Vorhersagen führt. Mehrschichtennetze haben meist sehr viele Gewichte, also auch sehr viele Freiheitsgrade, um sie an einen Datensatz anzupassen. Damit besteht die Gefahr, daß man beim Training in einem lokalen Fehlerminimum landet, das wenig Vorhersagekraft bei neuen Daten hat.
Mit der Komplexität des neuronalen Netzes, vor allem also mit der Zahl der Gewichte und der Zahl der verwendeten Trainingsdaten, können die Trainingszeiten stark zunehmen. Lange Trainingszeiten sollten aber nicht zu sehr abschrecken, denn im Idealfall muß ein Netz nur ein einziges Mal trainiert werden. Hat es einmal zu Ende gelernt, so können Vorhersagen mit neuen Daten sehr rasch gemacht werden, da diese neuen Daten nur ein einziges Mal über das fertig trainierte Netz geschickt werden müssen.
Bei Klassifikationsproblemen möchte man in den Ausgabeneuronen Werte Eins oder Null erhalten, um eindeutig entscheiden zu können, ob ein Objekt zu einer Kategorie gehört oder nicht. In Wirklichkeit erhält man Werte zwischen Eins und Null und kann dann anhand von Schwellenwerten (z. B. 0.8 bzw. 0.2) festlegen, ob das Objekt zu einer Klasse gehört oder nicht. Die numerischen Ausgabewerte können auch als Wahrscheinlichkeiten für eine Klassenzugehörigkeit aufgefaßt werden und als solche in Entscheidungssysteme übernommen werden.
Diese numerischen Ausgabewerte zeigen auch bereits den Übergang zu Modellierungsproblemen, die im nächsten Kapitel behandelt werden. Bei Modellierungsaufgaben möchte man ja Funktionswerte, also reelle Daten erhalten. Diese können aus den Werten zwischen Null und Eins durch anschließende Umwandlung mit mathematischen Funktionen erhalten werden.
Noch einmal, die wesentlichste Aufgabe für den Einsatz eines neuronalen Netzes ist es, eine geeignete Repräsentation der Eingabe- und Ausgabedaten zu finden. Die hierarchische Anordnung mehrere Netze (Abschnitt 7.4) und das verschiebbare Fenster im Abschnitt 7.5 sollen zeigen, daß der Phantasie keine Grenzen gesetzt sind.

Previous PageNext Page


Johann.Gasteiger@chemie.uni-erlangen.de