Kapitelanfang Vorige Seite Nächste Seite Nächstes Kapitel
VERN Home navigation
 
Chemoinformatik
Einführung in die Chemoinformatik
Repräsentation chemischer Strukturen
Repräsentation chemischer Reaktionen
Datentypen/Datenformate
Datenbanken/Datenquellen
Struktur-Suchmethoden
Berechnung physikalischer und chemischer Daten
Descriptoren für chemische Verbindungen
Methoden zur Datenanalyse
Einführung
Maschinelles Lernen
Lernverfahren
Entscheidungsbäume
Chemometrie
Multivariate Statistikmethoden
Korrelation
MLRA
PCA
PCR
PLS
MDS
Neuronale Netze
Fuzzy Logic
Genetische Algarithmen
Data Mining-Methoden in der Chemie
Weitere Data Mining-Methoden
Literatur
Anwendungen
Struktur-Eigenschafts-Beziehung
Strukturaufklärung
Synthesplanung

Startseite

Weitere Data Mining-Methoden

Neben den bereits erwähnten Data Mining-Methoden haben auch andere Techniken, wie Klassifikations- und Clustering-Verfahren, aber auch regelbasierte Systeme eine breite Anwendung in der Chemie gefunden.

Regelbasierte Systeme versuchen, die in Daten verborgene Informationen durch allgemeine Gesetzmäßigkeiten zu beschreiben. Einen Spezialfall stellen dabei die sogenannten Entscheidungsbäume (engl. decision trees) dar. Im Gegensatz zu allgemeinen, regelbasierten Systemen erlauben Entscheidungsbäume eine Rangfolge bzw. Gewichtung der abgeleiteten Regeln und ermöglichen somit eine gröbere bzw. feinere Unterteilung des Datensatzes. Mit zunehmender Anzahl an Verzweigungsknoten neigen Entscheidungsbäume jedoch zu einer höheren Fehleranfälligkeit. Außerdem eignet sich diese Technik nicht zur Abschätzung bzw. Vorhersage von Variablen und kann zudem nur bei kategorischen bzw. diskreten Datentypen angewendet werden.

Der bekannteste Vertreter von Klassifizierungsverfahren ist die Nächster-Nachbar-Klassifizierung (engl. k-nearest neighbor KNN). Die Datenbasis dieser Analysemethode besteht aus des Ergebnissen bereits bearbeiteter, ähnlicher Fragestellungen. Dabei wird für einen gegebenen Einzelpunkt der Datenwert gesucht, der die größte Ähnlichkeit zu einem bereits klassifizierten Datenpunkt aufweist. Dieser sogenannte nächste Nachbar wird dabei mit Hilfe von Distanz- und Kombinationsfunkionen (in der Regel euklidische Distanzen) ermittelt. Das unbekannte Datenobjekt wird letztendlich derjenigen Klasse zugeordnet, die die höchste Anzahl an ähnlichen bzw. nächsten Nachbarn enthält.

Insbesondere in der Wirkstoffforschung wird zudem eine Reihe wichtiger Clustering-Verfahren wie beispielsweise Multi-Domain clustering, Nearest-Neighbor clustering, Fuzzy clustering oder Ward clustering eingesetzt. Das Ziel von Clustering besteht darin, ähnliche Objekte zu Clustern zusammenzufassen, wobei die Gewichtung der verschiedenen Variablen eine bedeutende Rolle spielt. Im Gegensatz zu Klassifizierungsverfahren ist zu Beginn der Analyse allerdings nicht klar, welche Cluster durch das Clustering entstehen. Die Interpretation der Cluster ist daher nicht ganz einfach und setzt ein gewisses Maß an Expertenwissen voraus. Darüber hinaus ist in einigen Fällen die Wahl der richtigen Distanzwerte nicht ganz einfach. Außerdem müssen die Initialparameter der Methode sehr vorsichtig gesetzt werden. Aufgrund des hohen Maßes an Unsicherheitsfaktoren dürfen Ergebnisse aus Clusteringanalysen nicht überinterpretiert werden, sondern sollten lediglich als näher zu untersuchende Hinweise betrachtet werden. Auf die verschiedenen hierarchischen und nichthierarchischen Methoden soll an dieser Stelle nicht näher eingegangen werden.


© Prof. Dr. J. Gasteiger, Dr. Th. Engel, CCC Univ. Erlangen, Thu Apr 15 06:31:57 2004 GMT
navigation BMBF-Leitprojekt Vernetztes Studium - Chemie