Weitere Data Mining-Methoden
Neben den bereits erwähnten Data Mining-Methoden haben auch
andere Techniken, wie Klassifikations- und Clustering-Verfahren,
aber auch regelbasierte Systeme eine breite Anwendung in der Chemie
gefunden.
Regelbasierte Systeme versuchen, die in Daten verborgene Informationen
durch allgemeine Gesetzmäßigkeiten zu beschreiben. Einen
Spezialfall stellen dabei die sogenannten Entscheidungsbäume
(engl. decision trees) dar. Im Gegensatz zu allgemeinen, regelbasierten
Systemen erlauben Entscheidungsbäume eine Rangfolge bzw. Gewichtung
der abgeleiteten Regeln und ermöglichen somit eine gröbere
bzw. feinere Unterteilung des Datensatzes. Mit zunehmender Anzahl
an Verzweigungsknoten neigen Entscheidungsbäume jedoch zu einer
höheren Fehleranfälligkeit. Außerdem eignet sich
diese Technik nicht zur Abschätzung bzw. Vorhersage von Variablen
und kann zudem nur bei kategorischen bzw. diskreten Datentypen angewendet
werden.
Der bekannteste Vertreter von Klassifizierungsverfahren ist die Nächster-Nachbar-Klassifizierung (engl. k-nearest neighbor KNN). Die Datenbasis dieser Analysemethode besteht aus des Ergebnissen bereits bearbeiteter, ähnlicher Fragestellungen. Dabei wird für einen gegebenen Einzelpunkt der Datenwert gesucht, der die größte Ähnlichkeit zu einem bereits klassifizierten Datenpunkt aufweist. Dieser sogenannte nächste Nachbar wird dabei mit Hilfe von Distanz- und Kombinationsfunkionen (in der Regel euklidische Distanzen) ermittelt. Das unbekannte Datenobjekt wird letztendlich derjenigen Klasse zugeordnet, die die höchste Anzahl an ähnlichen bzw. nächsten Nachbarn enthält.
Insbesondere in der Wirkstoffforschung wird zudem eine Reihe wichtiger Clustering-Verfahren wie beispielsweise Multi-Domain clustering, Nearest-Neighbor clustering, Fuzzy clustering oder Ward clustering eingesetzt. Das Ziel von Clustering besteht darin, ähnliche Objekte zu Clustern zusammenzufassen, wobei die Gewichtung der verschiedenen Variablen eine bedeutende Rolle spielt. Im Gegensatz zu Klassifizierungsverfahren ist zu Beginn der Analyse allerdings nicht klar, welche Cluster durch das Clustering entstehen. Die Interpretation der Cluster ist daher nicht ganz einfach und setzt ein gewisses Maß an Expertenwissen voraus. Darüber hinaus ist in einigen Fällen die Wahl der richtigen Distanzwerte nicht ganz einfach. Außerdem müssen die Initialparameter der Methode sehr vorsichtig gesetzt werden. Aufgrund des hohen Maßes an Unsicherheitsfaktoren dürfen Ergebnisse aus Clusteringanalysen nicht überinterpretiert werden, sondern sollten lediglich als näher zu untersuchende Hinweise betrachtet werden. Auf die verschiedenen hierarchischen und nichthierarchischen Methoden soll an dieser Stelle nicht näher eingegangen werden.
© Prof. Dr. J. Gasteiger, Dr. Th. Engel, CCC Univ. Erlangen, Thu Apr 15 06:31:57 2004 GMT
BMBF-Leitprojekt Vernetztes Studium - Chemie
|