Weitere Data Mining-Methoden

Neben den bereits erwähnten Data Mining-Methoden haben auch andere Techniken, wie Klassifikations- und Clustering-Verfahren, aber auch regelbasierte Systeme eine breite Anwendung in der Chemie gefunden.

Regelbasierte Systeme versuchen, die in Daten verborgene Informationen durch allgemeine Gesetzmäßigkeiten zu beschreiben. Einen Spezialfall stellen dabei die sogenannten Entscheidungsbäume (engl. decision trees) dar. Im Gegensatz zu allgemeinen, regelbasierten Systemen erlauben Entscheidungsbäume eine Rangfolge bzw. Gewichtung der abgeleiteten Regeln und ermöglichen somit eine gröbere bzw. feinere Unterteilung des Datensatzes. Mit zunehmender Anzahl an Verzweigungsknoten neigen Entscheidungsbäume jedoch zu einer höheren Fehleranfälligkeit. Außerdem eignet sich diese Technik nicht zur Abschätzung bzw. Vorhersage von Variablen und kann zudem nur bei kategorischen bzw. diskreten Datentypen angewendet werden.

Der bekannteste Vertreter von Klassifizierungsverfahren ist die Nächster-Nachbar-Klassifizierung (engl. k-nearest neighbor KNN). Die Datenbasis dieser Analysemethode besteht aus des Ergebnissen bereits bearbeiteter, ähnlicher Fragestellungen. Dabei wird für einen gegebenen Einzelpunkt der Datenwert gesucht, der die größte Ähnlichkeit zu einem bereits klassifizierten Datenpunkt aufweist. Dieser sogenannte nächste Nachbar wird dabei mit Hilfe von Distanz- und Kombinationsfunkionen (in der Regel euklidische Distanzen) ermittelt. Das unbekannte Datenobjekt wird letztendlich derjenigen Klasse zugeordnet, die die höchste Anzahl an ähnlichen bzw. nächsten Nachbarn enthält.

Insbesondere in der Wirkstoffforschung wird zudem eine Reihe wichtiger Clustering-Verfahren wie beispielsweise Multi-Domain clustering, Nearest-Neighbor clustering, Fuzzy clustering oder Ward clustering eingesetzt. Das Ziel von Clustering besteht darin, ähnliche Objekte zu Clustern zusammenzufassen, wobei die Gewichtung der verschiedenen Variablen eine bedeutende Rolle spielt. Im Gegensatz zu Klassifizierungsverfahren ist zu Beginn der Analyse allerdings nicht klar, welche Cluster durch das Clustering entstehen. Die Interpretation der Cluster ist daher nicht ganz einfach und setzt ein gewisses Maß an Expertenwissen voraus. Darüber hinaus ist in einigen Fällen die Wahl der richtigen Distanzwerte nicht ganz einfach. Außerdem müssen die Initialparameter der Methode sehr vorsichtig gesetzt werden. Aufgrund des hohen Maßes an Unsicherheitsfaktoren dürfen Ergebnisse aus Clusteringanalysen nicht überinterpretiert werden, sondern sollten lediglich als näher zu untersuchende Hinweise betrachtet werden. Auf die verschiedenen hierarchischen und nichthierarchischen Methoden soll an dieser Stelle nicht näher eingegangen werden.

BMBF-Leitprojekt Vernetztes Studium - Chemie