Kapitelanfang Vorige Seite Nächste Seite Nächstes Kapitel
VERN Home navigation
 
Chemoinformatik
Einführung in die Chemoinformatik
Repräsentation chemischer Strukturen
Repräsentation chemischer Reaktionen
Datentypen/Datenformate
Datenbanken/Datenquellen
Struktur-Suchmethoden
Berechnung physikalischer und chemischer Daten
Descriptoren für chemische Verbindungen
Methoden zur Datenanalyse
Einführung
Maschinelles Lernen
Lernverfahren
Entscheidungsbäume
Chemometrie
Multivariate Statistikmethoden
Korrelation
MLRA
PCA
PCR
PLS
MDS
Neuronale Netze
Fuzzy Logic
Genetische Algarithmen
Data Mining-Methoden in der Chemie
Weitere Data Mining-Methoden
Literatur
Anwendungen
Struktur-Eigenschafts-Beziehung
Strukturaufklärung
Synthesplanung

Startseite

Data Mining-Methoden in der Chemie

Der Prozess des Data Mining ist in der Chemie nicht neu. Chemiker nutzen seit den frühen Anfängen der chemischen Forschung sowohl eigene Daten als auch Literaturangaben für die Entwicklung von Modellen und zur Vorhersage von Sachverhalten. Die dramatische Zunahme der Größe von Datensätzen fordert jedoch den Einsatz von effektiven, computergestützten Data Mining-Methoden. Dabei kamen zunächst nur klassische Statistikmethoden zum Einsatz. Speziell ausgebildete Statistiker arbeiteten sich mit Hilfe besonderer Softwarepakete durch Unmengen an Daten und versuchten die darin verborgene Information zu extrahieren.

Der dafür notwendige Arbeits- und Zeitaufwand war enorm und führte häufig nicht zum gewünschten Erfolg. Erst durch die Entwicklung schneller Rechnersysteme konnten neue, auf künstliche Intelligenz basierende Analyseverfahren, sogenannte Machine Learning- Methoden entwickelt werden. Die darauf basierenden Techniken erlaubten erstmals die Lösung komplexerer Data Mining-Probleme.

Aufgrund der teilweise sehr diversen Definitionen des Data Mining-Begriffs gestaltet sich auch eine detaillierte und allgemein gültige Aufteilung und Klassifizierung der verschiedenen Data Mining-Methoden als schwierig. So werden je nach Standpunkt des Betrachters statistische Methoden und Projektions- bzw. Transformationsverfahren entweder zu den Data Mining-Methoden gezählt oder auch nicht. Darüber hinaus können die einzelnen Methoden sehr unterschiedlich zusammengefasst bzw. klassifiziert werden. Eine mögliche Gruppierung geht dabei von den Machine Learning-Ansätzen aus und unterscheidet beispielsweise zwischen sogenannten supervised und unsupervised learning-Mechanismen. Andere Ansätze wiederum unterscheiden die verwendeten Methoden anhand der zu analysierenden Datentypen (z. B. hierarchisch vs. nicht-hierarchisch, linear vs. nicht-linear, etc.) oder anhand von typischen Analysemodellen der Informatik (Sequenzanalyse, Verbindungsanalyse, zusammenfassende Analyse, Cluster-Analyse, etc.). Aus diesem Grund und der unüberschaubaren Anzahl an verschiedenen Methoden soll im Folgenden auf eine detaillierte und genau differenzierte Beschreibung der einzelnen Data Mining-Techniken verzichtet werden und nur eine grobe Übersicht der wichtigsten, für die chemische Forschung relevanten Data Mining-Methoden vermittelt werden. Da nicht jede Data Mining-Methode für ein gegebenes Analyse-Problem geeignet ist, muss in der Regel vorher eine Analyse der Stärken und Schwächen der jeweiligen Technik vorgenommen werden. Darüber hinaus können durch Kombination diverser Data Mining-Methoden häufig bessere Ergebnisse erzielt werden.

Die chemische Information wird bei der computergestützten Analyse in der Regel zunächst in eine sogenannte deskriptive Datenstruktur überführt. Diese Datenstrukturen werden auch als molekulare Deskriptoren bezeichnet und sind das Ergebnis mathematischer Verfahren, welche die chemische Information in sinnvolle, numerische Werte überführen. Es existiert eine Vielzahl an molekularen Deskriptoren unter anderen für topologische, elektronische und strukturelle Eigenschaften. Chemische Datensätze enthalten in der Regel eine ganze Reihe solcher Deskriptoren, da komplexe Sachverhalte und Relationen zwischen Datenobjekten nicht ausreichend durch eine oder wenige molekulare Datendimensionen beschrieben werden können. Der sich daraus ergebende, hochdimensionale Charakter der Datensätze setzt jedoch besondere Analysemethoden voraus.


© Prof. Dr. J. Gasteiger, Dr. Th. Engel, CCC Univ. Erlangen, Thu Apr 15 06:31:57 2004 GMT
navigation BMBF-Leitprojekt Vernetztes Studium - Chemie