Kapitelanfang Vorige Seite Nächste Seite Nächstes Kapitel
VERN Home navigation
 
Chemoinformatik
Einführung in die Chemoinformatik
Repräsentation chemischer Strukturen
Repräsentation chemischer Reaktionen
Datentypen/Datenformate
Datenbanken/Datenquellen
Struktur-Suchmethoden
Berechnung physikalischer und chemischer Daten
Descriptoren für chemische Verbindungen
Methoden zur Datenanalyse
Einführung
Maschinelles Lernen
Lernverfahren
Entscheidungsbäume
Chemometrie
Multivariate Statistikmethoden
Korrelation
MLRA
PCA
PCR
PLS
MDS
Neuronale Netze
Fuzzy Logic
Genetische Algarithmen
Data Mining-Methoden in der Chemie
Weitere Data Mining-Methoden
Literatur
Anwendungen
Struktur-Eigenschafts-Beziehung
Strukturaufklärung
Synthesplanung

Startseite

Multivariate Statistikmethoden

Chemische Daten sind normalerweise mehrdimensionaler Natur, wobei ein Datenobjekt durch verschiedene Datenkomponenten definiert ist. Dieser Datentyp wird als multivariat bezeichnet.

Ein Objekt ist z.B. eine chemische Verbindung. Die einzelnen Komponenten eines Datenvektors heißen Merkmale und können z.B. molekulare Deskriptoren sein, die die chemische Struktur eines Objektes spezifizieren. In der statistischen Datenanalyse werden Objekte und Merkmale durch eine Matrix X repräsentiert, welche die Objekte in Zeilen und die Merkmale in Spalten anordnet. Zusätzlich hat jedes Objekt eine oder mehrere Eigenschaften die untersucht werden sollen, wie z.B. die biologische Aktivität oder die Klassenzugehörigkeit. Diese Eigenschaften werden in eine Matrix (Y) zusammengeführt. Die Datenmatrix X enthält somit die unabhängigen Variablen, und die Matrix Y die abhängigen.

Multivariate Datenmatrix X und Y

Die multivariate Datenmatrix X besteht aus n Objekte, wobei jedes durch m Merkmale repräsentiert wird. Die Matrix Y enthält die Eigenschafen der untersuchten Objekte

Multivariate Statistik ist eine Disziplin um Daten zu analysieren, um die innere Struktur zu erkennen oder um die Anzahl der notwendigen Variablen zu reduzieren, die die Daten beschreiben können.

Eine Möglichkeit zur Analyse multivariater bzw. multidimensionaler Daten stellen sogenannte multivariate Statistikmethoden dar, die auf Regressions- und Patter Recognition- bzw. Projektionsverfahren basieren. Es kann dabei grundsätzlich zwischen linearen und nichtlinearen Methoden unterschieden werden. Bei den linearen Ansätzen haben vor allem die Principal Component Analysis (PCA), die Linear Discriminant Analysis (LDA), die Principal Component Regression (PCR), die Multiple Linear Regression (MLR) sowie die Partial Least Squares(PLS)-Methode weite Verbreitung bei der Analyse chemischer Daten gefunden. Während die PCA lediglich eine klassische Projektionsmethode darstellt, die hochdimensionale Datensätze in niederdimensionale Datensätze überführt, erlauben PCR, MLR oder PLS darüber hinaus die Bildung von Vorhersagemodellen. Bei den nichtlinearen Verfahren kommt vor allem das Multidimensional Scaling (MDS) zum Einsatz.


© Prof. Dr. J. Gasteiger, Dr. Th. Engel, CCC Univ. Erlangen, Thu Apr 15 06:31:57 2004 GMT
navigation BMBF-Leitprojekt Vernetztes Studium - Chemie