Multivariate Statistikmethoden
Chemische Daten sind normalerweise mehrdimensionaler Natur, wobei ein Datenobjekt durch verschiedene Datenkomponenten definiert ist. Dieser Datentyp wird als multivariat bezeichnet.
Ein Objekt ist z.B. eine chemische Verbindung. Die einzelnen Komponenten
eines Datenvektors heißen Merkmale und können z.B. molekulare
Deskriptoren sein, die die chemische Struktur eines Objektes spezifizieren.
In der statistischen Datenanalyse werden Objekte und Merkmale durch
eine Matrix X repräsentiert, welche die Objekte in Zeilen
und die Merkmale in Spalten anordnet. Zusätzlich hat jedes
Objekt eine oder mehrere Eigenschaften die untersucht werden sollen,
wie z.B. die biologische Aktivität oder die Klassenzugehörigkeit.
Diese Eigenschaften werden in eine Matrix (Y) zusammengeführt.
Die Datenmatrix X enthält somit die unabhängigen
Variablen, und die Matrix Y die abhängigen.

Die multivariate Datenmatrix X besteht aus n Objekte, wobei jedes durch m Merkmale repräsentiert wird. Die Matrix Y enthält die Eigenschafen der untersuchten Objekte
Multivariate Statistik ist eine Disziplin um Daten zu analysieren, um die innere Struktur zu erkennen oder um die Anzahl der notwendigen Variablen zu reduzieren, die die Daten beschreiben können.
Eine Möglichkeit zur Analyse multivariater bzw. multidimensionaler Daten stellen sogenannte multivariate Statistikmethoden dar, die auf Regressions- und Patter Recognition- bzw. Projektionsverfahren basieren. Es kann dabei grundsätzlich zwischen linearen und nichtlinearen Methoden unterschieden werden. Bei den linearen Ansätzen haben vor allem die Principal Component Analysis (PCA), die Linear Discriminant Analysis (LDA), die Principal Component Regression (PCR), die Multiple Linear Regression (MLR) sowie die Partial Least Squares(PLS)-Methode weite Verbreitung bei der Analyse chemischer Daten gefunden. Während die PCA lediglich eine klassische Projektionsmethode darstellt, die hochdimensionale Datensätze in niederdimensionale Datensätze überführt, erlauben PCR, MLR oder PLS darüber hinaus die Bildung von Vorhersagemodellen. Bei den nichtlinearen Verfahren kommt vor allem das Multidimensional Scaling (MDS) zum Einsatz.
© Prof. Dr. J. Gasteiger, Dr. Th. Engel, CCC Univ. Erlangen, Thu Apr 15 06:31:57 2004 GMT
BMBF-Leitprojekt Vernetztes Studium - Chemie
|