Datensatz/Datenerfassung
Die Datenerfassung bzw. die Zusammenstellung eines Datensatzes ist eine wichtige Voraussetzung für eine spätere Datenanalyse.
Ein zusammengestellter Datensatz aus Molekülen und/oder numerischen Daten, enthält am Anfang einen sehr heterogenen Bestand. Um aus diesen unterschiedlichen Daten zu lernen, muß die Qualität der Information verbessert werden, damit z.B. Prozeßabläufe besser verstanden oder Analogien gefunden werden können. Dies wird durch zahlreiche Methoden der Daten-Vorprozessierung erreicht.
Der erste Schritt hierbei ist aus möglichst vielen Daten bzw. Deskriptoren, die für die Aufgabe oder Fragestellung Entscheidenden, auszuwählen (s. Multilineare Regressionsanalyse, PLS). Nach dieser ersten Datenreduktion können dann noch sog. Ausreißer (Werte, die sehr wenig Ähnlichkeit zum Rest des Datensatzes besitzen) und redundante (mehrfache) Datenpaare eliminiert werden.
Im Datensatz p1 und p2 werden zwei Ausreißer-Werte eliminiert um eine bessere Regresion zu erhalten
Weiterhin sind bei unterschiedlichen Daten noch andere Methoden der Vorprozessierung notwendig.
Beim Zentrieren des Mittelwertes wird der Mittelwert einer Zeile oder Spalte gebildet und von jedem Element der Zeile bzw. Spalte subtrahiert.
Eine anspruchsvollere Methode ist die Bereichsskalierung (unit-variance-scaling), die Variablen verstärkt oder vermindert.
Im Autoscaling werden die Variablen (als Fehler-Balken dargestellt) der Rohdaten durch Bereichsskalierung (unit-variance-scaling) und Zentrieren verarbeitet
Mitunter müssen auch Datentransformationen durchgeführt werden, wenn z.B. eine logarithmische, quadratische oder exponentielle Darstellung besser geeignet ist. Echte Datentransformations-Techniken wie die Fast-Fourier-Transformation oder die Wavelet Transformation führen zu sehr anspruchsvollen Algorithmen.
Fast-Fourier-Transformation
Die Fast-Fourier-Transformation (FFT) wird in vielen wissenschaftlichen Fächern genutzt, darunter auch die Chemometrie. Der Fast-Fourier-Transformation Algorithmus transformiert wellenlängenabhängige nach frequenzabhängige Daten (Spektrenanalytik). Generell wird mit dieser Methode die Multikolinearität und die Dimension des Originalspektrums reduziert.
Konversion eines zeitabhängigen Signals mit unterschiedlichen Wellenlängen in frequenzabhängige Spektren
Wavelet Transformation
Die Wavelet Transformation (WT) ist in der Chemometrie eine weitere und wahrscheinlich effektivere Methode als die FFT. Die Grundidee benutzt eine Basisfunktion (sog. Mutterwelle, mother wavelet) mit der die Eigenschaften der Zeitskala eines eingehenden Signals untersucht werden.
In jeder Stufe der Wavelet Transformation wird ein Signal in eine grobe und eine detaillierte Komponente aufgetrennt
Auflösung nach Einzelwerten (Singular Value Decomposition)
Die Methode des Singular Value Decomposition (SVD) ist die gleiche wie der Hauptkomponentenanalyse (Prinzipal Component Regression PCR). Hierbei werden viele Deskriptoren auf wenige Variablen reduziert.
Weitere Methoden der Datenanalyse sind im Kapitel der Datenanalyse detaillierter erklärt.
© Prof. Dr. J. Gasteiger, Dr. Th. Engel, CCC Univ. Erlangen, Wed Apr 7 12:05:55 2004 GMT
BMBF-Leitprojekt Vernetztes Studium - Chemie
|