Kapitelanfang Vorige Seite Nächste Seite Nächstes Kapitel
VERN Home navigation
 
Chemoinformatik
Einführung in die Chemoinformatik
Repräsentation chemischer Strukturen
Repräsentation chemischer Reaktionen
Datentypen/Datenformate
Einführung
Struktureditoren/ Molekülviewer
Datentypen
Datenformate
Numerische Daten
  Vorprozessierung
Struktur-Daten
Molfile
PDB-File
XYZ-File
XML/CML
Spektroskopische Daten
JCAMP
Literatur
Datenbanken/Datenquellen
Struktur-Suchmethoden
Berechnung physikalischer und chemischer Daten
Descriptoren für chemische Verbindungen
Methoden zur Datenanalyse
Anwendungen
Struktur-Eigenschafts-Beziehung
Strukturaufklärung
Synthesplanung

Startseite

Datensatz/Datenerfassung

Die Datenerfassung bzw. die Zusammenstellung eines Datensatzes ist eine wichtige Voraussetzung für eine spätere Datenanalyse.
Ein zusammengestellter Datensatz aus Molekülen und/oder numerischen Daten, enthält am Anfang einen sehr heterogenen Bestand. Um aus diesen unterschiedlichen Daten zu lernen, muß die Qualität der Information verbessert werden, damit z.B. Prozeßabläufe besser verstanden oder Analogien gefunden werden können. Dies wird durch zahlreiche Methoden der Daten-Vorprozessierung erreicht.

Der erste Schritt hierbei ist aus möglichst vielen Daten bzw. Deskriptoren, die für die Aufgabe oder Fragestellung Entscheidenden, auszuwählen (s. Multilineare Regressionsanalyse, PLS). Nach dieser ersten Datenreduktion können dann noch sog. Ausreißer (Werte, die sehr wenig Ähnlichkeit zum Rest des Datensatzes besitzen) und redundante (mehrfache) Datenpaare eliminiert werden.

Datensatz mit Ausreißer

Im Datensatz p1 und p2 werden zwei Ausreißer-Werte eliminiert um eine bessere Regresion zu erhalten

Weiterhin sind bei unterschiedlichen Daten noch andere Methoden der Vorprozessierung notwendig.
Beim Zentrieren des Mittelwertes wird der Mittelwert einer Zeile oder Spalte gebildet und von jedem Element der Zeile bzw. Spalte subtrahiert.

Eine anspruchsvollere Methode ist die Bereichsskalierung (unit-variance-scaling), die Variablen verstärkt oder vermindert.

Autoscaling

Im Autoscaling werden die Variablen (als Fehler-Balken dargestellt) der Rohdaten durch Bereichsskalierung (unit-variance-scaling) und Zentrieren verarbeitet

Mitunter müssen auch Datentransformationen durchgeführt werden, wenn z.B. eine logarithmische, quadratische oder exponentielle Darstellung besser geeignet ist. Echte Datentransformations-Techniken wie die Fast-Fourier-Transformation oder die Wavelet Transformation führen zu sehr anspruchsvollen Algorithmen.

Fast-Fourier-Transformation

Die Fast-Fourier-Transformation (FFT) wird in vielen wissenschaftlichen Fächern genutzt, darunter auch die Chemometrie. Der Fast-Fourier-Transformation Algorithmus transformiert wellenlängenabhängige nach frequenzabhängige Daten (Spektrenanalytik). Generell wird mit dieser Methode die Multikolinearität und die Dimension des Originalspektrums reduziert.

Fast-Fourier-Transformation

Konversion eines zeitabhängigen Signals mit unterschiedlichen Wellenlängen in frequenzabhängige Spektren

Wavelet Transformation

Die Wavelet Transformation (WT) ist in der Chemometrie eine weitere und wahrscheinlich effektivere Methode als die FFT. Die Grundidee benutzt eine Basisfunktion (sog. Mutterwelle, mother wavelet) mit der die Eigenschaften der Zeitskala eines eingehenden Signals untersucht werden.

Wavelet Transformation

In jeder Stufe der Wavelet Transformation wird ein Signal in eine grobe und eine detaillierte Komponente aufgetrennt

Auflösung nach Einzelwerten (Singular Value Decomposition)

Die Methode des Singular Value Decomposition (SVD) ist die gleiche wie der Hauptkomponentenanalyse (Prinzipal Component Regression PCR). Hierbei werden viele Deskriptoren auf wenige Variablen reduziert.

Weitere Methoden der Datenanalyse sind im Kapitel der Datenanalyse detaillierter erklärt.


© Prof. Dr. J. Gasteiger, Dr. Th. Engel, CCC Univ. Erlangen, Wed Apr 7 12:05:55 2004 GMT
navigation BMBF-Leitprojekt Vernetztes Studium - Chemie