Kapitelanfang Vorige Seite Nächste Seite Nächstes Kapitel
VERN Home navigation
 
Chemoinformatik
Einführung in die Chemoinformatik
Repräsentation chemischer Strukturen
Repräsentation chemischer Reaktionen
Datentypen/Datenformate
Datenbanken/Datenquellen
Struktur-Suchmethoden
Berechnung physikalischer und chemischer Daten
Descriptoren für chemische Verbindungen
Methoden zur Datenanalyse
Einführung
Maschinelles Lernen
Lernverfahren
Entscheidungsbäume
Chemometrie
Multivariate Statistikmethoden
Korrelation
MLRA
PCA
PCR
PLS
MDS
Neuronale Netze
Fuzzy Logic
Genetische Algarithmen
Data Mining-Methoden in der Chemie
Weitere Data Mining-Methoden
Literatur
Anwendungen
Struktur-Eigenschafts-Beziehung
Strukturaufklärung
Synthesplanung

Startseite

Hauptkomponentenanalyse

Die Hauptkomponentenanalyse (principle components analysis = PCA) ist eine häufig benutzte Methode, um die systematischen Streuungen (Varianzen) in einer Datenmatrix zu extrahieren. Dabei kann man einen Überblick über dominante Muster und wichtige Tendenzen im Datensatz bekommen.

Das Ziel der PCA ist es, einen verborgenen Variablensatz zu erzeugen, der kleiner an Variablen ist als der Originalsatz, aber dennoch alle Varianzen der Originalvariablen in der Matrix beschreibt.
Im mathematischen Sinn ist die PCA eine Methode, die einen hochdimensionalen Datensatz mit korrelierenden Eigenschaftsvektoren in einen niederdimensionalen Datensatz mit nicht-korrelierten, orthogonalen Eigenschaftsvektoren, den sogenannten Principal Components, transformiert.

Vor einer PCA Anwendung werden die Daten oft vorprozessiert um sie für diese in die geeignetste Form zu konvertieren. Die am meist genutzten Vorprozessierungsmethoden für PCA sind Skalierung und Mittelwert-Zentrierung.

Der Mechanismus der PCA lässt sich an folgendem Beispiel einfach verdeutlichen. Gegeben sind hundert chemische Verbindungen (Objekte), zu denen jeweils drei Eigenschaften bzw. Deskriptoren (Variablen) ermittelt wurden. Die 100 resultierenden Datenpunkte werden in einem Koordinatensystem eingetragen, dessen Koordinatenachsen durch die drei Eigenschaftsdeskriptoren (dreidimensional) ausgedrückt werden. Der ganze Datensatz ist somit in diesen Raum ein Punkthaufen. Die erste Hauptkomponente (Principal Component = PC) wird nun so in das Koordinationssystem integriert, dass die größtmögliche Varianz über alle Datenpunkte erfasst wird. Bildlich gesprochen bedeutet dies, dass ein Vektor entlang des längsten Durchmessers der Datenpunktwolke angeordnet werden muss. Die zweite PC wird nun so in die Datenwolke eingebettet, dass sie zum einen orthogonal zur ersten PC ist und zum anderen die verbliebene Datenvarianz am besten beschreibt.

Hauptkomponentenanalyse

Die zwei ersten Hauptkomponenten, die durch eine PCA erhalten wurden
(Streudiagramm)

Für alle weiteren Hauptkomponenten wird nach dem gleichen Schema vorgegangen. Durch die orthogonale Anordnung der Hauptkomponenten, spannen jeweils zwei Hauptkomponenten eine rechtwinklige Fläche auf, auf die nun alle Datenpunkte linear projiziert werden. Diese niederdimensionale Auftragung dient letztendlich zur Visualisierung und Analyse der Daten.

In dem beschriebenen Beispiel wurde nur von drei Eigenschaftsdeskriptoren ausgegangen. Chemische Datensätze enthalten jedoch oft mehr als drei Dimensionen, so dass anstatt eines dreidimensionalen Koordinatensystems ein k-dimensionales System eingesetzt werden muss. Obwohl solche höherdimensionalen Systeme in der Regel die menschliche Vorstellungskraft übersteigen, sind sie aus der Sicht der Mathematik genauso leicht zu lösen wie das beschriebene, dreidimensionale Beispielsystem.
Die Hauptkomponenten werden somit in fallender Wichtigkeit aufgebaut; Die erste Hauptkomponente enthält so viele der Variationen aller Variablen wie möglich, die zweite so viele der verbleibenden Variationen usw.
Die Koordinate eines Objekts, welche durch eine PCA auf eine Achse projiziert wird, wird als seine Punktzahl (score) bezeichnet. Sores werden normalerweise mit T1, T2, usw. gekennzeichnet.

Score Plot

Eine Darstellung der Punktzahl. Die Punkte sind die Objekte im Koordinatensystem, welches durch die zwei ersten Hauptkomponenten (T1 und T2) aufgespannt wird. Je näher sich die Objekte sind, desto ähnlicher sind sie sich.

Eine weitere wichtige Information, die durch die PCA erhalten wird, ist die Ladung bzw. die Gewichtskoeffizienten (Loadings), die mit P1, P2, usw. ausgezeichnet werden. Sie kennzeichnen welche Variablen ein Modell beeinflussen und wie die Variablen korreliert sind. Im algebraischen Sinn zeigen die Loadings wie die Variablen korreliert sind, um den Score aufzustellen.

Loading Plot

Eine Darstellung der Loadings. Jeder Punkt ist ein Merkmal des Datensatzes, wobei nahe beieinander liegende Merkmale korreliert sind.

In den meisten Analyseanwendungen geben die ersten 3-5 Hauptkomponenten die vorherrschenden Teile der Varianz.

Anwendung:

Seit den ersten Einsätzen der PCA in der Chemie in den Sechziger-Jahren hat sich diese Methode zu einer der meistgenutzten Analysemethode für multivariate Daten entwickelt. Die PCA dient dabei nicht nur zur Reduktion der Dimensionalität bzw. Komplexität der Datensätze, sondern erlaubt zudem die Identifikation von Ausreißern, die Selektion von Variablen und kann zur Vorhersage von Eigenschaften eingesetzt werden.


© Prof. Dr. J. Gasteiger, Dr. Th. Engel, CCC Univ. Erlangen, Thu Apr 15 06:31:57 2004 GMT
navigation BMBF-Leitprojekt Vernetztes Studium - Chemie