Kapitelanfang Vorige Seite Nächste Seite Nächstes Kapitel
VERN Home navigation
 
Chemoinformatik
Einführung in die Chemoinformatik
Repräsentation chemischer Strukturen
Repräsentation chemischer Reaktionen
Datentypen/Datenformate
Datenbanken/Datenquellen
Suchmethoden
Deskriptoren für chemische Verbindungen
Einführung
Einleitung
Definition
Fingerprints
Distanz- und Ähnlichkeitsmaße
Topologische Deskriptoren
Laplace Matrix
Wiener Index
Randic Konnektivitäts Index
Topologische Autokorrelationsvektoren
Feature Trees
3D Autokorrelation
3D MoRSE Code
Radiale Verteilungsfunktion
Beispiele RDF
Weitere Deskriptoren
CoMFA
BCUT
4D-QSAR
HYBOT Deskriptoren
Nicht-Strukturbasierte Deskriptoren
Eigenschaften von Strukturdeskriptoren
Literatur
Methoden zur Datenanalyse
Anwendungen

Startseite

Distanz- und Ähnlichkeitsmaße

Die Ähnlichkeit zwischen Verbindungen wird im Sinne von Abstandsmaßen dst zwischen zwei unterschiedlichen Objekten s und t bewertet. Die Objekte s und t werden beschrieben durch die Vektoren xs=(xs1, xs2, ... xsm) und xt=(xts, xt2, ..., xtm) wobei m die Anzahl an realen Variablen angibt, xsj und xtj sind jeweils das j-te Element des entsprechenden Vektors. Für die Berechnung der Distanz bzw. der Ähnlichkeit zweier Verbindungen, sollten die Variablen xj vergleichbare Größe haben. Andernfalls muß eine Skalierung oder Normalisierung durchgeführt werden.
Die zwei bedeutendsten Distanzmaße sind:

Euklidsche Distanz: Euklidsche Distanz
Manhatten Distanz: Manhatten Distanz

Ein Ähnlichkeitsmaß kann aus dem Distanzmaß dst durch die folgende Gleichung berechnet werden, wobei dst das Distanzmaß für die Objekte s und t ist und dmax die maximale Distanz zwischen einem Objektpaar des Datensatzes.

Ein weiteres, häufig benutztes Ähnlichkeitsmaß, ist der Kosinuskoeffizient, der sich aus dem Kosinus des Winkels von zwei Vektoren und deren Skalarprodukt berechnen läßt.

Die Berechnung der Distanzmaße für zwei Objekte s und t, dargestellt durch binäre Deskriptoren xs und xt mit m binären Werten, basiert auf der Häufigkeit der gemeinsamen und unterschiedlichen Komponenten. Zu diesem Zweck werden die Häufigkeiten a,b,c und d wie folgt definiert:

a: Anzahl der Komponenten mit xsj=1 und xtj=1
b: Anzahl der Komponenten mit xsj=1 und xtj=0
c: Anzahl der Komponenten mit xsj=0 und xtj=1
d: Anzahl der Komponenten mit xsj=0 und xtj=0

Die Häufigkeiten a und d spiegeln die Ähnlichkeit zwischen zwei Objekten s und t wider, wohingegen b und c Information zur Diversität beitragen.

Hamming Distanz: Hamming Distanz
Tanimoto-Koeffizient: Tanimoto-Koeffizient
Kosinus-Koeffizient: Kosinus-Koeffizient

Sind die binären Deskriptoren der Objekte s und t Substruktur-Schlüssel, gibt die Hamming Distanz die Anzahl der unterschiedlichen Substrukturen in s und t an (Komponenten die sowohl in s als auch in t 1 sind, nicht aber in beiden). Der Tanimnoto-Koeffizient ist andererseits ein Maß für die Anzahl an Substrukturen, die s und t gemeinsam haben (d.h. die Häufigkeit a), bezogen auf die Gesamtzahl der Substrukturen, die sie teilen können (gegeben durch die Anzahl der Komponenten die sowohl in s oder in t 1 sind).


© Prof. Dr. J. Gasteiger, Dr. Th. Engel, CCC Univ. Erlangen, Wed Jun 9 12:55:24 2004 GMT
navigation BMBF-Leitprojekt Vernetztes Studium - Chemie
Kapitelanfang Vorige Seite Nächste Seite Nächstes Kapitel