Kapitelanfang Vorige Seite Nächste Seite Nächstes Kapitel
VERN Home navigation
 
Chemoinformatik
Einführung in die Chemoinformatik
Repräsentation chemischer Strukturen
Repräsentation chemischer Reaktionen
Datentypen/Datenformate
Einführung
Struktureditoren/ Molekülviewer
Datentypen
Datenformate
Numerische Daten
Vorprozessierung
Struktur-Daten
  Molfile
PDB-File
XYZ-File
XML/CML
Spektroskopische Daten
JCAMP
Literatur
Datenbanken/Datenquellen
Struktur-Suchmethoden
Berechnung physikalischer und chemischer Daten
Descriptoren für chemische Verbindungen
Methoden zur Datenanalyse
Anwendungen
Struktur-Eigenschafts-Beziehung
Strukturaufklärung
Synthesplanung

Startseite

Das Molfile-Format

Die MDL File-Formate, welche chemische Strukturen, Reaktionen und zusätzliche Daten enthalten können, sind zweifellos zum Normstandard zu zählen.
Sie wurden von MDL (Molecular Design Limited) ab 1979 speziell für chemische Moleküle (nicht für Biomoleküle) entwickelt, um einen freien Datenaustausch von chemischen Strukturen und deren Information zwischen unterschiedlichen Softwareprogrammen zu fördern.
Das Molfile ist eine Textdatei, die Informationen zu einer chemischen Struktur (z.B. Benzoesäure) in tabellarischer Form aufgelistet.

Molfile von Benzoesäure

Molfile von Benzoesäure

Die Textdatei ist in verschiedene Blöcke aufgeteilt, die unterschiedliche Informationen zum Molekül enthalten. Im ersten Block, dem Kopf (Headerblock) der aus 3 Zeilen besteht, sind allgemeine Informationen wie z.B. der Dateiname enthalten.
Die zweite Zeile wird vom jeweiligen Editorprogramm unterschiedlich und spezifisch erzeugt und darf (um wieder ein korrektes Einlesen zu ermöglichen) nicht verändert werden.
In der dritten Zeile ist Platz für Kommentare u.ä. die vom Anwender eingefügt werden können.

Die anschließende, wichtigste Einheit ist die "Connection Table" (CT oder Ctab). Sie beschreibt die Art der Atome und deren Verknüpfung. Die CT setzt sich wiederum aus der "Counts Line" (Zählerlinie), dem "Atomblock", dem "Bindungsblock" und den "Eigenschaftsblock" (Properties) zusammen (evtl. können noch "Atomlistenblock" und "Stextblock" enthalten sein). Die Zeilenanzahl der CT ist abhängig vom Molekül (je größer die Atomanzahl ist, desto mehr Zeilen). Die Anzahl der Spalten in der Tabelle verändert sich nicht.
Die Counts Line enthält summarische Angaben über die Anzahl der Atome, Bindungen, Atomlisten, Chirale Flags (Stereochemie) und die Version der CT.

Counts Line

Der Atomblock ist ebenfalls aus Zeilen aufgebaut, entsprechend der Anzahl der Bindungen im Molekül Die 3. Spalte hinter dem Atomsymbol kennzeichnet die Stereochemie.

Atomblock

Der Bindungsblock ist ebenfalls aus Zeilen aufgebaut, entsprechend der Anzahl der Bindungen im Molekül.

Bindungsblock

Der Eigenschaftsblock kann zusätzliche Informationen zur Struktur, wie z.B. zur 3D-Geometrie oder Stereochemie enthalten, und endet mit M END.

Die unterschiedlichen Erweiterungen des MDL Molfile Formats (s.u.), RGfile (Molfile mit einer Substituentengruppe, Rgroup), Rxnfile (Reaction file), SDfile (Structure-Data file, mehrere Moleküle als Molfile aneinander gereiht) oder RDfile (Reaction-Data file, SDfile zuzüglich Reaktionsinformationen), sind für den jeweiligen Zweck der Strukturcodierung geschaffen und definiert worden.
Diesen Formaten liegt jedoch immer das Konzept des Molfiles zugrunde.

Eine ausführliche Beschreibung der MDL File Formate mit den Erweiterungen ist unter MDL Information Systems, Ltd. zu finden ( "MDL File Formats" PDF: 645 KB/100 Seiten zum downloaden ).


© Prof. Dr. J. Gasteiger, Dr. Th. Engel, CCC Univ. Erlangen, Wed Apr 7 12:05:55 2004 GMT
navigation BMBF-Leitprojekt Vernetztes Studium - Chemie