Das Molfile-Format
Die MDL File-Formate, welche chemische Strukturen, Reaktionen und zusätzliche
Daten enthalten können, sind zweifellos zum Normstandard zu zählen.
Sie wurden von MDL (Molecular Design Limited) ab 1979 speziell für chemische
Moleküle (nicht für Biomoleküle) entwickelt, um einen freien
Datenaustausch von chemischen Strukturen und deren Information zwischen unterschiedlichen
Softwareprogrammen zu fördern.
Das Molfile ist eine Textdatei, die Informationen zu einer chemischen Struktur
(z.B. Benzoesäure) in tabellarischer Form aufgelistet.

Molfile von Benzoesäure
Die Textdatei ist in verschiedene Blöcke aufgeteilt, die unterschiedliche
Informationen zum Molekül enthalten. Im ersten Block, dem Kopf (Headerblock)
der aus 3 Zeilen besteht, sind allgemeine Informationen wie z.B. der Dateiname
enthalten.
Die zweite Zeile wird vom jeweiligen Editorprogramm unterschiedlich und spezifisch
erzeugt und darf (um wieder ein korrektes Einlesen zu ermöglichen) nicht
verändert werden.
In der dritten Zeile ist Platz für Kommentare u.ä. die vom Anwender
eingefügt werden können.
Die anschließende, wichtigste Einheit ist die "Connection Table" (CT
oder Ctab). Sie beschreibt die Art der Atome und deren Verknüpfung. Die
CT setzt sich wiederum aus der "Counts Line" (Zählerlinie), dem "Atomblock",
dem "Bindungsblock" und den "Eigenschaftsblock" (Properties) zusammen (evtl.
können noch "Atomlistenblock" und "Stextblock" enthalten sein). Die Zeilenanzahl
der CT ist abhängig vom Molekül (je größer die Atomanzahl
ist, desto mehr Zeilen). Die Anzahl der Spalten in der Tabelle verändert
sich nicht.
Die Counts Line enthält summarische Angaben über die Anzahl der Atome,
Bindungen, Atomlisten, Chirale Flags (Stereochemie) und die Version der CT.

Der Atomblock ist ebenfalls aus Zeilen aufgebaut, entsprechend der Anzahl der Bindungen im Molekül Die 3. Spalte hinter dem Atomsymbol kennzeichnet die Stereochemie.

Der Bindungsblock ist ebenfalls aus Zeilen aufgebaut, entsprechend der Anzahl der Bindungen im Molekül.

Der Eigenschaftsblock kann zusätzliche Informationen zur Struktur, wie z.B. zur 3D-Geometrie oder Stereochemie enthalten, und endet mit M END.
Die unterschiedlichen Erweiterungen des MDL Molfile Formats (s.u.), RGfile (Molfile mit einer Substituentengruppe, Rgroup), Rxnfile (Reaction file), SDfile (Structure-Data file, mehrere Moleküle als Molfile aneinander gereiht) oder RDfile (Reaction-Data file, SDfile zuzüglich Reaktionsinformationen), sind für den jeweiligen Zweck der Strukturcodierung geschaffen und definiert worden.
Diesen Formaten liegt jedoch immer das Konzept des Molfiles zugrunde.
Eine ausführliche Beschreibung der MDL File Formate mit den Erweiterungen ist unter MDL Information Systems, Ltd. zu finden ( "MDL File Formats" PDF: 645 KB/100 Seiten zum downloaden ).
© Prof. Dr. J. Gasteiger, Dr. Th. Engel, CCC Univ. Erlangen, Wed Apr 7 12:05:55 2004 GMT
BMBF-Leitprojekt Vernetztes Studium - Chemie
|