Die Notwendigkeit der Bewertung von Datenbanken ist nicht nur durch die in Kapitel 2 ausgeführte Vielzahl der Datenbanken, Datenbankhersteller, der Unterschiede im Typ der Datenbanken, sondern auch durch die Art der Zugriffsmöglichkeit gegeben. Die Notwendigkeit der Bewertung wird in einem Buch über die Nutzer-orientierte Evaluation von Informationssystemen beleuchtet [Bawden 1990], worin der Begriff "Nutzer-orientierte Bewertung" (UOE = User-oriented Evaluation) eingeführt wird. Bawden stellt die Nutzerfreundlichkeit von Informationssystemen vor. Er leitet diese aus qualitativen allgemeinen Datenbank Bewertungskriterien aufbauend auf Fallstudien ab.
Neuere Ansätze beschäftigen sich mit der Bewertung von Datenbanken nach allgemeinen Kriterien der Informationswissenschaft. An dieser Stelle sei auf einen Ansatz für die Bewertung von Datenbanken auf CD-ROMs nach den Kriterien der Konsistenz, der effizienten Ausnutzung der Recherchezeit, der Einfachheit der CD-ROM, der Objektivität der Beschreibung der CD-ROM und der Flexibilität der Abfrage verwiesen [Harry 1993a,b].
Um eine Bewertung vornehmen zu können, ist die Klassifikation der Objekte (hier: Datenquellen) ein wichtiger vorbereitender Schritt. Die Theorie und Anwendung der nichtmetrischen Klassifikation von Objekten wird von Belke et al. ausgeführt [Belke 1979]. Belke beschreibt die nichtmetrische Klassifikation als eine spezifische Form der Objektbeschreibung und Modellierung. "Objekte werden über ihre Eigenschaften bzw. Merkmale erfaßt, bewertet und beschrieben". Anstelle des Begriffes Merkmal oder Eigenschaft wird im folgenden die Bezeichnung Kriterium bzw. Bewertungskriterium gewählt. Die Ausnahme bilden die Zitate von Behlke.
Es sei hier weiter Belke zitiert: "Durch die Klassifikation werden Objekte aufgrund ihrer Merkmale von anderen Objekten abgegrenzt und Klassen von Objekten zugeordnet. Die im allgemeinen notwendigerweise zu berücksichtigende Vielzahl von Merkmalen und die unterschiedliche Werteart (Modus) dieser Merkmale - ausgedrückt durch die Zulassung nominaler, ordinaler und kardinaler Wertgrößen der Merkmale - führen zu einer insgesamt betrachtet nichtmetrischen Objektbeschreibung, also zur "nichtmetrischen Klassifikation" [Belke 1979, Vorwort]. Nach Belke kennzeichnet ein ordinales Merkmal Objekte nach dem Ausmaß des Besitzes eines Merkmalwertes gegenüber einem anderen Objekt. Es wird auch als Rangordnungsmerkmal bezeichnet. Über einzelne Objekte ist damit weniger als über das Verhältnis zwischen den Objekten ausgesagt. "Ein nominales Merkmal kennzeichnet Objekte nach dem Besitz von Merkmalen/Merkmalswerten, die entweder vorhanden oder nicht vorhanden sind". "Ein kardinales Merkmal kennzeichnet Objekte hinsichtlich der Ausprägung eines Merkmals absolut, nicht nur im Unterschied zu anderen Objekten" [Belke 1979, S. 37-38].
Eine Einteilung nach qualitativen (mit oder ohne Ordnungsstrukturen,
zwei- oder mehrstufig) und nach quantitativen Merkmalen nimmt
H. Bock [Bock 1974] vor.
Um die Objekte, in diesem Fall Datenquellen zu bewerten, muß die Definition von charakterisierenden Zahlen so gewählt werden, daß eine gemeinsame Qualität festgestellt werden kann. In diesem Fall bedeutet eine hohe Ziffer in bezug auf ein Kriterium eine sehr gute und eine kleine Ziffer eine schlechte Datenquelle (siehe Tabelle 16).
Das Bewertungsverfahren (Bewertungszifferverfahren) wird nach
einem sechs Zahlen umfassenden Bewertungsziffersystem durchgeführt
[Voigt 1994, 1995b], d.h. eine Ausprägungsmenge für
die Bewertungsziffern mit {0,1,2,3,4,5} angenommen.
Tabelle 16: Bewertungsziffern und deren Bedeutung
= | sehr gut | |
= | gut | |
= | befriedigend | |
= | ausreichend | |
= | mangelhaft | |
= | ungenügend |
Für die Zuordnung und Vergabe der Bewertungsziffern zu den Bewertungskriterien werden die Eintragungen aus der Metadatenbank der Online Datenbanken und der Metadatenbank der CD-ROMs herangezogen. Die Einteilung der Klassen von Bewertungsziffern, die Klassengrenzen und die damit im Zusammenhang stehende Vergabe der Bewertungsziffern werden aus den Eintragungen in den entsprechenden Datenfeldern der Metadatenbanken vorgenommen. Hierbei werden in der Regel die Eigenschaften, die am seltensten auftreten (z.B. Vorhaltung von Strukturformeln) hoch bewertet, diejenigen die häufiger vorkommen mit niedrigeren Bewertungsziffern (z.B. Chemikaliennamen) versehen. Wie bei anderen Bewertungsverfahren spielt auch hier die Erfahrung im Umgang mit den Datenbanken, d.h. die Expertenmeinung eine wichtige Rolle [GDCh 1986].
Die folgenden Kapitel werden erkennen lassen, daß eine Vielfalt verschiedener Kriterien auftritt, die - nach Belke [Belke 1979] - eine nichtmetrische Klassifizierung induzieren. Neben dem Auftreten verschiedener Modi ist zu berücksichtigen, daß die Zahl der Kriterien für die vorgesehene Multikriterienanalyse zu groß wird. Daher werden Kriterien nach bestimmten Inhalten aggregiert und zwar so, daß das System der resultierenden Kriterien durchwegs optimal interpretierbar wird. Grundsätzlich erlaubt aber die Hasse-Diagramm-Technik auch die Bewertung nach einer nichtmetrischen Klassifikation, die aber in dieser Arbeit nicht weiter verfolgt wird.
Um die Aggregation von solchen nominalen Kriterien durchzuführen,
die inhaltlich zusammengehören, wird folgende pragmatische
Vorgehensweise gewählt:
a) | Auflistung aller Kombinationen, die sich durch Zutreffen oder Nicht-Zutreffen bestimmter Teilkriterien unterscheiden |
b) | Aussonderung solcher Kombinationen, die sich in der Praxis der Datenbank Beurteilung als unrealistisch erweisen (falls notwendig) |
c) | Vergabe einer Reihenfolge der Qualität der Teilkriterien |
d) | Vergabe von Bewertungsziffern für die Teilkriterien gemäß der in c) erarbeiteten Reihenfolge |
e) | Ermittlung eines Kombinationswertes für jede Kombination |
f) | Zuordnung zur Ausprägungsmenge |
Die Bewertungskriterien für Datenquellen lassen sich in allgemeine und inhaltliche Bewertungskriterien einteilen. Die meisten Kriterien sind sowohl auf Online Datenbanken als auch auf CD-ROMs anwendbar. Diejenigen, die unterschiedliche Einteilungen erfordern, werden gesondert betrachtet. Wichtig ist in diesem Zusammenhang, daß die CD-ROMs nicht so umfassend wie Online Datenbanken getestet wurden, da nur die wenigsten CD-ROMs gekauft aus finanziellen Gründen gekauft werden konnten. Die Beurteilung erfolgte daher nur aufgrund von Testversionen und Informationsmaterial. Die Bewertungskriterien, die den Chemikalien Testdatensatz umfassen, werden bei den CD-ROMs nicht angewandt.
Sowohl bei der Betrachtung der Online Datenbanken als auch CD-ROMs
spielen der Umfang der Datenquelle (UM), die Häufigkeit der
Aktualisierung (UP), die Kosten der Recherche in der Online Datenbank
bzw. die Kosten der CD-ROM (KO) und die Verfügbarkeit der
Datenquelle bei anderen Hosts bzw. auf anderen Medien (VE) eine
Rolle. Die einzelnen Kriterien werden im folgenden näher
erläutert.
Dieses Kriterium ist ein ordinales Merkmal (Rangordnungsmerkmal).
Bei der Betrachtung des Umfanges von Datenbanken wird zwischen bibliographischen Datenbanken auf der einen Seite und Volltextdatenbanken und Faktendatenbanken (numerischen Datenbanken) auf der anderen Seite unterschieden, da letztere durch ihre Struktur generell über weniger Dokumente verfügen als bibliographische Datenbanken. In der Metadatenbank der Online Datenbanken gibt es eine große Spannweite in bezug auf die Anzahl der Dokumente. Sie reichen von 90 bis 17 Millionen Dokumenten. Der größte Anteil liegt hingegen bei bibliographischen Datenbanken im Bereich von 100.000 bis 1.000.000 Dokumenten bzw. bei Faktendatenbanken oder Volltextdatenbanken zwischen 2.500 bis 10.000 Dokumenten. Die Einstufung der Klassengrenzen ist dementsprechend vor dem Hintergrund der Eintragungen in die Metadatenbanken entstanden.
Viele Datenbanken liegen heute schon vollständig auf CD-ROM vor und sind daher in bezug auf den Umfang der Dokumente den Online Datenbanken gleichzustellen.
Auch hier spielt das Expertenwissen wieder hinein. Der hohe Grad
an Subjektivität könnte aber teilweise anhand von Sensitivitätsstudien
abgemildert werden, indem die Klassengrenzen zur Vergabe der Bewertungsziffern
variiert werden und ein erneutes Bewertungszifferverfahren durchgeführt
wird.
Tabelle 17: Bewertungsziffern für das Kriterium
Umfang der Datenbank (UM)
Bibliographisch | Numerisch/Volltext | Bewertungsziffer |
>5.000.000 | >100.000 | |
>1.000.000 | > 25.000 | |
> 500.000 | > 10.000 | |
> 100.000 | > 2.500 | |
> 10.000 | > 500 | |
< 10.000 | < 500 |
Auch bei diesem Kriterium handelt es sich um ein ordinales Merkmal.
Die wenigsten wissenschaftlich-technischen Datenbanken werden
täglich bzw. wöchentlich, die meisten monatlich bis
vierteljährig aktualisiert. Es ist jedoch in den vergangenen
zwei Jahren ein deutlicher Trend zu einer schnelleren Aktualisierung
zu verzeichnen [Voigt 1995b]. Die Frequenz der Aktualisierungen
ist bei Online Datenbanken generell häufiger als bei anderen
Datenquellen z.B. bei CD-ROMs. Deshalb ist bei diesem Kriterium
eine unterschiedliche Einteilung der Bewertungsziffern für
diese beiden Medien vorzunehmen.
Es lassen sich die Online Datenbanken in die in der folgenden
Tabelle aufgeführten zeitliche Aktualisierungsabschnitte
einteilen. In der zweiten Spalte der Tabelle 18 ist die Anzahl
der Datenbanken, die zu den einzelnen Einteilungsstufen gehören,
vermerkt. Anzumerken sei in diesem Zusammenhang, daß in
der Metadatenbank nicht für alle dort eingetragenen Datenbanken
ein Eintrag hierfür vorliegt. Der Grund für des Fehlen
der Einträge ist, daß von den Hosts keine Angaben hierzu
gemacht wurden. Zu den in den Gruppen vorkommenden Datenbanken
liegen jedoch Daten vor.
Tabelle 18: Bewertungsziffern für das Kriterium
Häufigkeit der Aktualisierung (UP)
Häufigkeit der Aktualisierung | Anzahl der Datenbanken in DADB | Bewertungsziffer |
täglich, wöchentlich | 49 | |
zweimal pro Monat, monatlich | 159 | |
alle drei Monate | 50 | |
alle sechs Monate | 33 | |
jedes Jahr | 29 | |
unregelmäßig | 42 |
Je öfter die Datenbank aktualisiert wird, desto besser wird
sie eingestuft. Datenbanken, die einmal im Jahr neue Einträge
bekommen, sind für den Nutzer von geringer Bedeutung, da
die Daten nicht mehr aktuell sind. Eine wöchentliche bzw.
tägliche Aktualisierung ist bei Online Datenbanken als sehr
gut zu bewerten, eine monatliche bzw. zweiwöchige als gut.
Bei unregelmäßigen Aktualisierungen wird vielfach gar
nicht mehr überarbeitet. Aus diesem Grunde ist die Datenbank
in bezug auf dieses Bewertungskriterium als ungenügend eingestuft.
Die Aktualisierung der CD-ROMs erfolgt in der Regel in größeren Abständen als bei den Online Datenbanken. Eine tägliche Aktualisierung kommt bei CD-ROMs nicht vor. Ein wöchentliche bzw. vierzehntägige Aktualisierung ist die Ausnahme und demnach als sehr gut einzustufen. Die meisten CD-ROMs werden heutzutage alle drei Monate aktualisiert. In der zweiten Spalte der Tabelle ist die Anzahl der CD-ROMs, die zu den einzelnen Einteilungsstufen gehören, vermerkt.
Es lassen sich die Datenbanken in die in der folgenden Tabelle
aufgeführten zeitlichen Rahmen einteilen.
Tabelle 19: Bewertungsziffern für das Kriterium
Häufigkeit der Aktualisierung von CD-ROMs (UP)
Häufigkeit der Aktualisierung | Anzahl der Datenbanken in DACD | Bewertungsziffer |
wöchentlich, alle 14 Tage | 16 | 5 |
monatlich | 49 | 4 |
alle drei Monate | 142 | 3 |
alle sechs Monate | 42 | 2 |
jedes Jahr | 50 | 1 |
unregelmäßig | 3 | 0 |
Die Kosten sind für die Medien Online Datenbanken und CD-ROM unterschiedlich.
Das Bewertungskriterium ist in beiden Fällen jedoch ein Rangordnungsmerkmal
(ordinales Merkmal).
Die Kosten für eine Recherche setzen sich aus verschiedenen
Einzelkosten zusammen. Zunächst wird in der Regel eine Gebühr
für die Anschaltzeit pro Stunde bzw. pro Minute berechnet.
Darüber hinaus muß der Nutzer die Dokumente, die angezeigt
werden, je nach Umfang der Ausgabe bezahlen. Bei einigen Datenbanken
schlägt auch bereits der einzelne eingegebene Suchbegriff
zu Buche. Hier wird aus pragmatischen Gründen nur der Preis
pro Stunde betrachtet, der bei fast allen Hosts als wichtiger
Preisfaktor einer Recherche angesetzt wird. Seit langem wird jedoch
in der Fachwelt die nicht mehr zeitgemäße Berechnungsgrundlage
nach Anschaltzeit beklagt. Vorteilhafter und auch von wenigen
Hosts unterstützt, wäre die Berechnung der gewonnenen
Informationen. In der zweiten Spalte der Tabelle 20 ist die Anzahl
der Datenbanken, die zu den einzelnen Einteilungsstufen gehören,
aufgeführt. Anzumerken sei wieder, daß in der Metadatenbank
nicht für alle ausgewerteten Datenbanken ein Eintrag hierfür
vorliegt. Für die in Kapitel 4.1 herausgearbeiteten Gruppen
an Online Datenbanken liegen jedoch Einträge vor. Je höher
die Kosten, desto schlechter wird die Datenbank eingestuft in
bezug auf dieses Bewertungskriterium. Obwohl die meisten der betrachteten
Datenbanken in den drei oberen Preiskategorien liegen, d.h. zwischen
150 und über 200 DM/h Anschaltzeit, werden diese als schlecht
eingestuft.
Tabelle 20: Bewertungsziffern für das Kriterium
Kosten der Online Recherche (KO)
Preis pro Recherchestunde in DM | Anzahl der Datenbanken in DADB | Bewertungsziffer |
Die Kosten für eine CD-ROM setzen sich aus dem Anschaffungspreis
und dem Preis für die Aktualisierungsversionen zusammen.
Die Kosten einer CD-ROM sind also unabhängig von der Dauer
der Nutzung und der Anzahl der Recherchen. In Analogie zur Betrachtung
bei den Online Datenbanken wird hier auch nur ein Preis, d.h.
der Anschaffungspreis in Betracht gezogen. In der zweiten Spalte
der Tabelle ist die Anzahl der CD-ROMs aus der Metadatenbank der
CD-ROMs, die zu den einzelnen Einteilungsstufen gehören,
aufgeführt. Je höher die Kosten, desto schlechter wird
die CD-ROM eingestuft in bezug auf dieses Bewertungskriterium.
Die meisten der betrachteten CD-ROM Produkte liegen in den Preiskategorien
zwischen 2.000 und 5.000 DM.
Tabelle 21: Bewertungsziffern für das Kriterium
Kosten der CD-ROM (KO)
Anschaffungspreis in DM | Anzahl der Datenbanken in DACD | Bewertungsziffer |
500 | ||
1000 | ||
2000 | ||
5000 | ||
10000 | ||
> 10001 |
Während die bisher abgehandelten Kriterien Rangordnungsmerkmale (ordinale Merkmale) darstellen, ist das Kriterium Verfügbarkeit der Datenquelle bei anderen Hosts bzw. auf anderen Medien deutlich davon zu unterscheiden (vgl. hierzu Kapitel 6.3 ).
Zunächst sind vier nominale Merkmale, d.h. Internet (ja/nein), CD-ROM (ja/nein), andere Online Datenbanken (ja/nein) und Buchform (ja/nein) vorhanden. Danach werden die Nominalkriterien ordinal interpretiert in der Rangordnung
Internet > CD-ROM > Hosts > Buchform.
Die Verbreitung des Internets und der damit im Zusammenhang stehende exponentielle Anstieg an Ressourcen auf diesem Netzwerk der Netzwerke liefert die Begründung für diese hohe Einordnung des Mediums Internet. In diesem Zusammenhang sind jedoch nur die kostenlos zur Verfügung gestellten Datenbanken im Internet, d.h. die kostenfrei verfügbaren Internet Ressourcen angesprochen, nicht die aktuellen Entwicklungen im sog. Commercial Internet, d.h. die Möglichkeit des Zugriffes auf Online Datenbanken via Internet. Die technischen Möglichkeiten der Hostanbindungen im Internet sind in mehreren neueren Publikationen dargelegt [Gaehtgens 1995] [Green 1995]. Bei der Betrachtung von CD-ROMs ist der Zugriff auf die Daten einer CD-ROM über das Internet gemeint. Es handelt sich hierbei um den kostenpflichtigen Zugang zu den Daten. Kostenfreie Zugriffe auf diese Daten sind zwar prinzipiell denkbar jedoch nicht realistisch. So wird beispielsweise der Internet Zugriff auf einige SilverPlatter Datenquellen mit Hilfe der Software WebSpirs realisiert [SilverPlatter 1996].
Die CD-ROM, ebenfalls als ein gegenüber Online Datenbanken und Büchern an Bedeutung gewinnendes Medium [Zass 1995], folgt dem Internet. Danach schließen sich die weitere Verfügbarkeit über andere Hosts und die konventionelle, für Recherchen jedoch wenig geeignete Buchform an.
Je weiter verbreitet eine Datenbank ist, d.h. je mehr Kombinationen der einzelnen Nominalkriterien, desto besser ist die Bewertung. Ist die zu betrachtende Datenbank beispielsweise sowohl in Internet als auch als CD-ROM, als auch bei anderen Hosts, als auch in Buchform verfügbar, erhält sie die höchste Bewertungsziffer.
Auf die allgemeine Vorgehensweise im Zusammenhang mit der Aggregation nominaler Merkmale wurde im Kapitel 6.3 eingegangen. Hier werden die Teilschritte jeweils in Klammern gesetzt. Folgende Betrachtungen sollen zum Verständnis der Findung der Bewertungsziffern dienen: Es können theoretisch die in der Tabelle 22 aufgelisteten Kombinationen auftreten (Teilschritt a). Gemäß der oben beschriebenen Rangordnung erhält nun das Internet die Ziffer 4, CD-ROM 3, Host 2 und Buchform 1 (Teilschritte c und d).
Nach dieser Maßgabe erhält die 4er Kombination Internet,
CD-ROM, Host, Buchform (4+3+2+1 = 10), die 3er Kombination Internet,
CD-ROM, Buchform (4+3+1 = 8) etc. (Teilschritt e). Diese Bewertungsziffern
sind in Tabelle 23 aufgeführt. Um zur eingangs besprochenen
Ausprägungsmenge zu gelangen, werden die Kombinationswerte
(die ordinal interpretiert werden sollen) durch 2 dividiert und
die Werte jeweils auf- bzw. abgerundet (Teilschritt f).
Tabelle 22: Kombinationen der Medien Internet,
CD-ROM, Host, Buchform
Kombinationen | Internet | CD-ROM | Host | Buchform | Kombinationswerte |
4er Kombination | ja | ja | ja | ja | |
3er Kombination | nein | ja | ja | ja | |
ja | nein | ja | ja | ||
ja | ja | nein | ja | ||
ja | ja | ja | nein | ||
2er Kombination | nein | nein | ja | ja | |
nein | ja | nein | ja | ||
ja | nein | nein | ja | ||
nein | ja | ja | nein | ||
ja | nein | ja | nein | ||
ja | ja | nein | nein | ||
1er Kombination | ja | nein | nein | nein | |
nein | ja | nein | nein | ||
nein | nein | ja | nein | ||
nein | nein | nein | ja |
Es kommt demgemäß nicht in erster Linie auf die Anzahl
der verfügbaren Medien an, sondern vielmehr auf die oben
dargestellte Bedeutung der einzelnen Medien. Die vorgenommene
Aggregierung führt dazu, daß - entgegen der Hierarchie
- bestimmte Kombinationen die gleiche Bewertungsziffer erhalten.
Das Rangfolgeverfahren nach der Hasse-Diagramm-Technik verlangt
diese Aggregierung nicht, sondern kann auch nichtmetrische Klassifikationen
(wie hier) verarbeiten. In der vorliegenden Arbeit wird jedoch
der einfachere pragmatische Weg eingeschlagen. Aus diesem Grunde
sind bei der 1er Kombination Internet und CD-ROM auf einer Stufe,
sowie Host und Buch. Es ist deshalb beispielsweise eine 2er Kombination
(Internet, CD-ROM 4+3) genauso hoch eingestuft worden wie eine
3er Kombination (Internet, Host, Buchform 4+2+1).
Tabelle 23: Bewertungsziffern für das Kriterium
Verfügbarkeit der Datenbank bei anderen Hosts bzw. auf anderen
Medien (VE)
Weitere Verfügbarkeit | Bewertungsziffer |
Internet, CD-ROM, Host, Buchform
Internet, CD-ROM, Host |
|
Internet, CD-ROM, Buchform
Internet, Host, Buchform Internet, CD-ROM |
|
CD-ROM, Host, Buchform
Internet, Host Internet, Buchform CD-ROM, Host |
|
CD-ROM, Buchform
Host, Buchform Internet CD-ROM |
|
Host
Buchform |
|
keine |
Bedeutend für die Erschließung der Inhalte von Datenbanken
sind die inhaltlichen Kriterien. In diesem Zusammenhang werden
wiederum Kriterien unterschieden, die sich auf die Chemie- bzw.
auf Umwelt-Parameter beziehen.
Im folgenden werden die Bewertungskriterien mit Chemie- bzw. Chemikalien-Bezug
vorgestellt.
Das Bewertungskriterium Anzahl der Chemikalien ist ein ordinales Merkmal.
Dieses Kriterium gibt einen Hinweis über die Wahrscheinlichkeit, ob die gesuchte Chemikalie in der betrachteten Online Datenbank zu finden ist. Die Bandbreite reicht von einigen wenigen Chemikalien bis über 100.000 Chemikalien.
Das Kriterium ist dementsprechend ein quantitativer Wichtungsfaktor
für Datenquellen.
Tabelle 24: Bewertungsziffern für das Kriterium
Anzahl der Chemikalien (AN)
Bei diesem Kriterium handelt es sich um ein nominales Merkmal, das in der in Kapitel 6.3 beschriebenen Vorgehensweise behandelt wird. Die einzelnen Teilschritte werden wieder vermerkt.
Zu den Identifikationsmerkmalen von Chemikalien gehören Name, Synonyma, Strukturformel, Summenformel, Molekulargewicht, diverse Registriernummern, insbesondere die CAS-Nummer (Chemical Abstract Service Registry Number). Weitere wichtige und häufig gebrauchte Registriernummern sind Beilstein-Nummer, EG-Nummer, EINECS-Nummer, RTECS-Nummer, NIOSH-Nummer etc. Die CAS-Nummer hat sich als Standard Registrier-Nummer durchgesetzt. Es ist jedoch an dieser Stelle anzumerken, daß immer noch über 50 % der Online Datenbanken in Naturwissenschaft und Technik diese Identifikationsnummer nicht enthalten [Voigt 1995b]. Diese Aussage wird durch die Arbeit von Ludl et al. [Ludl 1995] bestätigt, in der in 18 biomedizinischen Datenbanken Recherchen zu vier Umweltchemikalien mit Chemikaliennamen und ggf. mit CAS-Nummern durchgeführt und gegenübergestellt worden sind.
Die Strukturformel ist nur sehr selten in Online Datenbanken zu finden. In einigen Datenbanken ist sie zwar vorhanden, d.h. man erhält sie bei der Ausgabe eines Datensatzes, man kann jedoch nicht nach der Strukturformel suchen.
Zunächst treten hier sieben nominale Merkmale auf, d.h. Strukturformel suchbar (SS), Strukturformel nur Ausgabe (SA), Summenformel (SF), Molekulargewicht (MG), CAS Nummer (CA), Chemikalienname (CN) und Synonyma bzw. Handelsname (SY). Chemiedatenbanken, die Molekulargewichte vorhalten, beinhalten in der Regel auch Summenformeln. Aus diesem Grunde werden diese beiden Merkmale zusammengefaßt, so daß nur noch sechs nominale Merkmale ordinal zu interpretieren sind.
Dazu wird folgende Rangordnung definiert (Teilschritt c):
Strukturformel suchbar (SS) > Strukturformel nur Ausgabe (SA) > Summenformel (SU) > CAS-Nummer (CA), Chemikalienname (CN) > Synonyma bzw. Handelsname (SY).
Als wichtigstes Identifikationsmerkmal ist dementsprechend die Strukturformel einzustufen. In vielen "Umweltchemikalien-relevanten" Online Datenbanken kann man jedoch nur mit dem Handelsnamen bzw. den Synonyma recherchieren. Diese Datenbanken sind als ungenügend in bezug auf die Abdeckung der Identifikationsmerkmale zu klassifizieren.
Folgende Betrachtungsweise soll die Vergabe der Bewertungsziffern
verdeutlichen. Es können theoretisch nach der Binominal-Verteilung
gemäß der folgenden Formel (Pascalsches Dreieck)
eine 6er-, sechs 5er-, 15 4er-, 20 3er-, 15 2er und sechs 1er Kombinationen (Teilschritt a) auftreten. Es sind jedoch nicht alle Kombinationen sinnvoll.
Folgende Kombinationen sind nicht realistisch (Teilschritt b):
Strukturformel suchbar (SS) ja, | Strukturformel nur Ausgabe (SA) nein |
Strukturformel suchbar (SS) ja, | Chemikaliennamen (CN) nein |
Strukturformel suchbar (SS) ja, | Synonyma (SY) nein |
Strukturformel nur Ausgabe (SA) ja, | Chemikalienname (CN) nein |
Strukturformel nur Ausgabe (SA) ja , | Synonyma (SY) nein |
Summenformel (SF) / Molekulargewicht (MG) ja, | Chemikaliennamen (CN) nein |
Summenformel (SF) / Molekulargewicht (MG) ja, | Synonyma (SY) nein |
CAS Nummer (CA) ja, | Chemikalienname (CN) nein |
CAS Nummer (CA) ja, | Synonyma (SY) nein |
Beispielsweise bietet eine Datenbank, in der man nach Strukturformeln suchen kann, auch die Möglichkeit der Ausgabe der Strukturformel. Eine Kombination Strukturformel suchbar (ja), Strukturformel Ausgabe (nein) ist daher in der Praxis nicht vorhanden. Ebenso gibt es keine Datenbank, die beispielsweise über Strukturformeln, aber über keinen Chemikaliennamen verfügt. Weitere unrealistische Kombinationen sind oben aufgeführt.
Es ist daher festzustellen, daß viele der theoretisch möglichen 5-, 4-,3-,2-Kombinationen unrealistisch sind. Hersteller von Online Datenbanken, die die Suche nach Chemikalien in den Vordergrund stellen, bereiten die Dokumente nicht nur nach chemischen Strukturen, sondern darüber hinaus auch nach anderen chemischen Gesichtspunkten d.h. anderen Identifikationsmerkmalen wie z.B. Summenformel, Molekulargewicht, CAS-Nummer und Synonyma auf. Die mögliche Kombination Strukturformel (suchbar) ja und CAS-Nummer nein tritt erfahrungsgemäß jedoch bei einigen wenigen Datenbanken, vor allen Dingen CD-ROMs auf. Nur die 12 in Tabelle 25 dargestellten Kombinationen sind realistisch.
Gemäß der oben beschriebenen Rangordnung wird Strukturformel
suchbar (SS) der Wert 5, Strukturformel nur Ausgabe (SA) der
Wert 4, Summenformel (SF) / Molekulargewicht (MG) der Wert 3,
CAS-Nummer (CA) der Wert 2, Chemikalienname (CN) der Wert 1 und
Synonyma (SY) der Wert 0 zugeordnet (Teilschritt d). Die Kombinationswerte
sind in der letzten Spalte der Tabelle 25 aufgeführt (Teilschritt
e). Es ergeben sich die Werte 1-15.
Tabelle 25: Realistische Kombinationen für
das Kriterium Identifikationsmerkmale (ID)
Kombinationen | SS | SA | SF | CA | CN | SY | Kombinationswerte |
6er Kombination | ja | ja | ja | ja | ja | ja | 15 |
5er Kombination | nein | ja | ja | ja | ja | ja | 10 |
ja | ja | nein | ja | ja | ja | 12 | |
ja | ja | ja | nein | ja | ja | 13 | |
4er Kombination | nein | nein | ja | ja | ja | ja | 6 |
nein | ja | nein | ja | ja | ja | 7 | |
nein | ja | ja | nein | ja | ja | 8 | |
ja | ja | nein | nein | ja | ja | 10 | |
3er Kombination | nein | nein | nein | ja | ja | ja | 3 |
nein | nein | ja | nein | ja | ja | 4 | |
nein | ja | nein | nein | ja | ja | 5 | |
2er Kombination | nein | nein | nein | nein | ja | ja | 1 |
Es kommt also nicht in erster Linie auf die Tatsache Vorhandensein der einzelnen Identifikationsmerkmale an, sondern vielmehr auf die Bedeutung der Identifikationsmerkmale. Die vorgenommene Aggregierung führt dazu, daß
die 5er Kombination: SA, SF, CA, CN, SY
und die 4er Kombination: SS, SA, CN, SY
die gleiche Kombinationsziffer 10 erhalten.
Die Strukturformel suchbar wird als das wichtigste Identifikationsmerkmal genauso hoch bewertet wie die Summenformel und die CAS-Nummer gemeinsam. So ist die Vergabe der selben Bewertungsziffer durchaus vertretbar.
Die einzig sinnvolle 1er Kombination, d.h. die bloße Möglichkeit der Suche nach Informationen über Chemikalien über einen Handelsnamen oder Synonym ist als unzulänglich einzustufen. Das Synonym hat die Bewertungsziffer 0. Für die Vergabe der Bewertungsziffern werden diese Kombinationswerte durch 3 geteilt, was durch Ab- bzw. Aufrundung zu der üblichen Einteilung in sechs Ziffern führt, die in Tabelle 26 aufgezeigt wird (Teilschritt f).
Eine Datenbank, die über alle aufgeführten Identifikationsmerkmale
verfügt, bekommt die höchste Bewertungsziffer, eine
Datenbank, in der eine Recherche nur mit dem Chemikaliennamen
und dem Synonym möglich ist, erhält das Bewertungsziffer
0. Datenbanken, in denen die Strukturformel als Identifikationsparameter
vorhanden ist, werden in der Vergabe der Bewertungsziffern bevorzugt.
Tabelle 26: Bewertungsziffern für das Kriterium
Identifikationsmerkmale (ID)
Identifikationsmerkmale | Bewertungsziffer |
Strukturformel (suchbar), Strukturformel (Ausgabe), Summenformel, CAS-Nummer, Chemikalienname, Synonyma | 5 |
Strukturformel (suchbar), Strukturformel (Ausgabe), Summenformel, Chemikalienname, Synonyma | 4 |
Strukturformel (suchbar), Strukturformel (Ausgabe), CAS-Nummer, Chemikalienname, Synonyma | 4 |
Strukturformel (Ausgabe), Summenformel, CAS-Nummer, Chemikalienname, Synonyma | 3 |
Strukturformel (suchbar), Strukturformel (Ausgabe), Chemikalienname, Synonyma | 3 |
Strukturformel (Ausgabe), Summenformel, Chemikalienname, Synonyma | 3 |
Summenformel, CAS-Nummer, Chemikalienname, Synonyma | 2 |
Strukturformel (Ausgabe), CAS-Nummer, Chemikalienname, Synonyma | 2 |
Strukturformel (Ausgabe), Chemikalienname, Synonyma | 2 |
Summenformel, Chemikalienname, Synonyma | 1 |
CAS-Nummer, Chemikalienname, Synonyma | 1 |
Chemikalienname, Synonyma | 0 |
Es handelt sich hier ebenfalls um ein ordinales Merkmal.
Dieses Bewertungskriterium unterstreicht die Notwendigkeit, Informationen über weniger gut untersuchte Substanzen des Testdatensatzes zu erhalten. Während die Kriterien Anzahl an Chemikalien und Identifikationsmerkmale die allgemeine Situation der Unterstützung der Recherche in bezug auf Chemie-Informationen charakterisieren, wird mit dem Parameter Chemikalien-Testdatensatz besonders auf den Testdatensatz an umweltrelevanten Chemikalien, der im Kapitel 4.1.2 erläutert wurde, eingegangen. Wie bereits an dieser Stelle ausgeführt, gehört eine Vielzahl der ausgewählten 68 Stoffe zu der Gruppe der Kohlenwasserstoffe (und hier zu den monocyclischen und polycyclischen Aromaten) und zu den halogenierten organischen Verbindungen (hier zu den halogenierten cyclischen und aromatischen Verbindungen). Diese Verbindungen kommen häufig in der Umwelt vor und sind aus diesem Grund auch in Online Datenbanken umfassend abgedeckt. Bedeutend ist es aber, gerade für diejenigen Chemikalien Informationen zu erhalten, über die weniger geforscht und somit publiziert wurde. Der Parameter CT quantifiziert somit die Chancen, auch "exotische" Chemikalien, d.h. solche, über die nur wenig Datenmaterial vorliegt, zu finden.
Die Auswertung der DADB - Metadatenbank der Online Datenbanken in bezug auf den Chemikalien-Testdatensatz ist in den beiden letzten Spalten der Tabelle 3 in Kapitel 4.1.2.1 zu finden. Teilt man nun die prozentualen Anteile der Treffer in sechs Gruppen ein (siehe Tabelle 27), so läßt sich ablesen, daß sieben Chemikalien in mehr als 50 % der Online Datenbanken vorkommen, 14 in mehr als 40 %, 16 in mehr als 30 %, 9 in mehr als 20 %, 17 in mehr als 10 % und fünf in weniger als 10 % der Datenbanken. Die Chemikalien werden mit ihren korrespondierenden Nummern in Tabelle 27 aufgelistet. Von großem Interesse ist es nun, diejenigen Datenbanken zu identifizieren, die Informationen über die selten vorkommenden Chemikalien beispielsweise über Methylbis(phenylmethyl)benzol (Chemikalie Nr. 20) oder Heptachlornaphthalin (Chemikalie Nr. 56) vorhalten. Es handelt sich bei diesen Chemikalien um Stoffe, die schlecht untersucht sind und die aus diesem Grunde nur selten in Datenbanken erscheinen. Datenbanken, die solche Chemikalien vorhalten, sind höher einzustufen, als diejenigen, die nur die gängigen Chemikalien des Testdatensatzes enthalten z.B. Anthracen (Nr. 2), Styrol (Nr. 17), Ethylbenzol (Nr. 18), Hexachlorbenzol (Nr. 19) und Cyclohexan (Nr. 37). Die letztgenannten Chemikalien kommen in mehr als der Hälfte der angesprochenen Datenbanken vor.
Enthält eine zu bewertende Online Datenbank nur Chemikalien, die in mehr als 50 % der untersuchten Datenbanken vorkommen, d.h. gut untersuchte Stoffe, so ist dieser Umstand im Sinne der Auffindung von Datenbanken für wenig untersuchte Umweltchemikalien geringer einzustufen als eine Datenbank, die einen Stoff enthält, der in weniger als 10 % der DADB Datenbanken vorkommt. In der Praxis werden jedoch desöfteren Informationen gerade über diejenigen Umweltchemikalien gesucht, die nicht so häufig und eingehend untersucht worden sind und zu denen dementsprechend wenig Daten vorliegen. Nicht unwichtig ist in diesem Zusammenhang die berechtigte Annahme, daß neben der selten gefundenen Chemikalie auch die anderen Chemikalien wahrscheinlich in der entsprechenden Datenbank abgedeckt sind.
Demgemäß wird die folgende Bewertungsziffereinteilung aufgrund der Auswertung der DADB in bezug auf die 68 Testdatensatz Chemikalien vorgenommen.
Dieses Kriterium steht in gewissem Zusammenhang mit der Anzahl
der Chemikalien. Die Wahrscheinlichkeit, eine selten vorkommende
Chemikalie zu recherchieren, ist selbstverständlich in Datenbanken,
die eine große Anzahl von Chemikalien abdecken, größer
als in einer Datenbank, in der nur Daten über wenige Chemikalien
vorliegen. Es ist jedoch auch möglich, daß einige Datenbanken,
obwohl sie wenige Chemikalien umfassen, gerade Informationen zu
den wenig in Datenbanken verbreiteten Stoffen haben.
Tabelle 27: Bewertungsziffern für das Kriterium
Chemikalien-Testdatensatz (CT)
Anzahl und Nummern der Testdatensatz Chemikalien (vgl. Tabelle 3) | Vorkommen der Testdatensatz Chemikalien in DADB in % | Bewertungs-ziffer |
5: 11,20,23,33,56 | 10 | 5 |
17:5,10,16,27,31,32,34,38,39,40,41,52,53,55,59,62,68 | 11-20 | 4 |
9: 6,7,8,9,12,35,51,54,65 | 21-30 | 3 |
16:1,4,14,22,24,26,28,36,43,44,46,50,57,58,61,64 | 31-40 | 2 |
14:3,13,15,21,25,29,30,42,45,47,48,60,63,66 | 41-50 | 1 |
7: 2,17,18,19,37,49,67 | > 50 | 0 |
Von großem Interesse ist auch die Fortentwicklung, die die Datenbanken im Laufe der vergangenen 8-10 Jahre durchgemacht haben. Jeder Datenbankhersteller gibt mit dem Umfang der Datenbank auch die Häufigkeit der Aktualisierungen an. Bedeutend ist jedoch in diesem Zusammenhang, wie sich die Situation in bezug auf den Chemikalien-Testdatensatz verändert hat. Um diese Veränderungen zu analysieren, wurden bei Datenbanken, die schon seit vielen Jahren auf dem Markt sind und in denen zunächst Ende der Achtziger Jahre recherchiert wurde, die Recherchen mit dem Chemikalien-Testdatensatz 1994 bzw. 1995 erneut durchgeführt. Die Vergleiche der Rechercheergebnisse führen zu folgender qualitativen Einstufung: Es wird bei dieser Betrachtungsweise darauf Wert gelegt, um wieviele Chemikalien die Datenbank zugenommen hat. Der Quotient wird aus dem Wert der vorher vorhandenen Anzahl der Testdatensatz-Chemikalien zu der neuen Anzahl der Testdatensatz-Chemikalien gebildet. Datenbanken, die seit Jahren eine umfangreiche Anzahl an den Testdatensatz-Chemikalien abdecken, werden dementsprechend wenig zunehmen. Auch können nur Datenbanken in diesem Sinne betrachtet werden, die es schon seit mehreren Jahren auf dem Markt gibt. Dieses Kriterium stellt wieder ein ordinales Merkmal dar.
Es ist jedoch anzumerken, daß Datenbanken, die bereits seit
langem viele Chemikalien beschreiben, keine starke Zunahme mehr
verzeichnen und somit in diesem Kriterium niedrig eingestuft werden.
Diese "Ungerechtigkeit" wird anhand von Beispielen später
diskutiert.
Tabelle 28: Bewertungsziffern für das Kriterium
Chemikalien Entwicklung (CE)
Veränderungen | Quotient | Bewertungsziffer |
umfangreiche Zunahme | > 1,7 | |
größere Zunahme | 1,5-1,6 | |
deutliche Zunahme | 1,3-1,4 | |
kleine Zunahme | 1,2 | |
unbedeutende Zunahme | 1,1 | |
keine Zunahme |
Eine statistische Einteilung der Bewertungsziffern etwa anhand
empirischer Verteilungsfunktionen würde deren Vergabe abhängig
machen von den fünf Gruppen. Diese Abhängigkeit soll
jedoch zugunsten einer allgemeineren Verwendbarkeit der Bewertungskriterien
vermieden werden.
Im folgenden werden die Bewertungskriterien mit Umwelt- bzw. Umweltparameter-Bezug vorgestellt.
Für die Thematik der Umweltchemikalien sind einige Informationsparameter von besonderer Bedeutung. Hierzu gehören das Vorkommen in den Umweltmedien, Wasser, Boden, Sediment, Luft etc., Abbau- und Akkumulationsparameter, ökotoxikologische Parameter z.B. Fisch-, Algen-, Daphnientoxizität und einige physikalisch-chemische Eigenschaften, die insbesondere zur Abschätzung und Modellierung im Umweltbereich bedeutend sind [Matthies 1992]. Hier seien beispielsweise Verteilungskoeffizienten genannt, die in Expositionsmodellen eine wichtige Rolle spielen [Matthies 1991], [Behrendt 1993]. In der oben beschriebenen Metadatenbank der Online Datenbanken - DADB werden im Deskriptorfeld ca. 100 unterschiedliche Informationsparameter für Umweltchemikalien vorgehalten (vgl. hierzu Kapitel 4.1.3). Es ist einleuchtend, daß eine Online Datenbank höher einzustufen ist, die eine große Anzahl der relevanten Parameter enthält als eine, die nur über wenige bzw. über keine verfügt. Einige spezielle Parameter haben für die Beschreibung des Verhaltens von Chemikalien in der Umwelt eine extreme Bedeutung, so z.B. die Pflanzentoxizität, die Photosynthesehemmung, die Verteilungskoeffizienten log Kow, log Koc, die Henry-Konstante etc. Einige dieser Parameter sind jedoch erfahrungsgemäß äußerst selten verfügbar. Aus diesem Grunde werden sie an dieser Stelle "Spezial-Umwelt-Parameter" genannt. Die Einteilungen werden deshalb unter Hinzunahme der "Spezial-Umwelt-Parameter" weiter differenziert und erhalten dementsprechend (d.h. ein, zwei oder mehrere Spezialparameter) höhere Bewertungsziffern. Es wird hier wieder nach der im Kapitel 6.3 aufgeführten Vorgehensweise verfahren. Die beide zugrundeliegenden nominalen Merkmale Anzahl der Parameter (ja/nein) und Vorhandensein von Spezialparametern (ja/nein) werden durch Zahlenwerte für die Anzahl der Parameter allgemein zusätzlich abgestuft. Danach werden die Merkmale ordinal interpretiert in der Rangordnung Größenordnung der Anzahl der Parameter und Größenordnung der Anzahl der Spezialparameter, wie im folgenden erläutert wird.
Es werden vier Abstufungen von Parametern und vier Abstufungen
von Spezialparametern gewählt. Vergibt man dem Parameter
50-70 die Ziffer 3, 30-50 die Ziffer 2, < 30 die Ziffer 1 und
< 10 die Ziffer 0 und dementsprechend der Anzahl der Spezialparameter
> 2 die Ziffer 3, 2 die Ziffer 2, 1 die Ziffer 1 und 0 die
Ziffer 0, so ergeben sich für die Kombination der beiden
Parameter folgende in Tabelle 29 zusammengestellten Ergebnisse
(vgl. Teilschritte c,d,e).
Tabelle 29: Kombinationen der Anzahl der Parameter
allgemein mit der Anzahl der Spezialparameter
Anzahl der Parameter allgemein | Anzahl der Spezialparameter | Kombinationswerte |
Die Werte werden in das Bewertungsziffersystem übertragen,
indem die Kombinationswerte um jeweils eine Ziffer heruntergestuft
werden. Damit würde der Wert sechs die Bewertungsziffer 5
erhalten, der Wert 5 die Bewertungsziffer 4 etc. Der niedrigste
Wert 0 kann nach dem Bewertungsziffer-Ansatz nicht unterschritten
werden. Die Beibehaltung dieses Wertes ist daher vertretbar und
bedeutet, daß mit der Bewertungsziffer 0 die Fälle
(<30,0), (<10,1) und (<10,0) zusammengefaßt sind.
Allgemein ergeben sich folgende Zuordnungen für die einzelnen
Bewertungsziffern (vgl. Teilschritt f).
Tabelle 30: Bewertungsziffern für das Kriterium
Informationsparameter für Umweltchemikalien
(IP)
Anzahl der Parameter | Spezialparameter | Bewertungsziffer |
50 - 70 | >2 | 5 |
50 - 70 | 2 | 4 |
30 - 50 | >2 | 4 |
50 - 70 | 1 | 3 |
30 - 50 | 2 | 3 |
< 30 | > 2 | 3 |
50 - 70 | 0 | 2 |
30 - 50 | 1 | 2 |
< 30 | 2 | 2 |
< 10 | 2 | 2 |
30 - 50 | 0 | 1 |
< 30 | 1 | 1 |
< 10 | 2 | 1 |
< 30 | 0 | 0 |
< 10 | 1 | 0 |
< 10 | 0 | 0 |
Dieses Bewertungskriterium würde besser definiert sein, wenn nicht das Vorhandensein des Parameters sondern vielmehr die Belegung des Parameters mit Daten in Betracht gezogen würde. Da diese Information vom Hersteller von Datenbanken nicht erhältlich ist und Recherchen zu aufwendig und teuer wären, wird diese Vorgehensweise als sinnvoll jedoch unrealistisch angesehen.
Interessant ist neben der in Kapitel 4.1.2 erläuterten Entwicklung des Chemikalien-Testdatensatzes auch die Fortentwicklung der Datenbanken in bezug auf die inhaltlichen Parameter des Umweltschutzes im Laufe der vergangenen 8-10 Jahre. Wie bei der Vorgehensweise beim Chemikalien-Testdatensatz wurden die Recherchen in den Jahren 1994 und 1995 wiederholt. Die Vergleiche der neuen Rechercheergebnisse mit denen der achtziger Jahre führen zu folgender qualitativen Einstufung. Es wird bei dieser Betrachtungsweise darauf Wert gelegt, wieviele Parameter dazugekommen sind, die vor ca. 10 Jahren noch nicht abgedeckt wurden. Der Quotient wird aus dem Wert der vorher vorhandenen Anzahl der Testdatensatz-Parameter zu der neuen Anzahl der Testdatensatz-Parameter gebildet. Datenbanken, die seit Jahren eine umfangreiche Anzahl an den Parametern abdecken, werden dementsprechend wenig zunehmen. Auch können nur Datenbanken in diesem Sinne betrachtet werden, die es schon seit mehreren Jahren auf dem Markt gibt. Auch hier werden wieder die seit vielen Jahren auf dem Markt befindlichen umfangreichen Datenbanken benachteiligt.
Bei diesem Kriterium handelt es sich um ein Rangordnungsmerkmal (ordinales Merkmal).
Die Verteilung der Bewertungsziffern wird analog zu der Vorgehensweise,
angewandt auf die Betrachtung des Chemikalien-Testdatensatzes,
vorgenommen.
Tabelle 31: Bewertungsziffern für das Kriterium
Parameter Entwicklung (PE)
Veränderungen | Quotient | Bewertungsziffer |
umfangreiche Zunahme | > 1,7 | 5 |
größere Zunahme | 1,5-1,6 | 4 |
deutliche Zunahme | 1,3-1,4 | 3 |
kleine Zunahme | 1,2 | 2 |
unbedeutende Zunahme | 1,1 | 1 |
keine Zunahme | 0 |
Einige Bewertungskriterien behandeln sowohl Chemikalien- als auch
Umweltschutzaspekte.
Es handelt sich bei diesem Kriterium um ein nominales, qualitatives Merkmal.
Unter der Art bzw. Anwendung der Chemikalien sind spezielle Stoffe, die für eine besondere Anwendung produziert werden, zu verstehen. Beispiele hierfür sind Pestizide und Pharmazeutika. Andere Chemikalien sind zwar nicht für einen besonderen Zweck hergestellt, haben sich aber im Laufe der Zeit als gefährlich erwiesen und sind deshalb auch als Gefahrstoffe eingestuft, gekennzeichnet und gesetzlich geregelt worden. Es gibt nun einige wenige Online Datenbanken, die sich mit solchen speziellen Gruppen von Chemikalien befassen. Ebenso ist es für die Thematik der Umweltchemikalien von großem Interesse, ob die Datenbanken nur Einzelstoffe oder auch Gemische, Zubereitungen, Abbauprodukte etc. umfassen. Gemäß der Betrachtungsweise von Umweltchemikalien ist eine Datenbank, die sich vorwiegend mit der Thematik von Zubereitungen, Abbauprodukten sowie Gefahrstoffen und Stoffen eines speziellen Anwendungsbereiches (z.B. Pestizide) beschäftigt, wichtiger als eine, die die Allgemeinheit von Chemikalien abdeckt. Die Auswertung der entsprechenden Eintragungen im Datenfeld "Anwendung der Chemikalien" der Metadatenbank der Online Datenbanken ergibt, daß 122 der 453 Datenbanken d.h. ca. 25% spezialisiert sind. Hiervon sind nur 12 Datenbanken für den für die Umweltchemikalien Betrachtung wichtigen Bereich "Gemische und Zubereitungen" ausgewiesen. Aus diesem Grund wird diesen die höchste Bewertungsziffer 5 gegeben. Ebenso gibt es nur 22 Online Datenbanken, die auf dem Gebiet der Gefahrstoffe spezialisiert sind. Hierfür wird das Bewertungsziffer 4 vergeben. 88 Datenbanken sind für spezielle Anwendungen angelegt (Bewertungsziffer 3).
Da eine Datenbank, die sich nicht auf besondere Arten bzw. Anwendungen
von Chemikalien spezialisiert, nicht als schlecht einzustufen
ist, ist in diesem Fall nicht die Bewertung "ungenügend"
und "mangelhaft" vergeben worden. Hier können zwar
Informationen zu den oben genannten speziellen Anwendungen oder
Arten von Chemikalien vorhanden sein, müssen aber nicht.
Diese "allgemeinen" Datenbanken sind nicht für
Besonderheiten in dem oben diskutierten Zusammenhang ausgewiesen.
De facto führt die Vergabe von nur vier Bewertungsziffern
zu einer geringeren Gewichtung dieses Kriteriums im Rangfolgeverfahren.
Tabelle 32: Bewertungsziffern für das Kriterium
Art/Anwendung von Chemikalien (AR)
Art/Anwendung/Verhalten | Bewertungsziffer |
Gemische, Zubereitungen, Abbauprodukte | 5 |
Gefahrstoffe | 4 |
spezielle Anwendungen im Umweltbereich | 3 |
allgemein | 2 |
Hierbei handelt es sich um den schwierigsten Parameter, im Sinne
der Gewinnung von Hintergrundinformation, nicht jedoch in Sinne
der Klassifizierung. Darüber hinaus trägt es sowohl
allgemeinen als auch inhaltlichen Charakter, wobei jedoch die
inhaltliche Komponente überwiegt.
Anzustreben ist eine Datenquelle, die umfassend das vom Hersteller angegebene Sachgebiet abdeckt und darüber hinaus auch noch fehlerfrei ist. Diese von den Nutzern von Online Datenbanken geforderte Maximale ist natürlich unrealistisch. Es gibt jedoch durchaus wichtige Unterschiede in der Qualität von Online Datenbanken. Beispielsweise geben manche Hersteller ohne weiteres zu, daß ihre Datenbank unevaluierte Daten enthält. Andere Datenbankhersteller hingegen legen auf die Qualität ihrer Daten großen Wert und prüfen die Daten vor der Eingabe in die Datenbank.
Einen anderen Aspekt der Güte der Online Datenbanken stellen die Einheiten der Daten dar. In den meisten Fällen sind die Einheiten nicht genormt, d.h. die Angaben für einen Parameter variieren beispielsweise von mg/l, mol/l, g/l, ng/kg etc. Manchmal fehlen die Einheiten auch vollständig. Für die Auswertung der Daten sind die Angaben in SI Einheiten erstrebenswert. Für sehr wenige Online Datenbanken trifft das jedoch zu. Dies ist besonders bei den betrachteten bibliographischen Datenbanken der Fall, jedoch gibt es auch nur sehr wenige Faktendatenbanken, die ausschließlich SI Einheiten benutzen.
Darüber hinaus ist für die Betrachtung der Güte der Online Datenbanken die Anzahl der gefundenen Umweltchemikalien des Chemikalien-Testdatensatzes von 68 umweltrelevanten Stoffen aussagefähig. Dieser Chemikalien-Testdatensatz wurde ausführlich in Kapitel 4.1.2 besprochen. Hier wurde auch deutlich herausgestellt, daß es sich zwar um potentielle Lebensmittelkontaminanten handelt, die Chemikalien jedoch aufgrund ihrer großen Produktionsmenge einerseits und ihrer Zugehörigkeit zu Gruppen an potentiellen Umweltkontaminaten anderseits per se eine große Umweltrelevanz haben. Das Heranziehen der Anzahl der Testdatensatz Stoffe für das Bewertungskriterium "Validität/ Güte der Datenbank" ist daher vertretbar.
Die Anzahl der Testdatensatz Stoffe ist deutlich von dem Kriterium Chemikalien-Testdatensatz zu differenzieren. Während das hier beschriebene Kriterium die Anzahl der Testdatensatz Stoffe in Betracht zieht, kommt es bei dem Kriterium Chemikalien-Testdatensatz darauf an, welche der Testdatensatz-Chemikalien in Datenbanken zu finden sind.
Auch hier werden wieder die nominalen Merkmale in der unter 6.3 beschriebenen Vorgehensweise aggregiert. Es gibt drei zugrunde liegende nominale Merkmale Chemikalien-Testdatensatz (ja/nein), evaluierte Daten (ja/nein) und Einheiten vereinheitlicht (ja/nein). Das Merkmal Chemikalien-Testdatensatz wird durch Zahlenwerte zusätzlich abgestuft. Es werden folgende fünf Abstufungen für das Merkmal Chemikalien-Testdatensatz vorgenommen: > 50, 25-50, < 25, < 10, < 5
Vergibt man dem Parameter > 50 die Ziffer 4, 25-50 die Ziffer
3, < 25 die Ziffer 2, < 10 die Ziffer 1 und < 5 die Ziffer
0 und den Merkmalen evaluierte Daten und SI Einheiten bei ja/ja
die Ziffer 2, bei einem ja die Ziffer 1 und bei nein/nein die
Ziffer 0, so ergeben sich für die Kombinationen folgende
Ergebnisse (siehe Spalte 4) der Tabelle 33.
Tabelle 33: Kombinationswerte für Validität/Güte
der Datenbank (QU)
Chemikalien-Testdatensatz | evaluierte Daten | SI Einheiten | Kombinations-werte |
> 50 | ja | ja | 6 |
> 50 | ja | nein | 5 |
> 50 | nein | ja | 5 |
> 50 | nein | nein | 4 |
25-50 | ja | ja | 5 |
25-50 | ja | nein | 4 |
25-50 | nein | ja | 4 |
25-50 | nein | nein | 3 |
< 25 | ja | ja | 4 |
< 25 | ja | nein | 3 |
< 25 | nein | ja | 3 |
< 25 | nein | nein | 2 |
< 10 | ja | ja | 3 |
< 10 | ja | nein | 2 |
< 10 | nein | ja | 2 |
< 10 | nein | nein | 1 |
< 5 | ja | ja | 2 |
< 5 | ja | nein | 1 |
< 5 | nein | ja | 1 |
< 5 | nein | nein | 0 |
Die Werte werden in das Bewertungsziffersystem übertragen,
indem die Kombinationswerte um jeweils eine Ziffer heruntergestuft
werden. Damit würde der Wert sechs die Bewertungsziffer 5
erhalten, der Wert 5 die Bewertungsziffer 4 etc. Der niedrigste
Wert 0 wird für Datenbanken vergeben, die weniger als 10
Stoffe des Testdatensatzes abdecken und weder über SI Einheiten
noch über evaluierte Daten verfügen. Darüber hinaus
wird das Bewertungsziffer 0 für alle Datenbanken vergeben,
die weniger als fünf Chemikalien des Testdatensatzes abdecken.
Damit ergeben sich folgenden Zuordnungen für die einzelnen
Bewertungsziffern.
Tabelle 34: Bewertungsziffern für das Kriterium
Validität der Online Datenbanken (QU)
Chemikalien-Testdatensatz | evaluierte Daten | ||
> 50 | ja | ja | |
> 50 | ja | nein | |
> 50 | nein | ja | |
25 - 50 | ja | ja | |
> 50 | nein | nein | |
25 - 50 | ja | nein | |
25 - 50 | nein | ja | |
< 25 | ja | ja | |
< 25 | ja | nein | |
< 25 | nein | ja | |
< 10 | ja | ja | |
< 25 | nein | nein | |
< 10 | ja | nein | |
< 10 | nein | ja | |
< 5 | ja | ja | |
< 10 | nein | nein | |
< 5 | ja | nein | |
< 5 | nein | ja | |
< 5 | nein | nein |
Auch bei CD-ROMs gibt es wichtige Unterschiede in der Qualität der auf der CD-ROM enthaltenen Informationen. In Analogie zu der Vorgehensweise bei den Online Datenbanken werden wieder die Umstände, ob es sich bei den Daten der CD-ROM um evaluierte oder unevaluierte Daten handelt und ob die verwendeten Einheiten SI Einheiten sind oder nicht herangezogen. Da die CD-ROMs - wie oben erwähnt - nicht mit dem Testsatz an Chemikalien geprüft werden konnten, kann für die Betrachtung der Güte der CD-ROM die Anzahl der gefundenen Umweltchemikalien des Chemikalien-Testdatensatzes von 68 umweltrelevanten Stoffen nicht berücksichtigt werden. Es wird daher auf die Anzahl der Chemikalien als Hilfsmittel ausgewichen.
Es gibt drei zugrunde liegende nominale Merkmale Anzahl der Chemikalien (ja/nein), evaluierte Daten (ja/nein) und SI Einheiten (ja/nein).
Das Merkmal Anzahl der Chemikalien wird durch Zahlenwerte zusätzlich abgestuft.
Es werden folgende vier Abstufungen für das Merkmal Anzahl der Chemikalien vorgenommen:
>100.000, > 25.000, > 10.000, < 5000.
Das Kriterium Anzahl an Chemikalien geht hier in abgewandelter Form ein, d.h. in der Art, daß nur hohe Werte Berücksichtigung finden.
Vergibt man dem Parameter > 100.000 die Ziffer 3, > 25.000 die Ziffer 2, > 10.000 die Ziffer 1, 10.000 die Ziffer 0 und den Merkmalen evaluierte Daten und SI Einheiten bei ja/ja die Ziffer 2, bei einem ja die Ziffer 1 und bei nein/nein die Ziffer 0, so ergeben sich für die Kombinationen folgende Ergebnisse der Tabelle 35 (siehe Spalte 4).
Die Werte der Tabelle 35 können in diesem Fall direkt in das Bewertungsziffersystem übertragen werden.
Tabelle 35: Kombinationswerte für das Kriterium
Validität/Güte der CD-ROM (QU)
Anzahl der Chemikalien | evaluierte Daten | SI Einheiten | Kombinationswerte= Bewertungsziffern |
> 100.000 | ja | ja | 5 |
> 100.000 | ja | nein | 4 |
> 100.000 | nein | ja | 4 |
> 100.000 | nein | nein | 3 |
> 50.000 | ja | ja | 4 |
> 50.000 | ja | nein | 3 |
> 50.000 | nein | ja | 3 |
> 50.000 | nein | nein | 2 |
> 10.000 | ja | ja | 3 |
> 10.000 | ja | nein | 2 |
> 10.000 | nein | ja | 2 |
> 10.000 | nein | nein | 1 |
10.000 | ja | ja | 2 |
10.000 | ja | nein | 1 |
10.000 | nein | ja | 1 |
10.000 | nein | nein | 0 |
Damit ergeben sich folgenden Zuordnungen für die einzelnen
Bewertungsziffern.
Tabelle 36: Bewertungsziffern für das Kriterium
Validität/Güte der CD-ROM (QU)
Chemikalien-Testdatensatz | evaluierte Daten | SI Einheiten | Bewertungsziffer |
> 100.000 | ja | ja | |
> 100.000 | ja | nein | |
> 100.000 | nein | ja | |
> 50.000 | ja | ja | |
> 100.000 | nein | nein | |
> 50.000 | ja | nein | |
> 50.000 | nein | ja | |
> 10.000 | ja | ja | |
> 10.000 | ja | nein | |
> 10.000 | nein | ja | |
10.000 | ja | ja | |
> 10.000 | nein | nein | |
10.000 | ja | nein | |
10.000 | nein | ja | |
10.000 | nein | nein |
Wie aus dem Vorangegangenen ersichtlich, wurden zur Ableitung der Bewertungsziffern auch Aggregierungen vorgenommen, und zwar dann, wenn die Charakterisierung der Objekte zunächst eine Kombination von nominalen und ordinalen Kriterien erforderte. Man kann einen Schritt weitergehen und ein Gesamtmaß für die Qualität der Datenbanken ableiten wollen, das wie folgt definiert sein kann:
-Sei Kij die Ausprägung für das j-te Objekt unter dem i-ten Einzelkriterium (i= 1, ..., n).
Ein Gesamtmaß wäre dann für das j-te Objekt wie folgt zu bilden:
j = f (K1j, K2j,...Knj)
= Gesamtmaß, Kij
= i-tes Kriterium für das j-te Objekt
(siehe auch Anlage B1)
Nach Wahl der Kriterien sind die Kij
in ihrer Aussage orientiert (hohe Ausprägung, hohe Güte);
daher muß gelten
Eine übliche Realisierung für f ist eine Linearform:
j = gi Kij gi Gewichtsfaktoren 0<gi<n (6-1)
Durch die zusätzliche (willkürliche) Wahl gi = 1 für i = 1,..., n
erhält man eine spezielle Berechnung für ein Qualitätsgesamtmaß
, in dem alle Kriterien gleichgewichtig eingehen. Diese Größe
wird zusätzlich in der letzten Spalte der folgenden Tabellen
der Bewertungsziffern für die Gruppen eingetragen. Aus der
Ableitung wird ersichtlich, daß
mit erheblicher Willkür
behaftet ist, die ja gerade durch die Hasse-Diagramm-Technik vermieden
wird. Hier dient
u.a. dazu, die Vorteile der Hasse-Diagramm-Technik
evident zu machen. Durch das Gesamtmaß
wird eine Einteilung
in Äquivalenzklassen induziert: Die dazugehörige Äquivalenzrelation
ist "Gleichheit bezüglich
". In der Folge wird
von
-äquivalenten Objekten gesprochen, wenn diese zu einer
Äquivalenzklasse gehören. Eine Nichtübereinstimmung
vom Gesamtmaß
und der Auswertung mittels der Hasse-Diagramm-Technik
kann grundsätzlich sein oder aufgrund der Willkür der
Klasseneinteilung zustande kommen. Dies wird anhand der Gruppen
diskutiert.
Die Struktur eines Hasse-Diagramms hängt nicht nur von der Gruppe und von der Anzahl der Bewertungskriterien sondern vielmehr auch von den Kriterien selber ab. Bei den Bewertungskriterien ist deren Ausprägungsmenge, d.h. die Verteilung der Bewertungsziffern auf die einzelnen Objekte von großer Bedeutung. Darüber hinaus ist das "Zusammenspiel" der einzelnen Bewertungskriterien miteinander wichtig. Bezüglich der Ausprägungsmengen der einzelnen Bewertungskriterien werden bei den Betrachtungen der folgenden Gruppen die Mittelwerte (MW), Mediane (ME) und die Standardabweichungen (STDEV) gebildet.
Für die Untersuchung der Bedeutung der Ausprägungsmengen
werden im folgenden zwei Größen, der Umfangsindex Ui
und der Shannon-Index Ii betrachtet.
Es ist zwischen der theoretischen Ausprägungsmenge A theo, i := {0,1,2,3,4,5} und der Kriterien- und Gruppen-spezifischen aktuellen Ausprägungsmenge A aktu, i zu unterscheiden. Es gilt, die Kardinalitäten der theoretischen Ausprägungsmenge mit denen der aktuellen Ausprägungsmenge zu vergleichen.
Der Umfangsindex Ui der Bewertungsziffern wird wie folgt definiert:
Ui = card Aaktu, i (6-2)
Ui = Umfangsindex, A = Ausprägungsmenge,
i = Kriterium
Der Shannon-Index beschreibt die Information eines Bewertungskriteriums bezüglich der konkret gegebenen Gruppe [Bock 1974]. Dabei wird davon ausgegangen, daß eine hohe Entropie informativer ist als eine geringe. Daher ist der Shannon-Index ein Maß für den Informationsgehalt eines Bewertungskriteriums. Pij sind Wahrscheinlichkeiten, daß die j-te Ausprägung zum i-ten Kriterium auftritt und wird durch nij/N geschätzt.
Es gilt:
Ii = - pij ln pij
Ii = - ln (6-3)
Legende: Ii = Shannon-Index, i = Bewertungskriterium,
j = Ausprägungsstufe, nij
= Zahl der Vergabe einer bestimmten Bewertungsziffer Stufe j über
das i-te Kriterium, N = Anzahl der Objekte in einer Objektmenge,
z = Zahl der möglichen Ausprägungen (in diesem Fall
0-5, also 6)
Der Shannon-Index wurde 1982 in einer Arbeit von Rao [Rao 1982]
kritisiert. Es ist nicht auszuschließen, daß in manchen
Fällen die Diversität durch den Shannon-Index überschätzt
wird.
Anzustreben ist eine gut verteilte Bewertungsziffernvergabe. Haben
Ui und Ii hohe Werte
im Vergleich zu den anderen Bewertungskriterien, so ist das betrachtete
Kriterium in bezug auf die Verteilung als "gut" anzusehen.
Analoges gilt selbstverständlich für niedrige Werte
der beiden Indizes. In diesem Fall ist die Bewertungsziffern Vergabe
als "schlecht" anzusehen. Wie zu erwarten, liefert der
Shannon-Index differenziertere Werte als der Umfangsindex, da
ersterer die Anzahl der Objekte einer Gruppe mitberücksichtigt.
In der Folge wird von guter, mittlerer und schlechter Verteilung
der Bewertungsziffern gesprochen. Als gut gilt, wenn der Umfangsindex
Ui = 6 oder 5 beträgt, und
der Shannon-Index Ii groß
ist im Vergleich zu den Werten der anderen Kriterien. Darüber
hinaus müssen die Werte Mittelwert und Median nahe beieinander
liegen. Als mittelmäßig wird ein Kriterium bezeichnet,
wenn der Umfangsindex Ui = 5 ist,
und der Shannon-Index Ii deutlich
kleiner ist als der höchste Wert in der betrachteten Gruppe.
Als schlecht ist ein Kriterium anzusehen, wenn der Umfangsindex
Ui
4 ist, und der Shannon-Index
Ii kleine Werte aufweist. Hierbei
tritt auch eine große Abweichung von Mittelwert und Median
auf.