[Inhaltsverzeichnis] [Home DissOnline] [Anfang] [Vorheriges Kapitel] [Nächstes Kapitel] [Ende]



6. Bewertungsverfahren für Datenquellen

6.1 Notwendigkeit und Bedeutung der Bewertung

Die Notwendigkeit der Bewertung von Datenbanken ist nicht nur durch die in Kapitel 2 ausgeführte Vielzahl der Datenbanken, Datenbankhersteller, der Unterschiede im Typ der Datenbanken, sondern auch durch die Art der Zugriffsmöglichkeit gegeben. Die Notwendigkeit der Bewertung wird in einem Buch über die Nutzer-orientierte Evaluation von Informationssystemen beleuchtet [Bawden 1990], worin der Begriff "Nutzer-orientierte Bewertung" (UOE = User-oriented Evaluation) eingeführt wird. Bawden stellt die Nutzerfreundlichkeit von Informationssystemen vor. Er leitet diese aus qualitativen allgemeinen Datenbank Bewertungskriterien aufbauend auf Fallstudien ab.

Neuere Ansätze beschäftigen sich mit der Bewertung von Datenbanken nach allgemeinen Kriterien der Informationswissenschaft. An dieser Stelle sei auf einen Ansatz für die Bewertung von Datenbanken auf CD-ROMs nach den Kriterien der Konsistenz, der effizienten Ausnutzung der Recherchezeit, der Einfachheit der CD-ROM, der Objektivität der Beschreibung der CD-ROM und der Flexibilität der Abfrage verwiesen [Harry 1993a,b].

Um eine Bewertung vornehmen zu können, ist die Klassifikation der Objekte (hier: Datenquellen) ein wichtiger vorbereitender Schritt. Die Theorie und Anwendung der nichtmetrischen Klassifikation von Objekten wird von Belke et al. ausgeführt [Belke 1979]. Belke beschreibt die nichtmetrische Klassifikation als eine spezifische Form der Objektbeschreibung und Modellierung. "Objekte werden über ihre Eigenschaften bzw. Merkmale erfaßt, bewertet und beschrieben". Anstelle des Begriffes Merkmal oder Eigenschaft wird im folgenden die Bezeichnung Kriterium bzw. Bewertungskriterium gewählt. Die Ausnahme bilden die Zitate von Behlke.

Es sei hier weiter Belke zitiert: "Durch die Klassifikation werden Objekte aufgrund ihrer Merkmale von anderen Objekten abgegrenzt und Klassen von Objekten zugeordnet. Die im allgemeinen notwendigerweise zu berücksichtigende Vielzahl von Merkmalen und die unterschiedliche Werteart (Modus) dieser Merkmale - ausgedrückt durch die Zulassung nominaler, ordinaler und kardinaler Wertgrößen der Merkmale - führen zu einer insgesamt betrachtet nichtmetrischen Objektbeschreibung, also zur "nichtmetrischen Klassifikation" [Belke 1979, Vorwort]. Nach Belke kennzeichnet ein ordinales Merkmal Objekte nach dem Ausmaß des Besitzes eines Merkmalwertes gegenüber einem anderen Objekt. Es wird auch als Rangordnungsmerkmal bezeichnet. Über einzelne Objekte ist damit weniger als über das Verhältnis zwischen den Objekten ausgesagt. "Ein nominales Merkmal kennzeichnet Objekte nach dem Besitz von Merkmalen/Merkmalswerten, die entweder vorhanden oder nicht vorhanden sind". "Ein kardinales Merkmal kennzeichnet Objekte hinsichtlich der Ausprägung eines Merkmals absolut, nicht nur im Unterschied zu anderen Objekten" [Belke 1979, S. 37-38].

Eine Einteilung nach qualitativen (mit oder ohne Ordnungsstrukturen, zwei- oder mehrstufig) und nach quantitativen Merkmalen nimmt H. Bock [Bock 1974] vor.

6.2 Bewertungsziffern

Um die Objekte, in diesem Fall Datenquellen zu bewerten, muß die Definition von charakterisierenden Zahlen so gewählt werden, daß eine gemeinsame Qualität festgestellt werden kann. In diesem Fall bedeutet eine hohe Ziffer in bezug auf ein Kriterium eine sehr gute und eine kleine Ziffer eine schlechte Datenquelle (siehe Tabelle 16).

Das Bewertungsverfahren (Bewertungszifferverfahren) wird nach einem sechs Zahlen umfassenden Bewertungsziffersystem durchgeführt [Voigt 1994, 1995b], d.h. eine Ausprägungsmenge für die Bewertungsziffern mit {0,1,2,3,4,5} angenommen.

Tabelle 16: Bewertungsziffern und deren Bedeutung
5
= sehr gut
4
= gut
3
= befriedigend
2
= ausreichend
1
= mangelhaft
0
= ungenügend

6.3 Einsatz ordinaler und nominaler Kriterien bei der Bewertung von Datenquellen

Für die Zuordnung und Vergabe der Bewertungsziffern zu den Bewertungskriterien werden die Eintragungen aus der Metadatenbank der Online Datenbanken und der Metadatenbank der CD-ROMs herangezogen. Die Einteilung der Klassen von Bewertungsziffern, die Klassengrenzen und die damit im Zusammenhang stehende Vergabe der Bewertungsziffern werden aus den Eintragungen in den entsprechenden Datenfeldern der Metadatenbanken vorgenommen. Hierbei werden in der Regel die Eigenschaften, die am seltensten auftreten (z.B. Vorhaltung von Strukturformeln) hoch bewertet, diejenigen die häufiger vorkommen mit niedrigeren Bewertungsziffern (z.B. Chemikaliennamen) versehen. Wie bei anderen Bewertungsverfahren spielt auch hier die Erfahrung im Umgang mit den Datenbanken, d.h. die Expertenmeinung eine wichtige Rolle [GDCh 1986].

Die folgenden Kapitel werden erkennen lassen, daß eine Vielfalt verschiedener Kriterien auftritt, die - nach Belke [Belke 1979] - eine nichtmetrische Klassifizierung induzieren. Neben dem Auftreten verschiedener Modi ist zu berücksichtigen, daß die Zahl der Kriterien für die vorgesehene Multikriterienanalyse zu groß wird. Daher werden Kriterien nach bestimmten Inhalten aggregiert und zwar so, daß das System der resultierenden Kriterien durchwegs optimal interpretierbar wird. Grundsätzlich erlaubt aber die Hasse-Diagramm-Technik auch die Bewertung nach einer nichtmetrischen Klassifikation, die aber in dieser Arbeit nicht weiter verfolgt wird.

Um die Aggregation von solchen nominalen Kriterien durchzuführen, die inhaltlich zusammengehören, wird folgende pragmatische Vorgehensweise gewählt:



a) Auflistung aller Kombinationen, die sich durch Zutreffen oder Nicht-Zutreffen bestimmter Teilkriterien unterscheiden
b) Aussonderung solcher Kombinationen, die sich in der Praxis der Datenbank Beurteilung als unrealistisch erweisen (falls notwendig)
c) Vergabe einer Reihenfolge der Qualität der Teilkriterien
d) Vergabe von Bewertungsziffern für die Teilkriterien gemäß der in c) erarbeiteten Reihenfolge
e) Ermittlung eines Kombinationswertes für jede Kombination
f) Zuordnung zur Ausprägungsmenge



6.4 Bewertungskriterien für Online Datenbanken und CD-ROMs

Die Bewertungskriterien für Datenquellen lassen sich in allgemeine und inhaltliche Bewertungskriterien einteilen. Die meisten Kriterien sind sowohl auf Online Datenbanken als auch auf CD-ROMs anwendbar. Diejenigen, die unterschiedliche Einteilungen erfordern, werden gesondert betrachtet. Wichtig ist in diesem Zusammenhang, daß die CD-ROMs nicht so umfassend wie Online Datenbanken getestet wurden, da nur die wenigsten CD-ROMs gekauft aus finanziellen Gründen gekauft werden konnten. Die Beurteilung erfolgte daher nur aufgrund von Testversionen und Informationsmaterial. Die Bewertungskriterien, die den Chemikalien Testdatensatz umfassen, werden bei den CD-ROMs nicht angewandt.

6.4.1 Allgemeine Bewertung der Datenquellen

Sowohl bei der Betrachtung der Online Datenbanken als auch CD-ROMs spielen der Umfang der Datenquelle (UM), die Häufigkeit der Aktualisierung (UP), die Kosten der Recherche in der Online Datenbank bzw. die Kosten der CD-ROM (KO) und die Verfügbarkeit der Datenquelle bei anderen Hosts bzw. auf anderen Medien (VE) eine Rolle. Die einzelnen Kriterien werden im folgenden näher erläutert.

6.4.1.1 Umfang der Datenbank (UM)

Dieses Kriterium ist ein ordinales Merkmal (Rangordnungsmerkmal).

Bei der Betrachtung des Umfanges von Datenbanken wird zwischen bibliographischen Datenbanken auf der einen Seite und Volltextdatenbanken und Faktendatenbanken (numerischen Datenbanken) auf der anderen Seite unterschieden, da letztere durch ihre Struktur generell über weniger Dokumente verfügen als bibliographische Datenbanken. In der Metadatenbank der Online Datenbanken gibt es eine große Spannweite in bezug auf die Anzahl der Dokumente. Sie reichen von 90 bis 17 Millionen Dokumenten. Der größte Anteil liegt hingegen bei bibliographischen Datenbanken im Bereich von 100.000 bis 1.000.000 Dokumenten bzw. bei Faktendatenbanken oder Volltextdatenbanken zwischen 2.500 bis 10.000 Dokumenten. Die Einstufung der Klassengrenzen ist dementsprechend vor dem Hintergrund der Eintragungen in die Metadatenbanken entstanden.

Viele Datenbanken liegen heute schon vollständig auf CD-ROM vor und sind daher in bezug auf den Umfang der Dokumente den Online Datenbanken gleichzustellen.

Auch hier spielt das Expertenwissen wieder hinein. Der hohe Grad an Subjektivität könnte aber teilweise anhand von Sensitivitätsstudien abgemildert werden, indem die Klassengrenzen zur Vergabe der Bewertungsziffern variiert werden und ein erneutes Bewertungszifferverfahren durchgeführt wird.

Tabelle 17: Bewertungsziffern für das Kriterium Umfang der Datenbank (UM)
BibliographischNumerisch/Volltext Bewertungsziffer
>5.000.000>100.000
5
>1.000.000> 25.000
4
> 500.000> 10.000
3
> 100.000> 2.500
2
> 10.000> 500
1
< 10.000< 500
0

6.4.1.2 Häufigkeit der Aktualisierung (UP)

Auch bei diesem Kriterium handelt es sich um ein ordinales Merkmal. Die wenigsten wissenschaftlich-technischen Datenbanken werden täglich bzw. wöchentlich, die meisten monatlich bis vierteljährig aktualisiert. Es ist jedoch in den vergangenen zwei Jahren ein deutlicher Trend zu einer schnelleren Aktualisierung zu verzeichnen [Voigt 1995b]. Die Frequenz der Aktualisierungen ist bei Online Datenbanken generell häufiger als bei anderen Datenquellen z.B. bei CD-ROMs. Deshalb ist bei diesem Kriterium eine unterschiedliche Einteilung der Bewertungsziffern für diese beiden Medien vorzunehmen.

6.4.1.2.1 Häufigkeit der Aktualisierung bei Online Datenbanken

Es lassen sich die Online Datenbanken in die in der folgenden Tabelle aufgeführten zeitliche Aktualisierungsabschnitte einteilen. In der zweiten Spalte der Tabelle 18 ist die Anzahl der Datenbanken, die zu den einzelnen Einteilungsstufen gehören, vermerkt. Anzumerken sei in diesem Zusammenhang, daß in der Metadatenbank nicht für alle dort eingetragenen Datenbanken ein Eintrag hierfür vorliegt. Der Grund für des Fehlen der Einträge ist, daß von den Hosts keine Angaben hierzu gemacht wurden. Zu den in den Gruppen vorkommenden Datenbanken liegen jedoch Daten vor.

Tabelle 18: Bewertungsziffern für das Kriterium Häufigkeit der Aktualisierung (UP)
Häufigkeit der Aktualisierung Anzahl der Datenbanken in DADBBewertungsziffer
täglich, wöchentlich49
5
zweimal pro Monat, monatlich159
4
alle drei Monate50
3
alle sechs Monate33
2
jedes Jahr29
1
unregelmäßig42
0

Je öfter die Datenbank aktualisiert wird, desto besser wird sie eingestuft. Datenbanken, die einmal im Jahr neue Einträge bekommen, sind für den Nutzer von geringer Bedeutung, da die Daten nicht mehr aktuell sind. Eine wöchentliche bzw. tägliche Aktualisierung ist bei Online Datenbanken als sehr gut zu bewerten, eine monatliche bzw. zweiwöchige als gut. Bei unregelmäßigen Aktualisierungen wird vielfach gar nicht mehr überarbeitet. Aus diesem Grunde ist die Datenbank in bezug auf dieses Bewertungskriterium als ungenügend eingestuft.

6.4.1.2.2 Häufigkeit der Aktualisierung bei CD-ROMs

Die Aktualisierung der CD-ROMs erfolgt in der Regel in größeren Abständen als bei den Online Datenbanken. Eine tägliche Aktualisierung kommt bei CD-ROMs nicht vor. Ein wöchentliche bzw. vierzehntägige Aktualisierung ist die Ausnahme und demnach als sehr gut einzustufen. Die meisten CD-ROMs werden heutzutage alle drei Monate aktualisiert. In der zweiten Spalte der Tabelle ist die Anzahl der CD-ROMs, die zu den einzelnen Einteilungsstufen gehören, vermerkt.

Es lassen sich die Datenbanken in die in der folgenden Tabelle aufgeführten zeitlichen Rahmen einteilen.

Tabelle 19: Bewertungsziffern für das Kriterium Häufigkeit der Aktualisierung von CD-ROMs (UP)
Häufigkeit der Aktualisierung Anzahl der Datenbanken in DACDBewertungsziffer
wöchentlich, alle 14 Tage 16 5
monatlich 494
alle drei Monate142 3
alle sechs Monate 42 2
jedes Jahr 501
unregelmäßig 3 0

6.4.1.3 Kosten (KO)

Die Kosten sind für die Medien Online Datenbanken und CD-ROM unterschiedlich.

Das Bewertungskriterium ist in beiden Fällen jedoch ein Rangordnungsmerkmal (ordinales Merkmal).

6.4.1.3.1 Kosten der Recherche

Die Kosten für eine Recherche setzen sich aus verschiedenen Einzelkosten zusammen. Zunächst wird in der Regel eine Gebühr für die Anschaltzeit pro Stunde bzw. pro Minute berechnet. Darüber hinaus muß der Nutzer die Dokumente, die angezeigt werden, je nach Umfang der Ausgabe bezahlen. Bei einigen Datenbanken schlägt auch bereits der einzelne eingegebene Suchbegriff zu Buche. Hier wird aus pragmatischen Gründen nur der Preis pro Stunde betrachtet, der bei fast allen Hosts als wichtiger Preisfaktor einer Recherche angesetzt wird. Seit langem wird jedoch in der Fachwelt die nicht mehr zeitgemäße Berechnungsgrundlage nach Anschaltzeit beklagt. Vorteilhafter und auch von wenigen Hosts unterstützt, wäre die Berechnung der gewonnenen Informationen. In der zweiten Spalte der Tabelle 20 ist die Anzahl der Datenbanken, die zu den einzelnen Einteilungsstufen gehören, aufgeführt. Anzumerken sei wieder, daß in der Metadatenbank nicht für alle ausgewerteten Datenbanken ein Eintrag hierfür vorliegt. Für die in Kapitel 4.1 herausgearbeiteten Gruppen an Online Datenbanken liegen jedoch Einträge vor. Je höher die Kosten, desto schlechter wird die Datenbank eingestuft in bezug auf dieses Bewertungskriterium. Obwohl die meisten der betrachteten Datenbanken in den drei oberen Preiskategorien liegen, d.h. zwischen 150 und über 200 DM/h Anschaltzeit, werden diese als schlecht eingestuft.

Tabelle 20: Bewertungsziffern für das Kriterium Kosten der Online Recherche (KO)
Preis pro Recherchestunde in DM Anzahl der Datenbanken in DADBBewertungsziffer
50
44
5
80
24
4
100
35
3
150
131
2
200
92
1
> 201
95
0

6.4.1.3.2 Kosten der CD-ROM

Die Kosten für eine CD-ROM setzen sich aus dem Anschaffungspreis und dem Preis für die Aktualisierungsversionen zusammen. Die Kosten einer CD-ROM sind also unabhängig von der Dauer der Nutzung und der Anzahl der Recherchen. In Analogie zur Betrachtung bei den Online Datenbanken wird hier auch nur ein Preis, d.h. der Anschaffungspreis in Betracht gezogen. In der zweiten Spalte der Tabelle ist die Anzahl der CD-ROMs aus der Metadatenbank der CD-ROMs, die zu den einzelnen Einteilungsstufen gehören, aufgeführt. Je höher die Kosten, desto schlechter wird die CD-ROM eingestuft in bezug auf dieses Bewertungskriterium. Die meisten der betrachteten CD-ROM Produkte liegen in den Preiskategorien zwischen 2.000 und 5.000 DM.

Tabelle 21: Bewertungsziffern für das Kriterium Kosten der CD-ROM (KO)
Anschaffungspreis in DMAnzahl der Datenbanken in DACD Bewertungsziffer
500
25
5
1000
38
4
2000
60
3
5000
112
2
10000
51
1
> 10001
41
0

6.4.1.4 Verfügbarkeit der Datenquelle bei anderen Hosts bzw. auf anderen Medien (VE)

Während die bisher abgehandelten Kriterien Rangordnungsmerkmale (ordinale Merkmale) darstellen, ist das Kriterium Verfügbarkeit der Datenquelle bei anderen Hosts bzw. auf anderen Medien deutlich davon zu unterscheiden (vgl. hierzu Kapitel 6.3 ).

Zunächst sind vier nominale Merkmale, d.h. Internet (ja/nein), CD-ROM (ja/nein), andere Online Datenbanken (ja/nein) und Buchform (ja/nein) vorhanden. Danach werden die Nominalkriterien ordinal interpretiert in der Rangordnung

Internet > CD-ROM > Hosts > Buchform.

Die Verbreitung des Internets und der damit im Zusammenhang stehende exponentielle Anstieg an Ressourcen auf diesem Netzwerk der Netzwerke liefert die Begründung für diese hohe Einordnung des Mediums Internet. In diesem Zusammenhang sind jedoch nur die kostenlos zur Verfügung gestellten Datenbanken im Internet, d.h. die kostenfrei verfügbaren Internet Ressourcen angesprochen, nicht die aktuellen Entwicklungen im sog. Commercial Internet, d.h. die Möglichkeit des Zugriffes auf Online Datenbanken via Internet. Die technischen Möglichkeiten der Hostanbindungen im Internet sind in mehreren neueren Publikationen dargelegt [Gaehtgens 1995] [Green 1995]. Bei der Betrachtung von CD-ROMs ist der Zugriff auf die Daten einer CD-ROM über das Internet gemeint. Es handelt sich hierbei um den kostenpflichtigen Zugang zu den Daten. Kostenfreie Zugriffe auf diese Daten sind zwar prinzipiell denkbar jedoch nicht realistisch. So wird beispielsweise der Internet Zugriff auf einige SilverPlatter Datenquellen mit Hilfe der Software WebSpirs realisiert [SilverPlatter 1996].

Die CD-ROM, ebenfalls als ein gegenüber Online Datenbanken und Büchern an Bedeutung gewinnendes Medium [Zass 1995], folgt dem Internet. Danach schließen sich die weitere Verfügbarkeit über andere Hosts und die konventionelle, für Recherchen jedoch wenig geeignete Buchform an.

Je weiter verbreitet eine Datenbank ist, d.h. je mehr Kombinationen der einzelnen Nominalkriterien, desto besser ist die Bewertung. Ist die zu betrachtende Datenbank beispielsweise sowohl in Internet als auch als CD-ROM, als auch bei anderen Hosts, als auch in Buchform verfügbar, erhält sie die höchste Bewertungsziffer.

Auf die allgemeine Vorgehensweise im Zusammenhang mit der Aggregation nominaler Merkmale wurde im Kapitel 6.3 eingegangen. Hier werden die Teilschritte jeweils in Klammern gesetzt. Folgende Betrachtungen sollen zum Verständnis der Findung der Bewertungsziffern dienen: Es können theoretisch die in der Tabelle 22 aufgelisteten Kombinationen auftreten (Teilschritt a). Gemäß der oben beschriebenen Rangordnung erhält nun das Internet die Ziffer 4, CD-ROM 3, Host 2 und Buchform 1 (Teilschritte c und d).

Nach dieser Maßgabe erhält die 4er Kombination Internet, CD-ROM, Host, Buchform (4+3+2+1 = 10), die 3er Kombination Internet, CD-ROM, Buchform (4+3+1 = 8) etc. (Teilschritt e). Diese Bewertungsziffern sind in Tabelle 23 aufgeführt. Um zur eingangs besprochenen Ausprägungsmenge zu gelangen, werden die Kombinationswerte (die ordinal interpretiert werden sollen) durch 2 dividiert und die Werte jeweils auf- bzw. abgerundet (Teilschritt f).

Tabelle 22: Kombinationen der Medien Internet, CD-ROM, Host, Buchform
KombinationenInternet CD-ROMHost BuchformKombinationswerte
4er Kombinationjaja jaja
10
3er Kombinationneinja jaja
6
janein jaja
7
jaja neinja
8
jaja janein
9
2er Kombinationneinnein jaja
3
neinja neinja
4
janein neinja
5
neinja janein
5
janein janein
6
jaja neinnein
7
1er Kombinationjanein neinnein
4
neinja neinnein
3
neinnein janein
2
neinnein neinja
1

Es kommt demgemäß nicht in erster Linie auf die Anzahl der verfügbaren Medien an, sondern vielmehr auf die oben dargestellte Bedeutung der einzelnen Medien. Die vorgenommene Aggregierung führt dazu, daß - entgegen der Hierarchie - bestimmte Kombinationen die gleiche Bewertungsziffer erhalten. Das Rangfolgeverfahren nach der Hasse-Diagramm-Technik verlangt diese Aggregierung nicht, sondern kann auch nichtmetrische Klassifikationen (wie hier) verarbeiten. In der vorliegenden Arbeit wird jedoch der einfachere pragmatische Weg eingeschlagen. Aus diesem Grunde sind bei der 1er Kombination Internet und CD-ROM auf einer Stufe, sowie Host und Buch. Es ist deshalb beispielsweise eine 2er Kombination (Internet, CD-ROM 4+3) genauso hoch eingestuft worden wie eine 3er Kombination (Internet, Host, Buchform 4+2+1).

Tabelle 23: Bewertungsziffern für das Kriterium Verfügbarkeit der Datenbank bei anderen Hosts bzw. auf anderen Medien (VE)
Weitere Verfügbarkeit Bewertungsziffer
Internet, CD-ROM, Host, Buchform

Internet, CD-ROM, Host

5

5
Internet, CD-ROM, Buchform

Internet, Host, Buchform

Internet, CD-ROM

4

4

4
CD-ROM, Host, Buchform

Internet, Host

Internet, Buchform

CD-ROM, Host

3

3

3

3
CD-ROM, Buchform

Host, Buchform

Internet

CD-ROM

2

2

2

2
Host

Buchform

1

1
keine
0

Bedeutend für die Erschließung der Inhalte von Datenbanken sind die inhaltlichen Kriterien. In diesem Zusammenhang werden wiederum Kriterien unterschieden, die sich auf die Chemie- bzw. auf Umwelt-Parameter beziehen.

6.4.2 Bewertung nach inhaltlichen Kriterien der Chemie

Im folgenden werden die Bewertungskriterien mit Chemie- bzw. Chemikalien-Bezug vorgestellt.

6.4.2.1 Anzahl der Chemikalien (AN)

Das Bewertungskriterium Anzahl der Chemikalien ist ein ordinales Merkmal.

Dieses Kriterium gibt einen Hinweis über die Wahrscheinlichkeit, ob die gesuchte Chemikalie in der betrachteten Online Datenbank zu finden ist. Die Bandbreite reicht von einigen wenigen Chemikalien bis über 100.000 Chemikalien.

Das Kriterium ist dementsprechend ein quantitativer Wichtungsfaktor für Datenquellen.

Tabelle 24: Bewertungsziffern für das Kriterium Anzahl der Chemikalien (AN)
Anzahl der Chemikalien
Bewertungsziffer
> 100.000
5
> 25.000
4
> 10.000
3
> 5.000
2
> 2.000
1
< 2.000
0

6.4.2.2 Identifikationsmerkmale (ID)

Bei diesem Kriterium handelt es sich um ein nominales Merkmal, das in der in Kapitel 6.3 beschriebenen Vorgehensweise behandelt wird. Die einzelnen Teilschritte werden wieder vermerkt.

Zu den Identifikationsmerkmalen von Chemikalien gehören Name, Synonyma, Strukturformel, Summenformel, Molekulargewicht, diverse Registriernummern, insbesondere die CAS-Nummer (Chemical Abstract Service Registry Number). Weitere wichtige und häufig gebrauchte Registriernummern sind Beilstein-Nummer, EG-Nummer, EINECS-Nummer, RTECS-Nummer, NIOSH-Nummer etc. Die CAS-Nummer hat sich als Standard Registrier-Nummer durchgesetzt. Es ist jedoch an dieser Stelle anzumerken, daß immer noch über 50 % der Online Datenbanken in Naturwissenschaft und Technik diese Identifikationsnummer nicht enthalten [Voigt 1995b]. Diese Aussage wird durch die Arbeit von Ludl et al. [Ludl 1995] bestätigt, in der in 18 biomedizinischen Datenbanken Recherchen zu vier Umweltchemikalien mit Chemikaliennamen und ggf. mit CAS-Nummern durchgeführt und gegenübergestellt worden sind.

Die Strukturformel ist nur sehr selten in Online Datenbanken zu finden. In einigen Datenbanken ist sie zwar vorhanden, d.h. man erhält sie bei der Ausgabe eines Datensatzes, man kann jedoch nicht nach der Strukturformel suchen.

Zunächst treten hier sieben nominale Merkmale auf, d.h. Strukturformel suchbar (SS), Strukturformel nur Ausgabe (SA), Summenformel (SF), Molekulargewicht (MG), CAS Nummer (CA), Chemikalienname (CN) und Synonyma bzw. Handelsname (SY). Chemiedatenbanken, die Molekulargewichte vorhalten, beinhalten in der Regel auch Summenformeln. Aus diesem Grunde werden diese beiden Merkmale zusammengefaßt, so daß nur noch sechs nominale Merkmale ordinal zu interpretieren sind.

Dazu wird folgende Rangordnung definiert (Teilschritt c):


Strukturformel suchbar (SS) > Strukturformel nur Ausgabe (SA) > Summenformel (SU) > CAS-Nummer (CA), Chemikalienname (CN) > Synonyma bzw. Handelsname (SY).


Als wichtigstes Identifikationsmerkmal ist dementsprechend die Strukturformel einzustufen. In vielen "Umweltchemikalien-relevanten" Online Datenbanken kann man jedoch nur mit dem Handelsnamen bzw. den Synonyma recherchieren. Diese Datenbanken sind als ungenügend in bezug auf die Abdeckung der Identifikationsmerkmale zu klassifizieren.

Folgende Betrachtungsweise soll die Vergabe der Bewertungsziffern verdeutlichen. Es können theoretisch nach der Binominal-Verteilung gemäß der folgenden Formel (Pascalsches Dreieck)


eine 6er-, sechs 5er-, 15 4er-, 20 3er-, 15 2er und sechs 1er Kombinationen (Teilschritt a) auftreten. Es sind jedoch nicht alle Kombinationen sinnvoll.

Folgende Kombinationen sind nicht realistisch (Teilschritt b):
Strukturformel suchbar (SS) ja, Strukturformel nur Ausgabe (SA) nein
Strukturformel suchbar (SS) ja, Chemikaliennamen (CN) nein
Strukturformel suchbar (SS) ja, Synonyma (SY) nein
Strukturformel nur Ausgabe (SA) ja, Chemikalienname (CN) nein
Strukturformel nur Ausgabe (SA) ja , Synonyma (SY) nein
Summenformel (SF) / Molekulargewicht (MG) ja, Chemikaliennamen (CN) nein
Summenformel (SF) / Molekulargewicht (MG) ja, Synonyma (SY) nein
CAS Nummer (CA) ja, Chemikalienname (CN) nein
CAS Nummer (CA) ja, Synonyma (SY) nein

Beispielsweise bietet eine Datenbank, in der man nach Strukturformeln suchen kann, auch die Möglichkeit der Ausgabe der Strukturformel. Eine Kombination Strukturformel suchbar (ja), Strukturformel Ausgabe (nein) ist daher in der Praxis nicht vorhanden. Ebenso gibt es keine Datenbank, die beispielsweise über Strukturformeln, aber über keinen Chemikaliennamen verfügt. Weitere unrealistische Kombinationen sind oben aufgeführt.

Es ist daher festzustellen, daß viele der theoretisch möglichen 5-, 4-,3-,2-Kombinationen unrealistisch sind. Hersteller von Online Datenbanken, die die Suche nach Chemikalien in den Vordergrund stellen, bereiten die Dokumente nicht nur nach chemischen Strukturen, sondern darüber hinaus auch nach anderen chemischen Gesichtspunkten d.h. anderen Identifikationsmerkmalen wie z.B. Summenformel, Molekulargewicht, CAS-Nummer und Synonyma auf. Die mögliche Kombination Strukturformel (suchbar) ja und CAS-Nummer nein tritt erfahrungsgemäß jedoch bei einigen wenigen Datenbanken, vor allen Dingen CD-ROMs auf. Nur die 12 in Tabelle 25 dargestellten Kombinationen sind realistisch.

Gemäß der oben beschriebenen Rangordnung wird Strukturformel suchbar (SS) der Wert 5, Strukturformel nur Ausgabe (SA) der Wert 4, Summenformel (SF) / Molekulargewicht (MG) der Wert 3, CAS-Nummer (CA) der Wert 2, Chemikalienname (CN) der Wert 1 und Synonyma (SY) der Wert 0 zugeordnet (Teilschritt d). Die Kombinationswerte sind in der letzten Spalte der Tabelle 25 aufgeführt (Teilschritt e). Es ergeben sich die Werte 1-15.

Tabelle 25: Realistische Kombinationen für das Kriterium Identifikationsmerkmale (ID)
KombinationenSS SASFCA CNSYKombinationswerte
6er Kombinationjaja jajaja ja15
5er Kombinationneinja jajaja ja10
jaja neinjaja ja12
jaja janeinja ja13
4er Kombinationneinnein jajaja ja 6
neinja neinjaja ja 7
neinja janeinja ja 8
jaja neinneinja ja10
3er Kombinationneinnein neinjaja ja 3
neinnein janeinja ja 4
neinja neinneinja ja 5
2er Kombination nein neinneinnein jaja 1

Es kommt also nicht in erster Linie auf die Tatsache Vorhandensein der einzelnen Identifikationsmerkmale an, sondern vielmehr auf die Bedeutung der Identifikationsmerkmale. Die vorgenommene Aggregierung führt dazu, daß

die 5er Kombination: SA, SF, CA, CN, SY

und die 4er Kombination: SS, SA, CN, SY

die gleiche Kombinationsziffer 10 erhalten.

Die Strukturformel suchbar wird als das wichtigste Identifikationsmerkmal genauso hoch bewertet wie die Summenformel und die CAS-Nummer gemeinsam. So ist die Vergabe der selben Bewertungsziffer durchaus vertretbar.

Die einzig sinnvolle 1er Kombination, d.h. die bloße Möglichkeit der Suche nach Informationen über Chemikalien über einen Handelsnamen oder Synonym ist als unzulänglich einzustufen. Das Synonym hat die Bewertungsziffer 0. Für die Vergabe der Bewertungsziffern werden diese Kombinationswerte durch 3 geteilt, was durch Ab- bzw. Aufrundung zu der üblichen Einteilung in sechs Ziffern führt, die in Tabelle 26 aufgezeigt wird (Teilschritt f).

Eine Datenbank, die über alle aufgeführten Identifikationsmerkmale verfügt, bekommt die höchste Bewertungsziffer, eine Datenbank, in der eine Recherche nur mit dem Chemikaliennamen und dem Synonym möglich ist, erhält das Bewertungsziffer 0. Datenbanken, in denen die Strukturformel als Identifikationsparameter vorhanden ist, werden in der Vergabe der Bewertungsziffern bevorzugt.

Tabelle 26: Bewertungsziffern für das Kriterium Identifikationsmerkmale (ID)
IdentifikationsmerkmaleBewertungsziffer
Strukturformel (suchbar), Strukturformel (Ausgabe), Summenformel, CAS-Nummer, Chemikalienname, Synonyma 5
Strukturformel (suchbar), Strukturformel (Ausgabe), Summenformel, Chemikalienname, Synonyma 4
Strukturformel (suchbar), Strukturformel (Ausgabe), CAS-Nummer, Chemikalienname, Synonyma 4
Strukturformel (Ausgabe), Summenformel, CAS-Nummer, Chemikalienname, Synonyma 3
Strukturformel (suchbar), Strukturformel (Ausgabe), Chemikalienname, Synonyma 3
Strukturformel (Ausgabe), Summenformel, Chemikalienname, Synonyma 3
Summenformel, CAS-Nummer, Chemikalienname, Synonyma 2
Strukturformel (Ausgabe), CAS-Nummer, Chemikalienname, Synonyma 2
Strukturformel (Ausgabe), Chemikalienname, Synonyma 2
Summenformel, Chemikalienname, Synonyma 1
CAS-Nummer, Chemikalienname, Synonyma1
Chemikalienname, Synonyma0

6.4.2.3 Chemikalien-Testdatensatz (CT)

Es handelt sich hier ebenfalls um ein ordinales Merkmal.

Dieses Bewertungskriterium unterstreicht die Notwendigkeit, Informationen über weniger gut untersuchte Substanzen des Testdatensatzes zu erhalten. Während die Kriterien Anzahl an Chemikalien und Identifikationsmerkmale die allgemeine Situation der Unterstützung der Recherche in bezug auf Chemie-Informationen charakterisieren, wird mit dem Parameter Chemikalien-Testdatensatz besonders auf den Testdatensatz an umweltrelevanten Chemikalien, der im Kapitel 4.1.2 erläutert wurde, eingegangen. Wie bereits an dieser Stelle ausgeführt, gehört eine Vielzahl der ausgewählten 68 Stoffe zu der Gruppe der Kohlenwasserstoffe (und hier zu den monocyclischen und polycyclischen Aromaten) und zu den halogenierten organischen Verbindungen (hier zu den halogenierten cyclischen und aromatischen Verbindungen). Diese Verbindungen kommen häufig in der Umwelt vor und sind aus diesem Grund auch in Online Datenbanken umfassend abgedeckt. Bedeutend ist es aber, gerade für diejenigen Chemikalien Informationen zu erhalten, über die weniger geforscht und somit publiziert wurde. Der Parameter CT quantifiziert somit die Chancen, auch "exotische" Chemikalien, d.h. solche, über die nur wenig Datenmaterial vorliegt, zu finden.

Die Auswertung der DADB - Metadatenbank der Online Datenbanken in bezug auf den Chemikalien-Testdatensatz ist in den beiden letzten Spalten der Tabelle 3 in Kapitel 4.1.2.1 zu finden. Teilt man nun die prozentualen Anteile der Treffer in sechs Gruppen ein (siehe Tabelle 27), so läßt sich ablesen, daß sieben Chemikalien in mehr als 50 % der Online Datenbanken vorkommen, 14 in mehr als 40 %, 16 in mehr als 30 %, 9 in mehr als 20 %, 17 in mehr als 10 % und fünf in weniger als 10 % der Datenbanken. Die Chemikalien werden mit ihren korrespondierenden Nummern in Tabelle 27 aufgelistet. Von großem Interesse ist es nun, diejenigen Datenbanken zu identifizieren, die Informationen über die selten vorkommenden Chemikalien beispielsweise über Methylbis(phenylmethyl)benzol (Chemikalie Nr. 20) oder Heptachlornaphthalin (Chemikalie Nr. 56) vorhalten. Es handelt sich bei diesen Chemikalien um Stoffe, die schlecht untersucht sind und die aus diesem Grunde nur selten in Datenbanken erscheinen. Datenbanken, die solche Chemikalien vorhalten, sind höher einzustufen, als diejenigen, die nur die gängigen Chemikalien des Testdatensatzes enthalten z.B. Anthracen (Nr. 2), Styrol (Nr. 17), Ethylbenzol (Nr. 18), Hexachlorbenzol (Nr. 19) und Cyclohexan (Nr. 37). Die letztgenannten Chemikalien kommen in mehr als der Hälfte der angesprochenen Datenbanken vor.

Enthält eine zu bewertende Online Datenbank nur Chemikalien, die in mehr als 50 % der untersuchten Datenbanken vorkommen, d.h. gut untersuchte Stoffe, so ist dieser Umstand im Sinne der Auffindung von Datenbanken für wenig untersuchte Umweltchemikalien geringer einzustufen als eine Datenbank, die einen Stoff enthält, der in weniger als 10 % der DADB Datenbanken vorkommt. In der Praxis werden jedoch desöfteren Informationen gerade über diejenigen Umweltchemikalien gesucht, die nicht so häufig und eingehend untersucht worden sind und zu denen dementsprechend wenig Daten vorliegen. Nicht unwichtig ist in diesem Zusammenhang die berechtigte Annahme, daß neben der selten gefundenen Chemikalie auch die anderen Chemikalien wahrscheinlich in der entsprechenden Datenbank abgedeckt sind.

Demgemäß wird die folgende Bewertungsziffereinteilung aufgrund der Auswertung der DADB in bezug auf die 68 Testdatensatz Chemikalien vorgenommen.

Dieses Kriterium steht in gewissem Zusammenhang mit der Anzahl der Chemikalien. Die Wahrscheinlichkeit, eine selten vorkommende Chemikalie zu recherchieren, ist selbstverständlich in Datenbanken, die eine große Anzahl von Chemikalien abdecken, größer als in einer Datenbank, in der nur Daten über wenige Chemikalien vorliegen. Es ist jedoch auch möglich, daß einige Datenbanken, obwohl sie wenige Chemikalien umfassen, gerade Informationen zu den wenig in Datenbanken verbreiteten Stoffen haben.

Tabelle 27: Bewertungsziffern für das Kriterium Chemikalien-Testdatensatz (CT)
Anzahl und Nummern der Testdatensatz Chemikalien (vgl. Tabelle 3) Vorkommen der Testdatensatz Chemikalien in DADB in % Bewertungs-ziffer
5: 11,20,23,33,56 10 5
17:5,10,16,27,31,32,34,38,39,40,41,52,53,55,59,62,68 11-204
9: 6,7,8,9,12,35,51,54,65 21-303
16:1,4,14,22,24,26,28,36,43,44,46,50,57,58,61,64 31-402
14:3,13,15,21,25,29,30,42,45,47,48,60,63,66 41-501
7: 2,17,18,19,37,49,67> 50 0

6.4.2.4 Chemikalien Entwicklung (CE)

Von großem Interesse ist auch die Fortentwicklung, die die Datenbanken im Laufe der vergangenen 8-10 Jahre durchgemacht haben. Jeder Datenbankhersteller gibt mit dem Umfang der Datenbank auch die Häufigkeit der Aktualisierungen an. Bedeutend ist jedoch in diesem Zusammenhang, wie sich die Situation in bezug auf den Chemikalien-Testdatensatz verändert hat. Um diese Veränderungen zu analysieren, wurden bei Datenbanken, die schon seit vielen Jahren auf dem Markt sind und in denen zunächst Ende der Achtziger Jahre recherchiert wurde, die Recherchen mit dem Chemikalien-Testdatensatz 1994 bzw. 1995 erneut durchgeführt. Die Vergleiche der Rechercheergebnisse führen zu folgender qualitativen Einstufung: Es wird bei dieser Betrachtungsweise darauf Wert gelegt, um wieviele Chemikalien die Datenbank zugenommen hat. Der Quotient wird aus dem Wert der vorher vorhandenen Anzahl der Testdatensatz-Chemikalien zu der neuen Anzahl der Testdatensatz-Chemikalien gebildet. Datenbanken, die seit Jahren eine umfangreiche Anzahl an den Testdatensatz-Chemikalien abdecken, werden dementsprechend wenig zunehmen. Auch können nur Datenbanken in diesem Sinne betrachtet werden, die es schon seit mehreren Jahren auf dem Markt gibt. Dieses Kriterium stellt wieder ein ordinales Merkmal dar.

Es ist jedoch anzumerken, daß Datenbanken, die bereits seit langem viele Chemikalien beschreiben, keine starke Zunahme mehr verzeichnen und somit in diesem Kriterium niedrig eingestuft werden. Diese "Ungerechtigkeit" wird anhand von Beispielen später diskutiert.

Tabelle 28: Bewertungsziffern für das Kriterium Chemikalien Entwicklung (CE)
VeränderungenQuotient Bewertungsziffer
umfangreiche Zunahme> 1,7
5
größere Zunahme1,5-1,6
4
deutliche Zunahme1,3-1,4
3
kleine Zunahme1,2
2
unbedeutende Zunahme1,1
1
keine Zunahme
0

Eine statistische Einteilung der Bewertungsziffern etwa anhand empirischer Verteilungsfunktionen würde deren Vergabe abhängig machen von den fünf Gruppen. Diese Abhängigkeit soll jedoch zugunsten einer allgemeineren Verwendbarkeit der Bewertungskriterien vermieden werden.

6.4.3 Bewertung nach inhaltlichen Kriterien des Umweltschutzes

Im folgenden werden die Bewertungskriterien mit Umwelt- bzw. Umweltparameter-Bezug vorgestellt.

6.4.3.1 Informationsparameter für Umweltchemikalien (IP)

Für die Thematik der Umweltchemikalien sind einige Informationsparameter von besonderer Bedeutung. Hierzu gehören das Vorkommen in den Umweltmedien, Wasser, Boden, Sediment, Luft etc., Abbau- und Akkumulationsparameter, ökotoxikologische Parameter z.B. Fisch-, Algen-, Daphnientoxizität und einige physikalisch-chemische Eigenschaften, die insbesondere zur Abschätzung und Modellierung im Umweltbereich bedeutend sind [Matthies 1992]. Hier seien beispielsweise Verteilungskoeffizienten genannt, die in Expositionsmodellen eine wichtige Rolle spielen [Matthies 1991], [Behrendt 1993]. In der oben beschriebenen Metadatenbank der Online Datenbanken - DADB werden im Deskriptorfeld ca. 100 unterschiedliche Informationsparameter für Umweltchemikalien vorgehalten (vgl. hierzu Kapitel 4.1.3). Es ist einleuchtend, daß eine Online Datenbank höher einzustufen ist, die eine große Anzahl der relevanten Parameter enthält als eine, die nur über wenige bzw. über keine verfügt. Einige spezielle Parameter haben für die Beschreibung des Verhaltens von Chemikalien in der Umwelt eine extreme Bedeutung, so z.B. die Pflanzentoxizität, die Photosynthesehemmung, die Verteilungskoeffizienten log Kow, log Koc, die Henry-Konstante etc. Einige dieser Parameter sind jedoch erfahrungsgemäß äußerst selten verfügbar. Aus diesem Grunde werden sie an dieser Stelle "Spezial-Umwelt-Parameter" genannt. Die Einteilungen werden deshalb unter Hinzunahme der "Spezial-Umwelt-Parameter" weiter differenziert und erhalten dementsprechend (d.h. ein, zwei oder mehrere Spezialparameter) höhere Bewertungsziffern. Es wird hier wieder nach der im Kapitel 6.3 aufgeführten Vorgehensweise verfahren. Die beide zugrundeliegenden nominalen Merkmale Anzahl der Parameter (ja/nein) und Vorhandensein von Spezialparametern (ja/nein) werden durch Zahlenwerte für die Anzahl der Parameter allgemein zusätzlich abgestuft. Danach werden die Merkmale ordinal interpretiert in der Rangordnung Größenordnung der Anzahl der Parameter und Größenordnung der Anzahl der Spezialparameter, wie im folgenden erläutert wird.

Es werden vier Abstufungen von Parametern und vier Abstufungen von Spezialparametern gewählt. Vergibt man dem Parameter 50-70 die Ziffer 3, 30-50 die Ziffer 2, < 30 die Ziffer 1 und < 10 die Ziffer 0 und dementsprechend der Anzahl der Spezialparameter > 2 die Ziffer 3, 2 die Ziffer 2, 1 die Ziffer 1 und 0 die Ziffer 0, so ergeben sich für die Kombination der beiden Parameter folgende in Tabelle 29 zusammengestellten Ergebnisse (vgl. Teilschritte c,d,e).

Tabelle 29: Kombinationen der Anzahl der Parameter allgemein mit der Anzahl der Spezialparameter
Anzahl der Parameter allgemeinAnzahl der Spezialparameter Kombinationswerte
50-70
> 2
6
50-70
2
5
50-70
1
4
50-70
0
3
30-50
> 2
5
30-50
2
4
30-50
1
3
30-50
0
2
< 30
> 2
4
< 30
2
3
< 30
1
2
< 30
0
1
< 10
> 2
3
< 10
2
2
< 10
1
1
< 10
0
0

Die Werte werden in das Bewertungsziffersystem übertragen, indem die Kombinationswerte um jeweils eine Ziffer heruntergestuft werden. Damit würde der Wert sechs die Bewertungsziffer 5 erhalten, der Wert 5 die Bewertungsziffer 4 etc. Der niedrigste Wert 0 kann nach dem Bewertungsziffer-Ansatz nicht unterschritten werden. Die Beibehaltung dieses Wertes ist daher vertretbar und bedeutet, daß mit der Bewertungsziffer 0 die Fälle (<30,0), (<10,1) und (<10,0) zusammengefaßt sind. Allgemein ergeben sich folgende Zuordnungen für die einzelnen Bewertungsziffern (vgl. Teilschritt f).

Tabelle 30: Bewertungsziffern für das Kriterium Informationsparameter für Umweltchemikalien (IP)
Anzahl der ParameterSpezialparameter Bewertungsziffer
50 - 70>25
50 - 70 24
30 - 50>24
50 - 70 13
30 - 50 23
< 30> 23
50 - 70 02
30 - 50 12
< 30 22
< 10 22
30 - 50 01
< 30 11
< 10 21
< 30 00
< 10 10
< 10 00

Dieses Bewertungskriterium würde besser definiert sein, wenn nicht das Vorhandensein des Parameters sondern vielmehr die Belegung des Parameters mit Daten in Betracht gezogen würde. Da diese Information vom Hersteller von Datenbanken nicht erhältlich ist und Recherchen zu aufwendig und teuer wären, wird diese Vorgehensweise als sinnvoll jedoch unrealistisch angesehen.

6.4.3.2 Parameter Entwicklung (PE)

Interessant ist neben der in Kapitel 4.1.2 erläuterten Entwicklung des Chemikalien-Testdatensatzes auch die Fortentwicklung der Datenbanken in bezug auf die inhaltlichen Parameter des Umweltschutzes im Laufe der vergangenen 8-10 Jahre. Wie bei der Vorgehensweise beim Chemikalien-Testdatensatz wurden die Recherchen in den Jahren 1994 und 1995 wiederholt. Die Vergleiche der neuen Rechercheergebnisse mit denen der achtziger Jahre führen zu folgender qualitativen Einstufung. Es wird bei dieser Betrachtungsweise darauf Wert gelegt, wieviele Parameter dazugekommen sind, die vor ca. 10 Jahren noch nicht abgedeckt wurden. Der Quotient wird aus dem Wert der vorher vorhandenen Anzahl der Testdatensatz-Parameter zu der neuen Anzahl der Testdatensatz-Parameter gebildet. Datenbanken, die seit Jahren eine umfangreiche Anzahl an den Parametern abdecken, werden dementsprechend wenig zunehmen. Auch können nur Datenbanken in diesem Sinne betrachtet werden, die es schon seit mehreren Jahren auf dem Markt gibt. Auch hier werden wieder die seit vielen Jahren auf dem Markt befindlichen umfangreichen Datenbanken benachteiligt.

Bei diesem Kriterium handelt es sich um ein Rangordnungsmerkmal (ordinales Merkmal).

Die Verteilung der Bewertungsziffern wird analog zu der Vorgehensweise, angewandt auf die Betrachtung des Chemikalien-Testdatensatzes, vorgenommen.

Tabelle 31: Bewertungsziffern für das Kriterium Parameter Entwicklung (PE)
VeränderungenQuotient Bewertungsziffer
umfangreiche Zunahme> 1,7 5
größere Zunahme1,5-1,6 4
deutliche Zunahme1,3-1,4 3
kleine Zunahme1,22
unbedeutende Zunahme1,1 1
keine Zunahme0

6.4.4 Umweltchemikalien-bezogene Bewertungskriterien

Einige Bewertungskriterien behandeln sowohl Chemikalien- als auch Umweltschutzaspekte.

6.4.4.1 Art der Chemikalien (AR)

Es handelt sich bei diesem Kriterium um ein nominales, qualitatives Merkmal.

Unter der Art bzw. Anwendung der Chemikalien sind spezielle Stoffe, die für eine besondere Anwendung produziert werden, zu verstehen. Beispiele hierfür sind Pestizide und Pharmazeutika. Andere Chemikalien sind zwar nicht für einen besonderen Zweck hergestellt, haben sich aber im Laufe der Zeit als gefährlich erwiesen und sind deshalb auch als Gefahrstoffe eingestuft, gekennzeichnet und gesetzlich geregelt worden. Es gibt nun einige wenige Online Datenbanken, die sich mit solchen speziellen Gruppen von Chemikalien befassen. Ebenso ist es für die Thematik der Umweltchemikalien von großem Interesse, ob die Datenbanken nur Einzelstoffe oder auch Gemische, Zubereitungen, Abbauprodukte etc. umfassen. Gemäß der Betrachtungsweise von Umweltchemikalien ist eine Datenbank, die sich vorwiegend mit der Thematik von Zubereitungen, Abbauprodukten sowie Gefahrstoffen und Stoffen eines speziellen Anwendungsbereiches (z.B. Pestizide) beschäftigt, wichtiger als eine, die die Allgemeinheit von Chemikalien abdeckt. Die Auswertung der entsprechenden Eintragungen im Datenfeld "Anwendung der Chemikalien" der Metadatenbank der Online Datenbanken ergibt, daß 122 der 453 Datenbanken d.h. ca. 25% spezialisiert sind. Hiervon sind nur 12 Datenbanken für den für die Umweltchemikalien Betrachtung wichtigen Bereich "Gemische und Zubereitungen" ausgewiesen. Aus diesem Grund wird diesen die höchste Bewertungsziffer 5 gegeben. Ebenso gibt es nur 22 Online Datenbanken, die auf dem Gebiet der Gefahrstoffe spezialisiert sind. Hierfür wird das Bewertungsziffer 4 vergeben. 88 Datenbanken sind für spezielle Anwendungen angelegt (Bewertungsziffer 3).

Da eine Datenbank, die sich nicht auf besondere Arten bzw. Anwendungen von Chemikalien spezialisiert, nicht als schlecht einzustufen ist, ist in diesem Fall nicht die Bewertung "ungenügend" und "mangelhaft" vergeben worden. Hier können zwar Informationen zu den oben genannten speziellen Anwendungen oder Arten von Chemikalien vorhanden sein, müssen aber nicht. Diese "allgemeinen" Datenbanken sind nicht für Besonderheiten in dem oben diskutierten Zusammenhang ausgewiesen. De facto führt die Vergabe von nur vier Bewertungsziffern zu einer geringeren Gewichtung dieses Kriteriums im Rangfolgeverfahren.

Tabelle 32: Bewertungsziffern für das Kriterium Art/Anwendung von Chemikalien (AR)
Art/Anwendung/VerhaltenBewertungsziffer
Gemische, Zubereitungen, Abbauprodukte 5
Gefahrstoffe4
spezielle Anwendungen im Umweltbereich 3
allgemein2

6.4.4.2 Validität/Güte der Datenquellen (QU)

Hierbei handelt es sich um den schwierigsten Parameter, im Sinne der Gewinnung von Hintergrundinformation, nicht jedoch in Sinne der Klassifizierung. Darüber hinaus trägt es sowohl allgemeinen als auch inhaltlichen Charakter, wobei jedoch die inhaltliche Komponente überwiegt.

6.4.4.2.1 Validität/Güte der Online Datenbanken

Anzustreben ist eine Datenquelle, die umfassend das vom Hersteller angegebene Sachgebiet abdeckt und darüber hinaus auch noch fehlerfrei ist. Diese von den Nutzern von Online Datenbanken geforderte Maximale ist natürlich unrealistisch. Es gibt jedoch durchaus wichtige Unterschiede in der Qualität von Online Datenbanken. Beispielsweise geben manche Hersteller ohne weiteres zu, daß ihre Datenbank unevaluierte Daten enthält. Andere Datenbankhersteller hingegen legen auf die Qualität ihrer Daten großen Wert und prüfen die Daten vor der Eingabe in die Datenbank.

Einen anderen Aspekt der Güte der Online Datenbanken stellen die Einheiten der Daten dar. In den meisten Fällen sind die Einheiten nicht genormt, d.h. die Angaben für einen Parameter variieren beispielsweise von mg/l, mol/l, g/l, ng/kg etc. Manchmal fehlen die Einheiten auch vollständig. Für die Auswertung der Daten sind die Angaben in SI Einheiten erstrebenswert. Für sehr wenige Online Datenbanken trifft das jedoch zu. Dies ist besonders bei den betrachteten bibliographischen Datenbanken der Fall, jedoch gibt es auch nur sehr wenige Faktendatenbanken, die ausschließlich SI Einheiten benutzen.

Darüber hinaus ist für die Betrachtung der Güte der Online Datenbanken die Anzahl der gefundenen Umweltchemikalien des Chemikalien-Testdatensatzes von 68 umweltrelevanten Stoffen aussagefähig. Dieser Chemikalien-Testdatensatz wurde ausführlich in Kapitel 4.1.2 besprochen. Hier wurde auch deutlich herausgestellt, daß es sich zwar um potentielle Lebensmittelkontaminanten handelt, die Chemikalien jedoch aufgrund ihrer großen Produktionsmenge einerseits und ihrer Zugehörigkeit zu Gruppen an potentiellen Umweltkontaminaten anderseits per se eine große Umweltrelevanz haben. Das Heranziehen der Anzahl der Testdatensatz Stoffe für das Bewertungskriterium "Validität/ Güte der Datenbank" ist daher vertretbar.

Die Anzahl der Testdatensatz Stoffe ist deutlich von dem Kriterium Chemikalien-Testdatensatz zu differenzieren. Während das hier beschriebene Kriterium die Anzahl der Testdatensatz Stoffe in Betracht zieht, kommt es bei dem Kriterium Chemikalien-Testdatensatz darauf an, welche der Testdatensatz-Chemikalien in Datenbanken zu finden sind.

Auch hier werden wieder die nominalen Merkmale in der unter 6.3 beschriebenen Vorgehensweise aggregiert. Es gibt drei zugrunde liegende nominale Merkmale Chemikalien-Testdatensatz (ja/nein), evaluierte Daten (ja/nein) und Einheiten vereinheitlicht (ja/nein). Das Merkmal Chemikalien-Testdatensatz wird durch Zahlenwerte zusätzlich abgestuft. Es werden folgende fünf Abstufungen für das Merkmal Chemikalien-Testdatensatz vorgenommen: > 50, 25-50, < 25, < 10, < 5

Vergibt man dem Parameter > 50 die Ziffer 4, 25-50 die Ziffer 3, < 25 die Ziffer 2, < 10 die Ziffer 1 und < 5 die Ziffer 0 und den Merkmalen evaluierte Daten und SI Einheiten bei ja/ja die Ziffer 2, bei einem ja die Ziffer 1 und bei nein/nein die Ziffer 0, so ergeben sich für die Kombinationen folgende Ergebnisse (siehe Spalte 4) der Tabelle 33.

Tabelle 33: Kombinationswerte für Validität/Güte der Datenbank (QU)
Chemikalien-Testdatensatz evaluierte Daten SI Einheiten Kombinations-werte
> 50ja ja6
> 50ja nein5
> 50nein ja5
> 50nein nein4
25-50ja ja5
25-50ja nein4
25-50nein ja4
25-50nein nein3
< 25ja ja4
< 25ja nein3
< 25nein ja3
< 25nein nein2
< 10ja ja3
< 10ja nein2
< 10nein ja2
< 10nein nein1
< 5ja ja2
< 5ja nein1
< 5nein ja1
< 5nein nein0

Die Werte werden in das Bewertungsziffersystem übertragen, indem die Kombinationswerte um jeweils eine Ziffer heruntergestuft werden. Damit würde der Wert sechs die Bewertungsziffer 5 erhalten, der Wert 5 die Bewertungsziffer 4 etc. Der niedrigste Wert 0 wird für Datenbanken vergeben, die weniger als 10 Stoffe des Testdatensatzes abdecken und weder über SI Einheiten noch über evaluierte Daten verfügen. Darüber hinaus wird das Bewertungsziffer 0 für alle Datenbanken vergeben, die weniger als fünf Chemikalien des Testdatensatzes abdecken. Damit ergeben sich folgenden Zuordnungen für die einzelnen Bewertungsziffern.

Tabelle 34: Bewertungsziffern für das Kriterium Validität der Online Datenbanken (QU)
Chemikalien-Testdatensatz evaluierte Daten
SI Einheiten
Bewertungsziffer
> 50jaja
5
> 50janein
4
> 50neinja
4
25 - 50 jaja
4
> 50neinnein
3
25 - 50janein
3
25 - 50neinja
3
< 25jaja
3
< 25janein
2
< 25neinja
2
< 10jaja
2
< 25neinnein
1
< 10janein
1
< 10neinja
1
< 5jaja
1
< 10neinnein
0
< 5janein
0
< 5neinja
0
< 5neinnein
0

6.4.4.2.2 Validität/Güte der CD-ROMs

Auch bei CD-ROMs gibt es wichtige Unterschiede in der Qualität der auf der CD-ROM enthaltenen Informationen. In Analogie zu der Vorgehensweise bei den Online Datenbanken werden wieder die Umstände, ob es sich bei den Daten der CD-ROM um evaluierte oder unevaluierte Daten handelt und ob die verwendeten Einheiten SI Einheiten sind oder nicht herangezogen. Da die CD-ROMs - wie oben erwähnt - nicht mit dem Testsatz an Chemikalien geprüft werden konnten, kann für die Betrachtung der Güte der CD-ROM die Anzahl der gefundenen Umweltchemikalien des Chemikalien-Testdatensatzes von 68 umweltrelevanten Stoffen nicht berücksichtigt werden. Es wird daher auf die Anzahl der Chemikalien als Hilfsmittel ausgewichen.

Es gibt drei zugrunde liegende nominale Merkmale Anzahl der Chemikalien (ja/nein), evaluierte Daten (ja/nein) und SI Einheiten (ja/nein).

Das Merkmal Anzahl der Chemikalien wird durch Zahlenwerte zusätzlich abgestuft.

Es werden folgende vier Abstufungen für das Merkmal Anzahl der Chemikalien vorgenommen:

>100.000, > 25.000, > 10.000, < 5000.

Das Kriterium Anzahl an Chemikalien geht hier in abgewandelter Form ein, d.h. in der Art, daß nur hohe Werte Berücksichtigung finden.

Vergibt man dem Parameter > 100.000 die Ziffer 3, > 25.000 die Ziffer 2, > 10.000 die Ziffer 1, 10.000 die Ziffer 0 und den Merkmalen evaluierte Daten und SI Einheiten bei ja/ja die Ziffer 2, bei einem ja die Ziffer 1 und bei nein/nein die Ziffer 0, so ergeben sich für die Kombinationen folgende Ergebnisse der Tabelle 35 (siehe Spalte 4).

Die Werte der Tabelle 35 können in diesem Fall direkt in das Bewertungsziffersystem übertragen werden.

Tabelle 35: Kombinationswerte für das Kriterium Validität/Güte der CD-ROM (QU)
Anzahl der Chemikalienevaluierte Daten SI EinheitenKombinationswerte= Bewertungsziffern
> 100.000jaja 5
> 100.000janein 4
> 100.000neinja 4
> 100.000neinnein 3
> 50.000ja ja 4
> 50.000janein 3
> 50.000neinja 3
> 50.000neinnein 2
> 10.000jaja 3
> 10.000janein 2
> 10.000neinja 2
> 10.000neinnein 1
10.000jaja 2
10.000janein 1
10.000neinja 1
10.000neinnein 0

Damit ergeben sich folgenden Zuordnungen für die einzelnen Bewertungsziffern.

Tabelle 36: Bewertungsziffern für das Kriterium Validität/Güte der CD-ROM (QU)
Chemikalien-Testdatensatzevaluierte Daten SI EinheitenBewertungsziffer
> 100.000jaja
5
> 100.000janein
4
> 100.000neinja
4
> 50.000 jaja
4
> 100.000neinnein
3
> 50.000janein
3
> 50.000neinja
3
> 10.000jaja
3
> 10.000janein
2
> 10.000neinja
2
10.000jaja
2
> 10.000neinnein
1
10.000janein
1
10.000neinja
1
10.000neinnein
0

6.5 Gesamtmaß als grobes Einstufungsmaß für Objekte

Wie aus dem Vorangegangenen ersichtlich, wurden zur Ableitung der Bewertungsziffern auch Aggregierungen vorgenommen, und zwar dann, wenn die Charakterisierung der Objekte zunächst eine Kombination von nominalen und ordinalen Kriterien erforderte. Man kann einen Schritt weitergehen und ein Gesamtmaß für die Qualität der Datenbanken ableiten wollen, das wie folgt definiert sein kann:

-Sei Kij die Ausprägung für das j-te Objekt unter dem i-ten Einzelkriterium (i= 1, ..., n).

Ein Gesamtmaß wäre dann für das j-te Objekt wie folgt zu bilden:

j = f (K1j, K2j,...Knj)

= Gesamtmaß, Kij = i-tes Kriterium für das j-te Objekt (siehe auch Anlage B1)

Nach Wahl der Kriterien sind die Kij in ihrer Aussage orientiert (hohe Ausprägung, hohe Güte); daher muß gelten

Eine übliche Realisierung für f ist eine Linearform:

j = gi Kij gi Gewichtsfaktoren 0<gi<n (6-1)

Durch die zusätzliche (willkürliche) Wahl gi = 1 für i = 1,..., n

erhält man eine spezielle Berechnung für ein Qualitätsgesamtmaß , in dem alle Kriterien gleichgewichtig eingehen. Diese Größe wird zusätzlich in der letzten Spalte der folgenden Tabellen der Bewertungsziffern für die Gruppen eingetragen. Aus der Ableitung wird ersichtlich, daß mit erheblicher Willkür behaftet ist, die ja gerade durch die Hasse-Diagramm-Technik vermieden wird. Hier dient u.a. dazu, die Vorteile der Hasse-Diagramm-Technik evident zu machen. Durch das Gesamtmaß wird eine Einteilung in Äquivalenzklassen induziert: Die dazugehörige Äquivalenzrelation ist "Gleichheit bezüglich ". In der Folge wird von -äquivalenten Objekten gesprochen, wenn diese zu einer Äquivalenzklasse gehören. Eine Nichtübereinstimmung vom Gesamtmaß und der Auswertung mittels der Hasse-Diagramm-Technik kann grundsätzlich sein oder aufgrund der Willkür der Klasseneinteilung zustande kommen. Dies wird anhand der Gruppen diskutiert.

6.6 Bedeutung der Bewertungskriterien und denen Ausprägungsmengen

Die Struktur eines Hasse-Diagramms hängt nicht nur von der Gruppe und von der Anzahl der Bewertungskriterien sondern vielmehr auch von den Kriterien selber ab. Bei den Bewertungskriterien ist deren Ausprägungsmenge, d.h. die Verteilung der Bewertungsziffern auf die einzelnen Objekte von großer Bedeutung. Darüber hinaus ist das "Zusammenspiel" der einzelnen Bewertungskriterien miteinander wichtig. Bezüglich der Ausprägungsmengen der einzelnen Bewertungskriterien werden bei den Betrachtungen der folgenden Gruppen die Mittelwerte (MW), Mediane (ME) und die Standardabweichungen (STDEV) gebildet.

Für die Untersuchung der Bedeutung der Ausprägungsmengen werden im folgenden zwei Größen, der Umfangsindex Ui und der Shannon-Index Ii betrachtet.

6.6.1 Umfangsindex Ui

Es ist zwischen der theoretischen Ausprägungsmenge A theo, i := {0,1,2,3,4,5} und der Kriterien- und Gruppen-spezifischen aktuellen Ausprägungsmenge A aktu, i zu unterscheiden. Es gilt, die Kardinalitäten der theoretischen Ausprägungsmenge mit denen der aktuellen Ausprägungsmenge zu vergleichen.

Der Umfangsindex Ui der Bewertungsziffern wird wie folgt definiert:

Ui = card Aaktu, i (6-2)

Ui = Umfangsindex, A = Ausprägungsmenge, i = Kriterium

6.6.2 Shannon-Index Ii

Der Shannon-Index beschreibt die Information eines Bewertungskriteriums bezüglich der konkret gegebenen Gruppe [Bock 1974]. Dabei wird davon ausgegangen, daß eine hohe Entropie informativer ist als eine geringe. Daher ist der Shannon-Index ein Maß für den Informationsgehalt eines Bewertungskriteriums. Pij sind Wahrscheinlichkeiten, daß die j-te Ausprägung zum i-ten Kriterium auftritt und wird durch nij/N geschätzt.

Es gilt:

Ii = - pij ln pij

Ii = - ln (6-3)

Legende: Ii = Shannon-Index, i = Bewertungskriterium, j = Ausprägungsstufe, nij = Zahl der Vergabe einer bestimmten Bewertungsziffer Stufe j über das i-te Kriterium, N = Anzahl der Objekte in einer Objektmenge, z = Zahl der möglichen Ausprägungen (in diesem Fall 0-5, also 6)

Der Shannon-Index wurde 1982 in einer Arbeit von Rao [Rao 1982] kritisiert. Es ist nicht auszuschließen, daß in manchen Fällen die Diversität durch den Shannon-Index überschätzt wird.

6.6.3 Interpretation der Indizes

Anzustreben ist eine gut verteilte Bewertungsziffernvergabe. Haben Ui und Ii hohe Werte im Vergleich zu den anderen Bewertungskriterien, so ist das betrachtete Kriterium in bezug auf die Verteilung als "gut" anzusehen. Analoges gilt selbstverständlich für niedrige Werte der beiden Indizes. In diesem Fall ist die Bewertungsziffern Vergabe als "schlecht" anzusehen. Wie zu erwarten, liefert der Shannon-Index differenziertere Werte als der Umfangsindex, da ersterer die Anzahl der Objekte einer Gruppe mitberücksichtigt. In der Folge wird von guter, mittlerer und schlechter Verteilung der Bewertungsziffern gesprochen. Als gut gilt, wenn der Umfangsindex Ui = 6 oder 5 beträgt, und der Shannon-Index Ii groß ist im Vergleich zu den Werten der anderen Kriterien. Darüber hinaus müssen die Werte Mittelwert und Median nahe beieinander liegen. Als mittelmäßig wird ein Kriterium bezeichnet, wenn der Umfangsindex Ui = 5 ist, und der Shannon-Index Ii deutlich kleiner ist als der höchste Wert in der betrachteten Gruppe. Als schlecht ist ein Kriterium anzusehen, wenn der Umfangsindex Ui 4 ist, und der Shannon-Index Ii kleine Werte aufweist. Hierbei tritt auch eine große Abweichung von Mittelwert und Median auf.




[Inhaltsverzeichnis] [Home DissOnline] [Anfang] [Vorheriges Kapitel] [Nächstes Kapitel] [Ende]