PREV
NEXT

Kapitel 6
Visuelle Data Mining-Applikationen
Im vorausgehenden Kapitel wurden die Aufgaben und die Bedeutung des Data Mining im Bereich der chemischen Forschung erläutert. Dabei wurden insbesondere die Methoden und Eigenschaften des visuellen Data Minings sowie die hierfür notwendigen Techniken der Informationsvisualisierung beschrieben. Die Methoden und Applikationen dieses speziellen Data Mining-Feldes haben in jüngster Zeit insbesondere im Wirkstoffdesign aufgrund der drastischen Zunahme an generierten Daten stark an Bedeutung gewonnen. Der entscheidende Vorteil dieser Systeme gegenüber klassischen, "Black Box"-ähnlichen Data Mining-Ansätzen ist die einfache und von speziellen Data Mining-Kenntnissen unabhängige Architektur. Visuelle Data Mining-Anwendungen können daher direkt von den Chemikern eingesetzt werden, die auch für die Generierung der Datensätze verantwortlich sind und ermöglichen somit eine best- und schnellstmögliche Analyse und Interpretation der Daten.
Screeningdatensätze und kombinatorische Daten liegen in der Regel in Form firmeninterner oder öffentlich zugänglicher Datenbanken vor und sollten daher auch durch firmeninterne Informationssysteme oder über das Internet zugreifbar und analysierbar sein. Zu Beginn der dieser Dissertation zugrundeliegenden Entwicklungsarbeiten gab es jedoch keine portablen Möglichkeiten, um hochdimensionale Datensätze im Internet zu visualisieren und zu analysieren. Dieses Kapitel beschreibt verschiedene, im Rahmen dieser Arbeit entwickelte Ansätze und Applikationen, die ein portables, WWW-fähiges visuelles Data Mining multivariater, chemischer Datensätze ermöglichen.
Der erste Teil des Kapitels beschreibt ein auf VRML basierendes 3D-Interface für die weltweit größte frei zugängliche chemische Strukturdatenbank, die Antitumor-Screening-Datenbank des amerikanischen Krebsforschungsinstituts (National Cancer Institute, NCI). Das Interface dient dabei der Visualisierung und Analyse der in der Datenbank enthaltenen cancerotoxischen und cancerostatischen Messwerte.
Der zweite Teil des Kapitels widmet sich dem Aufbau und der Funktionsweise des in Java implementierten InfVis-Programms. Das sowohl als Standalone-Anwendung als auch als Applet ausführbare Programm wurde nicht wie das zuvor erwähnte Interface zur Analyse eines spezifischen Datensatzes sondern für den allgemeinen Umgang mit beliebigen, multivariaten bzw. multidimensionalen Datensätzen konzipiert.
Abschließend wird im letzten Teil des Kapitels der Online-Dienst 'NCI Screening Data 3D Miner' vorgestellt. Der Online-Dienst stellt dabei eine auf InfVis basierende Weiterentwicklung des bereits erwähnten NCI Datenbank-Interfaces dar.
In vielen chemischen und mathematischen Modellen wird das dreidimensionale Koordinatensystem so dargestellt, dass die z-Achse nach oben weist. Im Gegensatz dazu ist in der 3D-Visualisierung das kartesische Koordinatensystem in der rechtshändigen Form (Rechte-Hand-Regel) weit verbreitet (Abbildung 6-1). Bei gespreizten Fingern der rechten Hand zeigt der Zeigefinger in x-Richtung, der Mittelfinger in y-Richtung und der Daumen in z-Richtung. Diese Form des Koordinatensystems liegt gewöhnlich allen 3D-Visualisierungsapplikationen (darunter auch chemischen Anwendungen wie Molcad [250]) sowie den etablierten 3D-Graphikschnittstellen wie beispielsweise OpenGL (vgl. Abschnitt 2.1.3.2) zugrunde und ist auch Basis der in diesen Kapitel vorgestellten Applikationen.
Abb. 6-1: Dreidimensionales Koordinatensystem (Rechte-Hand-Form).
6.1 NCI Antitumor-Datenbank-Interface
6.1.1 Motivation und Zielsetzung
Die Antitumor- antivirale Screening-Datenbank des US Krebsforschungszentrums stellt mit über 250.000 Verbindungen die derzeit größte, frei zugängliche chemische Strukturdatenbank dar. Seit Beginn des in-vitro Screeningtest im Jahre 1990 wurden dabei bereits über 70.000 (davon 40.000 frei zugängliche) dieser Verbindungen durch das NCI Developmental Therapeutics Program (DTP) [202] gegen einen standardisierten Satz von sechzig Krebszelllinien getestet (vgl. Anhang C) [203, 204]. Die resultierenden Screeningdatensätze wurden mit Hilfe verschiedener Data Mining-Experimente analysiert und waren Gegenstand zahlreichen Publikationen [205]. Darüber hinaus wurden einige Online-Schnittstellen für die Suche und Analyse der Datenbank entwickelt, wobei der Enhanced CACTVS NCI Database Browser den umfangreichsten und am weitesten entwickelten Vertreter darstellt [93]. Dieser in einer Kooperationsarbeit zwischen dem Computer-Chemie-Centrum und dem Laboratory of Medicinal Chemistry des NCI (LMC, Center for Cancer Research, NCI, NIH) entwickelte Online-Dienst vereint alle öffentlich zugänglichen Daten der NCI Datenbank und wurde darüber hinaus um dreidimensionale Strukturinformationen und berechnete und experimentelle molekulare Eigenschaften erweitert. Trotz der Vielzahl der implementierten komplexen Such- und Analysemöglichkeiten können in der gegenwärtigen Version keine Suchverfahren auf den Antitumor-Screeningdaten durchgeführt werden. Darüber hinaus werden die Screeningdaten der einzelnen Verbindungen auch nur in einer tabellarischen Liste ausgegeben, was die Identifikation potentieller Wirkstoffkandidaten erschwert. Im Gegensatz dazu ist eine durch den Benutzer definierte Suche innerhalb der Screeningdaten mit Hilfe der vom DTP entwikkelten Online-Werkzeuge möglich. Leider beschränkt sich die Visualisierung der Screeningdaten jedoch nur auf ein zweidimensionales Balkendiagramm, das den Vergleich von maximal zwei verschiedenen Verbindungen zulässt. Diese stark limitierte Darstellungsform ist für die Erkennung allgemeiner Struktur-Aktivitätsprinzipien ungeeignet, da hierfür die Screeningdaten einer Vielzahl strukturell ähnlicher Verbindungen betrachtet und verglichen werden müssen.
Das Ziel war daher die Entwicklung einer Online-Anwendung, die eine effektive Darstellung und Analyse der NCI Screeningdaten ermöglichte. Um eine visuelle Erkennung von Struktur-Aktivitäts-Prinzipien zu gewährleisten, musste der Online-Dienst in der Lage sein, die biologischen Aktivitäten einer Vielzahl von Verbindungen darzustellen. Da bei der Realisierung der Anwendung der Internetstandard VRML eingesetzte wurde, sollte in einer weiteren Fragestellung die Verwendbarkeit dieses Graphikformats für den Einsatz im visuellen Data Mining überprüft werden.
6.1.2 Funktionsbeschreibung
Das Eingabeformular (Abbildung 6-2) des Online-Dienstes besteht aus drei Bereichen. Der obere Teil des HTML-Fomulars dient dabei zur Festlegung der Kriterien für die Struktursuche. Der Benutzer kann zum einen mit Hilfe von CAS-Nummern oder internen Kennzeichnungen des amerikanische Krebsforschungsinstituts, den sogenannten NSC-Nummern, nach bestimmten Verbindungen suchen. Im Allgemeinen sind diese speziellen Identifier dem Benutzer jedoch nicht bekannt und kommen daher nur in seltenen Fällen zum Einsatz. In der Regel erfolgt die Suche nach Verbindungen über die chemische Struktur bzw. Konnektivität.

Abb. 6-2: Eingabeformular des NCI Antitumor-Datenbank-Interface. (Hier geht es zum Online-Service.)
Der Benutzer hat deshalb die Möglichkeit Konnektivitätsdaten in Form der SMILES-Notation [104] an den Service zu übergeben. Dieses Austauschformat kann entweder von mit der SMILES-Syntax vertrauten Benutzern direkt eingegeben oder mit Hilfe der Copy & Paste-Funktion aus aktuellen, chemischen Struktureditoren übernommen werden. Darüber hinaus bietet die Anwendung wie auch die im ersten Teil dieser Arbeit beschriebenen Online-Applikationen die Nutzung eines Java-basierten Struktureditors [12] zur Generierung von SMILES-Strings an. Der Anwender kann die eingegebene Konnektivitätsinformation zum einen für die Suche nach exakten Strukturen einsetzen. Wesentlich interessanter ist jedoch die Möglichkeit die strukturelle Information zur Substruktursuche zu verwenden. Neben der Substruktursuche können auch noch diverse Ähnlichkeitssuchen (98%, 95%, 90% und 75% strukturelle Ähnlichkeit) durchgeführt werden.
Der NCI in-vitro Screeningtest wurde so definiert, dass die sechzig Standard-Krebszelllinien sowohl die wichtigsten organbezogenen Krebsarten als auch die wichtigsten biochemischen Mechanismen umfasst. Im mittleren Teil des Eingabeformulars kann der Benutzer daher die für die Fragestellung interessanten Krebsfamilien wie Brust-, Lungen-, Eierstock-, Prostata-, Augen- und Darmkrebs sowie Leukämie, Melanome und Krebsarten des Zentralen Nervensystems selektieren.
Der untere Teil des Online-Dienstes dient letztendlich zur Selektion der biologischen Aktivitäten. Dabei kann der Benutzer zwischen drei unterschiedlichen Messwerten wählen - GI50, TGI und LC50. Der GI50-Wert beschreibt die Konzentration einer chemischen Verbindung, bei der eine 50%-ige Wachstumsinhibition festgestellt wurde. Der TGI-Wert ist die Konzentration bei der kein Wachstum der Zellen mehr beobachtet werden konnte und beschreibt daher den cancerostatischen Effekt einer Verbindung. Der letzte zur Wahl stehende Wert ist der LC50. Dieser Wert steht für die Konzentration bei der die Zellpopulation um 50 Prozent minimiert wurde und ist damit ein Indiz für den cytotoxischen Effekt einer Verbindung. Darüber hinaus kann der Benutzer entscheiden, ob die biologische Aktivität in einer absoluten oder relativen Form dargestellt werden sollen. Bei der absoluten Aktivität werden die gemessenen logarithmischen Werte direkt eingesetzt. Die relative Aktivität wird hingegen nach dem 'Mean Graph'-Prinzip von Paull definiert [204, 206]. Dabei wird für eine gegebene Verbindung die gemittelte biologische Aktivität über alle Krebszelllinien bestimmt. Der gemittelte Wert wird anschließend von den einzelnen, zellspezifischen Aktivitäten subtrahiert, wodurch sich eine relative Darstellung ergibt. Diese Auftragung hat sich als besonders nützlich zur Identifikation spezifischer Wirkungsweisen herausgestellt.
Schließlich kann der Benutzer die Datenbanksuche starten. Um eine Überfrachtung der graphischen Szene zu vermeiden, wird dabei die Trefferliste auf einhundert Verbindungen begrenzt.

Abb. 6-3: VRML-Szene mit biologischen Aktivitäten (relative Auftragung) in einer Balkendiagramm-Darstellung (Farbabbildung: Anhang A, Abbildung A-11).
Nachdem die Datenbankrecherche beendet ist, werden die biologischen Aktivitäten in Form einer VRML-Szene in einem zweiten Browserfenster dargestellt (Abbildung 6-3). Dabei werden die Krebszelllinien auf der x-Achse und die chemischen Verbindungen auf der z-Achse aufgetragen. Die biologischen Aktivitäten werden zum einen durch die Größe (Auslenkung entlang der y-Achse) als auch durch die Farbe der 3D-Balken dargestellt. Die Farbwerte entsprechen dabei dem Spektrum des sichtbaren Lichtes und verlaufen von violett für niedrige biologische Aktivitäten nach rot für große Aktivitätswerte. In der 'Mean Graph'-Darstellung (relative Auftragung der Werte) wird der biologische Aktivitätswert zudem durch die Ausrichtung der Balken repräsentiert. Verbindungen mit einer unterdurchschnittlichen Aktivität zeigen dabei nach unten aus der xz-Ebene heraus, während überdurchschnittliche Aktivitäten durch nach oben ausgerichtete Balken dargestellt sind. Fehlende Messwerte werden in der graphischen Szene durch Löcher symbolisiert.
Neben den Namen der einzelnen Krebszelllinien sind auf der x-Achse auch zusätzliche numerische Identifikatoren (ID) aufgetragen. Diese IDs wurden zur einfachen, weiter unten beschriebene Selektion der Krebszellen eingefügt. Darüber hinaus enthält auch die z-Achse neben den Identifikationsnummern für die chemischen Verbindungen zusätzliche Objekte in Form von roten Kugeln. Diese graphischen Objekte sind sogenannte Ankerknoten, die den Hyperlinks in HTML-Seiten entsprechen und dienen in diesem Fall zur Abfrage chemischer Detailinformation. Jeder Ankerknoten enthält dabei eine HTTP-kodierte Datenbankabfrage für den bereits erwähnten Enhanced CACTVS NCI Database Browser [93]. Durch Anklicken der Kugeln kann der Benutzer diesen Online-Dienst in einem weiteren Browserfenster öffnen und somit auf sämtliche in der Datenbank gespeicherten Daten der korrespondierenden Verbindung zugreifen. Darüber hinaus kann der Benutzer den Service auch für weitergehende Arbeitsschritte verwenden. Der Anwender kann sich innerhalb der Szene frei bewegen und die dargestellte Datenlandschaft mit Standard-Navigationswerkzeugen wie Translation, Rotation und Zoom erforschen.
Neben der Darstellung der VRML-Szene wird auch das ursprüngliche Dateneingabeformular im ersten Browserfenster durch ein neues HTML-Formular ersetzt (Abbildung 6-4). Dieses Formular besteht dabei ebenfalls wie das erste Formular aus drei Bereichen - der obere Teil zur Selektion der chemischen Verbindungen, der mittlere Teil zur Wahl der Krebszelllinien und der untere Teil zur Auswahl der Aktivitätsdaten. Im Gegensatz zum ursprünglichen Formular dient das neue, dynamisch generierte HTML-Formular jedoch nicht zur Formulierung einer neuen Datenbankanfrage sondern vielmehr zur Selektion interessanter Aktivitätsdaten. Aus diesem Grund enthält das Formular zwei Textfelder, in denen die Identifikationsnummern der in der VRML-Szene dargestellten chemischen Verbindungen und Krebszelllinien enthalten sind. Nachdem der Benutzer interessante Struktur-Aktivitäts-Muster innerhalb der graphischen Übersicht ausgemacht hat, kann er die Identifikationsnummern uninteressanter Verbindungs-Krebszelllinien-Kombinationen aus den Textfeldern entfernen. Nach Betätigung des 'Refine Results'-Knopfes werden sowohl die in der VRML-Szene dargestellten Aktivitäten als auch die im Selektionsformular enthaltenen Daten der durch den Benutzer definierten Auswahl entsprechend angepasst. Dieser Vorgang kann dabei so oft wiederholt werden, bis die gewünschten Struktur-Aktivitäts-Daten isoliert wurden.

Abb. 6-4: NCI Antitumor-Datenbankinterface: Selektionsformular.
Neben diesen grundsätzlichen Funktionen bietet der untere Formularteil einige zusätzliche Selektionsoptionen. Zum einen kann zu jedem Zeitpunkt die graphische Darstellung der biologischen Aktivitätsdaten von einer relativen in eine absolute Darstellung bzw. umgekehrt geändert werden. Darüber hinaus kann der Benutzer für die selektierten Verbindungen und Krebszelllinien die zugrundeliegenden biologischen Aktivitätsdaten (GI50, LC50, TGI) austauschen, um so beispielsweise Unterschiede im cytotoxischen und cytostatischen Verhalten einer Verbindung zu identifizieren. In einigen Fällen ermöglicht das Formular auch den Wechsel der Substanzkonzentration. Dies ist dann der Fall, wenn eine als hoch aktive Substanz identifizierte Verbindung in verschiedenen Verdünnungsgraden im in-vitro Screeningtest eingesetzt wurde. Liegt die entsprechende Information für den selektierten Datensatz in der Datenbank vor, so werden alle entsprechenden Konzentrationen automatisch zur Auswahl gestellt. Der Online-Dienst informiert den Benutzer darüber hinaus, für wieviele der dargestellten Verbindungen die gewählte Konzentration relevant ist.
6.1.3 Implementierung
Wie auch die im ersten Teil der Arbeit beschriebenen Online-Dienste basiert das NCI Datenbank-Interface auf dem chemischen Datenmanagementsystem CACTVS (vgl. Abschnitt 2.3.1). Darüber hinaus kamen zum einen die Datenbank (spezifisches CACTVS-Format) des Enhanced CACTVS NCI Database Browser mit molekularen Eigenschaften und Strukturinformationen der über 250.000 Verbindungen der NCI Datenbank als auch eine MySQL-Datenbank [207] mit den NCI in-vitro Screeningdaten von 41.000 (Stand: April 2002) chemischen Verbindungen zum Einsatz.
Im Gegensatz zu den im ersten Teil der Arbeit beschriebenen Visualisierungsansätzen wurden bei der Implementierung des Web-fähigen Datenbank-Interfaces keine zusätzlichen CACTVS-Module entwickelt. Vielmehr diente das CACTVS-System zur Ausführung der aufwendigen Substruktur- und Ähnlichkeitssuchen sowie für den Zugriff auf die CACTVS-Datenbank des Enhanced CACTVS NCI Database Browser. Die einzelnen Prozessabläufe der in Abbildung 6-5 schematisch dargestellten Datenvisualisierungssitzung werden im Folgenden näher beschrieben.
Nachdem der Benutzer die gewünschten Suchparameter zur Auswahl der chemischen Verbindungen und Krebszelllinien angegeben und die Datenbankrecherche gestartet hat, überprüft das CGI-Skript in einem ersten Schritt die Syntax der übermittelten Parameter. Anschließend wird je nach Benutzereinstellung (CAS, NSC, Substruktur- oder Ähnlichkeitssuche) die Datenbank des Enhanced CACTVS NCI Database Browser durchsucht und die relevanten Treffer in Form von NSC-Nummern an das CGI-Skript zurückgeliefert. Die Suche ist dabei durch Angabe zusätzlicher Suchparameter nur auf solche Verbindungen limitiert, für die auch Antitumor-Screeningdaten vorliegen (41.000 von 250.000 Verbindungen). Die vom CACTVS-System gefundenen NSC-Nummern werden anschließend mit den vom Benutzer selektierten Krebszelllinien in Form einer SQL-Datenbankanfrage kombiniert und diese zur Abfrage der biologischen Aktivitätsdaten an die MySQL-Datenbank übergeben. Darüber hinaus entnimmt das CGI-Skript der Datenbank die verschiedenen Konzentrationsangaben, die für die entsprechende Kombination zur Verfügung stehen. Mit Hilfe der zurückgelieferten Daten generiert das CGI-Skript schließlich zum einen die VRML-Szene zur graphischen Darstellung der biologischen Aktivitäten und zum anderen das temporäre HTML-Formular zur Selektion von Teildatensätzen.
Abb. 6-5: Schematische Darstellung einer Datenvisualisierungssitzung mit dem NCI-Datenbank-Interface. Der rautierte Bereich kennzeichnet Elemente des Enhanced CACTVS NCI Database Browser [93], welcher nicht Teil dieser Arbeit war.
Der Benutzer kann im Folgenden Verbindungen und Krebszelllinien, welche er vorher anhand auffälliger Aktivitätsmuster in der graphischen VRML-Darstellung ausgemacht hat, im dynamisch generierten HTML-Formular selektieren bzw. die uninteressanten Einträge löschen und die Daten zur Aktualisierung an den Server übermitteln. Im Gegensatz zur ersten Datenbanksuche muss dabei kein erneuter Zugriff auf die Datenbank des Enhanced CACTVS NCI Database Browser erfolgen, da zu diesem Zeitpunkt bereits alle relevanten NSC-Daten dem CGI-Skript bekannt sind. Die neuselektierten Daten werden wieder zur Generierung einer MySQL-Datenbankanfrage verwendet und die resultierende, neue VRML-Szene sowie das aktualisierte HTML-Formular an den Benutzer übertragen. Dieser Vorgang kann beliebig oft wiederholt werden.
Wie bereits erwähnt, ist die VRML-Szene mit sogenannten VRML-Ankerknoten ausgestattet, um dem Benutzer die Abfrage von Detailinformation zu erlauben. Diese Ankerknoten enthalten dabei einen Hyperlink zum Enhanced CACTVS NCI Database Browser mit einer kodierten NSC-Nummer der entsprechenden Verbindung. Durch Anklicken der entsprechenden, roten Kugeln wird dann eine reguläre Online-Sitzung des Database Browsers gestartet und die korrespondierende Detailinformation in einem dritten Browserfenster dargestellt. Da letztere Funktionalität nicht durch das NCI Datenbank-Interface realisiert wird, wurden die entsprechenden Teile in Abbildung 6-5 besonders hervorgehoben (rautiert).
6.1.4 Diskussion
Während zum Implementierungszeitpunkt des graphischen Datenbank-Interfaces bereits zahlreiche Web-Applikationen zur Visualisierung verschiedener Datentypen wie beispielsweise Volumen vorlagen, gab es kaum portable Informationsvisualisierungs-Anwendungen, die zur Darstellung großer Datensätze und somit zur Analyse und Suche nach Mustern und Beziehungen geeignet waren. Darüber hinaus erlaubte der Großteil der wenigen, verfügbaren Applikationen lediglich die Präsentation aber nicht die für visuelles Data Mining essentielle Exploration von Datensätzen.
Erste Arbeiten auf dem Gebiet der portablen, explorativen Informationsvisualisierung wurden in der National Security Agency (NSA, USA) entwickelt und basierten auf der Virtual Reality Modeling Language [208]. Der Visualisierungsansatz diente zur Darstellung hierarchischer Daten und Graphen wie beispielsweise der Organisationsstruktur der NSA und nutzte deshalb spezielle Visualisierungstechniken wie die Cone Tree-Technik (vgl. Abschnitt 5.4.2.4). Wie auch im vorliegenden Datenbank-Interface wurde in diesem frühen Ansatz die VRML-eigene Ankerknotentechnik eingesetzte, um Hyperlinks in die VRML-Szene zu integrieren und somit zusätzliche Zugriffsmöglichkeiten in Form von statischen HTML-Seiten oder CGI-vermittelten Datenbanksuchen zu erlauben. Obwohl mit Hilfe dieses Ansatzes eine Visualisierung, Analyse und Navigation innerhalb großer Datensätze möglich war, fehlten essentielle Funktionen wie beispielsweise Filter- und Selektionswerkzeuge, die für ein effektives visuelles Data Mining nötig sind.
Ein anderer mehr zur Präsentation als zur explorativen Analyse geeigneter Ansatz wurde von der Firma StockSmart, einem Provider von Online-Analysewerkzeugen für Finanz- und Investmentdaten, entwickelt [209]. Durch einen auf VRML basierenden, dreidimensionalen Liniengraphen (vgl. Abschnitt 5.4.2.1) wird der zeitliche Verlauf von Firmenbilanzen dargestellt. Die VRML-Szene wurde mit Berührungs-Sensoren sowie Skriptknoten ausgestattet, die zur Darstellung von Detailinformationen innerhalb der VRML-Szene dienen. Der Benutzer kann dabei mit dem Mauszeiger über bestimmte Regionen des Liniengraphen fahren, was zu einer farblichen Hervorhebung der einzelnen Bereiche und zur textuellen Darstellung der korrespondierenden Detailinformation führt. Weitere Funktionalitäten sind nicht vorhanden.
Da die im VRML-Standard vorhandenen Interaktionstechniken für ein effektives visuelles Data Mining im Allgemeinen nicht ausreichen, wurden verschiedene Ansätze zur Erweiterung der Benutzerinteraktionsfähigkeiten entwickelt. Eine Möglichkeit bietet dabei die bereits im ersten Teil dieser Arbeit vorgestellte Kombination von VRML und Java über das External Authoring Interface. Eine auf dieser Technik basierende Demonstrationsapplikation wurde von Roskothen vorgestellt [210]. Die Online-Demo besteht dabei aus einer VRML-Szene mit einer Balkendiagramm-Darstellung sowie einem Java-Applet, an das ein Datenarray übergeben wird. Durch Betätigung eines Schiebereglers kann der Benutzer nun direkt die Histogramm-Darstellung beeinflussen. Eine konkrete Nutzung dieser Technik innerhalb einer visuellen Data Mining-Anwendung ist uns nicht bekannt.
Ein anderer Weg zur Verbesserung der Interaktionsfähigkeiten wurde von der Firma EM7 beschrieben und stellt darüber hinaus die wahrscheinlich erste kommerzielle, VRML-basierte Softwarelösung im Bereich der Informationsvisualisierung dar [211]. Zum einen beinhaltet die auf einer Client-Server-Architektur aufbauende Anwendung ein ActiveX-basiertes Application Programmable Interface (API), mit dessen Hilfe die Server-seitige Anbindung an externe Programmpakete als auch an verschiedene Datenbankformate möglich ist. Darüber hinaus entwickelte EM7 eine umfassende Sammlung an VRML-Erweiterungen, das sogenannte ProtoPac, das die limitierten Funktionen des VRML-Standards durch diverse, speziell für die Bedürfnisse der Informationsvisualisierung angepasste Funktionen ergänzte. Diese Sammlung enthält dabei Werkzeuge zur Navigation, Interaktion und Datenbankkommunikation. Leider schliesst die Nutzung des Microsoft-Standards ActiveX den Einsatz dieser Technik auf nicht-Windows-basierten Systemen aus. Darüber hinaus zeigte ein kürzlicher Besuch auf der Homepage von EM7, dass es innerhalb der letzten ein bis zwei Jahre keine Aktualisierungen der Technik gegeben hat und daher offensichtlich auch keine neuen Webbrowser- und VRML-Plugin-Generationen unterstützt werden. Dieser Verdacht bestätigte sich bei der Ausführung der EM7-Demonstrationsanwendungen, die unter Verwendung des CORTONA-VRML-Plugins [212] und Netscape 6.2 keine sinnvollen Darstellungen ergab.
Schließlich sollen an dieser Stelle noch zwei besondere VRML-basierte Programme zur Exploration und Analyse von Datensätzen erwähnt werden - RInvoice und 3D Active Chart [213]. Die beiden von der Firma First Information Systems entwickelten Programme stellen jedoch im Gegensatz zu den anderen hier beschriebenen Ansätzen keine portablen WWW-Applikationen dar. Dennoch nutzen sie den VRML-Standard zur Visualisierung der Datensätze. Im Gegensatz zu den Web-fähigen Ansätzen werden in diesem Fall die VRML-Szenen durch die ActiveX-Schnittstelle des VRML-Players CORTONA [212] in Standalone-Windows-Applikationen eingebunden. Dies ermöglicht auf der einen Seite ein Maximum an Datenzugiffsmöglichkeiten und interaktiver Datenmanipulation, aber beschränkt auf der anderen Seite die Nutzung dieser Programme auf Einzelplatzrechner mit Windows-Betriebssystemen.
Das NCI Datenbank-Interface stellt nach unserem Wissen die erste VRML-basierte Anwendung dar, die speziell zur Visualisierung und Analyse chemischer, multidimensionaler Datensätze im Internet entwickelt wurde. Darüber hinaus ist uns bis dato kein anderer Online-Dienst bekannt, der den VRML-Standard zur Darstellung und Exploration von Datensätzen der Chemie (ausgenommen molekulare Modelle wie Strukturen und Oberflächen) verwendet. Der Einsatz der Virtual Reality Modeling Language birgt dabei sowohl Vor- als auch Nachteile. Zum Zeitpunkt der Implementierung stellte der VRML-Standard die einzige standardisierte Technologie zur Vermittlung dreidimensionaler Szenen über das Internet dar. Ein wesentlicher Vorteil dieses Standards basiert auf der leichten Verfügbarkeit. VRML-Szenen können durch diverse, frei verfügbare VRML-Plugins in fast allen wichtigen Webbrowsern sowie nahezu auf allen Plattformen und Betriebssystemen dargestellt werden. Darüber hinaus baut VRML auf low-level Graphikschnittstellen wie OpenGL oder Direct3D auf und nutzt daher die Fähigkeiten moderner 3D-Graphikhardware.
Ein wesentlicher Nachteil des VRML-Standards stellen die begrenzten Interaktions- und Dynamik-Fähigkeiten des VRML-Formates dar. Obwohl mit Hilfe der implementierten Funktionen einige grundsätzliche, explorative Werkzeuge wie beispielweise weiterführende, auf Hyperlink-Technik basierende Detail- und Datenbankabfragen realisiert werden können, sind zur Realisierung effektiver, visueller Data Mining-Applikationen zusätzliche Interaktionswerkzeuge nötig. Im vorliegenden Fall wird dieses Defizit durch die Kombination der VRML-Darstellung mit dynamisch generierten HTML-Formularen gelöst, wodurch dem Benutzer die Selektion von Datenpunkten bzw. interessanter Muster ermöglicht wird.
Die typische Client-Server-Architektur von VRML-basierten Online-Diensten kann ebenfalls zu Nachteilen bei der Visualisierung großer Datensätze führen. Dabei wird im Allgemeinen die VRML-Szene auf der Serverseite durch entsprechende Data Mining-Applikationen aus den Originaldaten generiert und an den Client übermittelt. Während dieser Graphiktransfer von Daten (vgl. Abschnitt 3.3.3) bei kleinen Datensätzen problemlos zu realisieren ist, werden mit zunehmender Datensatzgröße die Übertragungszeiten zwischen Server und Client immer größer was letztendlich eine effektive Arbeit unmöglich macht. Die Ursache für dieses Problem liegt dabei nicht unmittelbar in der Größe der relativ kompakten, tabellarischen Originaldaten begründet, sondern basiert auf der Größe der VRML-Dateien, die in der Regel um ein Vielfaches größer sind als die korrespondierenden Rohdaten. Im Fall des NCI Datenbank-Interfaces fällt dieser Sachverhalt weniger ins Gewicht, da zum einen die Datenbankrecherche auf maximal einhundert Verbindungen limitiert ist und zum anderen der Benutzer nach spezifischen Struktur- und Krebszellen-Kombinationen sucht, die in der Regel zu kleineren Datensätzen führen.
Der generelle Einsatz von VRML zur Realisierung Web-fähiger Applikationen des visuellen Data Minings ist nach unserer Auffassung nur bei Vorlage relativ kleiner Datensätze und innerhalb spezifischer, auf bestimmte Problemstellungen ausgerichteter Applikationen zu empfehlen. Mit zunehmender Datensatzgröße und vor allem steigendem Unbekanntheitsgrad der zugrundeliegenden Daten wird der Einsatz von VRML in der explorativen Visualisierung zunehmend ungünstig und letztendlich sinnlos. Schlussfolgernd eignet sich VRML daher vor allem zur Datenpräsentation und zur konfirmativen Datenanalyse aber nur im begrenzten Umfang und unter Berücksichtigung spezieller Rahmenbedingungen für explorative Analyseansätze.
Im Gegensatz zu den in Kapitel 4 beschriebenen Applikationen wurde das NCI Datenbank-Interface nicht als offizieller Online-Dienst betrieben. Vielmehr diente der Service zum internen Gebrauch am Computer-Chemie-Centrum sowie am Laboratory of Medicinal Chemistry des NCI. Das VRML-Interface soll in die nächste Version des Enhanced CACTVS NCI Database Browser integriert werden. Darüber hinaus wurde im Rahmen dieser Arbeit ein weiterentwickeltes, auf der Programmiersprache Java basierendes Interface entwickelt, das als Online-Dienst zur Verfügung steht (vgl. Abschnitt 6.3).
Neben VRML-Ansätzen wurden in den letzten Jahren auch Java-Applikationen sowie spezielle auf Microsoft-Technologien aufbauende Applikationen zur explorativen Informationsvisualisierung entwickelt. Diese Ansätze werden in den Abschnitten 6.2 und 6.3 vorgestellt.
6.2 Das InfVis-Programm
6.2.1 Zielsetzung
Da die für visuelle Data Mining-Ansätze essentiellen, interaktiven Werkzeuge mit Hilfe von VRML-Applikationen nur sehr begrenzt oder garnicht zu realisieren sind, war ein primäres Ziel des InfVis-Programms die Entwicklung und Einbettung interaktiver und dynamischer Funktionen, die dem Benutzer unter anderem die Identifikation und Extraktion von Mustern ermöglichen. Die Benutzung dieser Funktionen sollte darüber hinaus zu einer unmittelbaren Aktualisierung der Datendarstellung führen, da nur so eine effektive, visuelle Exploration sichergestellt werden kann. Eine Aufteilung der Data Mining-Mechanismen auf Client und Server wie im Fall des NCI Datenbank-Interfaces kam aus diesem Grund nicht in Frage. Vielmehr musste die Client-seitige Applikation in der Lage sein, Rohdaten direkt zu importieren und zu speichern sowie die entsprechende graphische Darstellung zu generieren und zu manipulieren. Das Programm sollte darüber hinaus nicht nur auf einen Datensatz wie beispielsweise die NCI Antitumor-Datenbank festgelegt sein, sondern die Darstellung und Visualisierung beliebiger, chemischer Datensätze ermöglichen.
Zu Beginn der zugrundeliegenden Entwicklungsarbeiten hatte sich bereits eine visuelle Data Mining-Applikation besonders in der LifeScience-Forschung etabliert - Spotfire [214, 215]. Obwohl das auf dem Microsoft-Betriebssystem basierende Programm in großen Stückzahlen in vielen großen Pharmaunternehmen wie Pfizer oder Bayer speziell für den Gebrauch durch Laborchemiker angeschafft wurde, blieb der erhoffte Erfolg, nämlich die Integration der Synthesechemiker sowie ihres Fachwissens in den Data Mining-Prozess, zunächst aus [216]. Die Ursache hierfür lag vor allem in der großen und auf den ersten Blick unüberschaubaren Anzahl an Funktionen der Applikation sowie dem für die Industrie typischen, enormen Zeitdruck der Mitarbeiter begründet, der eine langwierige Einarbeitung in das Programm nur bedingt oder garnicht zulässt. Viele vor allem mit Computern weniger vertraute Chemiker lehnten aus diesen Gründen die Arbeit mit Spotfire ab [216].
Darüber hinaus ergaben interne Umfragen innerhalb der Bayer AG, dass sich die betroffenen Chemiker eine simple Visualisierungsapplikation mit ein bis zwei interaktiven Funktionen wie beispielsweise Zoom wünschten [217]. Diese Erfahrungswerte sollten bei der Implementierung des InfVis-Programms berücksichtigt werden. Die Applikation sollte daher neben den bereits erwähnten Zielen einfach und intuitiv und vor allem ohne die Notwendigkeit einer langwierigen Einarbeitungszeit zu bedienen sein. Außerdem sollte die Interpretation bzw. die visuelle Mustererkennung ebenfalls möglichst intuitiv erfolgen.
Schließlich sollte das Programm wie alle anderen in dieser Arbeit vorgestellten Entwicklungen unabhängig von spezifischen Plattformen und Betriebssystemen sein und auch den Einsatz im Internet bzw. Intranet ermöglichen.
6.2.2 Übersicht
Um alle im vorhergehenden Abschnitt aufgelisteten Zielsetzungen zu erfüllen, wurde zur Implementierung der InfVis-Applikation die plattformunabhängige Programmiersprache Java (vgl. Abschnitt 2.2.4) eingesetzt. Darüber hinaus wurde zur Realisierung einer möglichst einfachen visuellen Datenexploration wie auch bereits im NCI Datenbank-Interface (vgl. Abschnitt 6.1) eine dreidimensionale Datenrepräsentationstechnik verwendet. Nach unserer Meinung erlauben insbesondere dreidimensionale Visualisierungsansätze wie Balkendiagramme oder Scatterplots eine einfache Interpretation der dargestellten Datensätze, während komplexere Verfahren wie die Parallel Coordinates-Technik eine ablehnende Haltung bei ungeübten bzw. im Umgang mit Computern weniger erfahrenen Benutzer hervorrufen können. Um insbesondere die Darstellung multidimensionaler Datensätze zu ermöglichen, basiert das InfVis-Programm auf der 3D-Glyph-Technik, welche bereits in Abschnitt 5-10 vorgestellt wurde. Dieser Ansatz nutzt zum einen die weite Verbreitung und hohe Akzeptanz der Scatterplot-Technik und erlaubt zum anderen das Abbilden einer Vielzahl von Datendimensionen durch retinale Eigenschaften.
Zur Darstellung der dreidimensionalen Szenen wurde die verhältnismäßig junge Java-Erweiterung Java3D (vgl. Abschnitt 2.2.6) eingesetzt, die zum einen Client-seitig vorhandene 3D-Kapazitäten nutzt und zum anderen im Gegensatz zu VRML frei programmierbar ist, so dass ein Maximum an Interaktion innerhalb der Szene realisiert werden kann. Darüber hinaus kann die Erweiterung problemlos mit vorhandenen Java Virtual Machines und Java-Plugins eingesetzt werden.

Abb. 6-6: Das InfVis-Programm (Farbabbildung: Anhang A, Abbildung A-12).
Abbildung 6-6 zeigt einen Screenshot des InfVis-Programms. Das graphische User-Interface des Programms besteht aus vier Bereichen - dem Menü (Abbildung 6-6, oben), dem Visualisierungsfenster (Abbildung 6-6, oben rechts), dem Werkzeugfenster (Abbildung 6-6, oben links) und dem 'Mapping'-Fenster (Abbildung 6-6, unten). Die einzelnen Fenster sind dabei durch sogenannte SplitPanes miteinander verbunden, die sowohl eine Größenveränderung als auch das Ein- und Ausblenden der einzelnen Fenster erlauben. Auf die verschiedenen Funktionen der einzelnen graphischen Elemente soll im Folgenden nicht näher eingegangen werden. Vielmehr werden die grundsätzlichen Konzepte und Eigenschaften des Programms erläutert. Eine detaillierte Funktionsbeschreibung der Applikation kann über das Internet heruntergeladen werden (URL in Anhang B).
6.2.3 Daten-Integration und -Management
Eine der wichtigsten Aufgaben bei der Planung und Entwicklung einer visuellen Data Mining-Applikation besteht in der Implementierung von Schnittstellen, die eine einfache Integration von Daten aus verschiedenen Datenquellen ermöglichen. Die umständliche und vor allem zeitaufwendige Konvertierung von Daten führt ansonsten beim Benutzer zu einer deutlichen Abnahme der Akzeptanz. Die InfVis-Applikation ist deshalb mit zwei verschiedenen Datenschnittstellen ausgestattet. Zum einen kann das Programm mit Hilfe der Java Database Connectivity-Erweiterung (JDBC) [218] auf diverse frei verfügbare und kommerzielle Datenbanken zugreifen. In der derzeitigen Version unterstützt die Anwendung dabei lediglich den JDBC-vermittelten Zugriff auf MySQL-Datenbanken [219]. Jedoch kann diese Funktionalität zu jeder Zeit ohne großen Aufwand auf andere Datenbanksysteme erweitert werden. Die zweite Schnittstelle erlaubt die Dateneingabe durch Dateien, in denen die diversen Datenwerte durch Kommas getrennt sind (CSV-Dateien, Comma Separated Value Format). Dieses Datenformat wird vor allem von Tabellenkalkulationsprogrammen wie beispielsweise Excel aber auch von anderen Softwareanwendungen als Standardausgabeformat unterstützt. In beiden Fällen analysiert das InfVis-Programm die eingelesenen Daten und extrahiert neben den eigentlichen Rohdaten auch zusätzliche Information wie beispielsweise Spaltenüberschriften. Darüber hinaus wird während des Lesevorgangs der Datentyp der einzelnen Dimensionen ermittelt. Dabei unterscheidet die Anwendung zwischen kontinuierlichen und diskreten Datentypen sowie Metadaten wie beispielsweise Hyperlinks oder Base64-kodierten Bilddateien.
Neben der Datenintegration ist im visuellen Data Mining auch das Datenmanagement von großer Bedeutung. Unter Datenmanagement ist dabei in erster Linie die parallele Verwaltung verschiedener Datensätze zu verstehen. Erst durch die Verfügbarkeit diverser Datensätze wie beispielsweise unter bestimmten Bedingungen selektierten oder in verschiedenen Darstellungen vorliegenden Teildatensätzen ist ein Vergleich zwischen den einzelnen Daten möglich und der Benutzter letztendlich in der Lage, relevante Informationen oder Beziehungen zu erkennen. Im InfVis-Programm kann der Benutzer selektierte oder gefilterte Teildatensätze in separaten Datenspeichern ablegen. Dabei werden nicht nur die entsprechenden Rohdaten sondern auch alle für die Darstellung relevanten und vom Benutzer definierten graphischen Einstellungen gespeichert. Der Benutzer kann zwischen den verschiedenen Datenslots hin- und herschalten, was zu einer unmittelbaren Aktualisierung der graphischen Szene führt. Darüber hinaus besitzt das Programm ein Datenmanagementfenster, in dem zum einen die wichtigsten Informationen zu dem entsprechenden Datensatz dargestellt werden. Zum anderen enthält das Fenster auch Funktionen, die dem Benutzer die Umbenennung und das Löschen von Datensätzen ermöglichen.
6.2.4 Datenvisualisierung
Wie bereits erwähnt, erlaubt die Verwendung dreidimensionaler Visualisierungstechniken wie 3D-Balkendiagrammen, Scatterplots und 3D-Glyphen eine einfache visuelle Exploration von multidimensionalen Datensätzen. Da auch im Umgang mit Visualisierungstechniken weniger erfahrene Chemiker im Allgemeinen bereits mit diesen Darstellungsformen gearbeitet haben, ist die Akzeptanz bei der Verwendung dieser Techniken entsprechend hoch. In der InfVis-Applikation wurde zur Realisierung der dreidimensionalen Szenen die Java3D API verwendet. Im Gegensatz zu alternativen Ansätzen wie der Pseudo-3D-Visualisierung (vgl. Abschnitt 2.1.3.1) erlaubt Java3D die Nutzung aktueller, fortgeschrittener 3D-Hardwarefähigkeiten. Darüber hinaus wird in der Regel eine bessere Darstellungsqualität erzielt und der Einsatz von Virtual Reality-Peripherie (vgl. Abschnitt 2.1.3.3) wie beispielsweise Stereobrillen ermöglicht.

Abb. 6-7: InfVis: a) Balkendiagramm, b) Scatterplotdiagramm, c) 3D-Glyph-Technik (Farbabbildung: Anhang A, Abbildung A-13).
Die Applikation nutzt in erster Linie die 3D-Glyph-Technik (Abbildung 6-7c), um multidimensionale Datensätze darzustellen. Darüber hinaus werden aber auch andere, weitverbreitete Darstellungsformen wie die Balkendiagramm- (Abbildung 6-7a) oder die Scatterplot-Technik unterstützt (Abbildung 6-7b).
6.2.5 Visuelles Mapping
Beim visuellen Mapping werden die einzelnen Datendimensionen bzw. Tabellenspalten auf diverse visuelle Attribute graphischer Objekte sowie auf die drei orthogonalen Koordinatenachsen abgebildet. Die visuellen Eigenschaften der InfVis-Applikation basieren dabei vor allem auf den von Bertin definierten retinalen Eigenschaften Form, Farbe und Größe [180]. Das Abbilden der Datendimensionen auf visuelle Dimensionen ermöglicht dabei die Generierung einer Vielzahl verschiedener Datenrepräsentationen, was letztendlich höhere Interpretations- und Analysemöglichkeiten zulässt.
Beim Einlesen der Datensätze generiert InfVis automatisch eine vordefinierte Darstellungsform, wobei der Abbildungsvorgang der Reihenfolge der Datendimensionen im Datensatz sowie der InfVis-internen Reihenfolge der graphischen Attribute (X > Y > Z > Größe > Farbe > Form) folgt. Diese Darstellung kann zu jedem Zeitpunkt vom Benutzer interaktiv verändert werden, wodurch eine wichtige Anforderung an visuelle Data Mining-Applikationen erfüllt wird. Die Wahl der besten Datenpräsentation bzw. Abbildungsreihenfolge hängt dabei stark von den Daten selbst, von der Fragestellung des Analysten aber auch von den Vorlieben und den Wahrnehmungsfähigkeiten des Benutzers ab.
Neben den Datendimensionen müssen auch die entsprechenden Datenwerte bzw. der Datentyp der einzelnen Dimensionen während des Abbildungs-Prozesses (Mapping) berücksichtigt werden. Ob und wie eine Datenvariable repräsentiert wird, hängt dabei von der Charakteristik der Daten ab. Grundsätzlich kann hierbei zwischen diskreten und kontinuierlichen Datenwerten unterschieden werden. Ein diskreter Datentyp, auch kategorische Variable genannt, liegt dann vor, wenn alle in einer Datenspalte enthaltenen Werte durch eine limitierte Anzahl einzigartiger Werte beschrieben werden können. Zu diesem Datentyp zählen unter anderen textuelle Enumerationen aber unter Umständen auch eine begrenzte Abfolge von Integerwerten. In der Regel bewegt sich der Datenwertbereich diskreter Datenvariablen zwischen einem bis wenigen Hundert Einzelwerten. Im Gegensatz zu den diskreten Datentypen basieren kontinuierliche bzw. numerische Datentypen auf Datendimensionen deren Variablen in einem weitgesteckten numerischen Wertebereich liegen. Typische Vertreter dieses Datentyps sind daher vor allem Dezimalwerte oder auch Datumsangaben, deren Wertebereich dabei zwischen einigen zehn bis theoretisch unendlich vielen Dateneinheiten variieren kann. Bevor im Folgenden der Mappingprozess der kontinuierlichen und diskreten Datentypen auf die graphischen Dimensionen näher beschrieben wird, soll noch eine dritte Klasse von Datentypen erwähnt werden - die Metadaten. Metadaten werden im Gegensatz zu den zuvor genannten Datentypen nicht auf visuelle Attribute abgebildet, da die darin enthaltene Information nur beschreibenden Charakter hat. Dabei kann es sich beispielsweise um Hyperlinks oder Base64-kodierte Bilder handeln. Datendimensionen mit Metainformation werden daher von InfVis gesondert behandelt und interpretiert und in der Detailansicht dargestellt (vgl. Abschnitt 6.2.6.4).
6.2.5.1 Orthogonale Raumachsen
Stellvertretend für die drei Raumachsen wird an dieser Stelle das Einstellungsfenster für die x-Achse beschrieben. Wie alle Mapping-Fenster enthält auch das x-Optionsfenster einen Bereich (Abbildung 6-8, oben rechts), welcher Informationen über den Datentyp (kontinuierlich, numerisch), die Anzahl der einzelnen Datenwerte und den Namen der entsprechenden, abgebildeten Datendimension enthält. Dieser Bereich dient darüber hinaus auch zur Änderung der abgebildeten Datendimension. Auf die drei Raumachsen können sowohl kontinuierliche als auch kategorische Datenvariablen abgebildet werden. Während bei Vorlage kategorischer Variablen die diskreten Datenwerte in einem standardisierten Abstand auf den Achsen abgebildet werden, können numerische Daten direkt und entsprechend ihres Wertes aufgetragen werden. Darüber hinaus kann bei Vorlage numerischer Werte zwischen einer sogenannten 'nice numbers' und einer Grenzwert-Skalierung gewählt werden. Bei Bedarf können numerische Werte auch in kategorischer Form aufgetragen werden, während der umgekehrte Fall natürlich ausgeschlossen ist. Das Optionsfenster enthält weitere Funktionen, mit denen die graphische Eigenschaften beeinflusst werden können. Nähere Informationen hierzu können dem InfVis-Handbuch entnommen werden.

Abb. 6-8: InfVis: Einstellungsfenster für die x-Achse.
6.2.5.2 Größe
Die Größe der graphischen Objekte kann ebenfalls verwendet werden, um sowohl kontinuierliche als auch diskrete Datentypen darzustellen (Abbildung 6-9). Dabei gelten die gleichen Voraussetzungen wie beim Mapping der Datendimensionen auf die Raumachsen. Der Benutzer kann zudem die absolute Größendarstellung (maximale und minimale Ausdehnung der Szenenobjekte) mit Hilfe von Schiebereglern beeinflussen. Die Größe der graphischen Objekte sollte vor allem zur Repräsentation numerischer Daten verwendet werden, die der Wissenschaftler ohnehin als Größenangaben versteht. Eine entsprechende Datendimension wäre beispielweise die Reaktionsausbeute. Datendimensionen mit kategorischen Variablen sollten nur dann zum Einsatz kommen, wenn die Anzahl der diskreten Datenwerte klein ist und somit eine Unterscheidung der einzelnen Datenwerte durch den Benutzer noch gewährleistet ist.

Abb. 6-9: InfVis: Einstellungsfenster für die Objektgröße.
6.2.5.3 Farbe
Die Farbgebung der Datenobjekte spielt eine wichtige Rolle bei der Analyse und Identifikation von Mustern und Relationen, da sie die retinale Eigenschaft darstellt, die am leichtesten und besten zur Darstellung von Information genutzt werden kann. Dennoch müssen diverse physiologische und psychologische Aspekte beim Einsatz von Farben berücksichtigt werden. So existieren bei einigen Menschen physiologische Einschränkungen wie die Rot-Grün-Sehschwäche, was beim Einsatz bestimmter Farbkombinationen zu einer Fehlinterpretation der Datensätze führen kann. Darüber hinaus ist auch die visuelle Wahrnehmungsfähigkeit der Menschen sehr unterschiedlich ausgeprägt. So können Männer im Allgemeinen zwischen einer wesentlich geringeren Zahl von Farbwerten als Frauen unterscheiden, was insbesondere beim Abbilden kategorischer bzw. diskreter Datendimensionen berücksichtigt werden muss. Für eine detaillierte Betrachtung dieser Thematik sei an dieser Stelle das Buch von Colin Ware empfohlen [153].
Abb. 6-10: InfVis: Einstellungsfenster für die Objektfarbe: a) Mapping kategorischer Daten, b) Mapping numerischer bzw. kontinuierlicher Datentypen.
Farben können sowohl zum Abbilden diskreter als auch numerischer Daten verwendet werden. Um eine gute Unterscheidung diskreter bzw. kategorischer Variablen zu ermöglichen, sollten die eingesetzten Farben
- sich stark voneinander unterscheiden
- nur bei Vorhandensein weniger Datenwerten zum Einsatz kommen
- einen genügend großen Kontrast zum Hintergrund bieten
- Sehschwächen berücksichtigen
- nur in Verbindung mit ausreichende großen graphischen Objekten eingesetzt werden
- allgemein gebräuchliche Assoziationen berücksichtigen (z. B. rot = heiß, negativ, blau = kalt, positiv)
In der InfVis-Applikation kommen daher beim kategorischen Mapping (Abbildung 6-10a) Farben zum Einsatz, die sich aufgrund langjähriger Untersuchungen als Standardfarben für kategorischen Daten etabliert haben: rot, grün, gelb, blau, schwarz, weiß, pink, cyan, grau, orange, braun und lila. Die ersten vier Farben sowie schwarz und weiß stellen dabei sogenannte Grundfarben dar und erlauben die beste Unterscheidung von Variablen. Sie sollten daher auch vor den nachfolgenden sechs Farben zum Einsatz kommen. Obwohl das InfVis-Programm dieser Farbsequenz folgt, ist diese nur als Vorschlag zu verstehen. Der Benutzer hat zu jedem Zeitpunkt die Möglichkeit, die Farben für die einzelnen Variablen nach seinem eigenen Ermessen anzupassen.
Im Fall kontinuierlicher Datenwerte sollte auch der Farbverlauf möglichst kontinuierlich erfolgen. InfVis unterstützt daher sowohl weitverbreitete Farbpaletten wie das HUE-Modell, das kontinuierliche Spektrum-Modell und das Primary Color-Modell, als auch Farbesequenzen mit zwei oder drei Grenzwertfarben, die durch den Benutzer frei definiert werden können (Abbildung 6-10b) [220]. Darüber hinaus kann der Benutzer bei Vorlage numerischer Datenwerte auch Grenzwerte definieren, um die Farbskala zu beeinflussen.
6.2.5.4 Form
In der derzeitigen Version kann der Benutzer keine Einstellungen zur Beeinflussung der Objektform vornehmen. Das Programm unterstützt darüber hinaus auch nur das Abbilden diskreter Datendimensionen, wobei maximal vier einzelne Datenwerte innerhalb der Dimension vorliegen dürfen. Diese werden entsprechend ihrer Reihenfolge im Datensatz auf die graphischen Objekte Kugel, Würfel, Kegel und Zylinder abgebildet. Der Einsatz der Objektform zur Darstellung kontinuierlicher Daten ist nach unserer Ansicht nicht sinnvoll, da dies vor allem den ungeübten Benutzer überfordert und den Mustererkennungsprozess deutlich erschwert.
6.2.6 Interaktive und dynamische Techniken
Im Gegensatz zu klassischen Data Mining-Ansätzen kann visuelles Data Mining das Vertrauen und Verständnis des Benutzers in identifizierte Muster und Modelle maßgeblich erhöhen. Zur Realisierung dieses Vorteils müssen visuelle Data Mining-Applikationen jedoch über geeignete, intuitive Interaktionswerkzeuge verfügen. Im Gegensatz zu dem zuvor beschriebenen, VRML-basierten Datenbank-Interface (vgl. Abschnitt 6.1) konnte durch die Verwendung von Java und Java3D eine Vielzahl interaktiver und dynamischer Techniken in das InfVis-Programm integriert werden. Bei der Entwicklung dieser Werkzeuge wurden dabei folgende Richtlinien berücksichtigt [27]:
- Realisierung einfacher und logischer Interaktionssequenzen
- Vermeidung von unübersichtlichen und zu vieler verschiedener Funktionen
- Permanenter Zugriff auf alle wichtigen Funktionen zu jedem Zeitpunkt der Interaktion
- Verfügbarkeit geeigneter Feedback-Mechanismen
- Undo-Funktionalität bei irrtümlichen Benutzereingaben
Das InfVis-Programm verfügt sowohl über interaktive Funktionen, die direkt innerhalb der dreidimensionalen Szene ausgeführt werden können, als auch über Interaktionswerkzeuge, die in einem separaten Werkzeugfenster zur Verfügung stehen. Dabei kann grundsätzlich zwischen interaktiven und dynamischen Funktionen unterschieden werden. Unter interaktiven Techniken versteht man dabei Benutzereingaben, die direkt und unmittelbar zu einer Veränderung beispielsweise einer Aktualisierung der graphischen Datendarstellung führen. Dynamische Techniken erlauben im Gegensatz dazu die Änderung diverser Parameter ohne einen unmittelbaren Effekt. Die neudefinierten Einstellungen werden erst dann wirksam, wenn der Benutzer dies durch eine bestimmte Funktion, zum Beispiel in Form eines Aktualisierungsknopfes veranlasst. Die verschiedenen in der InfVis-Applikation zum Einsatz kommenden Interaktionswerkzeuge werden im Folgenden näher beschrieben.
6.2.6.1 Navigationswerkzeuge
Neben den Java3D-basierten und durch Zeigergeräte (z.B. Maus) vermittelten Navigationsmöglichkeiten wie Zoom, Rotation und Translation wurde das InfVis-Programm mit zusätzlichen Navigationshilfen ausgestattet. Diese ermöglichen dem Benutzer die Ausrichtung der Szene auf definierte Standardaufsichten und erweisen sich vor allem dann als nützlich, wenn der Benutzer die Orientierung innerhalb der dreidimensionalen Szenenlandschaft verloren hat. Darüber hinaus erlauben diese Funktionen ein schnelles und unkompliziertes Umschalten zwischen den verschiedenen Ansichten.
6.2.6.2 Filterwerkzeuge (Dynamic Queries)
Die wichtigste Interaktionstechnik des InfVis-Programms stellen die sogenannten Dynamic Queries (DQ) dar [196 - 198, 221, 222]. Die Dynamische Query-Technik kann dabei als eine visuelle Alternative zur SQL-vermittelten Datenbankabfrage verstanden werden. Im Gegensatz zu SQL-basierten Datenbanksuchen erfordern dynamische Queries allerdings kein Spezialwissen. Darüber hinaus erlaubt diese Technik eine schnellere und unkompliziertere Abfrage und ist das Mittel der Wahl, wenn die resultierenden Daten in graphischer Form dargestellt werden sollen. Dynamic Queries führen zu einer unmittelbaren Aktualisierung der dargestellten Datenlandschaft und stellen daher eine der wichtigsten Techniken des visuellen Data Mining dar. Im Prinzip können alle graphischen Standardeingabeelemente wie Slider (Schieberegler), Checkboxes und Radiobuttons als graphische Benutzerschnittstellen für Dynamic Query-Werkzeuge verwendet werden. Diese Frontends werden im Anschluss vom Benutzer mit Datendimensionen verknüpft und die einzelnen Variablenwerte auf den Auswahlelementen beispielsweise in Form von Einheiten auf dem Schieberegler oder einer Liste von Checkboxes abgebildet. Diese Form der Selektion von Werten durch die DQ-Werkzeuge führt schließlich zur Aktualisierung der graphischen Darstellung. Dem Anfänger ermöglichen sich somit Wege, um auch komplexe Datenbankrecherchen auf Basis visueller Suchstrategien durchzuführen. Der Anwender kann schnell Informationsmuster in Daten erkennen und erlernt in kürzester Zeit fast spielerisch die Definition effektiver Dynamic Queries. Darüber hinaus können Benutzer, die bereits über SQL- bzw. Datenbankerfahrung verfügen, mit Hilfe von diversen Kombinationen der dynamischen Filter schnell und einfach komplizierte Suchenanfragen realisieren und die resultierenden Datenpunkte betrachten.

Abb. 6-11: Diverse Dynamic Query-Filterfunktionen des InfVis-Programms.
Die Dynamic Query-Technik erfüllt somit eine Reihe der oben geforderten Vorgaben für die Realisierung von Interaktionswerkzeugen, wie beispielsweise die schnelle und reversible Kontrolle oder das unmittelbare Benutzer-Feedback.
Das InfVis-Programm unterstützt Dynamic Query-Techniken in Form von Checkboxes, Radiobuttons, Slidern und Range Slidern, wobei die beiden letzten Werkzeuge zu den effektivsten Varianten zählen (Abbildung 6-11). So kann beispielsweise mit Hilfe von Range Slidern und bei Vorlage entsprechender Daten die Lipinsky's Rule of 5 [223] einfach auf einen Datensatz angewendet werden. Der Benutzer kann für jede beliebige Dimension des Datensatzes (außer Metainformation) einen DQ-Filter definieren und auch zu jedem Zeitpunkt der Analyse wieder entfernen.
6.2.6.3 Selektionswerkzeuge
Neben der Filterung von Datensätzen durch Dynamic Querys verfügt das InfVis-Programm auch über Werkzeuge, die eine direkte Selektion von Datenpunkten durch den Benutzer erlauben (Abbildung 6-12). Diese Funktionalität ist insbesondere zur Extraktion identifizierter Muster bzw. Informationen hilfreich. Die Selektion kann dabei auf zwei verschiedenen Wegen erfolgen. Zum einen kann der Benutzer sogenannte Selektionsboxen in die Szene integrieren. Diese dreidimensionalen Auswahlrahmen können mit Hilfe achsenabhängiger Range Slider zum einen in x-, y- und z-Richtung vergrößert oder verkleinert und zum anderen innerhalb des Datensatzes verschoben werden (Abbildung 6-12a).
Abb. 6-12: Selektionswerkzeuge der InfVis-Applikation: a) Selektion mittels Selektionsboxen, b) Maus-vermittelte Selektion einzelner Datenpunkte (Farbabbildung: Anhang A, Abb. A-14 a, b).
Nachdem der Benutzer mit Hilfe eines oder mehrerer Auswahlrahmen die gewünschten Datenpunkte erfasst hat, kann er die selektierten Werte in einen neuen Datensatz überführen. Alternativ dazu kann der Benutzer mit dem Mauszeiger direkt einzelne Datenpunkte selektieren (Abbildung 6-12b). Da in der Glyph-Repräsentation diverse Datenpunkte überlagert oder zum Teil verdeckt sind, wurde das Selektionstool mit einer Auswahlliste erweitert, welche alle unter dem Mauszeiger befindlichen Datenpunkte enthält und die Selektion der gewünschten Datenpunkte ermöglicht. Alle selektierten Datenpunkte werden in einer Selektionsliste verwaltet (Abbildung 6-12b, rechts) und können bei Bedarf beispielsweise bei einer irrtümlichen Selektion wieder von der Selektion ausgeschlossen werden. Darüber hinaus ist eine Kombination der beiden Selektionswerkzeuge möglich.
6.2.6.4 Detailwerkzeuge
Im Gegensatz zum NCI Datenbank-Interface (vgl. Abschnitt 6.1) kann die InfVis-Applikation Detailinformationen zu den einzelnen Datenwerten direkt darstellen. Der Benutzer kann dazu mit Hilfe des Mauszeigers einen Datenpunkt innerhalb der 3D-Szene selektieren. Das entsprechende Datenobjekt wird daraufhin in der Szene graphisch hervorgehoben und die korrespondierende Detailinformation im Detailfenster angezeigt (Abbildung 6-13). Wie auch bei den Selektionswerkzeugen kann beim Vorliegen überlagerter oder verdeckter Datenpunkte eine Auswahlliste aufgerufen werden.

Abb. 6-13: Detailwerkzeug des InfVis-Programms (Farbabbildung: Anhang A, Abbildung A-14 c).
Das Detailfenster enthält alle Variablenwerte des entsprechenden Datenpunktes, wobei die Reihenfolge der Dimensionsabfolge im Datensatz entspricht. Darüber hinaus können auch Metainformationen wie Hyperlinks oder Bilder dargestellt werden. So werden im Stringformat kodierte Bilder automatisch erkannt, dekodiert und im Detailfenster eingebettet. Hyperlinks werden in Form von Knöpfen zur Verfügung gestellt, die beim Anklicken einen Webbrowser mit der entsprechenden URL starten.
6.2.7 Implementierung
Wie bereits erwähnt, wurde das InfVis-Programm mit der Programmiersprache Java entwickelt. Um eine möglichst komfortable und ansprechende Bedienungsoberfläche zu gewährleisten kam dabei die in Java2 (Version 1.2 oder höher) enthaltene SWING-Bibliothek zum Einsatz. Die dreidimensionale Darstellung der Datenpunkte wurde mit der Java3D-Erweiterung realisiert, wodurch auch die potentiellen 3D-Graphikfähigkeiten moderner Personalcomputer genutzt werden können. Da die Programmiersprache Java vom Betriebssystem und den zahlreichen Computerplattformen unabhängig ist, kann die Applikation auf nahezu allen Computern eingesetzt werden.
Während der Entwicklung von InfVis wurde darauf geachtet, dass das Programm nicht nur als Standalone-Variante sondern auch als Applet in Web-Anwendungen zum Einsatz kommen kann. Die Applet- und Standalone-Version unterscheiden sich daher auch nur minimal durch ihre Frontends und hinsichtlich der Unterstützung des lokalen Dateizugriffs (Standalone-Version) bzw. von Applet-Parametern (Applet-Version). Obwohl die Applikation 106 Klassen und über 39.000 Zeilen Quellcode umfasst, ist das Programm in komprimierter Form nur ca. 160 KB groß und ein Softwaretransfer über das Internet somit problemlos möglich.
Zur Ausführung der Standalone-Applikation muss eine Java2-unterstützende Java Virtual Machine sowie die Java3D-Erweiterung auf dem Client installiert sein. Analog dazu benötigt die Applet-Version das Java-Plugin, welches von aktuellen Browserversionen standardmässig unterstützt wird und in einigen Versionen wie Netscape 6 oder Mozilla bereits integriert ist, sowie die Java3D-Bibliothek.
6.2.8 Diskussion
Visuelles Data Mining ist in den letzten zwei bis drei Jahren zu einer bedeutenden Technik im Bereich der LifeScience- und Wirkstoffforschung geworden. Dies ist vor allem auf die stetig wachsende Zahl an generierten Daten und der daraus resultierenden Problematik der Datenanalyse zurückzuführen. Während in der chemischen und pharmazeutischen Chemie anfänglich nur das Programm Spotfire [214, 215] zum Einsatz kam, haben in jüngster Zeit auch andere Firmen das enorme Marktpotential des LifeScience-Sektors erkannt und zahlreiche, alternative Applikationen zum visuellen Data Mining entwickelt. Im Folgenden sollen die wichtigsten, für die chemische Forschung relevanten Programme vorgestellt und im Vergleich zur InfVis-Applikation diskutiert werden.
Das bereits erwähnte Programm Spotfire zählt nicht nur zu den ersten kommerziellen, visuellen Data Mining-Applikationen, sondern wurde auch zum erfolgreichsten und weitverbreitesten Vertreter innerhalb der Wirkstoffforschung und im HTS-Bereich. Obwohl Spotfire generell zur Analyse großer Datensätze und nicht speziell zur Verwendung in der Chemie entwickelt wurde, führte der enorme Zuspruch von Seiten der chemischen Industrie in den nachfolgenden Jahren zur Einbettung zusätzlicher chemischer Module wie beispielsweise Strukturbetrachtern. Aktuelle Produkte der gleichnamigen Firma sind heute speziell auf die Bedürfnisse des High Throughput Screening und der Wirkstoffforschung ausgerichtet. Ein Grund für den unerwarteten Erfolg der Anwendung war und ist die intuitive Dynamic Query-Technik, die durch Spotfire erstmals in kommerzieller Form zum Einsatz kam.
Trotz der starken Verbreitung der Anwendung in der chemischen Industrie war die Akzeptanz insbesondere der Laborchemiker zum Teil sehr verhalten. Viele Chemiker fühlten sich durch die vielfältigen Funktionen des Programms überfordert und lehnten eine langwierige Einarbeitungszeit aufgrund des in der chemischen Forschung vorherrschenden Zeitdrucks ab [216]. In anderen vergleichenden Studien zeigten sich darüber hinaus weitere Schwächen [224]. Die in Spotfire übliche Verfügbarkeit und parallele Darstellung verschiedener Visualisierungstechniken erwies sich in zahlreichen Fällen nicht wie geplant als Stärke des Programms, sondern stellte insbesondere für unerfahrene Benutzer ein ernstes Orientierungsproblem dar. Um eine gegebene Problemstellung zu lösen, war in der Regel nur eine der zur Verfügung stehenden Darstellungsformen sinnvoll. Die Benutzer benötigten daher sehr viel Zeit, um diese optimale Darstellung zu finden und eine vernünftige Zuordnung der Datendimensionen für die entsprechende Darstellungsform zu gewährleisten. Des Weiteren wurde beobachtet, dass Benutzer, die sich anfänglich für eine weniger geeignete Visualisierungstechnik entschieden, diese trotz enormer Schwierigkeiten nur widerwillig oder auch garnicht verwarfen, um sie gegen eine geeignetere Technik zu ersetzen. Diese Verhaltensweise verstärkte sich insbesondere bei Problemstellungen, deren Lösungsweg mehrere Einzelschritte umfasste [224]. Weitere Probleme ergaben sich durch die unzureichende Datenintegration sowie die Limitation auf zweidimensionale Scatterplots, was insbesondere bei hochdimensionalen Datensätzen eine schnelle und unkomplizierte Datenanalyse ausschloss. Diese letztgenannten Einschränkungen wurden jedoch in aktuellen Spotfire-Versionen durch Implementierung geeigneter Datenschnittstellen und Verwendung der 3D-Glyph-Technik weitgehend beseitigt. Spotfire kann sowohl als Standalone-Version als auch als Client-Server-Applikation in Microsoft-Netzwerken betrieben werden. Aufgrund des plattformabhängigen Charakters ist jedoch der Einsatz als Web-Applikation im Gegensatz zum InfVis-Programm ausgeschlossen.
Einen ähnlichen Ansatz wie Spotfire verfolgt das relativ neue Programm Partek von der gleichnamigen Firma [225]. Partek basiert auf einer interaktiven Spreadsheet-Darstellung und erlaubt darüber hinaus eine dreidimensionale Scatterplot-Darstellung der Datenpunkte. Als eines der ersten kommerziellen Programme erweiterte die Applikation den visuellen Data Mining-Ansatz durch klassische Data Mining-Techniken. Dabei werden neben statistischen Methoden wie der Principal Component Analysis (vgl. Abschnitt 5.2.1.1) oder dem Multidimensional Scaling (vgl. Abschnitt 5.2.1.2) auch Techniken aus dem Bereich des Machine Learnings wie beispielsweise Neuronale Netze (vgl. Abschnitt 5.2.2) oder genetische Algorithmen (vgl. Abschnitt 5.2.3) unterstützt. Detailinformationen können mit Hilfe des Internet Explorers dargestellt werden. Neben zahlreichen Schnittstellen zum Datenaustausch mit aktuellen Datenbanken verfügt die Applikation auch über diverse chemische Module, die von der Firma MDL im Rahmen eines Kooperationsvertrages zur Verfügung gestellt wurden. Wie auch Spotfire basiert Partek auf Microsoft Windows-Betriebssystemen. Während Spotfire jedoch in einem Microsoft-Netzwerk als Client-Server-Applikation betrieben werden kann, existiert Partek lediglich als Standalone-Version. Bei der Evaluierung des Programms erwiesen sich vor allem die Navigationswerkzeuge als außerordentlich gewöhnungsbedürftig.
Miner3D [226] ist eine weitere Applikation die 3D-Glyphen und dynamische Filterfunktionen zur Exploration von Datensätzen verwendet. Im Gegensatz zu den beiden zuvor erwähnten Applikationen ist Miner3D jedoch speziell für den Einsatz mit dem Tabellenkalkulationsprogramm Excel der Firma Microsoft entwickelt worden. Dementsprechend eingeschränkt stellen sich die vorhandenen Eingabemöglichkeiten dar. Neben einem eigenen Datenformat erlaubt Miner3D nur den Import von Excel-Daten. Die Darstellung der Datenpunkte erfolgt primär durch eine 3D-Glyph-Szene. Allerdings unterstützt Miner3D auch andere Visualisierungstechniken wie Balkendiagramm-Ansichten. Im Gegensatz zu den bereits erwähnten Programmen und der InfVis-Applikation gestattet Miner3D ein Abbilden der Datendimensionen auf fast alle erdenklichen retinalen Eigenschaften wie Größe, Farbe, Form (inkl. Dimensions-abhängige Änderung entlang der x- und y-Achsen), Orientierung, Transparenz und Texturen. Darüber hinaus werden auch diverse akkustische Attribute wie Ton- und Spracherkennung zur Kodierung von Datendimensionen eingesetzt. Wie auch das InfVis-Programm kann Miner3D die 3D-Fähigkeiten moderner Personalcomputer nutzen, da es auf den OpenGL-Standard aufsetzt. Neben den integrierten dynamischen Filterfunktionen verfügt die Applikation über keine Werkzeuge, die eine direkte Selektion von Datenpunkten durch den Benutzer zulassen, wodurch die Extraktion identifizierter Muster stark eingeschränkt ist. Die Ergebnisse des Mining-Prozesses können in Form statischer HTML-Seiten exportiert werden. Des Weiteren können mit dem Miner3DSite-Plugin auch interaktive Darstellungen im Internet Explorer realisiert werden. Letztere Möglichkeit dient jedoch lediglich einer interaktiven Präsentation der Daten und weniger zum visuellen Data Mining. Aufgrund seiner beschränkten Mining-Werkzeuge und vor allem dem stark an Excel angelehnten Einsatz ist Miner3D weniger gut als universell einsetzbare, visuelle Data Mining-Applikation nutzbar.
Ein vollkommen anderes Prinzip zur Darstellung chemischer Datensätze kommt im Programm LeadScope zum Einsatz [227]. LeadScope wurde im Gegensatz zu den bisher erwähnten Applikationen speziell für die Bedürfnisse der medizinischen Chemie entwickelt und basiert auf molekularen Spreadsheets sowie zweidimensionalen Balkendiagrammen. Die Applikation hilft dem medizinischen Chemiker bei der Visualisierung und Interpretation chemischer und biologischer Screeningdaten. Die chemischen Daten werden dabei hinsichtlich struktureller Gemeinsamkeiten hierarchisch geclustert und zur Auswertung in 2D-Balkendiagrammen dargestellt. Durch spezifische, strukturorientierte Filter kann die Darstellung anschließend interaktiv eingeschränkt werden. Dieser hochspezialisierte Ansatz birgt jedoch nicht nur Vorteile. So kann die Applikation aufgrund ihrer Ausrichtung auf bestimmte chemische Teilgebiete und dem Charakter der implementierten Fragmentbibliothek nicht generell für chemische Problemstellungen und Datensätze verwendet werden. Des Weiteren gestaltet sich die Darstellung hochdimensionaler Datensätze aufgrund der begrenzten Darstellungsfähigkeiten der zweidimensionalen Spreadsheets und Balkendiagramme als problematisch. Obwohl LeadScope vollständig mit der Programmiersprache Java entwickelt wurde, unterstützt das Programm nur den Standalone-Betrieb und kann daher nicht als Applet in Web-Anwendungen zum Einsatz kommen.
Schließlich soll noch die High Throughput Experimentation Data Applikation (HTE) der Firma Unilever erwähnt werden [228]. HTE wurde speziell für die Analyse von HTS-Datensätzen entwickelt und basiert im Kern auf OpenVis [229], einer kommerziellen Graphikbibliothek zum visuellen Data Mining der Firma Advanced Visual Systems, die alle grundsätzlichen Funktionen zur Analyse, Visualisierung und Import der Daten bereitstellt. HTE kann sowohl als Standalone- als auch als Netzwerk-Version auf Microsoft-Plattformen betrieben werden. Um HTE ausführen zu können, müssen neben der Applikation selbst auch MS ActiveX8.0 sowie die OpenViz-Bibliothek auf dem Client installiert sein. HTE stellt die chemischen Daten in Form von Parallel Coordinates (vgl. Abschnitt 5.4.2.1), 3D-Scatterplots und einer speziellen Mikrotiterplattendarstellung dar. Obwohl HTE nur als Standalone- bzw. Netzwerkversion zum Einsatz kommt, können mit OpenViz generell auch ActiveX- und Java-basierte Web-Applikationen entwickelt werden. Diese sind jedoch aufgrund ihrer Architektur nur auf Systemen mit Microsoft-Betriebssystemen realisierbar.
Der wichtigste Unterschied und Vorteil des InfVis-Programms im Gegensatz zu den erwähnten kommerziellen Applikationen basiert auf der vollkommen plattformunabhängigen Architektur der Anwendung. Das Programm kann sowohl als Standalone-Version auf diversen Rechnersystemen als auch in Applet-Form in Web-Anwendungen zum Einsatz kommen. Die Applet-Version kann dabei in aktuellen Browser-Versionen mit Hilfe des Java-Plugins ausgeführt werden. Dieser portable Charakter der Applikation wurde dabei sowohl anhand der Standalone- als auch der Applet-Version auf diversen Microsoft- und SGI/Irix-Plattformen getestet. InfVis stellt daher nach unseren Kenntnisstand die erste 3D-Hardware-unterstützende Web-Applikation zum dreidimensionalen, visuellen Data Mining dar. Darüber hinaus zählt InfVis neben dem SRS3D-Modul der Firma LionBioscience [92] zu den ersten Chemieapplikationen, die den neuen Java3D-Standard nutzen.
Ein wichtiger Aspekt bei der Entwicklung von InfVis war die einfache und intuitive Bedienbarkeit des Programms. Benutzerprobleme, wie sie beispielsweise beim Einsatz von Spotfire berichtet wurden, sollten von vorneherein ausgeschlossen werden. Aus diesen Grund wurde im InfVis-Programm bewusst auf zusätzliche Funktionalitäten wie beispielsweise statistischen Methoden oder Clustering-Algorithmen verzichtet. Die Applikation wurde vielmehr als alternatives visuelles Data Mining-Werkzeug für Laborchemiker entwickelt, die im Allgemeinen nicht über das nötige Spezialwissen zum Betreiben klassischer Data Mining-Ansätze verfügen. Das Abbilden der Datendimensionen sowie das Finden der optimalen Datenrepräsentation sollte daher ebenfalls leicht und ohne größere Einarbeitungszeiten möglich sein. Da der Mensch von Natur aus mit dreidimensionalen Welten vertraut ist und viele Chemiker allgemeine Erfahrungen im Umgang mit Scatterplot-Darstellungen besitzen, kam deshalb in der InfVis-Applikation die dreidimensionale Glyph-Technik zum Einsatz. Darüber hinaus stellt diese Visualisierungstechnik nach unserer Auffassung insbesondere für unerfahrene und nicht spezialisierte Benutzer ein geeignetes Instrument zur Darstellung multidimensionaler Datensätze dar. Diese Idee wird unter anderem auch durch die Beobachtung bekräftigt, dass Scatterplot-Techniken (und somit auch die 3D-Glyph-Technik) vor allem für unerfahrene Anwender das geeignete Werkzeug zur Identifikation von Mustern und Beziehungen darstellen [224]. Im Gegensatz zu Spotfire ist in InfVis die Datendarstellung auf Scatterplot- bzw. Scatterplot-ähnliche Techniken begrenzt, so dass der Benutzer nicht erst in einem zeitaufwendigen Prozess die optimale Visualisierungstechnik finden muss. Darüber hinaus wurde die Zahl der möglichen retinalen Eigenschaften im Gegensatz zu Miner3D streng limitiert, da nach unserer Überzeugung zu viele graphische Attribute zu einer Überladung der Szene führen können. Dies kann insbesondere unerfahrene Anwendern verwirren und letztendlich zu einer ablehnenden Haltung gegenüber dem Programm führen. Des Weiteren ist die Verwendung der graphischen Attribute bzw. retinalen Eigenschaften auch stark von den jeweiligen Datensätzen und der entsprechenden Fragestellung abhängig. So ist in vielen Fällen der Einsatz aller zur Verfügung stehenden Attribute nicht sinnvoll, sondern führt vielmehr zu einem erschwerten Explorationsprozess (vgl. Abschnitt 7.1.2).
Durch den offenen und vor allem nicht auf spezifische chemische Fragestellungen ausgerichteten Charakter kann das InfVis-Programm für ein breites Spektrum tabellarischer Datensätze verwendet werden. Dabei ist die Applikation nicht nur auf chemische Daten limitiert. Vielmehr können alle Datensätze eingelesen und analysiert werden, die in einem tabellarischen Format wie beispielsweise Datenbankausgaben oder CSV-Dateien (vgl. Abschnitt 6.2.3) vorliegen. Die Anzahl der darstellbaren Datenpunkte hängt dabei zum einen von der 3D-Performance des Clients als auch von der Visualisierungstechnik ab. Bei Graphikkarten ohne zusätzliche 3D-Funktionalitäten sollte der Datensatz nicht mehr als 500 Datenpunkte umfassen, um eine interaktive Betrachtung der 3D-Szene zu gewährleisten. Bei Nutzung von 3D-Graphikkarten wie beispielsweise einer GeForce-Karte können ohne Probleme zwischen zwei und drei Tausend Datenpunkte in der Glyph-Technik sowie mehrere Tausend Datenpunkte in der Scatterplot-Darstellung repräsentiert werden.
Vor allem der plattformunabhängige und portable Charakter und die damit verbundenen Einsatzmöglichkeiten in firmeninternen Informationssystemen machen InfVis für den Einsatz in der chemischen Industrie interessant. Die Applikation erregte daher bereits in der fortgeschrittenen Entwicklungsphase Interesse bei Industrievertretern und wurde unter anderen von den Firmen Novartis und Avantium evaluiert.
Die Fähigkeiten des InfVis-Programms werden in Kapitel 7 anhand diverser Anwendungsbeispiele genauer erläutert. Der Einsatz des Programms sowie die Entwicklung einer leistungsfähigen, auf der Applet-Version basierenden Web-Applikation wird im folgenden Abschnitt beschrieben.
6.3 NCI Screening Data 3D Miner
6.3.1 Zielsetzung
Die Zielsetzung des Online-Dienstes entsprach im Wesentlichen der des VRML-basierten NCI Datenbank-Interfaces (vgl. Abschnitt 6.1). Allerdings sollte in diesem Fall die Applet-Version des InfVis-Programms (vgl. Abschnitt 6.2) zum visuellen Data Mining der Antitumor-Screeningdatensätze zum Einsatz kommen. Darüber hinaus sollten neben den eigentlichen Screeningdaten auch weitere molekulare Eigenschaften wie beispielsweise der logP-Wert oder das Molgewicht mit in den analytischen Prozess integriert werden.
6.3.2 Funktionsbeschreibung
Im Gegensatz zum prototypischen Online-Dienst aus Abschnitt 6.1 wurde diese Web-Anwendung als eigenständiger und öffentlich zugänglicher Service entwickelt. Der Service verfügt daher über zahlreiche Suchfunktionen sowie Parameter zur Beeinflussung der Daten und der graphischen Darstellung. Einige dieser Funktionalitäten wie beispielsweise die durch einen Java-Editor vermittelte Struktur- und 3D-Pharmakophoreingabe wurden dabei aus dem Enhanced CACTVS NCI Database Browser [93] übernommen und sollen daher an dieser Stelle nicht näher erläutert werden. Vielmehr werden die spezifischen Neuerungen und Funktionalitäten in Hinblick auf die Screeningdaten detaillierter beschrieben.

Abb. 6-14: Eingabeformular des NCI Screening Data 3D Miners. (Hier geht es zum Online-Service.)
Die Eingangsseite des Online-Dienstes ist in Abbildung 6-14 dargestellt. Die Abbildung zeigt die Navigationsleiste sowie das eigentliche Eingabeformular (Query Form) zur Definition der diversen Suchkriterien. Die Navigationsleiste beinhaltet die Namen bzw. Verknüpfungen zu den vier wichtigsten Stufen bzw. HTML-Seiten, die der Benutzer während der Online-Sitzung durchlaufen müssen (Structure Editor, Query Form, Data Display Settings, 3D Visualization/Mining). Darüber hinaus enthält die Navigationsleiste noch zusätzliche Links zu statischen HTML-Seiten, die vor allem zusätzliche Information zur Bedienung und Beschreibung des Online-Dienstes enthalten (Help, News, Credits).
Die 'Structure Editor'-Seite dient zur Eingabe von Strukturen und 3D-Pharmakophoren und muss lediglich bei entsprechenden Suchanfragen wie beispielsweise Substruktur- oder Ähnlichkeitssuchen bearbeitet werden. Da dieser Teil des Services vom Enhanced CACTVS NCI Database Browser übernommen wurde, soll im Folgenden nicht näher darauf eingegangen werden. Der Aufbau des Eingabeformulars (Query Form) basiert ebenfalls zum Teil auf dem Eingabeformular des Enhanced Database Browsers. Allerdings wurde die Eingabeseite um einige spezifische Suchfunktionen für die Screeningdaten erweitert und in vielen Bereichen überarbeitet. Das Formular besteht im oberen Teil aus drei identischen Query-Feldern zur Definition struktureller bzw. molekularer Suchkriterien. Der Benutzer kann dabei unter anderem nach Namen oder Namensfragmenten, CAS- und NSC-Nummern, Summenformeln, Molgewicht und logP-Werten, Anzahl der H-Donoren und H-Akzeptoren, Zahl der frei rotierbaren Bindungen, Druglikeness oder auch definierten Substrukturen oder strukturell ähnlichen Verbindungen suchen. Die Inhalte dieser drei Eingabefelder können auch mittels des Negate-Knopfes als Ausschlusskriterien für die Datenbanksuche definiert werden. Das vierte QueryFeld dient der Definition spezifischer Screeningdatenkriterien. So kann der Benutzer Werte oder Wertebereiche für die Wachstumshemmung (GI50), den cytotoxischen (LC50) oder auch den cytostatischen Effekt (TGI) definieren und entscheiden, ob das Kriterium nur für eine beliebige Krebszelle oder für alle Krebszelllinien erfüllt sein muss. Alle Suchfelder können durch logische AND, OR oder XOR-Bedingungen kombiniert werden. Im unteren Teil des Formulars kann der Benutzer zudem Angaben über das Ausgabeformat (Tabelle, Tabelle mit Strukturplots, Tabelle mit einigen Beispielstrukturplots) sowie die Reihenfolge (auf- und absteigende Sortierung nach NSC- und CAS-Nummern, Anzahl der Atome, Molgewicht, Komplexität, GI50, LC50 und TGI-Werten) der Suchergebnisse vornehmen.
Nachdem die Datenbanksuche erfolgreich abgeschlossen wurde, werden die erhaltenen Verbindungen in einer dynamisch generierten HTML-Seite in Form einer Trefferliste angezeigt (Abbildung 6-15, unterer Teil). Die erhaltene Trefferliste liefert dem Benutzer die wichtigsten Daten zu den jeweiligen Verbindungen wie beispielsweise den Namen oder die CAS-Nummer. Falls dem Anwender diese Angaben nicht genügen, kann auch ein spezifisch kodierter Hyperlink zum Enhanced CACTVS NCI Database Browser genutzt werden, um alle verfügbaren Detailinformationen zu der jeweiligen Verbindung in einem zweiten Browserfenster darzustellen. Mit Hilfe von Checkboxen kann der Benutzer anschließend die für ihn interessanten Strukturen für eine weitergehende Analyse im InfVis-Applet selektieren. Falls die Trefferliste allerdings nicht die gewünschten Verbindungen enthält, ist auch eine Benutzer-definierte Reorganisation der Trefferliste wie beispielsweise die Anzeige des nächsten Trefferblocks möglich.

Abb. 6-15: Dynamisch generiertes HTML-Eingabeformular zur Selektion der chemischen Verbindungen, Krebszelllinien, Konzentrationen, Aktivitätsdaten und molekularen Eigenschaften.
Wie auch im VRML-Prototyp müssen neben den chemischen Verbindungen auch die gewünschten Krebszelllinien zur Analyse der Struktur-Aktivitätsbeziehungen ausgewählt werden. Durch Betätigung des 'Select Cell Lines'-Knopfes im Eingabeformular wird ein separates Fenster geöffnet das dem Benutzer im Gegensatz zur Web-Applikation aus Abschnitt 6.1 eine Vielzahl an diversen Selektionsmöglichkeiten bietet (Abbildung 6-16).
So kann der Benutzer neben der Wahl von Wirkortsklassen auch jede einzelne der sechzig Krebszelllinien selektieren. Des Weiteren erlaubt das Formular die Auswahl von Krebszellen nach weiteren funktionellen Kriterien wie beispielsweise die Selektion von Zelllinien mit einer niedrigen Multi-Drug Resistance (MDR) [230] oder einer p53-Wildtyp bzw. -Mutanten-Funktionalität [231]. Die selektierten Zelllinien werden anschließend wieder an das Daten-Selektionsformular (Abbildung 6-15) zurückgeliefert und dort unter Verwendung von Java-Skript-Variablen gespeichert.

Abb. 6-16: Ausschnitt aus dem Krebszelllinien-Selektionsformular.
Während im NCI Datenbank Interface immer nur eine der drei vorhandenen biologischen Aktivitäten betrachtet werden konnte, erlaubt der NCI Screening Data 3D Miner die parallele Analyse der cytotoxischen, cytostatischen sowie wachstumhemmenden Effekte. Die gewünschten Aktivitäten müssen dazu mit Hilfe von Checkboxen selektiert werden. Wie auch beim VRML-Pendant werden bei der Datenbanksuche alle Substanzkonzentrationen für die in der Trefferliste enthaltenen Verbindungen ermittelt und im Anschluss im Datenselektionsformular zur Auswahl gestellt. Während der Selektion der einzelnen Verbindungen, Krebszellen und biologischen Aktivitäten wird mit Hilfe einer auf Java-Skript basierenden Rechenfunktion automatisch die Anzahl der Datenpunkte berechnet (Abbildung 6-15, No. of Datapoints). Da es sich bei dieser Funktion um eine simple Hochrechnung der möglichen, sich aus der Datenselektion ergebenen Kombinationen handelt aber nicht alle dieser Kombinationen in der Datenbank enthalten sein müssen, ist die berechnete Zahl der Datenpunkte in der Regel größer als die tatsächliche Zahl der resultierenden Datenpunkte. Für den Benutzer stellt diese Funktion aber dennoch ein geeignetes Hilfsmittel dar, weil er damit eine ungefähre Vorstellung von der Größe des resultierenden Datensatzes erhält und gegebenenfalls, zum Beispiel im Fall einer leistungsschwächeren Graphikkarte, die Zahl der Datenpunkte durch Überarbeitung der Selektionsangaben verändern kann.
Im Gegensatz zum NCI Datenbank Interface stehen im nachfolgenden visuellen Data Mining-Prozess nicht nur die Aktivitätswerte zur Verfügung. Vielmehr kann der Benutzer zusätzliche molekulare Dimensionen wie Molgewicht, Anzahl der H-Donoren und H-Akzeptoren, Anzahl der frei rotierbaren Bindungen, logP-Werte oder die Verbindungskomplexität mit in den Datensatz aufnehmen und während des visuellen Data Minings zum Beispiel in Form von Dynamic Query-Filtern nutzen. Schließlich enthält das Datenformular noch einige Optionen, mit denen sich die graphische Darstellung im InfVis-Applet beeinflussen lässt. So kann zum Beispiel die Visualisierungstechnik (Glyph, Scatterplot, Barchart) oder auch die Reihenfolge der chemischen Verbindungen auf der x-Achse festgelegt werden.
Nachdem der Benutzer den 'Visualize & Mine Data'-Knopf betätigt hat, wird ein temporärer Datensatz entsprechend der Selektionsangaben generiert und zusammen mit dem InfVis-Applet an den Client übermittelt (Abbildung 6-17). Das Browserfenster enthält neben dem Applet zwei Hyperlinks zum Aufruf des Applet-Manuals oder einer kurzen Zusammenfassung der Systemvoraussetzungen. Der generierte Datensatz wird beim Start des Applets automatisch eingelesen und in Abhängigkeit zu den Applet-Parameterangaben dargestellt. Dabei werden durch die Applet-Parameter die in Tabelle 6-1 aufgelisteten Zuordnungen definiert.

Tab. 6-1: Zuordnung der Datendimensionen auf retinale Eigenschaften.
Graphisches Attribut
Datendimension
x-Achse
NSCNr, kategorisch
y-Achse
Biologische Aktivität, numerisch
z-Achse
Krebszelllinien, kategorisch
Form
Typ der biol. Aktivität, kategorisch
Farbe
Biologische Aktivität, numerisch
Größe
Keine Zuordnung

Dieser Zuordnungsvorschlag kann vom Benutzer zu jedem Zeitpunkt wieder geändert werden. Der Datensatz kann im Folgenden mit allen in InfVis verfügbaren Werkzeugen und Funktionen analysiert werden. Neben den im Datenselektionsformular definierten Datendimensionen enthält der transferierte Datensatz auch Metainformation in Form von Hyperlinks. Mit Hilfe dieser Hyperlinks können für jeden Datenpunkt detaillierte Informationen zu der jeweiligen Verbindung aus dem Enhanced CACTVS NCI Database Browser in einem zweiten Browserfenster dargestellt werden.

Abb. 6-17: InfVis-Applet mit ausgewählten Daten aus dem Datenselektionsformular.
6.3.3 Implementierung
Da der NCI Screening Data 3D Miner zum gleichen Zweck wie das NCI Datenbank Interface (vgl. Abschnitt 6.1) entwickelt wurde, weisen die zugrundeliegenden Prozessabläufe starke Parallelen auf. Die schematische Prozessdarstellung des NCI Screening Data 3D Miner in Abbildung 6-18 hebt deshalb vor allem die grundsätzlichen Unterschiede zwischen den beiden Online-Diensten hervor. Die Prozesse zur Detaildarstellung durch den Enhanced CACTVS NCI Database Browser werden zur Vereinfachung nur angedeutet. Wie auch das NCI Datenbank Interface basiert die vorliegende Online-Anwendung sowohl auf der CACTVS-Datenbank (250.000 Verbindungen mit molekularen Eigenschaften) als auch auf der MySQL-Datenbank (41.000 Verbindungen mit Screeningdaten). Während der Online-Dienst aus Abschnitt 6.1 eine Verbindungssuche ausschliesslich mit Hilfe der in der CACTVS-Datenbank enthaltenen molekularen Eigenschaften erlaubt, können im vorliegenden Fall auch die biologischen Aktivitäten der MySQL-Datenbank zur Ermittlung der Struktur-Trefferliste herangezogen werden. Dieser optionale Suchmechanismus ist in Abbildung 6-18 durch eine gepunktete Linie dargestellt.
Abb. 6-18: Schematische Darstellung einer Datenvisualisierungssitzung mit dem NCI Screening Data 3D Miner. Die gepunkteten und gestrichkelten Pfade stellen optionale Prozesse dar.
Nach der Selektion der chemischen Verbindungen, Krebszellen und biologischen Aktivitätsdaten werden vom CGI-Skript die entsprechenden Daten mittels einer SQL-Abfrage aus der MySQL-Datenbank abgerufen und der resultierende Datensatz als temporäre Datei abgespeichert. Im Gegensatz zum NCI Datenbank Interface können darüber hinaus weitere molekulare Eigenschaften wie beispielsweise das Molgewicht oder der logP-Wert in den Datensatz integriert werden. Dabei fragt das CGI-Skript die entsprechenden Daten zu den jeweiligen Verbindungen aus der CACTVS-NCI-Datenbank ab. Diese ebenfalls optionale Funktion wird in Abbildung 6-18 durch eine gestrichelte Linie dargestellt.
Schließlich erfolgt die Übertragung und Visualisierung der Daten. Dieser Schritt stellt dabei den maßgeblichen Unterschied zum VRML-Ansatz dar. Im Fall des NCI Datenbank Interfaces werden die ermittelten Daten vom CGI-Skript in eine VRML-Szene umgewandelt und diese anschließend an den Client übertragen. Im Gegensatz zu diesem auf einem Graphiktransfer basierenden Ansatz kommt im NCI Screening Data 3D Miner eine Kombination aus Datentransfer (temporärer Datensatz) und Softwaretransfer (InfVis-Applet) zum Einsatz. Während der visuelle Data Mining-Prozess dadurch komplett auf der Clientseite durchgeführt werden kann, ist im VRML-Datenbank-Interface eine visuelle Datenanalyse nur durch Interaktion von Client und Server (hybrider Ansatz) möglich. Die Vorteile des Client-seitigen Ansatzes gegenüber einer Client-Server-verteilten Data Mining-Sitzung werden im nächsten Abschnitt erläutert.
Der durch Hyperlinks vermittelte Aufruf des Enhanced CACTVS NCI Database Browser zur Darstellung zusätzlicher Detailinformation ist auch im vorliegenden Online-Dienst möglich. Die schematische Darstellung dieser Funktionalität ist in Abbildung 6-18 nur andeutungsweise skiziert (rautiertes Rechteck, rechts unten).
6.3.4 Diskussion
Während im Abschnitt 6.1.4 die VRML-Ansätze im visuellen Data Mining vorgestellt und im Vergleich mit dem NCI Datenbank Interface diskutiert wurden, sollen im Folgenden die auf Java basierenden Web-Applikationen sowie deren Vergleich mit dem NCI Screening Data 3D Miner im Vordergrund stehen.
Eine sehr umfangreiche Sammlung an Java-basierten Datenvisualisierungstechniken stellt das Programmpaket NetCharts der Firma VisualMining zur Verfügung [232]. Die Applet-Sammlung umfasst dabei zahlreiche Darstellungen wie beispielsweise Balkendiagramme, Box Charts, Pie Charts, Combo Charts, Linien- und Kurven-Graphen oder 2D-Scatterplots. Des Weiteren können die Diagramme durch einige interaktive Basisfunktionen wie Scrolling, Zooming und Rotation beeinflusst werden. NetCharts wurde vor allem für eine komfortable und interaktive Datenpräsentation und weniger zur interaktiven Exploration bzw. zum visuellen Data Mining von Datensätzen entwickelt. Aus diesem Grund stehen auch keine speziellen, für visuelles Data Mining essentiellen Interaktionswerkzeuge wie zum Beispiel Dynamic Query-Filter zur Verfügung.
Ein höheres Maß an Interaktion bieten zum Teil die Softwareprodukte (Data Vista Exploerer, Data Vista Screener, VantagePoint) der Firma Visualize [233]. Die Programmpakete basieren auf einer Client-Server-Architektur und enthalten ein auf die jeweilige Aufgabenstellung angepasstes Applet zur Visualisierung und Analyse der Daten. Leider variieren die verfügbaren Funktionalitäten zwischen den einzelnen Applikationen sehr stark, wobei entweder die Datenvisualisierung oder die Datenfilterung im Vordergrund steht. So unterstützen der Data Vista Explorer und die VantagePoint-Applikation diverse Visualisierungstechniken wie Balkendiagramme, Scatterplots oder HeatMaps. Allerdings verfügen diese beiden Programme nur über einfache Interaktionstechniken. Da hier bevorzugt hierarchische Daten im Fokus des Interesses liegen, sind vor allem die implementierten Drill-Down-Funktionalitäten komfortabel. Dynamische Filterfunktionen stehen aber auch hier nur in sehr rudimentärer Form oder garnicht zur Verfügung.
Fortgeschrittenere Techniken sind hingegen im Data Vista Screener enthalten. Allerdings stellt diese Applikation die Daten lediglich in tabellarischer Form oder als Ein-Balkendiagramm dar, wobei keine weiteren Navigations- und Interaktionsmöglichkeiten zur Verfügung stehen. Darüber hinaus ist die Bedienung der Filterfunktion umständlich, wenig intuitiv und nicht dynamisch. Die Filterung wird in einem separaten Fenster zur Verfügung gestellt. Allerdings muss der Benutzer dazu die zu filternde Dimension aus einer Liste heraussuchen und die Grenzwerte manuell in Textfelder eintragen. Dynamische Schieberegler für die einzelnen Datendimensionen werden nicht unterstützt. Aufgrund der fehlenden Dynamik, der dieser Ansatz birgt, kann der Benutzer nicht unmittelbar die Folgen seiner Interaktion beobachten und gegebenenfalls darauf reagieren. Vielmehr muss der Anwender nach Betrachtung der Szene erneut das Filterfenster aufrufen, um seine Auswahl zu korrigieren. Der für visuelles Data Mining notwendige Feedback-Mechanismus entfällt somit. Warum die Darstellungsfähigkeiten des Data Vista Explorers nicht mit den Filterfunktionen des Data Vista Screeners kombiniert werden, ist mir unverständlich. Darüber hinaus können nur numerische Daten mit Hilfe der Programme dargestellt werden.
VisMine von Hewlett Packard basiert ebenfalls auf einer Client-Server-Architektur [234]. Die Applikation besteht zum einen aus einer auf einem Server installierten Data Mining Engine und zum anderen aus einem Java-Benutzerinterface, das auf dem Client ausgeführt wird. Im Gegensatz zu den anderen, in diesem Kapitel erwähnten Applikationen enthält VisMine keine eigenen Techniken bzw. Anwendungen zur Visualisierung der Datenpunkte. Vielmehr erfolgt die Visualisierung der Daten mit externen portablen Informationsvisualisierungs-Werkzeugen, die mit dem Client-seitigen Interface verbunden werden können. Dabei kommen unter anderem das Star Tree-Applet der Firma Inxight (Darstellung hierarchischer Datensätze) [235] sowie die 3D Master Suite der Firma Template Graphics Software (TGS) [236] zum Einsatz. Die Client-seitige VisMine-Schnittstelle ermöglicht zum einen den Datentransfer zu den externen Visualisierungsapplikationen und zum anderen die Rückgabe von Benutzerinteraktionen innerhalb der externen Applets an die VisMine-Architektur. Da VisMine ebenfalls über keine zusätzlichen Interaktionswerkzeuge verfügt, kann zur Analyse der Datensätze nur auf die in den Visualisierungsapplets implementierten Funktionalitäten zurückgegriffen werden.
So erlaubt das Star Tree-Applet nur die Navigation durch eine hyperbolische Baumstruktur sowie die Abfrage von Detailinformationen. Letztere Funktionalität wird von VisMine verwendet, um einen entsprechenden Data Mining Prozess zu starten und die resultierenden Daten an das Applet zurückzusenden. Die 3D Master Suite ist eine in Java implementierte, OpenGL-unterstützende OpenInventor-Variante und ermöglicht daher im Gegensatz zum Star Tree-Applet eine Vielzahl verschiedener Visualisierungstechniken. Darüber hinaus können die Daten durch diverse Techniken modifiziert werden. Da OpenInventor in erster Linie zur Datenvisualisierung und nicht zum visuellen Data Mining entwickelt wurde, fehlen auch hier spezielle, explorative Interaktionswerkzeuge. VisMine kann daher vor allem zur "bestätigenden" Informationsvisualisierung eingesetzt werden und entspricht im Grunde dem Ansatz aus Abbildung 5-3a. Eine explorative Informationsvisualisierung ist hingegen nur bedingt möglich.
Eine Applikation, die alle Voraussetzungen einer visuellen Data Mining-Anwendung erfüllt, ist die Java-Applikation Parallel Coordinate Tool von Haller et al. [237]. Wie der Name schon zu erkennen gibt, basiert die Anwendung auf der Parallel Coordinates-Technik (vgl. Abschnitt 5.4.2.1). Obwohl diese Technik hervorragend zur Darstellung hochdimensionaler Datensätze geeignet ist, setzt diese spezielle Visualisierungsform ein gewisses Maß an Erfahrung voraus. Insbesondere der im Umgang mit Visualisierungstechniken ungeübte Benutzer muss unter Umständen erst an die auf dem ersten Blick abstrakte Technik herangeführt werden.
Wie auch die Parallel Coordinate-Applikation enthält das InfVis-Applet alle notwendigen Funktionen zur Datenvisualisierung als auch eine Vielzahl essentieller Data Mining-Werkzeuge. Damit zählt das InfVis-Applet zu den seltenen WWW-fähigen Web-Applikationen, die nicht nur auf die Präsentation limitiert sind, sondern ein komfortables, visuelles Data Mining ermöglichen. Im Gegensatz zum Parallel Coordinates-Applet basiert InfVis auf der 3D-Glyph-Technologie, die nach unserer Überzeugung eine intuitive und natürliche Datenvisualisierung ermöglicht und daher auch von unerfahrenen Benutzern ohne zusätzliche Vorkenntnisse eingesetzt werden kann. Des Weiteren verwendet InfVis die plattformunabhängige Graphikschnittstelle Java3D. Dieser Ansatz ermöglicht zum einen die Realisierung portabler, Hardware-unterstützter 3D-Hochleistungsgraphiken und erlaubt zum anderen die Nutzung des enormen Graphikpotentials heutiger Personalcomputer. Die bereits erwähnte 3D Master Suite von TGS verfolgt das gleiche Ziel. Jedoch kommt hier anstelle der Java3D-Erweiterung die OpenInventor-Bibliothek zum Einsatz, die ebenfalls auf OpenGL aufbaut und damit Graphikfunktionen der Client-Hardware nutzen kann. Während Java3D frei und für alle aktuellen Rechnerplattformen erhältlich ist, handelt es sich bei der OpenInventor-Bibliothek um ein kommerzielles Produkt, welches nur für Windows-, Solaris- und Linux-Systeme zur Verfügung steht. Darüber hinaus wird die aktuelle Java-Version 1.4 nicht unterstützt.
Im Gegensatz zu anderen Client-Server-basierten Data Mining-Ansätzen, sind im InfVis-Applet alle zum visuellen Data Mining notwendigen Funktionalitäten integriert. Diese rein Client-seitige Strategie birgt dabei viele Vorteile. Ein entscheidender Vorteil ist, dass die relativ kompakten Rohdaten direkt an den Client übermittelt werden können, während bei einem Graphiktransfer-Ansatz wie beispielsweise dem auf VRML basierenden NCI Datenbank Interface die Rohdaten zunächst auf der Serverseite in eine wesentlich größere, graphische Form überführt werden müssen, was zum einen zeitaufwendig ist und zum anderen zu längeren Übertragungszeiten führt. Des Weiteren kann durch einen Client-seitigen Ansatz ein Maximum an Interaktivität realisiert werden. Da die Rohdaten direkt auf dem Client zur Verfügung stehen, können alle Operationen ohne eine zeitaufwendige Serveranfrage interaktiv und unmittelbar durchgeführt werden. Somit ist die InfVis-Applikation weder von der Netzwerklast noch von der Bandbreite des Netzwerkes abhängig.
Das InfVis-Applet ist nach unserem Kenntnisstand einzigartig, da es sowohl Visualisierungs- als auch Interaktionstechniken, die bis dato nur auf einigen wenigen, plattformabhängigen Standalone-Programmen zur Verfügung standen, in einer portablen, plattformunabhängigen Form realisiert.
Der Online-Dienst zeigt, dass durch die offene Architektur (Handhabung beliebiger numerischer und kategorischer Datensätze) der InfVis-Applikation auf bestimmte Problem- und Aufgabenstellungen ausgerichtete Anwendungen realisiert werden können. So erlaubt der NCI Screening Data 3D Miner zunächst eine leistungsfähige, Server-seitige Datenbanksuche und eine anschließende Client-seitige Analyse des vorselektierten Datensatzes durch das InfVis-Applet. Die Funktionalitäten des Online-Dienstes übertreffen sowohl die des NCI Datenbank Interfaces (vgl. Abschnitt 6.1), als auch die der Online-Werkzeuge des amerikanischen Krebsforschungsinstituts [202]. Vor allem die Möglichkeit zusätzliche molekulare Eigenschaften mit in den Data Mining-Prozess zu integrieren, war bis dato nur den klassischen, auf Standalone-Applikationen basierenden Data Mining-Verfahren vorbehalten. Der NCI Screening Data 3D Miner stellt deshalb nach unserem Wissen das umfangreichste Online-Analyse-Tool für die Antitumor-Datensätze des National Cancer Institutes dar.
Der Online-Dienst wurde vor wenigen Monaten auf unserem Web-Server eingerichtet, allerdings noch nicht durch Bekanntmachungen in entsprechenden Mailinglisten und Foren einem breiteren, wissenschaftlichen Publikum vorgestellt.
6.4 Ausblick
Die im Rahmen dieser Arbeit verwendeten, dreidimensionalen Visualisierungstechniken wie Balkendiagramme, Scatterplots und die 3D-Glyph-Technik erlauben eine intuitive Darstellung und Analyse tabellarischer Datensätze. Insbesondere der Glyph-Ansatz eignet sich dabei aufgrund der Vielzahl verfügbarer, graphischer Attribute wie Form, Farbe oder Größe der graphischen Objekte zur Darstellung multidimensionaler Datensätze. Da diese Ansätze die 3D-Fähigkeiten aktueller Graphikkarten nutzen, hängt die Anzahl der darstellbaren Datenpunkte unmittelbar von der Graphikleistung des Clients ab. So können bei Verwendung einfacher 2D-Graphikkarten lediglich einige Hundert Datenpunkte dargestellt werden, während spezielle 3D-Graphikkarten wie die GeForce-Serie die Visualisierung einiger Tausend Datenpunkte ermöglichen. Eine Visualisierung extrem großer Datensätze (10 Tausend bis 1 Million Datenpunkte) ist aufgrund der enormen, hierfür notwendigen Rendering-Kapazitäten auch nicht mit aktueller 3D-Graphikhardware mit der gewünschten und notwendigen Interaktionsrate möglich. Aus diesem Grund wurde von unseren ChemVis-Projektpartner an der Universität Stuttgart ein alternativer, Textur-basierter Informationsvisualisierungsansatz entwickelt [238].
Texturen setzen im Gegensatz zu Isoflächen-Darstellungen keine speziellen Rendering-Kapazitäten voraus. Vielmehr nutzt diese Technologie vorhandene Rasterisierungs- und Multitexturing-Verfahren moderner Graphikkarten. Während auf Rendering aufbauende Techniken wie der 3D-Glyph-Ansatz unmittelbar von der Anzahl der durch Polygone dargestellten Datenpunkte abhängen, ist die Auflösung des Textur-Ansatzes nur durch die Größe der Textur und somit letztendlich durch die Speicherkapazitäten der Graphikhardware limitiert. Eine direkte Abhängigkeit von der Anzahl der Datenpunkte besteht nicht. Textur-basierte Techniken erlauben daher auch die Darstellung mehrerer Millionen Datenpunkte. Die Anzahl der darstellbaren Datendimensionen ist jedoch im Gegensatz zur Glyph-Visualisierungstechnik eingeschränkt. In Textur-Ansätzen wird ein Datenpunkt durch ein sogenanntes Voxel (dreidimensionales Analogon zum Pixel) dargestellt (vgl. Abschnitt 5.4.2.3). Deshalb stehen nur die drei orthogonalen Achsen sowie die Farbe und Transparenz als mögliche graphische Attribute zur Verfügung.
Dieser Ansatz wird zur Zeit im Rahmen einer Doktorarbeit an der Universität Stuttgart weiterentwickelt. Nach der Entwicklung einer entsprechenden Applikation soll schließlich eine Schnittstelle zum InfVis-Ansatz implementiert werden. So kann der Benutzer beispielsweise zunächst den Textur-Ansatz nutzen, um einen Überblick über den vorliegenden Datensatz zu erhalten. Mit Hilfe der dort vorhandenen Data Mining-Werkzeuge ist der Anwender in der Lage, interessante Datenpunkte oder Regionen zu selektieren und zu einer weiterführenden Analyse an das InfVis-Programm zu übermitteln. Hier kann dann der Datensatz auf gewohnte Weise einem weiterführenden, visuellen Data Mining unterzogen werden.


PREV
NEXT

Copyright © 2003, Frank Oellien, Universität Erlangen-Nürnberg. All rights reserved.