PREV
NEXT

Kapitel 5
Data Mining und Datenvisualisierung
Dieses sowie die zwei folgenden Kapitel beschäftigen sich mit dem zweiten thematischen Schwerpunkt dieser Arbeit - der Visualisierung und dem Data Mining von großen, multidimensionalen und multivariaten Datensätzen. Der erste Teil des Kapitels beschreibt zunächst die diversen Begriffsdefinitionen und Eigenschaften des Data Mining (DM) und betrachtet dabei die Aufgabe des Data Minings im chemischen Alltag. Darüber hinaus werden die wichtigsten, in der chemischen und pharmazeutischen Forschung eingesetzten Data Mining-Methoden erläutert.
Die im Rahmen dieser Arbeit entwickelten Methoden und Applikationen basieren auf einer besonderen und neuartigen Form des Data Mining - dem Visuellen Data Mining. Der zweite Teil des Kapitels 5 widmet sich deshalb diesem speziellen Forschungsfeld und beschreibt die grundsätzlichen Merkmale und Ansätze von visuellen Data Mining-Techniken. Dabei werden ebenfalls die Vorteile des visuellen Data Minings gegenüber den klassischen Data Mining-Ansätzen erläutert.
Visuelles Data Mining basiert auf Techniken der Informationsvisualisierung. Der letzte Teil dieses Kapitels widmet sich deshalb den unterschiedlichen Ansätzen der Informationsvisualisierung.
5.1 Data Mining und Knowledge Discovery in der Chemie
Mehr als in anderen wissenschaftlichen Disziplinen beruht der Alltag in der Chemie und hier insbesondere in der Wirkstoffentwicklung zu großen Teilen auf der Abfrage und Analyse von bereits bestehendem Wissen. So nutzen Chemiker während des langjährigen Entwicklungsprozess eines Medikaments unter anderem Erfahrungen und vorhandenes Wissen über Struktur-Aktivitäts-Beziehungen, Syntheseregeln, Löslichkeiten und toxikologische Verhaltensweisen. Bis zur Marktreife eines neuen Medikaments werden dabei nicht nur große Mengen an bestehendem Wissen genutzt, sondern auch Unmengen an neuen Daten generiert sowie größenordnungsmäßig 15 Jahre Forschungszeit und zwischen 500 - 800 Millionen US Dollar investiert. Um den Zeitbedarf und die Entwicklungskosten zu verringern, wurde eine Reihe von neuen, automatisierten Labortechniken wie beispielsweise die kombinatorische Chemie, das High-Throughput-Screening (HTS) als auch Syntheserobotikanlagen entwickelt, die die Zahl der synthetisierten und getesten, potentiellen Wirkstoffverbindungen erhöhen sollten. Durch den mittlerweile routinemäßigen Einsatz dieser Techniken werden heute Datenvolumina generiert, die um mehrere Größenordnungen höher sind als die Zahl der durch herkömmliche Ansätze erhaltenen Versuchsergebnisse. Diese Daten werden dabei in Datenbanken gespeichert und können bei Bedarf wieder abgefragt werden. Das weitaus größere Potential der generierten Daten liegt jedoch in den in ihnen verborgenen Information, die sich aus den Relationen zwischen den gesammelten Daten ergibt. Diese implizit in den Daten enthaltene Information wie beispielsweise die Ähnlichkeit zwischen verschiedenen Strukturdaten ist der zentrale Schlüssel für die Generierung von chemischen Modellen sowie zur Vorhersage von allgemeinen, chemischen Sachverhalten.
Das Ziel der Wirkstoffforschung ist daher in erster Linie nicht die Generierung von Unmengen an Daten, sondern die Extraktion des in den Daten verborgenen, chemischen Wissens. Der dabei durchlaufende Prozess wird als Data Mining, Knowledge Discovery in Databases (KDD, Wissensextraktion aus Datenbanken) oder auch als Information Retrieval (IR) bezeichnet. Dabei werden in zahlreichen auf diesem Gebiet erschienenen Veröffentlichungen diese drei Begriffe teilweise sehr unterschiedlich definiert. Dies äußert sich unter anderem dadurch, dass in der Informatik deutlich zwischen Data Mining, KDD und Information Retrieval unterschieden wird während in anderen Gebieten wie beispielsweise der Chemoinformatik diese drei Begriffe häufig Synonyme für den gleichen Vorgang sind. Es soll daher an dieser Stelle nicht der Versuch einer korrekten Begriffsdefinition unternommen sondern vielmehr die wesentlichen Eigenschaften und Eigenheiten des Data Mining sowie dessen Rolle in der chemischen Forschung erläutert werden.
Die grundsätzlichen Stufen des KDD-Prozess sind in Abbildung 5-1 schematisch dargestellt.
Abb. 5-1: Schematische Darstellung des KDD-Prozessablaufs.
Das Schema basiert dabei auf der allgemein anerkannten Definition des KDD-Begriffs von Fayyad [129]:
"Wissensentdeckung in Datenbanken ist der nichttriviale Prozess der Identifizierung gültiger, neuartiger, potentiell nützlicher und verständlicher Muster in (großen) Datenbeständen."
Die einzelnen Prozessstufen wie Datenpräparierung, -auswahl, -säuberung, die Integration geeigneten apriori-Wissens sowie eine entsprechende Interpretation und Analyse der Ergebnisse sorgen schließlich dafür, dass wirklich nützliches und neues Wissen aus den Daten abgeleitet werden kann.
In der Vorverarbeitung der Daten wird dabei vor allem das Hintergrundrauschen minimiert und/oder fehlende Daten zur selektierten Datenmenge hinzugefügt. Durch anschließende Datenreduktions- und Projektionstechniken werden die in der Regel hochdimensionalen Datensätze in leichter handhabbare, niederdimensionale Daten transformiert. Der nachfolgende Analyseschritt ist die zentrale und wichtigste Stufe im gesamten Prozessablauf und beinhaltet diverse Analyseverfahren zur Mustererkennung, Klassifizierung und Clusterung der reduzierten Daten. Während innerhalb der KDD-Forschung dieser Schritt als Data Mining definiert wird, steht außerhalb dieses speziellen Forschungsgebietes der Begriff "Data Mining" als Synonym für den gesamten KDD-Prozess. Diese weiter verbreitete Begriffsdefinition hat sich auch im Umfeld der Chemie durchgesetzt und soll daher auch im Rahmen dieser Arbeit als Oberbegriff für den gesamten KDD-Prozess dienen. Eine für die chemische Forschung typische Data Mining-Sitzung ist in Abbildung 5-2 dargestellt.
Ausgangspunkt für die Extraktion verborgenen Wissens sind in diesem Beispielfall biologische Aktivitätsdaten, die mittels Hight-Throughput-Screening generiert wurden. Diese Daten sind an sich zunächst nur bedingt nützlich. Um zu wertvollen Informationen zu gelangen, müssen die Daten in einem bestimmten Kontext betrachtet werden. Im Fall der biologischen Aktivitätsdaten bedeutet dies, dass die gemessenen Daten nur dann sinnvoll weiterverarbeitet werden können, wenn die dazugehörigen Verbindungen bzw. Strukturdaten ebenfalls bekannt sind. Erst durch diese Zuordnung werden aus experimentellen Rohdaten verwertbare Informationen.
In erster Linie dienen die generierten Daten dem Chemiker nach wie vor zur Abfrage und Analyse der experimentellen Werte. Dabei stehen einfache Fragestellungen wie beispielsweise die Suche nach der biologisch aktivsten Verbindung im Vordergrund. Während diese Aufgabenstellung aufgrund der limitierten Größe herkömmlicher, durch klassische Synthesemethoden generierter Datensätze problemlos zu lösen war, gleicht die Suche nach der richtigen Antwort in den heutigen, umfangreichen und durch automatisierte Techniken erhaltenen Datensätzen der sprichwörtlichen Suche nach der Nadel im Heuhaufen. Eine Anforderung an moderne, computergestützte Data Mining-Ansätze sind daher effektive Information Retrieval-Mechanismen, welche eine schnelle unf unkomplizierte Abfrage von Datenbankinformationen ermöglichen.
Abb. 5-2: Von chemischen Daten zu chemischen Modellen und Vorhersagen.
Die Hauptaufgabe des Data Mining ist jedoch die weitergehende Analyse der generierten Datensätze, um in den Daten verborgene Gesetzmäßigkeiten zu extrahieren und diese in Form von Vorhersagen zu nutzen. Im vorliegenden chemischen Beispielfall bedeutet dies, dass mit Hilfe von statistischen Methoden oder Neuronalen Netzen neues Wissen über die Zusammenhänge zwischen Struktur und Aktivität ermittelt werden können. Die resultierenden Struktur-Aktivitätsmodelle erlauben letztendlich die Vorhersage von biologischen Aktivitäten für andere chemische Verbindungen. Eine kurze Beschreibung der für die Chemie wichtigsten Data Mining-Verfahren wird im folgenden Abschnitt dargestellt.
5.2 Data Mining-Methoden in der Chemie
Der Prozess des Data Mining ist in der Chemie nicht neu. Chemiker nutzen seit den frühen Anfängen der chemischen Forschung sowohl eigene Daten als auch Literaturangaben für die Entwicklung von Modellen und zur Vorhersage von Sachverhalten. Die dramatische Zunahme der Größe von Datensätzen fordertete jedoch den Einsatz von effektiven, computergestützten Data Mining-Methoden. Dabei kamen zunächst nur klassische Statistikmethoden zum Einsatz. Speziell ausgebildete Statistiker arbeiteten sich mit Hilfe besonderer Softwarepakete durch Unmengen an Daten und versuchten die darin verborgene Information zu extrahieren. Der dafür notwendige Arbeits- und Zeitaufwand war enorm und führte häufig nicht zum gewünschten Erfolg. Erst durch die Entwicklung schneller Rechnersysteme konnten neue, auf künstliche Intelligenz basierende Analyseverfahren, sogenannte Machine Learning-Methoden entwickelt werden. Die darauf basierenden Techniken erlaubten erstmals die Lösung komplexerer Data Mining-Probleme.
Aufgrund der teilweise sehr diversen Definitionen des Data Mining-Begriffs gestaltet sich auch eine detaillierte und allgemein gültige Aufteilung und Klassifizierung der verschiedenen Data Mining-Methoden als schwierig. So werden je nach Standpunkt des Betrachters statistische Methoden und Projektions- bzw. Transformationsverfahren entweder zu den Data Mining-Methoden gezählt oder auch nicht. Darüber hinaus können die einzelnen Methoden sehr unterschiedlich zusammengefasst bzw. klassifiziert werden. Eine mögliche Gruppierung geht dabei von den Machine Learning-Ansätzen aus und unterscheidet beispielsweise zwischen sogenannten supervised und unsupervised learning-Mechanismen. Andere Ansätze wiederum unterscheiden die verwendeten Methoden anhand der zu analysierenden Datentypen (z. B. hierarchisch vs. nicht-hierarchisch, linear vs. nicht-linear, etc.) oder anhand von typischen Analysemodellen der Informatik (Sequenzanalyse, Verbindungsanalyse, zusammenfassende Analyse, Cluster-Analyse, etc.). Aus diesem Grund und der unüberschaubaren Anzahl an verschiedenen Methoden soll im Folgenden auf eine detaillierte und genau differenzierte Beschreibung der einzelnen Data Mining-Techniken verzichtet werden und vielmehr nur eine grobe Übersicht der wichtigsten, für die chemische Forschung relevanten Data Mining-Methoden vermittelt werden. Da nicht jede Data Mining-Methode für ein gegebenes Analyse-Problem geeignet ist, muss in der Regel vorher eine Analyse der Stärken und Schwächen der jeweiligen Technik vorgenommen werden. Darüber hinaus können durch Kombination diverser Data Mining-Methoden häufig bessere Ergebnisse erzielt werden.
Die chemische Information wird bei der computergestützten Analyse in der Regel zunächst in eine sogenannte deskriptive Datenstruktur überführt. Diese Datenstrukturen werden auch als molekulare Deskriptoren bezeichnet und sind das Ergebnis mathematischer Verfahren, welche die chemische Information in sinnvolle, numerische Werte überführen. Es existiert eine Vielzahl an molekularen Deskriptoren unter anderen für topologische, elektronische und strukturelle Eigenschaften. Chemische Datensätze enthalten in der Regel eine ganze Reihe solcher Deskriptoren, da komplexe Sachverhalte und Relationen zwischen Datenobjekten nicht ausreichend durch eine oder wenige molekulare Datendimensionen beschrieben werden können. Der sich daraus ergebende, hochdimensionale Charakter der Datensätze setzt jedoch besondere Analysemethoden voraus.
5.2.1 Mulivariate Statistikmethoden
Eine Möglichkeit zur Analyse multivariater bzw. multidimensionaler Daten stellen sogenannte multivariate Statistikmethoden dar, die auf Regressions- und Patter Recognition- bzw. Projektionsverfahren basieren. Es kann dabei grundsätzlich zwischen linearen und nichtlinearen Methoden unterschieden werden. Bei den linearen Ansätzen haben vor allem die Principal Component Analysis (PCA), die Linear Discriminant Analysis (LDA), die Principal Component Regression (PCR), die Multiple Linear Regression (MLR) sowie die Partial Least Squares(PLS)-Methode weite Verbreitung bei der Analyse chemischer Daten gefunden [130-137]. Während die PCA lediglich eine klassische Projektionsmethode darstellt, die hochdimensionale Datensätze in niederdimensionale Datensätze überführt, erlauben PCR, MLR oder PLS darüber hinaus die Bildung von Vorhersagemodellen. Bei den nichtlinearen Verfahren kommt vor allem das Multidimensional Scaling (MDS) zum Einsatz [139-141]. Stellvertretend für die beiden Ansätze sollen im Folgenden kurz auf die Vor- und Nachteile sowie auf die Methodik der PCA und des MDS eingegangen werden.
5.2.1.1 Principal Component Analysis (PCA)
Die Principal Component Analysis [131] ist eine mathematische Methode, die einen hochdimensionalen Datensatz mit korrelierenden Eigenschaftsvektoren in einen niederdimensionalen Datensatz mit nicht-korrelierenden, orthogonalen Eigenschaftsvektoren, den sogenannten Principal Components, transformiert.
Der Mechanismus der PCA lässt sich an folgendem Beispiel einfach verdeutlichen. Gegeben sind hundert chemischen Verbindungen, zu denen jeweils drei Eigenschaften bzw. Deskriptoren ermittelt wurden. Die resultierenden 100 Datenpunkte können in einem Koordinatensystem eingetragen werden, dessen Koordinatenachsen durch die drei Eigenschaftsdeskriptoren ausgedrückt werden. Die erste Principal Component (PC) wird nun so in das Koordinationssystem integriert, dass die größtmögliche Varianz über alle Datenpunkte erfasst wird. Bildlich gesprochen bedeutet dies, dass ein Vektor entlang des längsten Durchmessers der Datenpunktwolke angeordnet werden muss. Die zweite PC wird nun so in die Datenwolke eingebettet, dass sie zum einen orthogonal zur ersten PC ist und zum anderen die verbliebene Datenvarianz bestmöglichst beschreibt. Für alle weitere PCs wird nach dem gleichen Schema vorgegangen. Durch die orthogonale Anordnung der Principal Components spannen jeweils zwei PCs eine rechtwinklige Fläche auf, auf die nun alle Datenpunkte linear projiziert werden. Diese niederdimensionale Auftragung dient letztendlich zur Visualisierung und Analyse der Daten.
In dem beschriebenen Beispiel wurde nur von drei Eigenschaftdeskriptoren ausgegangen. Chemische Datensätze enthalten jedoch oft mehr als drei Dimensionen, so dass anstatt eines dreidimensionalen Koordinatensystem ein k-dimensionales System eingesetzt werden muss. Obwohl solche höherdimensionalen Systeme in der Regel die menschliche Vorstellungskraft übersteigen, sind sie aus der Sicht der Mathematik genauso leicht zu lösen wie das beschriebene, dreidimensionale Beispielsystem.
Seit dem erstmaligen Einsatz der PCA in der Chemie in den Sechziger-Jahren hat sich diese Methode zu einer der meistgenutzten Analysemethode für multivariate Daten entwikkelt [132]. Die PCA dient dabei nicht nur zur Reduktion der Dimensionalität bzw. Komplexität der Datensätze, sondern erlaubt zudem die Identifikation von Ausreissern, die Selektion von Variablen und kann zur Vorhersage von Eigenschaften eingesetzt werden.
5.2.1.2 Multi-Dimensional Scaling (MDS)
Beziehungen zwischen chemischen Daten können nicht immer erfolgreich durch lineare Ansätze beschrieben bzw. analysiert werden. In diesen Fällen kommen deshalb nicht-lineare Analysetechniken wie nicht-lineare Projektionsmethoden zum Einsatz. Ein Vertreter dieser Klasse von Analysemethoden ist das Multi-Dimensional Scaling(MDS)-Verfahren, das auch unter den treffenden Namen Nonlinear Mapping (NLM) bekannt ist. Hierbei werden paarweise Ähnlichkeiten bzw. Distanzen zwischen Datenobjekten analysiert, um die Dimensionalität des Datensatzes zu reduzieren. Häufig wird der Datensatz dabei in einen zwei- oder dreidimensionalen, euklidischen Raum projiziert, der eine bessere Analyse und Visualisierung der Relationen zwischen den Datenpunkten erlaubt [138].
In der Chemie werden MDS-Verfahren häufig zur Analyse von chemischen Ähnlichkeiten eingesetzt. Die molekularen Ähnlichkeiten werden dabei zunächst in eine symmetrische Matrix überführt, die alle paarweisen Beziehungen zwischen den Molekülen enthält. Da diese Matrix nur schwer zu analysieren ist, werden die Datenobjekte in einem nächsten Schritt in ein euklidisches System transformiert, wobei die paarweisen Beziehungen so gut wie möglich erhalten bleiben. Ende der Siebziger-Jahren wurde dieses Verfahren erstmals in der Chemie eingesetzt [139]. Jedoch hat das MDS vor allem in den letzten Jahren durch die kombinatorische Chemie und der damit verbundenen Datenflut an Bedeutung gewonnen [140, 141].
5.2.2 Neuronale Netze
Künstliche neuronale Netze (KNN, engl. artificial neural network ANN) basieren auf neurobiologischen Modellen. Dabei bestehen die Netze aus einer Vielzahl unabhängiger, einfacher Einheiten den sogenannten Neuronen, die in definierter Weise miteinander verbunden [142]. Die einfachste Darstellung dieser Methode beschreibt ein neuronales Netz dabei als "Black Box", welche eine mdimensionale Eingabe in eine n-dimensionale Ausgabe transformiert. In der Regel handelt es sich bei der "Black Box" um ein starres, geschichtetes Netzwerk von verknüpften Neuronen, welches sich in verschiedene Ebenen aufteilt. Eine Eingabeschicht (engl. input layer) nimmt zunächst die Eingabedaten entgegen. Diese werden anschließend in einer oder mehreren verborgenen Schichten (engl. hidden layer) prozessiert und schließlich in der Ausgabeschicht (engl. output layer) wieder ausgegeben. Je nach Verknüpfungsart der Schichten unterscheidet man zwischen vorwärts gerichteten, lateralen und rückgekoppelten Netzen. Eine detailliertere Beschreibung neuronaler Netze findet sich an anderer Stelle [143]. Der Einsatz von neuronalen Netzen bietet wahrscheinlich die umfangreichsten Analysemöglichkeiten. So können mit Hilfe dieser Analysetechnik diverse Problemstellungen wie Mustererkennung, Vorhersagen, Bestimmungen von Ähnlichkeiten, Klassifizierungen und Transformationen bearbeitet werden. Aus diesem Grund gehören neuronale Netze heute zu den am meistgenutzten Data Mining-Methoden.
Neuronale Netze werden seit 1988 im Bereich der Chemie eingesetzt [143] und haben seitdem eine große Verbreitung in diversen Einsatzgebieten erfahren. Eine entsprechende Übersicht findet man in dem Übersichtsartikel von Zupan und Gasteiger [144].
Neuronale Netze basieren auf sogenannten Lernregeln. Dabei kann grundsätzlich zwischen überwachten und nicht-überwachten Strategien unterschieden werden. Stellvertretend für die diversen Verfahren sollen im Folgenden das Counterpropagation- und das Kohonen-Netzwerk vorgestellt werden.
5.2.2.1 Kohonen-Netzwerke
Zu den bekanntesten Vertretern der nicht-überwachten Lernmethoden (engl. unsupervised learning) gehören die selbstorganisierenden Karten (engl. self-organizing feature map SOM). Das Konzept dieses Verfahrens wurde von Teuvo Kohonen entwickelt, weshalb diese Methode auch unter der Bezeichnung Kohonen-Karten bzw. Kohonen-Netzwerke bekannt ist [145, 146, 147]. Im Fall der Kohonen-Netzwerke werden dem selbstorganisierendem, neuronalem Netzwerk lediglich die Eingabemuster präsentiert. Während der anschließenden Berechnung werden automatisch Ähnlichkeitsbeziehungen zwischen Datenobjekten ermittelt. Dabei werden die Gewichtungsfaktoren des Netzes so verändert, dass ähnliche Eingabemuster entweder in gleichen Neuronen oder nah benachbarten Neuronen projiziert werden. Unähnliche Datenobjekte werden hingegen in weit voneinander entfernten Neuronen abgelegt. Die Ausgabe von Kohonen-Netzwerken wird in der Regel in Form von zweidimensionalen Karten dargestellt. Diese niederdimensionale Auftragung erlaubt somit auch die unkomplizierte Analyse und Visualisierung von hochdimensionalen Datensätzen.
5.2.2.2 Counterpropagation-Netzwerk
Das Counterpropagation-Netzwerk gehört zu der Klasse der überwachten Lernverfahren [143]. Beim überwachten Lernen (engl. supervised learning) werden dem neuronalen Netz während des Trainingsprozesses im Gegensatz zu den Kohonen-Netzwerken sowohl die Eingabemuster als auch die gewünschten Ausgabemuster übergeben. Während der Berechnung wird das neuronale Netzwerk in der Weise modifiziert, dass ein Fehlersignal minimiert wird. Das Fehlersignal ergibt sich dabei aus der Berechnung der Differenz zwischen erzeugter und vorgegebener Ausgabe. Die Ausgabe des Counterpropagation-Netzwerkes basiert im Gegensatz zum Kohonen-Netzwerk nicht nur auf den Gewichtungen eines einzelnen Neurons und ist ebenso nicht das Resultat eines Ausgabevektors aller Neuronen, wie beispielsweise im Back-Propagation-Ansatz. Vielmehr basiert die Ausgabe aus den Gewichtungen des Gewinnerneurons mit allen Ausgabeneuronen. Counterpropagation-Netzwerke eignen sich insbesondere für die Vorhersage von molekularen Eigenschaften. So können beispielsweise neue chemische Strukturen hinsichtlich ihrer strukturellen Ähnlichkeit klassifiziert werden.
5.2.3 Genetische Algorithmen
Genetische Algorithmen basieren auf der Grundlage der biologischen Evolution (Mutation, natürliche Auslese) und dienen der Suche nach einer optimalen Lösung innerhalb eines Lösungsraums [148, 149]. Ein bestimmtes Problem wird dabei in Form einer Population von Individuen beschrieben. Die Mitglieder dieser Generation geben in den folgenden Schritten ihre Charakteristika in Form von sogenannten "Chromosomen" an die nächste Generation weiter, wobei dieser Vorgang wie in der Natur durch Faktoren wie beispielsweise Mutation und Crossover beeinflusst wird. Diese Faktoren werden daher auch als genetischen Operatoren bezeichnet. Anschließend werden die einzelnen Individuen der neuen Population hinsichtlich ihrer Eignung zur Lösung des zugrundeliegenden Problems beurteilt. Individuen mit einer höheren Tauglichkeit werden mit hoher Wahrscheinlichkeit beibehalten während Individuen mit einer weniger guten Eignung im Vergleich zur Elterngenerartion mit hoher Wahrscheinlichkeit "aussterben". Dieser Vorgang wiederholt sich so lange bis eine maximale Tauglichkeit erreicht ist.
Genetische Algorithmen sind in der chemischen Forschung weit verbreitet und kommen häufig dann zum Einsatz, wenn mehr Regeln als Daten vorliegen. Darüber hinaus lassen sich die Ergebnisse genetischer Algorithmen häufig gut erklären.
5.2.4 Weitere Data Mining-Methoden
Neben den bereits erwähnten Data Mining-Methoden haben auch andere Techniken wie Klassifikations- und Clustering-Verfahren als auch regelbasierte Systeme eine breite Anwendung in der Chemie gefunden [137, 150-152].
Regelbasierte Systeme versuchen, wie der Name schon sagt, in Daten verborgene Informationen durch allgemeine Regeln zu beschreiben. Einen Spezialfall stellen dabei die sogenannten Entscheidungsbäume (engl. decision trees) dar. Im Gegensatz zu allgemeinen, regelbasierten Systemen erlauben Entscheidungsbäume eine Rangfolge bzw. Gewichtung der abgeleiteten Regeln und ermöglichen somit eine gröbere bzw. feinere Unterteilung des Datensatz. Mit zunehmender Anzahl an Verzweigungsknoten neigen Entscheidungsbäume jedoch zu einer höheren Fehleranfälligkeit. Außerdem eignet sich diese Technik nicht zur Abschätzung bzw. Vorhersage von Variablen und kann zudem nur bei kategorischen bzw. diskreten Datentypen angewendet werden.
Der bekannteste Vertreter von Klassifizierungsverfahren ist die Nächster-Nachbar-Klassifizierung (engl. k-nearest neighbor KNN). Die Datenbasis dieser Analysemethode besteht aus des Ergebnissen bereits bearbeiteter, ähnlicher Fragestellungen. Dabei wird für einen gegebenen Einzelpunkt der Datenwert gesucht, der die größte Ähnlichkeit zu einem bereits klassifizierten Datenpunkt aufweist. Dieser sogenannte nächste Nachbar wird dabei mit Hilfe von Distanz- und Kombinationsfunkionen (in der Regel euklidische Distanzen) ermittelt. Das unbekannte Datenobjekt wird letztendlich derjenigen Klasse zugeordnet, die die höchste Anzahl an ähnlichen bzw. nächsten Nachbarn enthält.
Insbesondere in der Wirkstoffforschung wird zudem eine Reihe wichtiger Clustering-Verfahren wie beispielsweise Multi-Domain clustering, Nearest-Neighbor clustering, Fuzzy clustering oder Ward clustering eingesetzt [151, 152]. Das Ziel von Clustering besteht darin, ähnliche Objekte zu Clustern zusammenzufassen, wobei die Gewichtung der verschiedenen Variablen eine bedeutende Rolle spielt. Im Gegensatz zu Klassifizierungsverfahren ist zu Beginn der Analyse allerdings nicht klar, welche Cluster durch das Clustering entstehen. Die Interpretation der Cluster ist daher nicht ganz einfach und setzt ein gewisses Maß an Expertenwissen voraus. Darüber hinaus ist in einigen Fällen die Wahl der richtigen Distanzwerte nicht ganz einfach. Außerdem müssen die Initialparameter der Methode sehr vorsichtig gesetzt werden. Aufgrund des hohen Maßes an Unsicherheitsfaktoren dürfen Ergebnisse aus Clusteringanalysen nicht überinterpretiert werden, sondern sollten lediglich als näher zu untersuchende Hinweise betrachtet werden. Auf die verschiedenen hierarchischen und nicht-hierarchischen Methoden soll an dieser Stelle nicht näher eingegangen werden.
5.2.5 Datenvisualisierung
Die Ergebnisse der oben beschriebenen Analysemethoden werden in der Regel nicht in textueller oder numerischer Form betrachtet, sondern mit Hilfe von Datenvisualisierungsapplikationen dargestellt und interpretiert. Dies ist sinnvoll, da eine visuelle Darstellung aufgrund der bereits erwähnten überdurchschnittlichen Aufnahmefähigkeit des visuellen Cortex (vgl. Abschnitt 2.1.1) eine weitaus effektivere Analyse komplexer Sachverhalte zulässt. Der Einsatz von Visualisierungstechnologien führt in der Regel erst zu einem "Aha"-Erlebnis und ermöglicht eine effektive und leichte Erkennung von Mustern, Beziehungen, Ausreisserdaten und/oder fehlenden Werten.
Die Entwicklung entsprechender Methoden, Strategien und Applikationen zur Visualisierung von Daten ist Aufgabe eines besonderen Gebiets der Computergraphik, der sogenannten Informationsvisualisierung [153155]. Die Informationsvisualisierung ist dabei nicht nur auf das Gebiet des KDD- bzw. Data Mining-Prozess begrenzt, sondern wird heute standardmäßig in fast allen Bereichen des Mensch-Computer-Bereichs eingesetzt. Darüber hinaus hat sich in den letzten Jahren ein speziell auf die Bedürfnisse des Data Mining ausgerichtetes Forschungsfeld innerhalb der Informationsvisualisierung etabliert - das visuelle Data Mining (engl. Visual Data Mining) [156, 157]. Die Aufgaben des visuellen Data Minings reichen dabei von der komfortablen Visualisierung und Analyse von Ergebnissen aus klassischen Data Mining-Ansätzen bis hin zu Methoden, die eine vollständig visuelle Exploration von Rohdaten erlauben und somit eine Alternative zu klassischen Data Mining-Ansätzen darstellen.
Die Entwicklung und Anwendung von Methoden des visuellen Data Mining stand im Vordergrund des zweiten Themenschwerpunktes der vorliegenden Arbeit. In den folgenden Abschnitten wird daher näher auf das Gebiet des visuellen Data Mining sowie den dort eingesetzten Techniken und Methoden eingegangen.
5.3 Visuelles Data Mining - Eine Einführung
Obwohl der KDD-Prozess in den letzten Jahren durch die Entwicklung und den Einsatz von computergestützten Data Mining-Methoden eine zunehmende Automatisierung erfahren hat, ist eine effektive Extraktion von neuem Wissen und Information nicht ohne das Eingreifen und die Interaktion des Menschen möglich. Insbesondere bei Vorlage von komplexen Problemstellungen kann eine erfolgreiche Lösung nur dann gewährleistet werden, wenn menschliche Intuition, Flexibilität, Kreativität und Fachwissen mit in den Entscheidungprozess einfliessen. Klassische, computergestützte Data Mining-Methoden stellen jedoch häufig sogenannte "Black Box"-Systeme dar, die nur eine begrenzte oder keine Einflussnahme durch den Benutzer zulassen. Darüber hinaus ist die Bedienung bzw. Anwendung der Data Mining-Methoden oft auf das Spezialwissen von Experten wie beispielsweise Chemoinformatikern angewiesen. Dieser Umstand macht die Anwendung sowohl zeit- als auch arbeitsaufwendig, da eine schnelle Interpretation der Analyseergebnisse in der Regel nicht durch den Chemoinformatiker sondern durch den Wissenschaftler erfolgt, der die zugrundeliegende Problemstellung ausgearbeitet und die entsprechenden Datensätze generiert hat.
Eine Lösung für dieses Problem stellen Verfahren zur visuellen Datenanalyse dar. Das Ziel dieses Ansatzes ist, dass der Mensch sowie dessen visuelle Wahrnehmungsfähigkeiten mit Hilfe von Informationsvisualisierungstechnologien in den Analyse- bzw. KDD-Prozess integriert wird. Diese Form der Datenanalyse wird daher auch als visuelles Data Mining bezeichnet. Die visuelle Repräsentation der Daten bietet dabei dem Analytiker eine größere und einfachere Einsicht in die Daten, was zu schnelleren Schlussfolgerungen führen kann. Darüber hinaus können die Daten in einem dynamischen Prozess direkt an Benutzereingaben angepasst werden, was somit eine direkte Prozesssteuerung und -beeinflussung erlaubt. Letztendlich können diese Möglichkeiten zu einer signifikanten Verbesserung des Explorationsprozesses führen. Dabei können sich durch die direkte Einbeziehung des Benutzers einige entscheidende Vorteile ergeben, die im Folgenden näher betrachtet werden:
Höhere Qualität der resultierenden Muster. Durch den Einsatz von adäquaten Techniken zur Daten- und Informationsvisualisierung können die natürlichen Fähigkeiten des Menschen zur Erkennung von Mustern und Beziehungen genutzt werden. Dies kann zu einer signifikanten Effektivitätssteigerung bei der Mustererkennung führen.
Nutzung existierenden Expertenwissens. Im visuellen Data Mining stellt die Visualisierung ein interaktives Kommunikationsmittel zwischen den Daten und dem Benutzer dar. Der Anwender kann dabei vorhandenes Expertenwissen während des Data Mining-Prozesses nutzen, um direkt die Analyse bzw. Mustersuche zu beeinflussen. Dieser Vorgang ist mit Hilfe klassischer Data Mining-Methoden wesentlich schwerer zu realisieren, da die entsprechenden Analyseparameter durch einen Experten definiert werden müssen und in der Regel nicht interaktiv geändert werden können.
Gesteigertes Vertrauen in die Mustererkennung. Die aktive Einbeziehung des Benutzers in den Data Mining-Prozess kann zu einem tieferen Verständnis der resultierenden Muster führen. Dies bewirkt letztendlich, dass sich das Vertrauen des Benutzers in die gefundenen Muster stark erhöht. Im Gegensatz dazu erlauben klassische "Black Box"-Systeme keinen oder nur einen begrenzten Einblick in die Prozesse, die zur Mustererkennung führen. Die daraus resultierende Unsicherheit kann in letzter Konsequenz die Interpretation der Daten und die Vorhersage von Modellen stark erschweren.
Vereinfachte und intuitive Datenanalyse. Da die Mustererkennung bei der visuellen Datenanalyse nur auf dem Fachwissen und der natürlichen Fähigkeit des Menschen, Zusammenhänge visuell schnell zu erfassen, basiert, gestaltet sich die Datenanalyse häufig einfach und unkompliziert. Komplexe mathematische und/oder statistische Algorithmen und Methoden, wie sie für klassische Data Mining-Ansätze notwendig sind, entfallen.
Handhabung von problematischen Datensätzen. Der Vorteil von visuellen Data Mining-Ansätzen gegenüber klassischen Data Mining-Techniken offenbart sich vor allem dann, wenn wenig Information über die zu untersuchenden Daten bekannt ist und die erwarteten Muster oder Relationen nicht klar definiert sind. Darüber hinaus können auch sehr inhomogene oder stark verrauschte Datensätze mit dieser Technik behandelt werden.
Zusammenfassend gilt, dass visuelles Data Mining im Allgemeinen eine schnellere und unkompliziertere Datenanalyse erlaubt, häufig zu besseren Ergebnissen führt und insbesondere oft auch in solchen Fällen zum Erfolg führt, die mit herkömmlichen Analysetechniken nicht handhabbar sind. Darüber hinaus eignen sich die im visuellen Data Mining eingesetzten Techniken hervorragend, um die erhaltenen Ergebnisse anderen Wissenschaftlern und vor allem mit der Technik nicht vertrauten Entscheidungsträgern wie beispielsweise Managern zu präsentieren. Nach der folgenden Definition werden durch visuelles Data Mining somit die beiden letzten Schritte des KDD-Prozess realisiert (vgl. Abbildung 5-1) [157]:
"Visuelles Data Mining ist ein Teil des KDD-Prozesses, der Visualisierung als Kommunikationsmittel zwischen Mensch und Computer nutzt, um neue und interpretierbare Muster zu erkennen und Wissen zu generieren."
Nach Shneiderman erfolgt die visuelle Datenerkundung im visuellen Data Mining in einem dreistufigen Prozess [158]. Die drei Stufen sind: Übersicht, Zoom und Filterung sowie Detaildarstellungen auf Abruf. Im Übersichtsschritt kann der Betrachter zunächst interessante Muster identifizieren. Durch nachfolgende Zoom- und Filteroperationen können im zweiten Schritt die identifizierten Muster näher betrachtet und in Form von Teildatensätzen selektiert werden. Zur vollständigen Analyse der Muster können im letzten Schritt der Prozesskette Detailinformationen zu den einzelnen Datenobjekten abgefragt werden.
Trotz der grundsätzlichen Übereinstimmung im Prozessablauf können drei unterschiedliche Formen des visuellen Data Mining unterschieden werden [156, 157]. Die Ansätze unterscheiden sich dabei vor allem durch ihre unterschiedlichen Einsatzgebiete im KDD- bzw. Data Mining-Prozess (Abbildung 5-3). Im Folgenden werden die drei Ansätze näher beschrieben.
Abb. 5-3: Verschiedene Ansätze des visuellen Data Minings [157].
5.3.1 Visualisierung von Data Mining-Ergebnissen
Der gesamte Data Mining-Prozess wird in diesem Ansatz vollständig durch klassische Data Mining-Algorithmen durchgeführt (Abbildung 5-3a) und die resultierenden Muster bzw. Analyseergebnisse anschließend durch entsprechende Visualisierungswerkzeuge dargestellt. In diesem Prozess kommt der Visualisierung eine entscheidende Rolle zu, da erst durch effektive Visualisierungstechniken eine einfache und schnelle Interpretation der Daten ermöglicht wird. Ausgehend von den Ergebnissen der Interpretation kann der Benutzer in einem letzten Schritt entscheiden, ob der Data Mining-Prozess erfolgreich war oder ob die Analyse in modifizierter Form wiederholt werden soll. Auf diesen Ansatz basierende Visualisierungsmethoden werden in der Literatur auch als "Visual Data Mining Tools" bezeichnet [156] und werden heute standardmäßig zur Darstellung von Ergebnissen aus klassischen Data Mining-Ansätzen eingesetzt.
Im Rahmen dieser Arbeit wurde ein auf diesem Ansatz basierender Visualisierungsprototyp für die Antitumor-Datenbank des amerikanischen Krebsforschungsinstituts entwickelt (vgl. Abschnitt 6-1).
5.3.2 Visualisierung von Zwischenergebnissen
Im Gegensatz zum vorherigen Ansatz kann durch die Visualisierung von intermediären Ergebnissen der Benutzer stärker in den Data Mining-Prozess integriert werden (Abbildung 5-3b). Die Basis dieses Verfahren stellen Algorithmen dar, deren Ausgabe nicht die endgültigen Muster bzw. Beziehungen sondern lediglich präprozessierte Zwischenergebnisse liefert. Die relevanten Muster erhält der Benutzer erst durch die Anwendung von spezifischen Visualisierungstechniken. Der Vorteil dieses Ansatzes ist, dass die Data Mining-Algorithmen unabhängig von der eigentlichen Problemstellung eingesetzt werden können. Wie bereits erwähnt ist dies in klassischen Data Mining-Ansätzen nicht ohne weiteres möglich, da für ein spezifisches Problem oder einen bestimmten Datensatz oft auch nur spezielle Data Mining-Techniken zum Einsatz kommen können. Dabei muss sich der Benutzer bereits vor dem eigentlichen Data Mining-Prozess intensiv mit den Vor- und Nachteilen der in Frage kommenden Methoden auseinandersetzen und eventuell systemspezifische Parameter festlegen. Dieses Prozedere entfällt durch diesen Ansatz. Der Benutzer entscheidet auf Basis der Zwischenergebnisse, welche Algorithmen für eine weitere Analyse zum Einsatz kommen. Dabei sind auch die im Data Mining übliche Kombinationen verschiedener Analysemethoden einfach zu realisieren.
Diese spezielle Form des visuellen Data Minings kam im Rahmen dieser Arbeit nicht zum Einsatz.
5.3.3 Visualisierung von (Roh-)Daten
In diesem Ansatz kommen im Gegensatz zu den beiden zuvor beschriebenen Verfahren keine klassischen Data Mining-Methoden zum Einsatz (Abbildung 5-3c). Vielmehr werden die Rohdaten direkt durch den Benutzer mit Hilfe von Visualisierungsverfahren dargestellt und analysiert. Dabei wird der Benutzer sowie dessen Fachwissen vollständig in den Data Mining-Prozess einbezogen und somit ein Höchstmaß an Benutzerinteraktion sichergestellt. Durch den Einsatz von interaktiven Werkzeugen wie beispielsweise dynamischen Abfragetechniken kann der Benutzer mit den Datensätzen operieren, wobei jede Benutzerinteraktion zu einer unmittelbaren Aktualisierung der Darstellung führt. Die verborgenen Muster und Beziehungen werden somit letztendlich durch eine graphische Erkundung des Datensatzes gewonnen. Nach Soukup und Davidson wird in diesem Zusammenhang auch von "Data Visualization"-Techniken gesprochen [156].
Diese Form des visuellen Data Minings stand in dieser Arbeit im Vordergrund und war Ausgangspunkt bei der Entwicklung des in Kapitel 6 vorgestellten InfVis-Programms (vgl. Abschnitt 6-2).
5.4 Methoden der Informationsvisualisierung
Visuelles Data Mining basiert auf den Techniken der Informationsvisualisierung, einem Gebiet der Computergraphik, welches sich, wie der Name schon sagt, mit der Darstellung von Information beschäftigt. Bevor im Folgenden die für das visuelle Data Mining in Frage kommenden Techniken näher erläutert werden, sollen durch einen Vergleich mit der im Abschnitt 2.1.1 beschriebenen wissenschaftlichen Visualisierung die wichtigsten Grundzüge der Informationsvisualisierung zusammengefasst werden. Im Gegensatz zur wissenschaftlichen Visualisierung dient die Informationsvisualisierung nicht zur Darstellung von chemischen oder physikalischen Daten, Messwerten oder Simulationen, sondern vielmehr zur Visualisierung von Beziehungen, Mustern und vor allem Information. Obwohl letztere Aufgabenstellung durch die drastische Zunahme an Daten in den wissenschaftlichen Disziplinen stark an Bedeutung gewonnen hat, spielen Informationsvisualisierungstechniken nicht nur auf diesem Gebiet, sondern in fast allen Bereichen, die über große Mengen an digitalen Daten verfügen, eine bedeutende Rolle. Die Informationsvisualisierung zeichnet sich deshalb vor allem durch allgemeine, nicht auf wissenschaftliche Fragestellungen begrenzte Methoden aus. Die entsprechenden Visualisierungstechniken werden daher auch in der Regel von nicht-spezialisierten und nicht-wissenschaftlich orientierten Benutzern angewendet. Dieser allgemeine Charakter der Informationsvisualisierung wird auch bei der Betrachtung des in Kapitel 6 vorgestellten InfVis-Programms deutlich. Obwohl die Anwendung speziell für den Einsatz in der chemischen Forschung konzipiert wurde, ist sie nicht nur auf chemische Datensätze limitiert.
Die Methoden der Informationsvisualisierung können in drei Kategorien unterteilt werden: präsentative Techniken, Techniken zur sogenannten "bestätigenden" Analyse (engl. confirmative analysis) und Techniken zur erkundenden Analyse (engl. explorative analysis). Ausgangspunkt für die präsentativen Technik sind fest definierte Fakten, welche durch geeignete Visualisierungstechniken dargestellt werden. Im Gegensatz dazu basieren die Ansätze zur "bestätigenden" Analyse auf bereits durch den Benutzer definierte Hypothesen zu den jeweiligen Datensätzen. Aufgabe der Visualisierung ist es, die Daten in einer geeigneten Form darzustellen, die eine Bestätigung oder Entkräftung der aufgestellten Hypothese erlaubt. Die letzte Klasse von Informationsvisualisierungstechnologien, die explorative Analyse, geht von Datensätzen aus, über die weder Fakten noch Hypothesen bekannt sind. Durch eine visuelle, interaktive und im Allgemeinen ungerichtete Suche nach Trends, Strukturen und Mustern ist der Benutzer in der Lage, neue Information aus den Daten zu gewinnen und letztendlich eine Hypothese zu definieren. Obwohl alle drei Technologieklassen im visuellen Data Mining eingesetzt werden können, sind es vor allem die Techniken der explorativen Analyse, die für ein effektives visuelles Data Mining essentiell sind. Im Folgenden werden deshalb nur die wichtigsten explorativen Visualisierungstechniken detailliert beschrieben.
Erste Ansätze zur explorativen Visualisierung wurden von den Arbeitsgruppen von Tufte [159] und Bertin [160] entwickelt. Während dieser Pionierarbeiten wurden dabei die wichtigsten Grundregeln und Techniken wie zum Beispiel die Layoutgestaltung, der Einsatz von Farben und Formen, Techniken der Attributabbildung usw. ausgearbeitet. Basierend auf diesen Regeln und Grundsätzen entwickelten sie erste zwei- und dreidimensionale Informationsvisualisierungstechniken. In den folgenden Jahren wurden von anderen Arbeitsgruppen weitere Techniken zur Visualisierung von unterschiedlichen Datentypen entwickelt. Der Übersichtsartikel von Wong und Bergeron [161] beschreibt dabei detailliert die einzelnen Fortschritte dieser geschichtlichen Entwicklung. Heute steht dem Anwender eine fast unüberschaubare Anzahl an verschiedenen Techniken und Anwendungen zur Verfügung [153, 154]. Dabei sind vor allem solche Techniken in den Fokus des Interesses getreten, die sehr große und multivariate Datensätze handhaben können. Diese Techniken können durch drei verschiedene Kriterien klassifiziert werden [162, 163]: die Art der zu visualisierenden Daten, die Art der Technik an sich sowie durch Methoden zur Interaktion und visuellen Transformation. Diese drei Klassen können beliebig miteinander kombiniert werden. Informationsvisualisierungswerkzeuge sind deshalb häufig in der Lage, verschiedene Datentypen zu visualisieren und nutzen dazu kombinierte Ansätze von Visualisierungs- und Interaktionstechniken.
5.4.1 Datentypen und Dimensionalität
Große Datensätze wie beispielsweise Screeningdaten oder Resultate kombinatorischer Experimente bestehen aus einer großen Anzahl an Einzeleinträgen den sogenannten Datenrecords, die sich ihrerseits aus einer definierten Anzahl an Variablen, den Dimensionen, zusammensetzen. Ein Dateneintrag kann dabei zum Beispiel einer chemischen Reaktion oder einer chemischen Verbindung entsprechen, wobei die einzelnen Variablen den korrespondierenden Werten der Reaktionsbedingungen oder biologischen Aktivitäten entsprechen. In der Informationsvisualisierung wird die Zahl der Variablen auch als Dimensionalität des Datensatzes bezeichnet. Nach Shneiderman [158] können Datensätze ein- zwei- oder auch multi-dimensional sein oder auch aus komplexeren Datentypen wie Texten, Hypertexten, Hierarchien, Graphen oder Algorithmen bestehen. Alternativ werden diese Datesätze auch als uni-, bi- oder multivariaten Datensätze bezeichnet.
5.4.1.1 Eindimensionale Datensätze
Typische Vertreter von eindimensionalen Datensätzen sind zeitabhängige Daten. Dabei können jedem Punkt auf der Zeitskala ein oder mehrere Messwerte zugeordnet werden. Ein chemisches Beispiel stellen Langzeituntersuchungen von kontaminierten Böden dar, in denen der zeitliche Verlauf von Schadstoffkonzentrationen ermittelt wird.
5.4.1.2 Zwei- und dreidimensionale Datensätze
Zwei- und dreidimensionale Datensätze bestehen aus zwei bzw. drei definierten Variablen. Ein typisches Beispiel für solche Datensätze stellen geographische Karten dar. Aber auch in der Chemie sind entsprechende Datensätze nicht unüblich. Darüber hinaus werden häufig die Ergebnisse von klassischen Data Mining-Experimenten in zwei- oder dreidimensionaler Form dargestellt (Auftragung von Principal Components oder Kohonen-Karten). Zwei- und dreidimensionale Datensätze werden in der Regel durch einfache x-y- bzw. x-y-z-Plots visualisiert. Auch wenn diese Darstellungsform einfach erscheint, können mit zunehmender Datengröße bzw. -dichte schnell unübersichtliche und teilweise unbrauchbare Auftragungen resultieren.
5.4.1.3 Multidimensionale Datensätze
Häufig bestehen Datensätze aus mehr als drei Dimensionen und können daher nicht mit Hilfe von zwei- oder dreidimensionalen Plots dargestellt werden. Multidimensionale Datensätze können in der Regel mehrere Hundert bis Tausend Dateneinträge enthalten. Sie werden unter anderen durch automatisierte Laborsysteme wie HTS- und Kombinatorikanlagen generiert und in relationalen Datenbanken gespeichert. Diese Daten können nur mit Hilfe weiterentwickelter Visualisierungstechniken dargestellt werden, da das effektive Mapping der zahlreichen Dimensionen auf einen zweidimensionalen Bildschirm ein schwieriger Vorgang ist.
Die Visualisierung multidimensionaler, chemischer Datensätze war das Ziel dieser Arbeit. Aus diesem Grund beschränkt sich die Beschreibung der diversen Visualisierungstechniken in Abschnitt 5.4.2 auch nur auf multidimensionale bzw. multivariate Ansätze.
5.4.1.4 Spezielle Datentypen
Nicht alle Datentypen können durch Angabe der Dimensionalität beschrieben werden. Dies trifft beispielsweise auf digitale Texte und Hypertexte zu, deren Analyse vor allem im Bereich des World Wide Web hohe Bedeutung beizumessen ist. Diese Datentypen können nicht sinnvoll in Form von Zahlen dargestellt werden, weshalb viele Visualisierungstechniken zur Darstellung dieser Daten nicht eingesetzt werden können. Eine weitere Klasse von Datensätzen stellen Hierarchien und Graphen dar, die auf Beziehungen zwischen einzelnen Datenpunkten basieren. Diese Daten sind auch in der Chemie und Biochemie von großer Bedeutung (zum Beispiel in Form metabolischer Pfade). Algorithmen zählen ebenfalls zu der Klasse der speziellen Datenformen und erfordern besondere Visualisierungstechniken.
5.4.2 Die Visualisierungstechniken
Im Laufe der letzten dreißig Jahre wurden, wie bereits erwähnt, zahlreiche Techniken zur Visualisierung von Informationen und Daten entwickelt und die Zahl der Visualisierungstechniken wird auch in Zukunft weiter ansteigen. Da die Beschreibung aller Visualisierungstechniken den Rahmen dieser Arbeit sprengen würde, werden im Folgenden nur solche Ansätze erwähnt, die der Darstellung von multivariaten und multidimensionalen Datensätzen dienen. Multivariate Visualisierungstechniken können dabei in Abhängigkeit ihrer zugrundeliegenden Visualisierungsprinzipien in fünf Kategorien unterteilt werden - geometrische Techniken, Icon- und Glyph-basierte Techniken, Pixel- und Voxel-orientierte Systeme, hierarchische Techniken und Techniken, die auf sogenannten Graphen basieren. Darüber hinaus existieren auch zahlreiche hybride Ansätze, die sich durch Kombination verschiedener Visualisierungstechniken aus den genannten Bereichen ergeben.
Die Visualisierung hierarchischer bzw. Graphen-basierter Datensätze war nicht Schwerpunkt dieser Arbeit, weshalb im Folgenden die entsprechenden Ansätze nur grob skizziert werden. Bei der Entwicklung der in Kapitel 6 beschriebenen Visualisierungsapplikationen kamen unter anderem Geometrie- und Icon-basierte Techniken zum Einsatz. Von besonderer Bedeutung waren dabei jedoch 3D-Glyph-basierte Visualisierungstechniken, die eine Kombination aus geometrischen und Icon-basierten Techniken darstellen. Aus diesem Grund werden die wesentlichen Merkmale sowie die wichtigsten Vertreter dieser Techniken detaillierter erläutert.
5.4.2.1 Geometrie-basierte Ansätze
Die Grundidee geometrischer Visualisierungstechniken basiert auf der Nutzung geometrischer Transformationen und Projektionen, um so eine bestmögliche Darstellung multidimensionaler Daten zu realisieren. Dabei können sowohl zwei- als auch dreidimensionale Darstellungstechniken zum Einsatz kommen.
Zur Klasse dieser Techniken zählen zum einen einfache Visualisierungsmethoden aus dem Bereich der Statistik wie Liniengraphen (Abbildung 5-4a) [167], Scatterplots bzw. Scatterplot-Matrizen (Abbildung 5-4b) [167, 168] sowie sogenannte "Projection Pursuit"-Techniken [169], wobei letztere auf multivariaten, statistischen Methoden wie der Principal Component Analyse (vgl. Abschnitt 5.2.1.1) oder dem multidimensionalen Scaling (vgl. Abschnitt 5.2.1.2) basieren. Darüber hinaus zählen auch Techniken wie Barchart- und Histogramm-Darstellungen (Abbildung 5-4c) [167], Landscapes [170], Prosection Views [171], Andrew's Curves [172] als auch HyperSlice [173] und Hyperbox [174] zu dieser Visualisierungsklasse. Zu den komplexeren und fortgeschritteneren Techniken zählen dabei die Parallel Coordinates (Abbildung 5-4d) [175] und die Methoden RadViz und GridViz [176].

Abb. 5-4: Geometrische Visualisierungstechniken: a) Multiple Liniengraphen (Excel [177]), b) Scatterplot-Matrix (Statistika [178]), c) 3D-Balkendiagramm (InfVis, vgl. Kapitel 6), d) Parallel Coordinates (XmdvTool [179]).
Stellvertretend für die Vielzahl der Ansätze soll im Folgenden zum einen auf die Scatterplot- und Barchart-Methoden, welche innerhalb der in Kapitel 6 beschriebenen Visualisierungsapplikationen eingesetzt wurden, als auch auf den bekanntesten Vertreter der Geometrie-basierten Techniken, der Parallel Coordinates-Technik, eingegangen werden.
Scatterplots und Scatterplot-Matrizen. Scatterplots zählen wahrscheinlich zu den bekanntesten Data Mining-Visualisierungstechniken und werden standardmäßig von vielen Statistik- und Tabellenkalkulationsprogrammen unterstützt. Dabei kommen sowohl zwei- als auch dreidimensionale Darstellungen zum Einsatz. Im Regelfall können mittels Scatterplots zwei bzw. drei Datendimensionen dargestellt werden, wobei jede Datendimension auf eine der zwei- bzw. drei orthogonalen Achsen abgebildet wird. Um Datensätze mit höherer Dimensionalität zu visualisieren, werden unter anderen sogenannte Scatterplot-Matrizen verwendet. Dabei kann beispielsweise ein vierdimensionaler Datensatz durch eine 4x4-Matrix von Scatterplots dargestellt werden (Abbildung 5-4b). Häufig werden Scatterplot-Darstellungen durch interaktive Techniken wie Zoom erweitert, um eine komfortablere Analyse des Datensatzes zu gewährleisten. Weite Verbreitung haben auch Kombinationen von Scatterplot-Darstellungen mit Icon- bzw. Glyph-basierten Techniken gefunden (vgl. Abschnitt 5-10).
Scatterplots und Scatterplot-Matrizen können beispielsweise durch die Programme Statistika [178] und XmdvTool [179] generiert werden. Darüber hinaus wurde die Scatterplot-Technik auch in das in Abschnitt 6-2 beschriebene InfVis-Programm implementiert.
Barcharts und Histogramme. Balkendiagramme (engl. Barcharts) werden in erster Linie zur Präsentation von Daten eingesetzt. Darüber hinaus existieren jedoch auch weiterentwikkelte Techniken, wie beispielsweise 3D-Barcharts mit variierenden Formen, Farben und Größen (Abbildung 5-4c), Survey Plots [167] sowie Histogramm-Matrizen [167], die im Bereich des Data Mining zum Einsatz kommen. Barchart-Techniken wurden im Rahmen dieser Arbeit sowohl im prototypischen, VRML-basierten Datenbankinterface des amerikanischen Krebsforschungsinstituts (vgl. Abschnitt 6-1) als auch im InfVis-Programm (vgl. Abschnitt 62) eingesetzt.
Parallel Coordinates. Der wohl prominenteste Vertreter geometrischer Visualisierungstechniken ist die Parallel Coordinates-Darstellung (Abbildung 5-4d). Bei dieser Technik werden die einzelnen Dimensionen durch vertikale Achsen repräsentiert, wobei der entsprechende Wertebereich der Variablen entlang der einzelnen Achsen aufgetragen ist. Jeder Datenpunkt bzw. jedes Datenobjekt wird dabei durch eine polygonale Linie dargestellt, welche die Achsen an den entsprechenden Stellen schneidet. Parallel Coordinates können unter anderem vom XmdvTool [179] generiert werden.
5.4.2.2 Icon- und Glyph-basierten Techniken
Eine andere Klasse von explorativen Visualisierungstechniken stellen die sogenannten Icon- bzw. Glyph-basierten Ansätze dar. Diese Techniken werden vor allem zur Darstellung von diskreten, multivariaten Daten eingesetzt. Unter einem Glyphen versteht man dabei ein graphisches Objekt, welches ein einzelnes multivariates Datenobjekt repräsentiert. Bei der Generierung der Icons bzw. Glyphen werden die diversen Datendimensionen eines Datensatzes in systematischer Weise den verschiedenen graphischen Attributen wie Form, Farbe, Größe, Orientierung, Textur, etc. des graphischen Objekts zugeordnet. Dieses Abbilden (engl. Mapping) der Dimensionen auf die sogenannten retinalen Eigenschaften [180] wird auch als visuelles Mapping bezeichnet. Abbildung 5-5 enthält eine Übersicht der wichtigsten retinalen Eigenschaften. Neben der Anzahl der möglichen Dimensionen, die mit Hilfe der einzelnen graphischen Eigenschaften beschrieben werden können, enthält die Abbildung auch Beispiele, die den Gebrauch von Glyphen bei kontinuierlichen, numerischen sowie diskreten bzw. kategorischen Daten zeigt. Viele der graphischen Attribute hängen dabei direkt voneinander ab. So setzen beispielsweise Texturen mindestens eine Farbe zur Darstellung voraus und Blinken kann mit der Darstellung von Bewegungen wechselwirken. Im Allgemeinen ist daher eine sinnvolle Darstellung auf acht Dimensionen beschränkt.
Abb. 5-5: Retinale Eigenschaften in der Glyph-basierten Visualisierung.
Insbesondere bei Vorlage diskreter Daten muss eine gute Unterscheidung der einzelnen Glyphen gewährleistet sein, um eine sinnvolle Visualisierung zu gewährleisten. Dabei müssen unter anderem verschiedene psychologische (z.B. unterschiedliche und geschlechtspezifische Wahrnehmung von Farben und Orientierungen) und physiologische Aspekte (z.B. Rot-Grün-Blindheit) berücksichtigt werden, auf die an dieser Stelle nicht näher eingegangen wird. Eine gute Einführung in diese Thematik liefert das Buch "Information Visualization - Perception for Design" von Colin Ware [153].
Eine klare Identifizierung und Unterscheidung verschiedener Glyphen erlauben auch einige spezielle Visualisierungstechniken, die auf sogenannten Icons basieren. Hierzu zählen beispielsweise Chernoff Faces (Abbildung 5-8b) [181], Stick Figures [183], Star Glyphs (Abbildung 5-8a) [182], Pies (Abbildung 5-8c) sowie Shape-Coding [184] und Color-Icons [185]. Aufgrund ihrer weiten Verbreitung in aktuellen Standard-Applikationen sollen hier stellvertretend die Chernoff Faces, Pies und Star Glyphs genauer betrachtet werden.
Pies. In der Pies-Methode (Abbildung 5-8) werden die einzelnen Datenobjekte durch Pie Charts repräsentiert. Die einzelnen Dimensionen werden dabei in Form von "Kuchenstücken" dargestellt, wobei die Größe dieser Stücke vom jeweiligen Maximalwert der Dimension abhängt. Pies können ebenfalls mit Statistika [178] dargestellt werden.

Abb. 5-6: Pies-Darstellung (Statistika [178]).
Star Glyphs. Star Glyphen (Abbildung 5-7) gehören wahrscheinlich zu den meist genutzten, Icon-Visualisierungstechniken. Dabei werden die einzelnen Dimensionen durch gleichwinklige, im Uhrzeigersinn angeordnete Speichen repräsentiert. Die äußeren Enden der Speichen entsprechen dabei den maximalen Werten der Datendimensionen. Schließlich werden die äußeren Enden noch durch eine polygonale Linie verbunden. Star Glyphen können mit Programmen wie Statistika [178] oder XmdvTool [179] dargestellt werden.
Abb. 5-7: Star Glyphen (Statistika [178])
Chernoff Faces. Chernoff Faces (Abbildung 5-8) zählen zu den am kunstvoll ausgearbeitesten Icon-Visualisierungsmethoden. Ein Datenobjekt wird dabei durch ein individuelles Gesicht ausgedrückt, wobei die unterschiedlichen Datendimensionen auf markante Gesichtszüge wie beispielsweise die Breite und Länge des Gesichts, die Größe und der Abstand der Augen, die Höhe und Größe der Ohren, die Schwingung des Mundes oder die Höhe und Stellung der Augenbrauen abgebildet werden. Durch die angeborene Fähigkeit des Menschen, Gesichter und Stimmungen zu erkennen, wird jeder Datenpunkt zu einem leicht identifizierbaren Individuum. Chernoff Faces werden unter anderem von Statistika [178] generiert.

Abb. 5-8: Chernoff Faces (Statistika [178]).
Das im folgenden Kapitel beschriebene und im Rahmen dieser Arbeit entwickelte InfVis-Programm basiert in erster Linie auf einen modifizierten Glyph-basierten Ansatz (vgl. Abschnitt 5-10).
5.4.2.3 Pixel- und Voxel-orientierte Techniken
In Pixel-orientierten Ansätzen wird jeder einzelne Dimensionswert einem farbigen Pixel zugeordnet. Die Pixel werden darüber hinaus in Abhängigkeit von den jeweiligen Dimensionen gruppiert und in separaten Regionen dargestellt [186]. Die Werte der einzelnen Dimensionen werden durch die Farbe des Pixels repräsentiert. Da lediglich ein Pixel pro Datenobjekt benötigt wird, können mit Hilfe dieser Technik die derzeit höchste Anzahl an Datenpunkten gleichzeitig dargestellt werden. Die bekanntesten Vertreter dieser Visualisierungsform sind die sogenannte Recursive Pattern-Technik [187] und die Circle Segment-Technik [188].

Abb. 5-9: Pixel- und Voxel-basierte Visualisierungstechniken: a) Circle Segment-Technik [157], b) Voxel-basierte Visualisierung [238].
Der zweidimensionale, Pixel-orientierte Ansatz kann darüber hinaus auch auf drei Raumdimensionen erweitert werden. Das dreidimensionale Analogon zum Pixel ist dabei das sogenannte Voxel. Voxel- bzw. texturbasierte Ansätze erlauben aufgrund der zusätzlichen dritten Dimension die Darstellung noch größerer Datensätze. Erste Arbeiten auf diesem Gebiet wurden von Becker [189] beschrieben. Zur Zeit werden im Rahmen des ChemVis-Projekts von unseren Projektpartnern fortgeschrittenere, texturbasierte Techniken entwickelt.
5.4.2.4 Hierarchische und Graph-basierte Techniken
Hierarchische Techniken, auch Stacked Displays genannt, stellen Daten in Form von hierarchisch aufgeteilten Untereinheiten dar. Im Fall von multidimensionalen Datensätzen dienen dabei selektierte Dimensionen zur Aufteilung des Datensatzes und zum Aufbau der Hierarchie. Bekannte Vertreter sind das Dimensional Stacking [190] sowie die Cone Tree-Technik [191].

Abb. 5-10: Hierarchische Visualisierungstechniken: a) Dimensional Stacking (XmdvTool [179]), b) Cone Tree [191].
5.4.2.5 Hybride Ansätze
Neben den erwähnten Visualisierungstechniken wurde auch eine Vielzahl hybrider Ansätze entwickelt, die Kombinationen der oben beschriebenen Methoden darstellen. Im Rahmen dieser Arbeit spielten dabei vor allem räumlich angeordnete 3D-Glyhpen eine zentrale Bedeutung (Abbildung 5-11).
Diese Visualisierungsform stellt dabei eine Kombination aus dreidimensionalen Scatterplots (vgl. Abschnitt 5.4.2.1) und Icon-Techniken (vgl. Abschnitt 5.4.2.2) dar. Im Gegensatz zu klassischen, auf Glyphen basierenden Ansätzen können mit dieser Methode drei weitere Datendimensionen durch Nutzung der drei orthogonalen Achsen dargestellt werden. Darüber hinaus kann bei der 3D-Hardware-unterstützten Darstellung solcher Systeme auch eine weitere retinale Eigenschaft, die Transparenz bzw. Opazität, der graphischen Objekte für das visuelle Mapping genutzt werden. Wie bereits erwähnt, können mit Hilfe der Glyphgestalt nicht nur die Werte einer einzelnen Dimension, zum Beispiel durch definierte, diskrete Graphikprimitive wie Kugeln, Kegel oder Würfel dargestellt werden. Vielmehr besteht die Möglichkeit die drei räumlichen Ausdehungsrichtungen (x, y, z) eines graphischen Objekts zu verwenden, um bis zu drei Dimensionen durch die Form zu repräsentieren. Während die Darstellung von zwei Dimensionen dabei auch mit klassischen, Icon-basierten Techniken leicht zu realisieren ist, kann die Formveränderung in x-, y- und z-Richtung ebenfalls erst mit Hilfe des hybriden, dreidimensionalen Ansatzes bewerkstelligt werden.

Abb. 5-11: Visualisierungsansatz mit dreidimensionalen Glyphen [192] (Farbabbildung: Anhang A, Abbildung A-10).
Der große Vorteil von auf 3D-Glyphen basierenden Visualisierungsansätze ist die einfache und intuitive Handhabung und Interpretation dieser Darstellungsmethode. Da der Mensch selbst in einer dreidimensionalen Welt existiert, setzen dreidimensionale Darstellungen keine abstrakten und komplexen Denkweisen voraus. Aus diesem Grund können 3D-Glyphen im Gegensatz zu anderen, abstrakteren Visualisierungstechniken wie beispielsweise der Parallel Coordinates-Technik (vgl. Abschnitt 5.4.2.1) auch von ungeübten Benutzern angewendet werden.
Ein 3D-Glyph-basiertes Visualisierungssystem zur explorativen Analyse und Darstellung von multivariaten Datensätzen wurde von unseren Projektpartnern an der Universität Stuttgart entwickelt [192]. Darüber hinaus diente diese Visualisierungstechnik auch als zentrale Darstellungsform bei der Realisierung des im nächsten Kapitel beschriebenen InfVis-Programms.
5.4.3 Techniken zur Interaktion und Verzerrung
Applikationen zur explorativen Informationsvisualisierung können nicht nur in Hinblick auf unterschiedliche Datentypen und Visualisierungstechniken differenziert sondern auch in Abhängigkeit von diversen interaktiven und verzerrenden Techniken klassifiziert werden. Es sind vor allem diese Techniken, die eine Visualisierungsapplikation erst zu einem effektiven Datenanalysewerkzeug machen. Grundsätzlich können diese Techniken in interaktive bzw. dynamische Techniken und sogenannte Distortion-Techniken (graphische Verzerrungstechniken) unterteilt werden.
Interaktive Techniken wie beispielsweise Filter, Zoom und Linking erlauben dem Benutzer eine direkte Interaktion mit Daten sowie eine dynamische Anpassung der graphischen Darstellung an aktuelle analytische Fragestellungen. Im Gegensatz dazu dienen Distortion-Techniken zur Fokussierung bzw. Darstellung von Detailinformationen bei gleichzeitiger Visualisierung einer grob aufgelösten Übersicht. Dabei kann der Benutzer Daten, welche im Fokus des Interesses liegen, in hochaufgelöster Form studieren während der Rest der Datenlandschaft in einer niedrigen Auflösung ständig einsehbar und zugreifbar bleibt. Die wichtigsten dynamischen und verzerrenden Techniken werden im Folgenden erläutert.
5.4.3.1 Dynamische Projektionstechniken
Mit Hilfe dieser Technik kann der Benutzer Datenprojektionen wie beispielsweise die abgebildeten retinalen Eigenschaften dynamisch verändern, um eine bessere bzw. sinnvollere Darstellung der multivariaten Daten zu erreichen. Entsprechende Techniken werden zum Beispiel vom Programm XGobi [193] unterstützt und wurden auch in das im Rahmen dieser Arbeit entwickelten InfVis-Programms implementiert.
5.4.3.2 Interaktive Filter-Techniken
Zu den wichtigsten Methoden im visuellen Data Mining zählen Techniken, die eine interaktive Partitionierung von Datensätzen in Teildatensätze oder ausgewählte Teilmengen erlauben. Dabei kann grundsätzlich zwischen Selektions- und sogenannten Querying-Verfahren unterschieden werden. Selektionstechniken ermöglichen eine direkte Auswahl von bestimmten Datenpunkten durch den Benutzer, während in Querying-Verfahren der Teildatensatz aus durch den Benutzer definierten Spezifikationen von bestimmten Eigenschaften zum Beispiel Angeben von Grenzwerten resultiert. Häufig werden dabei die besten Resultate durch Kombination der beiden Ansätze erzielt. Bekannte Vertreter dieser Technologieform sind das Magic Lenses- [194] und das InfoCrystal-Verfahren [195] sowie die Dynamic Queries [196-198]. Letztere spielten auch in dieser Arbeit eine entscheidende Rolle.
5.4.3.3 Interaktives Zooming
Zoom-Techniken spielen vor allem bei großen Datensätze eine wichtige Rolle. In der Regel stellen Visualisierungsanwendungen große Datensätze zunächst in einer reduzierten Form dar, um einen umfassenden Überblick zu gewährleisten. Mit Hilfe von Zooming-Techniken hat der Benutzer anschließend die Möglichkeit in ausgewählte Bereiche vorzudringen, um eine detailliierte Repräsentation der Daten zu erzielen. Dieser Vorgang geht dabei häufig mit einer Änderung der Visualisierungsform einher. Fortschrittlichere Techniken wie die Fisheye View-Projektionen [199] erlauben dabei die Darstellung von Detailinformationen bei gleichzeitiger wenn auch grobaufgelöster Visualisierung der restlichen Daten. Ein detailliierter Vergleich der diversen Techniken wurde von Schaffer et al. beschrieben [200]. In der InfVis-Anwendung kamen einfache 3D-Zoomfunktionen zum Einsatz.
5.4.3.4 Interaktive Distortion-Techniken
Die im vorangegangenen Abschnitt beschriebene Fisheye View-Technik kann nicht nur als Zooming-Technik sondern auch als Distortion-Technik betrachtet werden. Distortion-Techniken erlauben die Darstellung von Detailinformationen bei gleichzeitiger Erhaltung der Übersichtsrepräsentation. Distortion-Techniken kamen im Rahmen dieser Arbeit nicht zum Einsatz, weshalb an dieser Stelle auf einen weiterführenden Übersichtsartikel verwiesen wird [201].
5.4.3.5 Interaktive Linking- und Brushing-Techniken
Wie bereits beschrieben wurde, ist die Wahl einer Visualisierungstechnik von vielen Faktoren wie beispielsweise dem Datentyp abhängig. Darüber hinaus hängt die Wahl der richtigen Visualisierungstechnolgie auch häufig von der jeweiligen Fragestellung ab. Da häufig verschiedene Fragestellungen an den gleichen Datensatz gestellt werden müssen, ist ein Wechsel der Visualisierungstechnologie unvermeidlich. Aus diesem Grund kommen häufig hybride Ansätze aber auch Visualisierungsapplikationen, die eine parallele Darstellung durch verschiedene Techniken erlauben, zum Einsatz. Letztere Ansätze können mit Hilfe von Linking- und Brushing-Verfahren dynamisch miteinander verknüpft werden. So kann der Anwender beispielsweise in einer Scatterplot-Ansicht Daten selektieren, was zu einer automatischen Aktualisierung der Datendarstellung in einer Parallel Coordinates-Darstellung führt. Entsprechende Verfahren kamen in dieser Arbeit ebenfalls nicht zum Einsatz.


PREV
NEXT

Copyright © 2003, Frank Oellien, Universität Erlangen-Nürnberg. All rights reserved.