|
Die Verwaltung von gro�en Datenbest�nden, die Sicherstellung ihrer Aktualit�t und Konsistenz sowie das Auffinden von Daten sind Kernfunktionalit�ten von Informationssystemen, wie sie in den verschiedensten Anwendungsbereichen der Unternehmungen zum Einsatz kommen. Mit der Globalisierung der M�rkte w�chst die Notwendigkeit der Nutzung aktueller, weltweit verteilter Informationen. Der Charakter dieser Daten - ihre Heterogenit�t, die Strukturierung, Redundanz und Inkonsistenz - erschwert jedoch die Aufbereitung und die Integration mit den eigenen Datenbest�nden. Gleichzeitig erfordert die damit verbundene Informationsflut geeignete Vorkehrungen zur Filterung und Verdichtung sowie zur Extraktion relevanter Informationen. Die Vielfalt an potentiellen Datenquellen und -strukturen, die unterschiedlichen Integrationsanforderungen (z.B. bez�glich der Konsistenz, Aktualit�t und Verf�gbarkeit), die Unterst�tzung anwendungsbezogener Fusions- und Analysemethoden sowie die Anpa�barkeit des Gesamtsystems an ver�nderte Rahmenbedingungen setzen eine flexibel konfigurierbare und erweiterbare Infrastruktur f�r Datenzugriff und Methodenintegration voraus. Im Rahmen des hier dargestellten Vorhabens sollen Methoden und Techniken f�r eine solche Infrastruktur als generischer Kern effizienter, anwendungsspezifischer Informationssysteme zur Unterst�tzung der Fusion entwickelt werden. |
Der Begriff nachhaltige Informationsfusion bezeichnet alle Aspekte, die mit der dauerhaften Nutzung eines Informationsraumes zusammenh�ngen. Er betont damit eine Abkehr von der traditionellen Sicht, bei der Datenfusion und Datenanalyse als Prozesse gesehen werden, die im wesentlichen einmal mit vorher festgelegten Datenquellen durchgef�hrt werden, um dann ihre Ergebnisse �ber einen l�ngeren Zeitraum unver�ndert zu benutzen. F�r die in der Forschergruppe betrachteten Szenarien muss man stattdessen feststellen, da� die zum Aufbau des intelligenten Zielsystems genutzten Datenquellen sowohl heterogen als auch dynamisch sind: es werden verschiedene Quellen genutzt, und es k�nnen sich sowohl die verf�gbaren Quellen als auch die darin enthaltenen Daten bzw. Informationen �ndern. Aktuelle Analyse- bzw. Lernverfahren sind schlecht ger�stet, um mit dieser Situation umzugehen, denn sie operieren im wesentlichen passiv, das hei�t, sie nutzen alle vom Benutzer vorgegebenen Daten (im Stapelbetrieb, batch) oder warten auf neue Daten aus einer vorgegebenen Datenquelle (inkrementell). In einer Umgebung mit heterogenen dynamischen Datenquellen bleibt es bei solchen klassischen passiven Verfahren vollst�ndig dem Benutzer �berlassen, Datenquellen und Daten auszuw�hlen und insbesondere auch bei dynamischen Entwicklungen in den Daten zu entscheiden, ob und wie Analysen wiederholt oder erg�nzt werden sollen. Dies �berfordert den Benutzer und f�hrt dazu, da� eine Vielzahl von Einzelergebnissen aus unterschiedlichen Daten erzeugt werden, die schlecht aufeinander abgestimmt sind. Ziel des vorgeschlagenen Teilprojektes ist es daher, aktive Werkzeuge und Analyseverfahren zu entwickeln, die den Benutzer bei der Aufgabe der Auswahl von Daten und ihrer dynamischen Verfolgung unterst�tzen bzw. diese Aufgabe f�r Teilbereich eigenst�ndig wahrnehmen. Dazu ben�tigen aktive Lernverfahren eine pr�zise und operationalisierte Definition des eigenen Lernziels, beispielsweise das Erreichen optimaler Vorhersage- oder Klassifikationsgenauigkeit. Die Verfahren k�nnen dann anhand dieses Lernziels den Zustand ihres aktuell erzeugten Modells untersuchen und feststellen, in welchen Teilbereichen des Modells das Einbeziehen neuer Daten bzw. anderer Datenquellen n�tzlich w�re; hierbei kann eine Kostenfunktion verwendet werden, um zus�tzlich zu untersuchen, ob erwarteter Gewinn und Kosten (Rechenzeit, Datenbeschaffungskosten) in einem sinnvollen Verh�ltnis stehen. Durch Verwendung von Revisionstechniken soll auch ein dynamischer Vergleich von Datenquellen und erstelltem Modell realisiert werden, durch den festgestellt werden kann, ob ver�nderte Daten(quellen) �nderungen des Modells erm�glichen oder sogar erfordern. |
Expertenwissen zu einem bestimmten Gegenstandsbereich (zum Beispiel ein Produkt, ein Verfahren, Vorschriften usw.) liegt nur in den wenigsten F�llen in Form von formalen Wissensstrukturen vor. In der Regel ist es entweder schriftlich in nat�rlich-sprachlichen Dokumenten festgehalten, oder ist als nicht schriftlich fixiertes Wissen nur �ber den Experten selbst zug�nglich. In den beiden letztgenannten F�llen ist die Akquisition des Wissens ein teurer und aufwendiger Proze� (knowledge acquisition bottleneck). Die meisten Vorgehensmodelle zur Wissensakquisition, zum Beispiel die KADS-Methode, konzentrieren sich derzeit darauf, wie bei Experten vorhandenes Gebietswissen elizitiert und formalisiert werden kann, wohingegen der Proze� der automatischen Wissensakquisition aus Dokumenten, in denen das Gebietswissen von Experten in nat�rlichsprachlicher Form abgelegt ist, bisher nur ansatzweise behandelt worden ist. Die informale Beschreibung des Wissens ist das Hauptproblem: In Dokumenten verbalisiertes Wissen liegt nicht in einem Grad der Formalisierung vor, der zielgerichtete Zugriffe auf das Wissen erlaubt, sondern es mu� erst m�hsam aus den Dokumenten extrahiert werden. Ein weiteres Problem betrifft die verteilte Ablage von Information: In keinem der Dokumente ist das vollst�ndige Wissen zu einem Gegenstandsbereich enthalten; vielmehr sind in unterschiedlichen Dokumenten verschiedene Aspekte der Dom�ne beschrieben, aber nicht ohne Redundanzen und Inkonsistenzen. Schlie�lich erschweren inkonsistente Begriffsverwendungen bei der textuellen Gebietsbeschreibung und unterschiedliche Sichten auf den gleichen Sachverhalt den Zugriff auf das dokumentierte Wissen. Eine L�sung dieser Probleme sehen wir in einer formalen Repr�sentation des in den Dokumenten enthaltenen Gebietswissens in Form einer Wissensbasis. Eine solche formale Repr�sentation unterst�tzt nicht nur vielf�ltige Arten des Zugriffs und somit Anwendungen des Wissens, z.B. in wissensbasierten Systemen, sondern realisiert dar�ber hinaus die Verdichtung des in den Dokumenten enthaltenen Wissens. Mit anderen Worten, das vormals �ber zahlreiche Dokumente verteilte, oft redundante Wissen wird in einer einzigen Wissensquelle fusioniert. Ziel des Projektvorhabens ist die Entwicklung von Elementen einer interaktiven Arbeitsumgebung (workbench), welche Hilfsmittel zur semiautomatischen Erstellung dieser kondensierten Wissensquelle zur Verf�gung stellt. |
Ein wichtiges, aus Systemsicht (d.h. "von unten") zu erf�llendes Kriterium des beantragten Vorhabens zur Informationsfusion stellt u.a. die Minimierung der Antwortzeiten bei der Bearbeitung von Suchanfragen dar. Geringe Antwortzeiten verbessern allgemein die "`Empf�nglichkeit"' (responsiveness) des Systems und f�rdern das interaktive Arbeiten mit den angebotenen Werkzeugen. Die Suchanfragen operieren dabei auf Datenbest�nden, die entfernten und/oder lokalen Datenbanken zu entnehmen und innerhalb des den Anfrageproze� beherbergenden Rechners auf verschiedenen Ebenen zu verarbeiten sind. Dazu sind lokal entweder die Daten von unten nach oben oder die Funktionen von oben nach unten zu bewegen. Verschiedentlich ist auch die vertikale Bewegung von Daten und Funktionen erforderlich. In allen F�llen m�ssen je nach Anfrageszenario mehr oder weniger viele Kontextgrenzen (insbesondere Adre�raumgrenzen) �berwunden werden. Je nach Art und technischer Auslegung der Grenzen unter Zuhilfenahme der Mechanismen des zugrundeliegenden Betriebssystems, sind die vertikalen Interaktionsvorg�nge mehr oder weniger schwergewichtig und entsprechend einflu�nehmend auf die Antwortzeiten. Ziel des Vorhabens ist der Entwurf und die Entwicklung einer objektorientierten Laufzeitumgebung, auf deren Grundlage die Interaktionen zwischen Software-Komponenten hinsichtlich Laufzeiteffizienz optimiert werden k�nnen. In Abh�ngigkeit von dem gegebenen Anwendungsprofil sollen die jeweils aus Kostengesichtspunkten g�nstigsten Interaktionsmuster zum Einsatz kommen. Das System basiert dabei auf einer Suite von vorgefertigten Aufrufst�mpfen, die als Programmfamilie vorliegt. Die St�mpfe unterscheiden dabei zwischen makro-, prozedur-, dom�nen- und nachrichtenbasierten Aufrufprotokollen. Damit legen sie die Grundlage f�r eine Konfektionierung der Interaktion in Abh�ngigkeit von der f�r die gegebene Anwendung ausgew�hlten Konfiguration. F�r die Anwendung wird eine gewisse architektonische Transparenz geschaffen, d.h. ihre Komponenten operieren unabh�ngig davon, ob eine monolithische oder modulare Struktur des Gesamtsystems zur Laufzeit ausgew�hlt worden ist bzw. werden mu�. Bei der Auswahl des passenden Interaktionsmusters spielt die Anwendung die entscheidende Rolle: sie legt Aspekte fest, die der Konfigurierung dienen. Die Auswahl soll (weitestgehend) automatisch erfolgen und basiert auf Spezifikationen, die sich einerseits auf die Anforderungen seitens der Anwendung beziehen und andererseits die (funktionalen) Eigenschaften der vorgefertigten Aufrufst�mpfe beschreiben. Ein Aspektweber wird auf Grundlage der vorliegenden Quelltexte beider Seiten (d.h. der Anwendungs- und der Systemkomponente) zur �bersetzungs- und/oder Laufzeit die gew�nschte Verschmelzung mittels des ausgew�hlten Aufrufstumpfes bewirken. |
Die Informationsfusion ist ein Proze�, von dem erwartet wird, da� er durch starken Einflu� von Benutzern abl�uft. Einerseits m�ssen von Benutzern Entscheidungen �ber die Art der Fusionierung getroffen werden, andererseits mu� der Fusionsproze� f�r Benutzer nachvollziehbar dargestellt werden. Schlie�lich mu� die M�glichkeit zur Nachbearbeitung einzelner Aspekte der Fusionsprozesse zur Verf�gung gestellt werden. Deshalb m�ssen Methoden und Werkzeuge entwickelt werden, die es Benutzern erm�glichen, mit den zu fusionierenden bzw. den fusionierten Daten zu interagieren. Dabei besteht ein enger Bezug zwischen Interaktion und Visualisierung: Aufschlu�reiche Visualisierungen sind eine Voraussetzungen daf�r, da� Benutzer Zugriff auf die zugrundeliegenden Daten erhalten. Jedoch stellt die Interaktion an die Visualisierung auch die Anforderung, da� visuelle Merkmale zur�ckverfolgt werden k�nnen auf die Rohdaten bzw. Zwischenergebnisse der Fusion. Deshalb werden spezielle Datenstrukturen ben�tigt, um die Visualisierungen derart anzureichern, da� Benutzer auf die in ihnen beobachteten Merkmale auch tats�chlich direkt zugreifen k�nnen. Dieses wiederum erfordert bereits bei der Informationsfusion die Bereitstellung geeigneter Daten. Objektbewegungen werden als ein besonders charakteristisches zu visualisierendes Merkmal im Fusionsprozess betrachtet. Einerseits wird ein zus�tzlicher Pr�sentationsvariablensatz ben�tigt, denn Visualisierungen der zu fusionierenden Daten verwenden oft f�r sich bereits die �blichen Variablen wie Farbe, Form und Position. Andererseits wird erwartet, da� es gute Entsprechungen f�r Fusionsprozesse in Form von visualisierten Objektbewegungen gibt. Solche Objektbewegungen bed�rfen aber besonderer Interaktionsmechanismen, damit durch Benutzer auf sich bewegende Objekte und Bewegungsparameter zugegriffen werden kann. Die Benutzerinteraktion wird in der Arbeit der Forschergruppe fr�hzeitig ber�cksichtigt, damit von vornherein Daten gesammelt und strukturiert zur Verf�gung gestellt werden k�nnen, auf die durch Visualisierungen zugegriffen werden kann. Wird die Interaktion nicht von Beginn an ber�cksichtigt, so ist es sp�ter nur mit sehr hohem Aufwand m�glich, geeignete Interaktionsmechanismen vorzusehen. |
Bei der Datenfusion sollen Datenbest�nde aus verschiedenen Anwendungsbereichen in Zusammenhang gebracht und ausgewertet werden. Das Ziel des vorliegenden Projektes ist in diesem Zusammenhang die Entwicklung und Evaluierung eines visuellen Data Mining Systems, das eine schnelle und effektive Exploration der zu fusionierenden Datenbest�nde erlaubt. Die meisten derzeit verwendeten Cluster-Algorithmen arbeiten nicht effizient und/oder nicht effektiv auf gro�en Mengen multidimensionaler Daten. Deshalb sollen neue Visualisierungstechniken sowie eng integrierte Kombinationen aus neuartigen visuellen und adaptierten automatischen Methoden erforscht und realisiert werden, die die Nachteile bisheriger Techniken �berwinden und zur Entdeckung von Clustern, Abh�ngigkeiten oder anderen n�tzlichen Informationen in gro�en multidimensionalen Datenbest�nden dienen. Durch den Gebrauch von visuellen Methoden soll der Benutzer im Gegensatz zu bisherigen Verfahren in die Lage versetzt werden, die Signifikanz der entdeckten Information (Cluster, Abh�ngigkeiten) abzusch�tzen, den Einflu� von Parametern automatischer Verfahren zu verstehen und diese Parameter zu tunen. Visualisierungstechniken erlauben zudem ein abstrakteres Verst�ndnis der Daten und erm�glichen es, informales Hintergrundwissen in den Explorationsproze� mit einflie�en zu lassen. Durch die Interaktion mit einem Benutzter soll insgesamt die Qualit�t und Effektivit�t der Fusion entscheidend verbessert werden. Die Schwerpunktanwendung im Rahmen der Forschergruppe ist die Clusteranalyse von Sequenzdatenbanken zur Unterst�tzung der automatischen Sequenzanalyse. |
Besonders in kleinen und mittelst�ndischen Unternehmen der Gie�ereibranche ist eine rechentechnische Unterst�tzung von ingenieurtechnischen Aufgaben zum Gu�teilentwurf von Bedeutung. Mit dieser Unterst�tzung soll der Gu�teilentwurf bei effizienter Informationsausnutzung rationalisiert werden. Dabei findet bereits eine Vielzahl von Legacy-Programmen Anwendung. Im Zusammenhang mit dem Forschungsprojekt wird der Bereich der komplexen Rohteilgenerierung gew�hlt, um so ein Anwendungsfeld f�r die Workbench zur Informationsfusion bereitzustellen. Der betrachtete Bereich umfa�t ingenieurtechnische Aufgaben, wie: �berpr�fung des Gu�teils auf Technische Realisierbarkeit, �berpr�fung des Gu�teils auf Fertigungsgerechtheit, die Festlegung des Form- und Kernformverfahrens sowie die Erarbeitung eines Einformschemas. Dabei wird unter einem Rohteil ein Gu�st�ck nach der Entnahme aus der Form und dem Putzen, ohne Kernmarken und ohne Anschnitt- und Speisersystem verstanden. Die Rohteilgenerierung h�ngt hierbei von vielen Parametern ab, wobei eine wechselseitige Beziehung zwischen diesen Parametern beachtet werden mu�. Beispiele f�r Rohteilparameter sind: Festlegung der Teilungsebenen, Lage, Gestalt und Abmessungen von Kernen, Aushebeschr�gen, Gu�radien, technologisch notwendige Formelemente wie Rippen, Verbindungsstege, Augen, Aussparungen sowie Werkstoffeigenschaften. Zu den Prozessen der Rohteilgenerierung existieren eine Anzahl von spezifischen Datenbanken, deren Inhalte jedoch Redundanzen und Inkonsistenzen enthalten. Beispiele sind Datenbanken zur Verwaltung von Gu�fehlern, Gestaltungsregeln oder physikalischen Stoffgr��en usw. Bei der Generierung von Rohteilen mu� eine Vielzahl direkter und indirekter Einflu�gr��en ber�cksichtigt werden. Dazu geh�ren die Art des Form- und Gie�verfahrens, die Gu�teilgestalt und Kompliziertheit des Teils, die Gu�teilabmessungen, Anforderungen an die Oberfl�cheng�te von Gu�teilkonturen, der Gu�werkstoff und das Anschnitt- und Speisersystem. Der Mitarbeiter, der die Rohteilgenerierung durchf�hrt, nutzt die obigen Zusammenh�nge in einem iterativen, interaktiven Proze�. Viele Gie�ereien sind damit unbedingt auf das Erfahrungswissen ihrer Mitarbeiter angewiesen. Dies stellt jedoch einen entscheidenden Nachteil im Wettbewerb dar, so da� versucht wird, diesen Bereich so weit wie m�glich aufzuarbeiten, um eine Rechnerunterst�tzung zu erm�glichen, bzw. Hilfsmittel f�r eine weitestgehende Automatisierung bereitzustellen. �ber dieses Erfahrungswissen hinaus existieren zahlreiche Informationsquellen, wie z.B. Arbeitsanweisungen, Werkstoffbl�tter, DIN- und DIN EN-Normen oder auch gie�ereitechnische Leitf�den, die genutzt werden m�ssen, um die Rohteilgenerierung zu unterst�tzen. Diese Informationen sind in verschiedenen Quellen (Video, Foto, Text, Audio) verf�gbar. Das Ziel einer Informationsfusion besteht darin, �ber alle Datenbanken hinweg Abh�ngigkeiten zu finden, die den Entwurfsproze� eines Gu�teils unterst�tzen. Dadurch wird das Erfahrungswissen des Ingenieurs durch das Zusammenspiel mehrerer Datenbanken unterst�tzt und erg�nzt. Unter anderem k�nnen Informationen zur Gie�ereitechnologie mit Informationen zur Entstehung oder Vermeidung von Gu�fehlern in Zusammenhang gebracht werden. Das sich daraus ergebende neue "Wissen" kann zur �berpr�fung der Fertigungsgerechtheit des Gu�teils genutzt werden, wobei dieses Wissen auch in CAD-Systemen anwendbar ist. Ein weiteres Beispiel f�r eine Informationsfusion w�hrend der Rohteilgenerierung ist die Nutzung der Daten zu bereits entstandenen Gu�fehlern, um Form- und Gie�verfahren aus einer Datenbank auszuw�hlen. Hierbei m�ssen ebenfalls Datenbanken mit Richtwerten, Gestaltungsregeln usw. ber�cksichtigt werden. Es mu� also ein Zusammenspiel der bereits vorhandenen Datenbanken erm�glicht werden, um Abh�ngigkeiten zwischen den Daten mit dem Ziel zu nutzen, die Informationen in einer neuen Qualit�t bereitzustellen. |
In diesem Projekt steht die Analyse von DNA-Sequenzen im Mittelpunkt der Anwendung. Dazu wird ein Werkzeug entwickelt, da� neben dem integrativen Zugriff auf die relevanten molekularen Datenbanken den Einsatz neuer und bereits verf�gbarer Analyse-Algorithmen zur Identifizierung von Promotorsequenzen gew�hrleistet. Dies soll so geschehen, da� nicht nur eine generische Schnittstelle der Daten zu den Methoden geschaffen wird, sondern auch eine Schnittstelle der Methoden untereinander. Der Informationsgehalt der zur Verf�gung stehenden Daten soll durch Experten explorativ erschlossen werden k�nnen. Konkret sollen Promotormodelle durch interaktive Fusion der bereitstehenden Informationen erstellt werden k�nnen. Der erstellte Proze� kann dann f�r die Analyse unbekannter DNA-Best�nde eingesetzt werden. |
Ziel der lebenszyklus�bergreifenden Integration umweltrelevanter Stoffinformationen ist die Analyse der Auswirkungen auf die Umwelt, die durch die Nutzung eines Stoffes entstehen, auch wenn die zu Grunde liegenden Daten unvollst�ndig oder partiell defektbehaftet sind, da erst die Zusammenf�hrung aller an der Verwendung eines Stoffes beteiligten Stoffstr�me reale Aussagen �ber die Umweltauswirkungen erm�glichen. Dabei sollen Datenl�cken und Defekte so weit wie m�glich durch Methoden der Informationsfusion entdeckt, klassifiziert und geschlossen werden. Weiterhin wird eine Beschreibung aller relevanten Daten auf einer �bergeordneten Ebene (Metaebene) vorgenommen. Diese bilden die Grundlage f�r die Untersuchung geeigneter Datenakquisitionsmethoden, die dann f�r das Extrahieren von umweltrelevanten Daten aus (un- bzw. semistrukturierten) Dokumenten Verwendung finden sollen. |
|
||||||||
© 1999-2002 Otto-von-Guericke-Universität Magdeburg, Fakultät für Informatik |