German English

BMBF-ForMaT-Projekt: Semantische Integration von Webdaten





Anwendungen und Systeme, die einen integrierten Zugang zu Daten und Diensten verschiedenartiger Websites ermöglichen, werden zunehmend wichtiger. So sind bei Internetnutzern inzwischen etwa Portallösungen gefragt, welche einen Preisvergleich über unterschiedliche Produktarten verschiedenster Unternehmen (z.B. Elektronikartikel, Flugreisen, Hotelzimmer, etc.) sowie daran angeschlossene Bestell- bzw. Buchungsmöglichkeiten anbieten. Die Lösung dieser Aufgabe erfordert eine semantische Integration der Daten, d.h. die Informationen der verschiedenen Anbieter müssen trotz unterschiedlicher Repräsentation möglichst vollständig gefunden und aus Anwendungssicht korrekt kombiniert werden. Die Adressierung der genannten Aufgaben erfolgt in derzeitigen Systemlösungen meist durch aufwändige Spezialprogrammierungen, die oft nur eine begrenzte Qualität erreichen. Zudem erfordert dabei jede Änderung an den Schemas oder Schnittstellen einzelner Anbieter eine aufwändige Neuprogrammierung.

Veranschaulichung zweier Anwendungsfälle der semantischen Integration von Webdaten

Zur Beseitigung dieser Schwachstellen werden mächtige Werkzeuge zur weitgehenden Automatisierung von Aufgaben der semantischen Datenintegration benötigt, insbesondere zum Schema/Ontologie-Matching sowie zum Objekt-Matching.
Das Projektvorhaben beschäftigt sich mit den Möglichkeiten der Überbrückung dieser Lücke.

Marktrelevanz der Forschungsansätze

1.: Matching von Business-Schemas und Ontologien

Unternehmen strukturieren und beschreiben ihre Daten, z.B. Kunden, Produkte und Bestellvorgänge, mit Hilfe von Business-Schemas und Ontologien (z.B. Produktkataloge). Die Aufrufschnittstellen von Diensten (Webservices) werden ebenfalls durch Business-Schemas (meist in der Sprache XML) beschrieben. Bei dem Datenaustausch zwischen verschiedenen Unternehmen führt die Heterogenität dieser Schemas, Ontologien und Webservice-Schnittstellen zu einem aufwändigen und auch fehleranfälligen Prozess der Datenintegration. Schemas, Ontologien und Schnittstellen werden zudem weiterentwickelt und an neue Bedürfnisse angepasst. Die Metadatenintegration muss in diesem Fall erneut ausgeführt werden.

2.: Integration von Webdaten für Business-Intelligence-Projekte

Unternehmen führen ihre Daten innerhalb von Business-Intelligence-Projekten mit Hilfe standardisierter Datenbanktechnologien zusammen, um daraus effizient Analysen sowie Geschäftsentscheidungen ableiten zu können. Weitgehend ungelöst ist jedoch die Integration von Informationen über Mitbewerber, obwohl insbesondere solche Daten wichtige Hinweise für die eigene Ausrichtung und Weiterentwicklung des Unternehmens geben. Im Gegensatz zu unternehmenseigenen Daten sind Informationen über Konkurrenten nur über frei verfügbare Webdatenquellen (z.B. Kundenbewertungen von Produkten, offizielle Berichte zu Geschäftszahlen, etc.) zugänglich, was die automatisierte Integration insbesondere hinsichtlich Datenqualität und Effizienz erschwert.

3.: Adaptive Online-Empfehlungen für kommerzielle Websites

Eine große Herausforderung für E-Shops und Portale liegt darin, Nutzer schnell und effektiv zu den für sie interessanten Produkten zu führen. Große Anbieter wie Amazon verwenden hierzu bereits eine Vielzahl spezieller Empfehlungen (recommendations) auf jeder Webseite. Die automatische Empfehlung "interessanter" Produkte kann dabei durch eine Vielzahl von Verfahren ("ähnliche Produkte", "Kunden die ... gekauft haben, haben auch ... gekauft" etc.) erreicht werden, deren Qualität jedoch von vielen Faktoren abhängig ist und daher im praktischen Einsatz stark variiert.

4.: Klassifizierung von Websites des deutschsprachigen Web

Nach Angaben der DENIC sind im April 2008 im deutschsprachigen Web (d.h. der Top-Level-Domain .de) mehr als 12 Millionen Domains registriert. Dagegen gibt es z.B. gemäß dem statistischen Bundesamt in Deutschland weniger als 300.000 Unternehmen, die im Jahr 2006 mehr als 1 Million Euro Umsatz erzielt haben. Dies bedeutet, dass weniger als 3 % der Domains zu am deutschen Markt etablierten Unternehmen gehören. Daher wird es immer schwieriger, hochwertige Informationen im Web zu finden. Ein effektives Klassifikationsverfahren zur Unterteilung des Web in Abhängigkeit der Funktionalität einer Website wäre vor diesem Hintergrund von großem Nutzen, da es z.B. die Websites der o.g. Unternehmen oder von Online-Shops identifizeren kann. Folglich würde es einen wesentlichen Beitrag zur Verbesserung der Recherche im deutschsprachigen Web, zum Aufbau von vertikalen Portalen oder zur Erstellung einer Datenbasis als Grundlage für das Matching von Schemas oder für Business-Intelligence-Projekte leisten.

An dem Forschungsprojekt beteiligt sind der Lehrstuhl für Datenbanken, der Lehrstuhl für Rechnernetze und verteilte Systeme und der Lehrstuhl für Marketing der Universität Leipzig.


Project members