Universität Leipzig

Institut für Informatik

PF 920

D-04009 Leipzig

Germany

 

 

 

 

 

 

 

 

Data Warehousing und Data Mining

 

Seminar im Sommersemester 1998

 

 

 

 

Thema 1:

Einführung in Begriffe, Architekturen, Probleme, Anwendungen

 

 

Matthias Löbe - Dr. Dieter Sosna



 

 

 

 

 

 

 

 

 

Inhaltsverzeichnis:

 

 

 

1.

 

Vorwort   .................................................................................................

- 5 -

2.

 

Einleitung   .............................................................................................

- 6 -

 

2.1.

Was ist ein Data Warehouse ?   ...........................................................

- 6 -

 

2.2.

Was bedeutet Data Warehouse nicht?   ..............................................

- 6 -

3.

 

Beispiele für die Nutzung von Data Warehouses   ............................

- 7 -

4.

 

Eigenschaften   ......................................................................................

- 9 -

5.

 

Architektur   ...........................................................................................

- 10 -

6.

 

Techniken und Anbieter   .....................................................................

- 13 -

 

6.1.

Hardware   ..............................................................................................

- 13 -

 

6.2.

Software   ...............................................................................................

- 14 -

 

6.3.

Einsatzgebiete   .....................................................................................

- 15 -

7.

 

Probleme   ...............................................................................................

- 17 -

 

7.1.

Forschungsprobleme   ...........................................................................

- 17 -

 

7.2.

Betrieb von Data Warehouses in der Praxis   ....................................

- 18 -

 

7.3.

Soziale und gesellschaftliche Aspekte   ..............................................

- 18 -

8.

 

Zukunft und Ausblick   .........................................................................

- 19 -

A.

 

Literaturverzeichnis   ...........................................................................

- 21 -

B.

 

Glossar   ..................................................................................................

- 23 -

 

 




 

1. Vorwort

 

In den letzten Jahrzehnten dieses Jahrtausends vollzieht sich immer deutlicher ein grundlegender Wechsel in der ökonomischen Entwicklung der Menschheit. Das Industriezeitalter mit dem produzierenden Gewerbe im Mittelpunkt wird von der Dienstleistungsgesellschaft verdrängt. Das Hauptaugenmerk des wirtschaftlichen, und damit auch des politischen und sozialen Interesses liegt nicht mehr auf dem Gewinn von Land oder Rohstoffen. Der zentrale Rohstoff der entwickelten Zivilisationen ist die Information.

Die hiermit verbundenen Herausforderungen lassen sich zur Zeit nur erahnen. Dabei ist es noch keine 250 Jahre her, daß mit der Erfindung der Dampfmaschine ein 3000 Jahre währender technologischer Stillstand beendet wurde. Seit den Feldzügen Alexanders konnten Informationen schnellstmöglich nur von Pferden oder Segelschiffen überbracht werden. Nun begann ein Wettlauf zwischen Transport und Kommunikation, der bis heute nicht entschieden ist: Eisenbahn - Telegrafie, Automobile - Telefon, Flugzeuge - Radio, Schnellstraßennetze - Fernsehgeräte, Raumflüge - Rechenautomaten, Hochgeschwindigkeitszüge - Internet. Werden Menschen späterer Generationen über Bioimplantate vernetzt sein bzw. per Telepathie kommunizieren können? Oder macht die Entwicklung von Überlichtantrieben und Beam-Technologien solche Entwicklungen obsolet?

In der letzten Zeit stehen jedoch Wirtschaftsunternehmen wie Forschungseinrichtungen vor einem Problem ganz anderer Art: Es gibt nicht zu wenige Daten, sondern zu viele, genauer gesagt zu viele, als daß bei diesen mit herkömmlichen Konzepten noch eine zur Entscheidung notwendige Übersichtlichkeit vorhanden wäre. Man spricht in diesen Zusammenhang auch vom information overflow (Informationsüberfluß).

(aus: TIME Magazin 75th Anniv.)

 

In diesem Bericht wird ein neuartiges Konzept der Verwaltung von großen Datensammlungen diskutiert, das Data Warehouse (Datenlagerhaus). Damit soll die Transformation von Daten in jederzeit erhältliche, erstrangige Informationen als Grundlagen für Entscheidungen bewerkstelligt werden, die zunehmend essentiell für den Unternehmenserfolg im globalen Wettbewerb sind.

 

2. Einleitung

 

Die rasche Entwicklung der elektronischen Datenverarbeitung ermöglichte den Einzug dieser Technologie in nahezu alle Bereiche der Wirtschaft. Datenbanken lösten althergebrachte Karteikartensammlungen ab, und der Preisverfall ermöglichte rechnergestützte Verwaltung in jedem Büro, die damit verbundene Steigerung der Effizienz erzwang den Einsatz geradezu. Alle Unternehmensdaten wurden in Computersysteme integriert und der technische Fortschritt erlaubte es, die dafür nötigen Speicherkapazitäten ständig auszubauen, so daß es keine (hardwarebedingte) Notwendigkeit gab, Daten zusammenzufassen oder zu löschen. Die Datenbanken liefen auf Großrechnern (Mainframes), die von einer immer größeren Anzahl von Herstellern angeboten wurden. Standards gab es so gut wie keine. Heutzutage werden praktisch täglich neue Daten hinzugefügt, die meisten auftragsbezogen, viele aber auch als Nebenprodukt anderer Vorgänge. Die so entstandenen Gefüge heißen operative Systeme, da sie eng an betriebliche Teilprozesse gekoppelt sind, z.B. Forschungsergebnisse der Entwicklungsabteilung, Produktionsdaten der Fertigung, Absatzerwartungsanalysen der Marketingabteilung, Verkaufs- und Kundendaten im Vertrieb. So verdoppelt sich die Datenflut laut Untersuchungen ca. aller 5 Jahre. Die Auswertung dieser Daten, die sich häufig auf verschiedene inkompatible Systeme und Datenformate erstrecken und vor allem der gesicherte Erkenntnisgewinn daraus erwiesen sich als zunehmend unmöglich. Neue Wege mußten beschritten werden.

 

2.1. Was ist ein Data Warehouse?

 

Ein Data Warehouse ist ein zentrales Datenlager, in dem in regelmäßigen Abständen von allen operativen Systemen ein Schnappschuß des Datenbestandes gesichert, verifiziert, gefiltert und geordnet wird. Dies wird aber nicht von einem einzelnen Programm, sondern von einer Vielzahl aufeinander aufbauender, interdependenter bzw. interinfluenter Anwendungen ermöglicht. Im Kern besteht ein Data Warehouse aus einer speziellen Datenbank, die die verschiedenen heterogenen Quellen zu einer unternehmensweiten Sicht verbindet, so daß diese ohne neuerliche Erhebung weitgehende Auswertungen ermöglichen.

Data Warehousing bezeichnet dagegen den gesamten Prozeß des Aufbaus eines Data Warehouses, von der Analyse des Informationsbedarfs bis zur Repräsentation. Es beschreibt den dynamischen Zugriff auf statische Daten.

 

2.2. Was bedeutet Data Warehouse nicht?

 

Obwohl der Begriff des Data Warehouses relativ neu ist, bestehen grundlegende Überlegungen dazu schon länger. Ein erster Schritt war OLTP. Dabei werden an ein meist relationales DBMS sogenannte Reports gerichtet. Diese standardisierten Abfragen konnten nur von speziell ausgebildeten Leuten programmiert werden, die dazu häufig Tage oder Wochen benötigten. Individuelle, flexible Ad-hoc-Anfragen waren damit kaum möglich. Hauptproblem waren hierbei die verschiedenen verteilten Datenbanken mit ihren heterogenen Datenmodellen. So wird OLTP heute bei immer wiederkehrenden betrieblichen Vorgängen genutzt, bei denen nur geringe Datenmengen übertragen werden, die aber große Änderungen im Datenbestand zur Folge haben können (z.B. Kunden einfügen/ löschen). Eine große Zahl von Benutzern erfordert eine hohe Verfügbarkeit, die Daten müssen detailliert, schnell und zeitlich aktuell vorliegen..

Ein nächster Ansatz waren entscheidungsunterstützende Systeme, Decision Support Systems (DSS), Executive Information Systems (EIS) bzw. Management Information Systems. Für diese großrechner- oder personalcomputerbasierten Lösungen gab es nun zwar flexible Auswertungsprogramme wie z.B. MS Excel, man konnte jedoch ohne hohe finanzielle Investitionen keine großen Datenmengen speichern und die globale Konsistenz des lokalen Datenmaterials nicht garantieren.

Data Warehouse heißt auch nicht „Datenwarenhaus“, obwohl man diesen Begriff oft in Zeitungen, vor allem in Verbindung mit E-Commerce, antrifft. Auch wenn Data Warehouses  im Handel besonders häufig verwendet werden, stehen sie nicht für die effizientere Verwaltung von Lagerbeständen, sondern dienen eher dem Erfassen von Kundenpräferenzen. Verstärkt wird diese Fehldeutung durch den Begriff des Data Marts („Datenmarkt?!“). Darunter versteht man kleine Datenlager für Fachabteilungen, also ein Data Warehouse für ein Unternehmensteil.

Der Prozeß des Lean Management und die damit verbundenen flacheren Unternehmenshierarchien bedeuten mehr Verantwortung und selbständigeres Handeln der leitenden Mitarbeiter. Diese müssen in der Lage sein, aus denen im Unternehmen durchaus vorhandenen Daten Antworten auf individuelle, komplexe Fragestellungen zu finden. Die Fragen sind dabei oft mehrdimensionaler Art, z.B. „Inwieweit wird die Einführung mittelgroßer Druckwalzen in diesem Jahr auf dem europäischen Markt unserem Absatz an kleinen Walzen (im Vergleich zu den Vorjahren plus einem prognostizierten Wachstum) schaden?“. Dafür wird OLAP eingesetzt, welches flexible Datenanalyse mit RDBMS koppeln soll. OLAP baut nicht nur auf unternehmensinternen bzw. verfügbaren Daten auf und erlaubt dadurch spekulative Was-wäre-wenn-Szenarien (Konkurrent wird ebenfalls zur Entwicklung mittelgroßer Walzen gezwungen -> hohe Kosten; geringer, zeitlich beschränkter Wettbewerbsvorteil).

Data Warehousing beschreibt also nur die Integration, das interne Management und die Zugriffsmöglichkeiten auf die Daten, nicht aber deren Auswertung. Dies ist Aufgabe des Data Minings als Teil der Knowledge Discovery. Es soll Korrelationen und regelmäßige oder sich wechselseitig beeinflussende Muster aus der Menge der Daten filtern, sowie deren Konfidenz bestimmen. Im nächsten Schritt werden die Ergebnisse interpretiert, das heißt, jetzt wird auch ein kausaler Zusammenhang postuliert. Typische Anwendungen sind Direktmarketing mit Antwortanalyse (z.B. Akzeptanz zukünftiger Produkte), Kundenbindung (Kunden- und Lieferantenpräferenzen), Warenkorbanalysen und Risikomanagement (betrügerisches Verhalten aufzudecken oder vorherzusagen).

 

3. Beispiele

 

An dieser Stelle soll nun der Einsatz eines Data Warehouses vorgestellt werden, der nicht nur erfolgreich, sondern auch beispielhaft für die konsequente Verfolgung der Data Warehouse Idee ist.

Der US-Einzelhandelskonzern Wal-Mart, mit einem Gesamtumsatz von über 100 Mrd. US-Dollar weltgrößter Handelskonzern vor Metro, befand sich Mitte der Neunziger Jahre in einem Dilemma: der Markt für Einzelhändler war zwischen den großen Supermarktketten fest aufgeteilt, Verschiebungen wären nur mit unverhältnismäßigen Mitteln erreichbar gewesen. Eine Zunahme, aber auch ein Abrutschen des Verbrauchs von Alltagsgütern war nicht zu erwarten. Es drohte Stagnation.

In einer solchen Situation und dem Bewußtsein, daß es den Kunden schwerfällt, sich bei solch homogenen Produktanbietern an einen bestimmten zu binden, suchte Wal-Mart nach Möglichkeiten, sich aus der Masse durch einen besonderen Kunden-


(aus Konr@d 1/98)


nutzen zu differenzieren. Marktuntersuchungen hatten ergeben, daß der häufigste Grund für einen bewußten Wechsel des Supermarktes das Nichtvorhandensein bevorzugter Gütermarken war. Das Unternehmen entschloß sich zur Einführung eines Data Warehouses, welches inzwischen im Hauptsitz der Firma in Arkansas die gewaltige Menge von 24 000 Gigabyte füllt. Jeden Tag wird es mit einer halben Million Queries der 2740 Filialen und der über 4000 Warenlieferanten belastet. Das System läuft auf einem NCR WorldMark 5100M neben einer


weiteren (Informix-) Datenbank. Lieferanten und Mitarbeiter können via Satellit über mehrere HP-UNIX-Server auf die Datenbanken zugreifen, die z.B. eine 56-wöchige Aufzeichnung aller Transaktionen einschließlich Datum, Verkaufsstelle, Produkt, Lieferant etc. bereithalten. Am anderen Ende besitzt jede Verkaufsstelle einen HP-Server, der mit den einzelnen Point-Of-Sales und tragbaren Telxon-Rechnern verbunden ist. Jeder Kauf wird umgehend protokolliert.

Das Neue daran ist aber nicht der Einsatz von Computern zur statistischen Abrechnung: Eines der Hauptprobleme der Lagerhaltung ist die Differenz zwischen der Schätzung des Verbrauchs eines Produktes durch den Einzelhändler und durch den Produzenten des Produktes. Die Folge sind entweder Überschuß oder Ausverkauf. In einem Pilotprojekt koppelten sich Wal-Mart und Warner-Lambert, ein Hersteller von Drogerieartikeln, mittels eigens entwickelter CFAR („see far“)


Prognosetechnologie zusammen. Die gemeinsame Prognose dient nun als Plan; „ein Spiel mit offenen Karten zum Nutzen des Kunden“. Die Folge sind geringere Lagerhaltungskosten und zeitlich exakte Lieferungen. Laut eigenen Angaben hat Wal-Mart Lagerverluste besser im Griff als jede andere Handelskette. Weiterhin wurden Bewegungsmelder und Infrarotkameras zur


Überwachung der Kundenströme installiert und die Daten in das Data Warehouse übertragen. Die gewonnen Erkenntnisse erlauben das optimale Aufstellen und Bestücken der Regale sowie eine flexible Handhabung von Sonderangeboten. Geplant ist weiterhin die elektronische Auszeichnung an den Regalen über LCD-Displays, die ebenfalls mit dem System vernetzt sind.


        

(beide aus Konr@d 1/98)


 

Der Erfolg ließ nicht lange auf sich warten. In den ersten 3 Quartalen des vergangenen Geschäftsjahres konnte der Gewinn um 14% gesteigert werden, andere Unternehmen zeigen Interesse an CFAR, und die Business News meint anerkennend: „After a rude earnings surprise, the chain has decisively put its house in order ...“.

Aber auch in Deutschland fordern unterrichtete und urteilsfähige Kunden ein anpassungsfähiges Angebot, das besser auf deren individuelle Bedürfnisse zugeschnitten ist. Das Marktvolumen für Datenmanagement soll im Jahr 2000 die 4-Milliardengrenze überspringen. Spezifischen Kundenwünschen versucht z.B. die Lufthansa mit ihrem „Zielkundenmanagement“ gerecht zu werden. Vielfliegern werden zu den prognostizierten Reiseterminen neben Reiseinformatioen und Online-Buchung auch Partnerhotels und Anschlußflüge angeboten.

 

4. Eigenschaften

 

Geprägt hat den Begriff  „Data Warehouse“ der kalifornische Datenbankspezialist


 Bill Inmon in seinem Standardwerk „Building the Data Warehouse“. Danach ist ein Data Warehouse eine „themenorienierte, integrierte, zeitbezogene und dauerhafte Sammlung von Informationen zur Entscheidungsunterstützung des Managements.“.

Themenorientiert bedeutet dabei, daß die Daten im Gegensatz zu operativen Daten nicht auf die Nutzung in einer Anwendung hin, sondern auf ihren subjektspezifischen Zusammenhang gespeichert werden.

Die Integration, Konsolidierung und Aggregation der verteilten, unterschiedlich strukturierten Daten in einen einheitlichen, homogenen Datenbestand ist Voraussetzung für deren flexible Auswertung.


 

 Bill Inmon

Founder of Pine Cone Systems, Inc


Weiterhin ist die Zeitbezogenheit der Daten eines Data Warehouses ein grundlegender Unterschied zu operativen Systemen, welche immer nur zum Zugriffszeitpunkt gültig sind. Diese könne zwar gelöscht oder aktualisiert werden, es ist aber nicht möglich, zeitbezogene Aussagen zu machen. Doch erst dadurch können Trends in der Entwicklung des Unternehmens über die Vergangenheit bis in die Gegenwart verfolgt werden.

Letztlich  ist auch die Beständigkeit der Daten von Bedeutung. Das heißt, daß einmal vorhandene Daten nie gelöscht werden. Sie können zwar in ihrer Priorität sinken und auf Sekundärmedien ausgelagert werden, stehen aber bei Bedarf immer wieder zur Verfügung. Auch nach dem Einspielen neuer operativen Daten ermöglichen sie jederzeit wieder reproduzierbare Analysen.

 

5. Architektur

 

Im unteren Bild wird die allgemeine Struktur eines Data Warehouses gezeigt. Links im Bild sind die operationalen, (firmen-)internen Datenquellen zu sehen. Sie haben i.a. keine einheitliche Struktur, es kann sich also um neben häufig relationalen um hierarchisch verwaltete Altlasten, Lotus-Notes-Daten oder HTML-Internet-Dokumente handeln. Weiterhin ermöglicht ein Data Warehouse die Einbeziehung externer Informationsquellen wie z.B. die Produktbeschreibungen von Mitbewerbern oder die Marktanalysen unabhängiger Forschungsinstitute.

 

(aus Chaudhuri, S.: „An Overview of Data Warehousing and OLAP Technology“)

 

An erster Stelle steht die Umwandlung des Quelldatenformates in das des Data Warehouses.  Diese Aufgabe übernimmt ein „Verpacker“ (Wrapper), der für jede Datenquelle einmal (mit der jeweils benötigten Funktionalität) existiert. Dazu muß er nicht nur verschiedene Datenbankdialekte verstehen können, er muß auch Netzwerkprotokolle und die Datenstrukturen genutzter Anwendungen beherrschen. Weiterhin untersucht er die Daten auf logische Fehler und korrigiert sie gegebenenfalls (Scrubbing, auch Cleaning oder Auditing).

Ihm zur Seite steht ein „Überwacher“ (Monitor), der auf für das Data Warehouse relevante Änderungen der Ursprungsdaten reagieren kann. Heutzutage wird meist periodisch „upgedated“.

Ein „Aufsammler“ (Integrator, auch Data-Warehouse-Manager) fügt die Daten in das Data Warehouse. Er muß dabei die Filterung der Daten und Verschmelzung mit eventuellen anderen Quelldaten übernehmen, sowie mit dem Überwacher in Kontakt zu bleiben. Er ist auch für die Reduzierung auf die benötigte Informationsmenge verantwortlich, welche manchmal nötig ist, um die Benutzer nicht mit Daten zu überschwemmen. Fehlender Überblick schränkt den fabrikweiten Gebrauch vor allem für Nichtprofis ein. Werden dann (im besten Fall vom Integrator selbst) signifikante Abweichungen festgestellt, sollte es möglich sein, sich zu den interessanten Details „durchzubohren“ (drill down).

Zuletzt werden dann die behandelten Informationen in das Data Warehouse geladen. Der Zeitplan wird dabei von der Metadatenbank (Metadaten Repository) festgelegt. Sie enthält das „Inhaltsverzeichnis“: neben Struktur und Inhalt des Warehouses eine Fülle weiterer Informationen über Daten wie Extraktions-, Transformations- und Aggregationsgeschichte, Datenvolumen, -verteilung, -beziehung zueinander u.v.a.

Oftmals wird das Modell auch nur anhand der darin stattfindenden Datenflüsse charakterisiert. Dabei treten 5 parallele Prozesse auf: eingehende Daten (In-Flow), Aufbereitung (Up-Flow), internes Management (Down-Flow), ausgehende Daten (Out-Flow), sowie die Kommunikation mittels Metadaten (Meta-Flow).

 

          (aus Widom, J. „Research Problems in Data Warehousing“)

 

Obwohl das Data Warehouse logisch eine Einheit ist, handelt es sich in der Praxis meist um ein verteiltes Datenbanksystem. Die damit verbundenen Probleme, z.B. Partitionierung, Allokation, Replikation und Optimierung der Daten, Parallelisierung von Transaktionen usw. sind allgemeiner Natur und betreffen Data Warehouses nur mittelbar. Sie werden an dieser Stelle nicht weiter verfolgt.

In Data Warehouses muß im allgemeinen je Abfrage eine viel größere Menge von Tabellen durchsucht und vereinigt werden als in operationalen Systemen. Um dies in akzeptabler Zeit zu ermöglichen, werden OLAP-Tools eingesetzt. Diese stellen die Daten nach außen in Form eines multidimensionalen Würfels dar. Jede Dimension wie z.B. Ort oder Zeit ist dabei ein Auswertungskriterium mit skalierbarem Maßstab. Heutige OLAP-Tools sollten FASMI bieten: Fast (<5 sec.) Analysis (jederart) of Shared (Schutzmechanismen!) Multidimensional (s.o.) Information (Ergebnisse).

Relationale Datenbanken versuchen diese Art Multidimensionalität nachzubilden. Am häufigsten wird dazu das Sternschema (Star Schema) genutzt. Dabei steht im Mittelpunkt der Datenbank eine Faktentabelle, in der jeder Eintrag über Zeiger mit einer eigenen Dimensionstabelle verbunden ist. Mit dem Schneeflockenschema (Snowflake Schema) lassen sich dagegen Hierarchien abbilden. Hier enthalten die Dimensionstabellen keinerlei redundante Daten, sondern können ihrerseits auf Untertabellen zurückgreifen.


 

    


(aus Chaudhuri, S.: „An Overview of Data Warehousing and OLAP Technology“)

 

Relationale Systeme haben sich bewährt, sie unterstützen Standards wie ODBC und SQL, und es existieren Hilfswerkzeuge. Große Datenmengen lassen sich gut auf mehrere Prozessoren verteilen. Neu ist dagegen das multidimensionale Datenmodell (MOLAP) und damit die Multidimensionalen Datenbanken (MDBMS). Diese wur-


den ausschließlich für die Arbeit mit mehreren Dimensionen geschaffen und unterstützen dementsprechend die erforderlichen Datenbankoperationen. Beispielsweise müssen die Datensätze nicht über Indizes gesucht werden, da ihre Position bekannt ist. Nachteilig sind proprietäre Programmierschnittstellen, nur

(aus Wu, M. C. „Research Issues in Data Warehousing“)


rudimentär vorhandene Backup- und Restoremechanismen und langsame Updateverfahren. Inzwischen scheint der Kampf jedoch entschieden: Marktbeobachter wie die Metagroup bevorzugen auch im Hinblick auf den WWW-Markt das relationale Modell. In diesem werden genaugenommen nur die vorkommenden Tupel gespeichert, während bei MOLAP alle Tupel, auch leere, gespeichert werden und dadurch der Aufwand mit steigenden Dimensionen genau exponentiell wächst. Bei anhaltendem Wachstum der Datenmengen ist MOLAP nur für kleine Projekte geeignet.


(aus Rahm, E. „Mehrrechnerdatenbanksysteme“)

 

Die letzte Stufe stellen die Endbenutzerwerkzeuge dar. Diese helfen bei der eigentlichen „Wissensentdeckung“. Da es den Rahmen dieses Artikel sprengen würde, auf die Funktionsweise aller einzugehen, und der Einsatz sich nicht notwendigerweise auf Data Warehouses beschränkt, sollte die bloße Nennung ausreichen:

 

·     Reportgeneratoren

·     Statistik

·     Data Mining

·     Dokumenten-Retrieval

·     Aktive Informationsfilter

·     Prozeß- und Szenarienmodellierung, Entscheidungsanalyse

·     Geographische Informationssysteme (Data Warehouse von SAS enthält Landkarten der Erde in verschiedenen Detailstufen)

·     Führungsinformationssysteme

 

6. Techniken und Anbieter

 

Warum gibt es Data Warehouse Systeme erst seit relativ kurzer Zeit? Die grundlegenden theoretischen Ideen sind nicht neu. Der Hauptursache war, daß sie erst jetzt technisch möglich wurden, nicht daß die Markt sie verlangt hätte.

 

6.1. Hardware

 

Den größte Anschub erfuhr die Entwicklung durch die Leistungssteigerung von Mehrprozessorsystemen und darauf optimierter Datenbanken. Wie schon zuvor erläutert, ist nämlich das typische Data Warehousing aufgrund der Einmaligkeit und dem Wirkungsbereich einer Abfrage deutlich rechenintensiver. Durch die mögliche Zerlegung in Teilschritte, die parallel ausgeführt werden, boten sich Client-Server-Technologie, Multiprozessorsysteme und parallele Datenbanken geradezu an.

Als Alternativen präsentieren sich dabei symmetrische Multiprozessorsysteme, Cluster und massiv-parallele Rechner bzw. Verschmelzungen dieser Technologien. Symmetrische Mulitprozessorsysteme basieren auf einem gemeinsamen Hauptspeicherbereich (SMP) und werden deshalb auch als Shared-Memory Multiprocessing (SMMP) bezeichnet. Heutzutage können statt der üblichen 4 schon bis zu 64 Prozessoren verknüpft werden. Ihr größtes Manko ist die beschränkte Bandbreite des Busses, der die CPUs mit dem Hauptspeicher bzw. den I/O-Geräten verbindet. Diese Grenze kann mit dem Zusammenfügen einzelner SMP-Systeme zu Clustern umgangen werden. Unter Umständen können die Rechner sogar gleichzeitig auf den Plattenpool einer Datenbank zurückgreifen. Der hohen Skalierbarkeit durch Zufügen neuer SMPs in den Cluster stehen jetzt die geringe Bandbreite zwischen den SMPs innerhalb des Clusters und Konsistenzprobleme beim gleichzeitigen Zugriff auf eine Datenbanktabelle entgegen. Massiv-parallele Rechner (MPP) teilen nichts miteinander (deshalb auch als Shared-Nothing bezeichnet). Sie haben eine eigenständige CPU, RAM, I/O usw. und sind untereinander mit einem Hochgeschwindigkeitsnetzwerk verbunden. Weit verbreitet sind z.B. die RS/ 6000 Rechner von IBM, von denen bis zu 512 Knoten unterschiedlicher Größe (auch SMP) verbunden werden können. MPP wird deshalb auch von der Gartner-Group für Data Warehouses empfohlen, da schnelle Zugriffe auf Plattenpools aufgrund der nicht vorhersagbaren Datenanforderungen eine zentrale Rolle spielen.

Die Chase Manhatten Bank konnte nach einer Umstellung auf ein Data Warehouse mit Sybase MPP die geforderten Leistungssteigerungen um bis zu 100% übertreffen. 560 Gigabyte an Daten, verteilt auf 54 verschiedene Datenbanken, werden von 16 Servern verwaltet.

Als Betriebssystem der Zielplattform wird heute weitgehend UNIX genutzt (51%), vor Großrechnern (15%) und NT (10%).

 

(aus iX 4/96)

 

6.2. Software

 

Voraussetzung für einen möglichen Erfolg bei Aufbau eines Data Warehouses ist eine robuste und leistungsfähige Datenbank. So verwundert es nicht, daß der Markt unter den „Großen“ der Branche aufgeteilt ist: Oracle (27%) vor IBM (11%), Sybase (10%) und Informix (9%).

(aus iX 4/96)

 

Auf der Seite der Data Warehouse Managementsoftware sowie der OLAP-Tools läßt sich noch keine verläßliche Prognose machen. Eine große Anzahl kleiner Firmen hat sich auf dieses Gebiet spezialisiert; sie haben einen Entwicklungsvorsprung gegenüber den erst jetzt in den Markt drängenden Großanbietern. Diese versuchen den Nachteil jedoch durch Aufkäufe wieder wettzumachen. Unklarheit über die eigentlichen Anforderung und fehlende Interoperatibilität lassen auf eine baldige Standardisierung hoffen.

Zusammenfassend läßt sich sagen, daß heute jede größere im Bereich Datenverwaltung tätige Firma Lösungen für ein Data Warehouse anbietet.

 

6.3. Einsatzgebiete

 

Data Warehouses sollen eine solide Datenbasis zur Entscheidungsunterstützung sein, werden also primär als Managementinformationssysteme eingesetzt, hauptsächlich in den Bereichen Controlling, Geschäftsführung, Marketing und Vertrieb. Die weitgehende und unkomplizierte Anfrage an ein Data Warehouse soll Informationsgewinn für jedermann (Zugriffsberechtigten) ermöglichen.

Neben dem „klassischen“ Data Warehouse wird dieser Begriff auch für eine Reihe ähnlicher Konzepte ohne bedeutende strukturelle Unterschiede verwendet. Ein Schlagwort ist dabei das “Virtuelle Data Warehouse“. Darunter ist im Prinzip nur ein althergebrachtes operationales System mit homogener Datenstruktur zu verstehen, auf dem die neuen Analysewerkzeuge operieren. Ein weitergehender Gedanke kommt von NCR Teradata: die “Executive Information Factory“ (EIF), die den Rückfluß gewonnener Erkenntnisse während der Bearbeitung einer Anfrage in den Datenbestand zur Entscheidungssicherung integriert. Beispielsweise können damit die vielgeliebten Umfragen ausgewertet werden.

Diese Abspaltungen lassen schon erahnen, daß das Data Warehouse Konzept in einer Krise steckt. Schuld daran tragen hauptsächlich die Anbieter der Front-End-Tools, die mit Hilfe graphischer Oberflächen und einiger demonstrativer Beispiele völlig unrealistische Erwartungen hinsichtlich der erreichbaren Ergebnisse weckten. Es hat sich in der Praxis als fast unmöglich herausgestellt, alle Unternehmensdaten auf dieselbe Art und Weise zu modellieren. Die Aufwendigkeit des ETL-Vorgangs und der wirklichen Integration der Daten, die komplizierte Bedienbarkeit der Extraktionstools sowie die Anforderungen an die DV-Abteilungen im Blick auf Administration und Sicherung der Client-Server-Strukturen wurden schwerstens unterschätzt.

Wie aus nebenstehender Abbildung zur erkennen ist, entfällt der Großteil der Kosten auf Personal und Hardware.

(aus iX 4/96)

 

Die Größe der zu verwaltenden Daten wird von der Mehrheit der Beteiligten mit >50 Gigabyte angegeben, beim Datenzuwachs geht man von einer jährlichen Verdopplung aus, die Nutzerzahlen liegen meist bei 100 bis 500.

Deshalb lautet die einheitliche Empfehlung der Experten: „Think big, start small“. Der Komplettaufbau eines Data Warehouses sei ein „Blut, Schweiß und Tränen“-Projekt. Deshalb sollte man mit Data Marts beginnen, überschaubaren Projekte auf Abteilungsebene. Zum Beispiel mit „Rapid Warehousing“ (SAS): Schneller Aufbau eines kleinen Data Warehouses, da nur ein kleiner homogener Datenbestand genutzt wird. Die „Enterprise Data Mart-Architektur“ (EDM) von Siemens hilft beim Erstellen von Data Marts, die später zu einem Warehouse zusammengefügt werden können. Dabei existiert neben den lokalen Data Mart-Repositories ein globales, das sich die Metadaten je nach ihrem wahrscheinlichen Gebrauch mit den lokalen teilt, die natürlich im Bedarfsfall darauf zurückgreifen. Damit können auch mehrere Data Marts parallel entwickelt werden, was den Einsatz der oben erläuterten Hardwarekonzepte erleichtert.


(aus Client server magazin 1-2/98)


Mittelpunkt von EDM ist dabei der „Dynamic Data Store“ (DDS), eine Zwischenschicht, die sämtliche Daten in konsolidierter Form enthält. Es handelt sich also mehr oder weniger um eine  zweistufige Lösung. EDM soll helfen, schnell Erfolge unter akzeptablen Kosten zu erzielen und trotzdem die Erweiterbarkeit zu gewährleisten.

Auch eine Reihe weiterer Nachteile von multiplen Data Mart Lösungen wird damit verhindert: Die massive Redun-


danz zwischen den Data Marts, die fehlende gemeinsame Basis der integrierten Daten sowie die verschiedenen Schnittstellen zwischen Data Marts und Applikationen.

 

7. Probleme

 

Mit der Einführung und Nutzung von Data Warehouses ist eine große Anzahl von Problemen verbunden. Einige Aspekte in diesem Zusammenhang werden unser Leben zukünftig viel stärker beeinflussen und verändern als andere neue Technologien. Allerdings sollte jedem bewußt sein, daß grundlose Panik und Zukunftsangst völlig fehl am Platze sind. Historisch gesehen waren viele Befürchtungen unbegründet, neue Konzepte waren und sind der Grundstein der Weiterentwicklung der Gesellschaft.

Es liegt an jedem einzelnen, deren Anwendung zu beobachten.

 

7.1. Forschungsprobleme

 

Da Forschung und Einsatz von Data Warehouses parallel verläuft, sind die Probleme häufig dieselben.

Das Hauptproblem beim Einsatz eines Data Warehouses ist die Datenbereinigung und Aufbereitung, so daß alle Nutzer damit umgehen können. Laut Inmon liegt darin schon 80% des Gesamtaufwandes. Also sollte man auf unklare Datendefinitonen verzichten. Bei der Datenextraktion, dem zeitlich aufwendigstem Teil, treten Probleme vor allem beim Gleichmachen der Datenstrukturen (universelle Wrapper) auf, weiterhin fehlt eine effiziente Beschreibungssprache für aggregierte Sichten. Das Bemerken von Änderungen in den nichtrelationalen Quellen geschieht häufig noch durch einen rechentechnisch aufwendigen strukturellen Vergleich (sozusagen „deep compare“).

Auch das Data Mart-Konzept kann noch nicht vollständig überzeugen. Einige Firmen setzen daher schon mehrere Data Warehouses ein, was aber den ursprünglichen Gedanken an ein vollständiges Datenlager untergräbt.

Ein weiteres Problem ist die schlechte Skalierbarkeit. In den meisten Fällen mußten die Investitionen in Hardware innerhalb der ersten 4 Monate gegenüber der Planung verdoppelt werden. Das Einbinden neuer Datenquellen muß ständig möglich sein (darf also nicht länger als das Wochenende dauern), weiterhin sind Konsistenz- und Sicherheitsaspekte (Nutzerverwaltung) zu beachten. Die Verwaltung von Datenmengen im Tera- und Pentabytebereich rückt in den Bereich des Möglichen (die NASA benötigt täglich mehr als ein Terabyte).

Auch die Benutzerbedienung muß noch verbessert werden. So gelang es schon einigen Anwendern, ihr neues Data Warehouse mit falsch formulierten Queries in die Knie zu zwingen. Auch schwindet bei zunehmender Automatisierung die Aufmerksamkeit des (nur noch dem Rechner assistierenden) Benutzers für Fehler.

 

7.2. Betrieb von Data Warehouses in der Praxis

 

Laut einer Umfrage des „Data Warehouse Institutes“ planen 95% der größeren amerikanischen und 80% der deutschen Firmen den Einsatz von Data Warehouses in den nächsten Jahren. Die Frage ist also nicht ob, sondern wie das Data Warehouse eingesetzt werden soll. Gerade in Branchen wie der Telekommunikation oder der Finanzdienstleister läßt sich die Informationsflut anders kaum bewältigen.

Bedingt durch die derzeitige Aktualität des Themas sind Experten, die Betrieben bei der Einführung helfen, dünn gesät. Die Einrichtung sollte zuerst in einzelnen Abteilungen unter Einbeziehung der zukünftigen Nutzer geschehen, da diese ja später davon profitieren sollen. Ein Data Warehouse sollte den laufenden Geschäftsbetrieb nicht zu stark behindern, z.B. durch die Nichtverfügbarkeit der alten Datensysteme. Die ersten Erfolge müssen nach spätestens 100 Tagen zu sehen sein, sonst ist das Projekt durch mangelnde Akzeptanz und innerbetriebliche Widerstände bedroht.

Auch die Kosten der neuen Technologie sollten nicht unterschätzt werden. Sie beginnen je nach Datengröße bei einigen 100 000 Mark, leicht können aber bei Ausweitung auf andere Abteilungen oder zu knapper Kalkulation einige Millionen daraus werden. Deshalb empfiehlt sich für die Erstinstallation Vertrieb oder Marketing, da dort im allgemeinen die größten Erfolgspotentiale vorhanden sind.

Zusammenfassend ist zu empfehlen, daß jede Firma den Aufbau eines Data Warehouses mit gesundem Mißtrauen verfolgen sollte. Hat letztlich alles geklappt, ist man jedoch mit der Einführung trotzdem nicht entgültig fertig, da zufriedene Benutzer wieder andere Anwendergruppen begeistern, die dann weitere Forderungen stellen werden.

 

7.3. Soziale und gesellschaftliche Aspekte

 


Im ausgehenden 20. Jahrhundert wird die Freiheit des einzelnen allerdings nicht mehr durch den Staat, sondern durch ein computergestütztes Konglomerat aus Banken, Versicherungen, Krankenkassen und Warenhäusern bedroht. Als bequemer Fortschritt wird die Möglichkeit bargeldloser Bezahlung mit Geld- und Kreditkarten dem Kunden verkauft. Kein Arztbesuch mehr ohne Chipkarte. IKEA bietet schon heute die Möglichkeit, eine Clubkarte zu erwerben. Und wer hat noch nicht Post/ Anrufe einer Versicherung erhalten, die ganz genau wußte, was einem noch fehlt? Der gläserne Kunde wird Realität.


 

Der mögliche Mißbrauch dieser Daten wird durch die Analysemethoden des Data Mining noch verstärkt. Der bisher schon lukrative Handel mit Namenslisten enthält zukünftig neben Adreßinformationen auch Details zum Konsumverhalten und Freizeitinteressen. In erster Linie soll dies natürlich uns Kunden zugute kommen. Lebensmittelmärkte könnten anhand unserer Einkaufsgeschichte zusätzliche Kassen öffnen. Die Versicherung könnte nach Abgleich mit dem Reiseveranstalter eine Auslandskrankenversicherung anbieten. Unsere Hausbank könnte uns informieren, daß sie unsere Gehaltserhöhung höher als die Konkurrenz verzinst.

Wahrscheinlicher ist jedoch, daß ohne klare Bestimmungen nur treue und liquide Kunden die Expreßkassen benutzen dürfen, nur Vielflieger Sonderangebote erhalten, und in letzter Konsequenz, der Arbeitergeber bei Diagnose einer langwierigen Krankheit rechtzeitig kündigen kann.

Manchmal reicht es bereits aus, sich nicht an jedem Gewinnspiel zu beteiligen und auch sonst nur die unbedingt nötigen Datenfelder auszufüllen. Alles Weitere muß durch hinreichend strenge Gesetze geregelt werden. Doch gerade diese Grenze ist nicht unumstritten, denn wann ist einer Person nachweisbar ein Schaden entstanden? In den USA wird jeder Fluggast seit Beginn dieses Jahres auf Terrorismusverdacht geprüft, häufige Reisen durch arabische Länder lassen Gepäckkontrollen unbemerkt gründlicher ausfallen. Steht die Privatsphäre und der Geheimhaltungswunsch eines einzelnen höher als bessere Produkte, mehr Service und Komfort für viele? Immerhin wirkt der Kunde jetzt durch seinen Konsum aktiv auf zukünftige Produkte ein.

„Es ist okay, schlechte Kunden zu feuern.“, meint der Boß der Data-Warehouse-Firma DB Intellect, „Warum sollten Sie Kunden wollen, die nicht profitabel sind?“. Und mittels moderner Technik können die Unternehmen auch zum Gegenschlag ausholen. Als Kalifornien 1996 die Caller-ID-Technik zuließ (Anzeige der Nummer und des Namens des Anrufenden), dann nur unter der Bedingung, daß es möglich sein müßte, sich zu anonymisieren. Ab April diesen Jahres biete nun die Telefongesellschaft Packard Bell die Abweisung solcher Anrufe mittels „Anonymous Call Rejection“ an.

 

8. Zukunft und Ausblick

 

Niemand braucht sich Sorgen zu machen. Auch das Thema Data Warehousing folgt dem in der Datenverarbeitungsindustrie so beliebten „Sinusschema“:

Des weiteren ist die von Inmon gelieferte Definition in der Praxis natürlich sehr weit Ausleger, was schlagartig zu einem hohen Prozentsatz erfolgreicher Data Warehouse-Nutzer führte. Dabeisein ist eben alles.

Unbestreitbar hat die Idee der Zusammenführung und Vereinheitlichung der Unternehmensdaten zu einer neuen Dimension von Analysewerkzeugen geführt. Ob diese allerdings wirklich mehr leisten, als Bier und Windeln im Supermarkt am Freitagnachmittag zusammenzurücken, muß die Praxis noch beweisen. Aktuelle  Beispiele unterliegen scheinbar noch dem Betriebsgeheimnis.

Auch Kosten und Zeitaufwand wurden häufig unterschätzt. Laut einer aktuellen Studie der Wirtschaftsvereinigung „The Conference Board“ verzögert sich der geplante Einsatz bei mehr als 50% aller Projekte, einige davon stecken völlig fest.

 

(aus iX 4/96, leider immer noch aktuell)

 

„Shopping Tomorrow“ bzw. „Smart Shopping“ meint die Bestellung von Waren des täglichen Bedarfs über das Internet. Mehr als die Hälfte alle Verbraucher empfindet den ständigen Einkauf als lästig. Hier wird ihnen die Möglichkeit geboten, sich die Ware bequem an die Haustür liefern zu lassen. Für die Fläche der Bundesrepublik wird ein Bedarf von 20 Regionallagern bei einer Lieferzeit im Zwei-Stunden-Takt geschätzt. In England und Amerika werden bereits flächendeckende Praxis-tests durchgeführt, es bietet sich der Einsatz von Datensammellagern an.

Zukünftig werden Datenwarenhäuser verstärkt im Internet präsent sein, um die Nutzung durch Geschäftspartner und Kunden zu ermöglichen. „Computing Services“ von SAS ermöglicht nicht nur das Abfragen von Daten über das Internet, sondern auch deren komplexe Verarbeitung. Der Zugriff erfolgt mittels JDBC-Treibern, JConnect erlaubt die Steuerung der Analysesoftware und JTunnel umgeht die javabedingten Einschränkungen der Zugriffs- und Schreibrechte.

Auch im Bereich des Data Minings ist noch ein großer Spielraum für Verbesserungen vorhanden. Da die statistischen Methoden mittlerweile ausreichend erforscht sind, erhofft man sich von dem Einsatz künstlicher Intelligenz und des maschinellen Lernens durchgreifende Erfolge. Neuronale Netze haben sich als besonders für inhomogene Datenbestände geeignet erwiesen. Fuzzy-Cluster-Verfahren extrahieren Klassen zusammengehöriger Fälle, aus denen automatisch Regeln generiert und in Entscheidungsbäume integriert werden.


 

A. Literaturverzeichnis:

 

Grundlagenliteratur:

 

Bager, Jo; Becker, Jörg; Munz, Rudolf: „Zentrallager“ C’t 3/97

Rahm, Erhard: „Mehrrechnerdatenbanksysteme“ Vorlesungsskript Kap. 8

Diercks, Jürgen: „Bestens im Bilde“ iX 4/96

 

Kapitel 1:

 

„Datawarehouse - einmal einfach dargestellt“ www.datawarehouse.de

Kinseley, Michael: „Transformation“ Time Magazin March 9, 1998

 

Kapitel 2:

 

„Handel im Netz für Firmen das Top-Thema“ Die Welt 23.03.1998

„Komplettpaket für Data Marts“ und „Reports im Warehouse“ Computerzeitung 7/98

Gupta, Vivek R.: „An Introduction to Data Warehousing“ System Service Corp. August 1997

Kühner, Dieter: „Data Warehouse eröffnet den Blick für eine neue Anwendungsgeneration“ Computerzeitung

Saylor, Michael J.; Bansal, Sanju K.: „Open Systems Decision Support“ Data Management Review Januar 1995

 

Kapitel 3:

 

Darling, Charles B.; Semich, William J.: „Wal-Mart’s IT secret: Extreme Integration“ Data Warehouses Magazine (Online) November 1996

Meissner, Gerd: „Haste mal ‘nen Markt?“ Konrad 1/98 S. 54-57

Zellner, Wendy: „A Grand Reopening for Wal-Mart“ Business News (US) 09.02.1998

 

Kapitel 4:

 

„Die Einführung eines Data Warehouse ermöglicht den gläsernen Kunden“ Universität Osnabrück, Fachbereich Wirtschaftswissenschaften September 1997

Born, Achim: „Informationsdefizit“ iX 1/98

Heck, Daniel: „Datenauswertung ohne Eingriff in operative Datenbanken“ Client Server Computing 6/96 S.66-69

Inmon, W. H.: „Building the Data Warehouse, Second Edition“ John Wiley

 

Kapitel 5:

 

„The Role of the OLAP-Server in a Data Warehousing Solution“ Arbor Software 1996

Branca, Isolde: „Microstrategy setzt auf ROLAP“ Datenbank Fokus 1/98

Chaudhuri, S.; Umeshwar, Dayal: „An Overview of Data Warehousing and OLAP Technology“ Microsoft Research bzw. Hewlett-Packard Labs. September 1997

Diercks, Jürgen: „Datenschürfer“ iX 8/96

Diercks, Jürgen: „Unbegrenzte Dimensionen“ iX 4/96

Orr, Ken: „Data Warehouse Technology“ The Ken Orr Institute 1997

Raden, Neil: „Modeling the Data Warehouse“ Archer Decision Sciences Inc. 1996

Wang, Zhenbo: „Data Warehousing: Eine Einführung“ Universität Karlsruhe Juli 1996 (ist aber nur eine freche Kopie (Übersetzung ins Deutsche) von Widom, J.)

Widom, J.: „Research Problems in Data Warehousing“ Stanford University November 1995

 

Kapitel 6:

 

Born, Achim: „Alle wühlen mit“ iX 4/96

Freeman, Eva: „Birth of a terabyte data warehouse“ Data Warehouses Magazine (Online) April 1997

Greenfield, Larry: „Don't let data warehousing gotchas getcha“ Data Warehouses Magazine (Online) March 1996

Heiting, Mareile: „Von Generalisten zu Spezialisten“ Datenbank Fokus 9/97

Inmon, W. H.: „Are multiple data warehouses too much of a good thing“ Data Warehouses Magazine (Online) April 1997

Remus, A.: „Nach oben offen“ Client Server Computing 8/97

Roehreke, Imai-Alexandra: „Chase Manhatten Bank fährt ein paralleles Data Warehouse“ Computerzeitung

Saxer, Marcel C.: “Die 10 Data Warehouse Gebote“ Whitepaper Tandem Computer GmbH September 1996

 

Kapitel 7:

 

„Amerikaner entdecken den Datenschutz“ Die Welt 21.03.1998

„Argumente für und gegen den Einsatz eines Data Warehouse“ Universität Osnabrück, Fachbereich Wirtschaftswissenschaften September 1997

Keller, Achim: „Geldinstitute schieben Informationen über Kunden nicht auf die lange Daten-Bank“ Computerzeitung

Zschunke, Peter: „Data Mining und Wissens-Management beschäftigen die Experten auf der Cebit. Ein Ziel ist der „gläserne Kunde““ Der Spiegel 1998

 

Kapitel 8:

 

„Data-Warehouse in der Krise“ Computerwoche 28.03.1998

Angstenberger, Joachim: „Intelligente Verfahren entdecken völlig neue Zusammenhänge in alten Daten“ Computerzeitung 7/98

Boos, Michael: „Virtueller Einkauf verlangt neue Logistik“ Die Welt

Bosch, Ruth: „Aus Data Marts ein Data Warehouse schmieden“ Client/ Server magazin 1-2/98

Dierck, Jürgen: „Web-Schürfrechte“ iX 7/97

Janetzko, D.; Steinhöfel, K.: „Lotsen los!“ c’t 3/97

Strüby, Reinhard: „Prinzip Hoffnung in der Prognose“ Datenbank Fokus 3/98


 

B. Schlagwörter

 


Aktive Filter: selbständige Suche nach vom Anwender spezifizierten Themen im Datenbestand

CFAR: Colloborative Forecasting and Replenishment, gemeinsame Vorhersage des Produktverbrauchs

Clusteranalyse: Verfahren der Statistik zur Klassifizierung in Gruppen(„Cluster“)

Data Mart: Implementierung einer einzelnen Geschäftseinheit zum schrittweisen Zusammenfügen zu einem Data Warehouse

Data Mining: Suche nach auffälligen oder korrelierenden Mustern in den Daten des Data Warehouse

Data Warehouse: Eine Datenbank, die alle Unternehmensdaten archiviert und zukünftige Entscheidungen durch das schnelle Auffinden und Aufbereiten relevanter Informationen unterstützt

DBMS: Datenbankmanagementsysteme, Unterscheidung nach Datenmodell, heutzutage existieren hauptsächlich relationale, in letzter Zeit werden auch multidimensionale und objektorientierte Ansätze verfolgt

Dokumenten-Retrieval: Verwalten großer Mengen von Schriftstücken auch unterschiedlichen Aufbaus

DSS: Decision Support Systems, Systeme zur Entscheidungsunterstützung durch vorgefertigte oder zweckgebundene Anfragen, Analyse- und Berichterstellungswerkzeuge

E-Commerce: Handel in elektronischen Medien

EIS: Executive Information Systems, siehe DSS

Entscheidungsbaum: Graph, der Vorgänge in einer linearen Baumstruktur abbildet, Alternativen werden durch Knoten und Objekte durch Blätter dargestellt

Fuzzy-Theorie: Erweiterung der zweiwertigen Logik um „unscharfe“ Beziehungen

GIS: Grafische Informationssysteme, Visualisierungstechnik für Ergebnisdaten (z.B. Dichte eines Stoffe durch Farben darzustellen)

information overflow: Informationsüberlauf, Verlust der Möglichkeit, aus Daten relevante Informationen zu erhalten aufgrund der puren Masse

JDBC: Java Datebase Connectivity, plattformübergreifende Datenbankschnittstelle der Programmiersprache Java von SUN

Lean Management: weniger Entscheidungsträger, flache Unternehmenshierarchien sollen Wasserkopfbürokratie vermeiden

Knowledge Discovery: Wissensentdeckung, Gesamtprozeß der Verwertung von Daten im Data Warehouse vom Aufstellen einer Anfrage bis zur Erkenntnis neuen Wissens aus den Ergebnissen

Maschinelles Lernen: Wissensmehrung neuronaler Systeme

MDBMS: siehe DBMS

MIS: Management Information Systems, siehe DSS

MOLAP: OLAP mit MDBMS

Prozeßmodellierung: Entscheidungen wie z.B. Investitionen und ihre Auswirkungen werden am Rechner in Form von Flußgraphen durchgespielt

ODBC: Open Database Connectivity, Datenbankschnittstelle von Microsoft

OLAP: Online Analytical Processing, interaktive Auswertung der Warehouse-Daten

OLTP: Online Transaction Processing, Auswertung operationaler Daten

OODBMS: siehe DBMS

Point-of-Sale: Ort-des-Verkaufes, allgemein die Kasse

RDBMS: siehe DBMS

Report: von Spezialisten programmierte starre Anfrage an eine Datenbank

ROLAP: OLAP mit RDBMS

Sicht: Folge von Anfrageoperationen, die unter dem Sichtennamen langfristig abgespeichert wird

Skalierbarkeit: Fähigkeit eines Systems, sich veränderten Benutzerverhalten anzupassen. Meist sind bei einem linearen Anstieg der Nutzeranforderungen für gleiche Leistung deutlich höhere Investitionen in Hardware erforderlich

Snowflake-Schema: Schema zur multidimensionalen Datenmodellierung in RDBMS, logische Sicht in Form einer Schneeflocke

Star-Schema: Schema zur multidimensionalen Datenmodellierung, logische Sicht in Form eines Sterns

SQL: Structured Query Language, Standardsprache relationaler DBS