Universität Leipzig
Institut für
Informatik
PF 920
D-04009 Leipzig
Germany
Data Warehousing und Data Mining
Seminar im Sommersemester 1998
Thema
1: |
Einführung
in Begriffe, Architekturen, Probleme, Anwendungen |
Matthias Löbe - Dr. Dieter Sosna
Inhaltsverzeichnis:
1. |
|
Vorwort
................................................................................................. |
- 5 - |
2. |
|
Einleitung
............................................................................................. |
- 6 - |
|
2.1. |
Was ist ein Data
Warehouse ?
........................................................... |
- 6 - |
|
2.2. |
Was bedeutet Data
Warehouse nicht?
.............................................. |
- 6 - |
3. |
|
Beispiele für die
Nutzung von Data Warehouses
............................ |
- 7 - |
4. |
|
Eigenschaften
...................................................................................... |
- 9 - |
5. |
|
Architektur
........................................................................................... |
- 10 - |
6. |
|
Techniken und
Anbieter
..................................................................... |
- 13 - |
|
6.1. |
Hardware
.............................................................................................. |
- 13 - |
|
6.2. |
Software
............................................................................................... |
- 14 - |
|
6.3. |
Einsatzgebiete
..................................................................................... |
- 15 - |
7. |
|
Probleme ............................................................................................... |
- 17 - |
|
7.1. |
Forschungsprobleme
........................................................................... |
- 17 - |
|
7.2. |
Betrieb von Data
Warehouses in der Praxis
.................................... |
- 18 - |
|
7.3. |
Soziale und
gesellschaftliche Aspekte
.............................................. |
- 18 - |
8. |
|
Zukunft und
Ausblick
......................................................................... |
- 19 - |
A. |
|
Literaturverzeichnis
........................................................................... |
- 21 - |
B. |
|
Glossar
.................................................................................................. |
- 23 - |
1. Vorwort
In den letzten
Jahrzehnten dieses Jahrtausends vollzieht sich immer deutlicher ein grundlegender
Wechsel in der ökonomischen Entwicklung der Menschheit. Das Industriezeitalter
mit dem produzierenden Gewerbe im Mittelpunkt wird von der Dienstleistungsgesellschaft
verdrängt. Das Hauptaugenmerk des wirtschaftlichen, und damit auch des
politischen und sozialen Interesses liegt nicht mehr auf dem Gewinn von Land
oder Rohstoffen. Der zentrale Rohstoff der entwickelten Zivilisationen ist die
Information.
Die
hiermit verbundenen Herausforderungen lassen sich zur Zeit nur erahnen. Dabei
ist es noch keine 250 Jahre her, daß mit der Erfindung der Dampfmaschine ein
3000 Jahre währender technologischer Stillstand beendet wurde. Seit den Feldzügen
Alexanders konnten Informationen schnellstmöglich nur von Pferden oder Segelschiffen
überbracht werden. Nun begann ein Wettlauf zwischen Transport und
Kommunikation, der bis heute nicht entschieden ist: Eisenbahn - Telegrafie, Automobile
- Telefon, Flugzeuge - Radio, Schnellstraßennetze - Fernsehgeräte, Raumflüge -
Rechenautomaten, Hochgeschwindigkeitszüge - Internet. Werden Menschen späterer
Generationen über Bioimplantate vernetzt sein bzw. per Telepathie kommunizieren
können? Oder macht die Entwicklung von Überlichtantrieben und Beam-Technologien
solche Entwicklungen obsolet?
In
der letzten Zeit stehen jedoch Wirtschaftsunternehmen wie Forschungseinrichtungen
vor einem Problem ganz anderer Art: Es gibt nicht zu wenige Daten, sondern zu
viele, genauer gesagt zu viele, als daß bei diesen mit herkömmlichen Konzepten
noch eine zur Entscheidung notwendige Übersichtlichkeit vorhanden wäre. Man
spricht in diesen Zusammenhang auch vom information
overflow (Informationsüberfluß).
(aus: TIME Magazin 75th Anniv.)
In
diesem Bericht wird ein neuartiges Konzept der Verwaltung von großen Datensammlungen
diskutiert, das Data Warehouse
(Datenlagerhaus). Damit soll die Transformation von Daten in jederzeit
erhältliche, erstrangige Informationen als Grundlagen für Entscheidungen bewerkstelligt
werden, die zunehmend essentiell für den Unternehmenserfolg im globalen Wettbewerb
sind.
2. Einleitung
Die rasche Entwicklung der elektronischen Datenverarbeitung
ermöglichte den Einzug dieser Technologie in nahezu alle Bereiche der
Wirtschaft. Datenbanken lösten althergebrachte Karteikartensammlungen ab, und
der Preisverfall ermöglichte rechnergestützte Verwaltung in jedem Büro, die
damit verbundene Steigerung der Effizienz erzwang den Einsatz geradezu. Alle
Unternehmensdaten wurden in Computersysteme integriert und der technische
Fortschritt erlaubte es, die dafür nötigen Speicherkapazitäten ständig
auszubauen, so daß es keine (hardwarebedingte) Notwendigkeit gab, Daten
zusammenzufassen oder zu löschen. Die Datenbanken liefen auf Großrechnern
(Mainframes), die von einer immer größeren Anzahl von Herstellern angeboten
wurden. Standards gab es so gut wie keine. Heutzutage werden praktisch täglich
neue Daten hinzugefügt, die meisten auftragsbezogen, viele aber auch als
Nebenprodukt anderer Vorgänge. Die so entstandenen Gefüge heißen operative Systeme, da sie eng an betriebliche
Teilprozesse gekoppelt sind, z.B. Forschungsergebnisse der
Entwicklungsabteilung, Produktionsdaten der Fertigung, Absatzerwartungsanalysen
der Marketingabteilung, Verkaufs- und Kundendaten im Vertrieb. So verdoppelt
sich die Datenflut laut Untersuchungen ca. aller 5 Jahre. Die Auswertung dieser
Daten, die sich häufig auf verschiedene inkompatible Systeme und Datenformate
erstrecken und vor allem der gesicherte Erkenntnisgewinn daraus erwiesen sich
als zunehmend unmöglich. Neue Wege mußten beschritten werden.
2.1.
Was ist ein Data Warehouse?
Ein
Data Warehouse ist ein zentrales Datenlager, in dem in regelmäßigen Abständen
von allen operativen Systemen ein Schnappschuß des Datenbestandes gesichert,
verifiziert, gefiltert und geordnet wird. Dies wird aber nicht von einem einzelnen
Programm, sondern von einer Vielzahl aufeinander aufbauender, interdependenter
bzw. interinfluenter Anwendungen ermöglicht. Im Kern besteht ein Data Warehouse
aus einer speziellen Datenbank, die die verschiedenen heterogenen Quellen zu
einer unternehmensweiten Sicht verbindet, so daß diese ohne neuerliche Erhebung
weitgehende Auswertungen ermöglichen.
Data Warehousing bezeichnet dagegen den gesamten Prozeß des
Aufbaus eines Data Warehouses, von der Analyse des Informationsbedarfs bis zur
Repräsentation. Es beschreibt den dynamischen Zugriff auf statische Daten.
2.2.
Was bedeutet Data Warehouse nicht?
Obwohl
der Begriff des Data Warehouses relativ neu ist, bestehen grundlegende Überlegungen
dazu schon länger. Ein erster Schritt war OLTP.
Dabei werden an ein meist relationales DBMS sogenannte Reports gerichtet. Diese
standardisierten Abfragen konnten nur von speziell ausgebildeten Leuten
programmiert werden, die dazu häufig Tage oder Wochen benötigten. Individuelle,
flexible Ad-hoc-Anfragen waren damit kaum möglich. Hauptproblem waren hierbei
die verschiedenen verteilten Datenbanken mit ihren heterogenen Datenmodellen.
So wird OLTP heute bei immer wiederkehrenden betrieblichen Vorgängen genutzt,
bei denen nur geringe Datenmengen übertragen werden, die aber große Änderungen
im Datenbestand zur Folge haben können (z.B. Kunden einfügen/ löschen). Eine
große Zahl von Benutzern erfordert eine hohe Verfügbarkeit, die Daten müssen
detailliert, schnell und zeitlich aktuell vorliegen..
Ein
nächster Ansatz waren entscheidungsunterstützende
Systeme, Decision Support Systems (DSS), Executive Information Systems
(EIS) bzw. Management Information Systems. Für diese großrechner- oder personalcomputerbasierten
Lösungen gab es nun zwar flexible Auswertungsprogramme wie z.B. MS Excel, man
konnte jedoch ohne hohe finanzielle Investitionen keine großen Datenmengen
speichern und die globale Konsistenz des lokalen Datenmaterials nicht garantieren.
Data
Warehouse heißt auch nicht „Datenwarenhaus“, obwohl man diesen Begriff oft in
Zeitungen, vor allem in Verbindung mit E-Commerce,
antrifft. Auch wenn Data Warehouses im
Handel besonders häufig verwendet werden, stehen sie nicht für die effizientere
Verwaltung von Lagerbeständen, sondern dienen eher dem Erfassen von
Kundenpräferenzen. Verstärkt wird diese Fehldeutung durch den Begriff des Data Marts („Datenmarkt?!“).
Darunter versteht man kleine Datenlager für Fachabteilungen, also ein Data
Warehouse für ein Unternehmensteil.
Der
Prozeß des Lean Management und die damit verbundenen flacheren Unternehmenshierarchien
bedeuten mehr Verantwortung und selbständigeres Handeln der leitenden Mitarbeiter.
Diese müssen in der Lage sein, aus denen im Unternehmen durchaus vorhandenen
Daten Antworten auf individuelle, komplexe Fragestellungen zu finden. Die
Fragen sind dabei oft mehrdimensionaler Art, z.B. „Inwieweit wird die
Einführung mittelgroßer Druckwalzen in diesem Jahr auf dem europäischen Markt
unserem Absatz an kleinen Walzen (im Vergleich zu den Vorjahren plus einem
prognostizierten Wachstum) schaden?“. Dafür wird OLAP eingesetzt, welches flexible Datenanalyse mit RDBMS koppeln
soll. OLAP baut nicht nur auf unternehmensinternen bzw. verfügbaren Daten auf
und erlaubt dadurch spekulative Was-wäre-wenn-Szenarien (Konkurrent wird
ebenfalls zur Entwicklung mittelgroßer Walzen gezwungen -> hohe Kosten;
geringer, zeitlich beschränkter Wettbewerbsvorteil).
Data
Warehousing beschreibt also nur die Integration, das interne Management und die
Zugriffsmöglichkeiten auf die Daten, nicht aber deren Auswertung. Dies ist
Aufgabe des Data Minings als Teil der
Knowledge Discovery. Es soll
Korrelationen und regelmäßige oder sich wechselseitig beeinflussende Muster aus
der Menge der Daten filtern, sowie deren Konfidenz bestimmen. Im nächsten
Schritt werden die Ergebnisse interpretiert, das heißt, jetzt wird auch ein
kausaler Zusammenhang postuliert. Typische Anwendungen sind Direktmarketing mit
Antwortanalyse (z.B. Akzeptanz zukünftiger Produkte), Kundenbindung (Kunden-
und Lieferantenpräferenzen), Warenkorbanalysen und Risikomanagement
(betrügerisches Verhalten aufzudecken oder vorherzusagen).
3. Beispiele
An dieser Stelle soll nun der Einsatz eines Data Warehouses
vorgestellt werden, der nicht nur erfolgreich, sondern auch beispielhaft für
die konsequente Verfolgung der Data Warehouse Idee ist.
Der
US-Einzelhandelskonzern Wal-Mart, mit einem Gesamtumsatz von über 100 Mrd.
US-Dollar weltgrößter Handelskonzern vor Metro, befand sich Mitte der Neunziger
Jahre in einem Dilemma: der Markt für Einzelhändler war zwischen den großen
Supermarktketten fest aufgeteilt, Verschiebungen wären nur mit unverhältnismäßigen
Mitteln erreichbar gewesen. Eine Zunahme, aber auch ein Abrutschen des
Verbrauchs von Alltagsgütern war nicht zu erwarten. Es drohte Stagnation.
In
einer solchen Situation und dem Bewußtsein, daß es den Kunden schwerfällt, sich
bei solch homogenen Produktanbietern an einen bestimmten zu binden, suchte
Wal-Mart nach Möglichkeiten, sich aus der Masse durch einen besonderen Kunden-
(aus Konr@d 1/98)
nutzen
zu differenzieren. Marktuntersuchungen hatten ergeben, daß der häufigste Grund
für einen bewußten Wechsel des Supermarktes das Nichtvorhandensein bevorzugter
Gütermarken war. Das Unternehmen entschloß sich zur Einführung eines Data
Warehouses, welches inzwischen im Hauptsitz der Firma in Arkansas die gewaltige
Menge von 24 000 Gigabyte füllt. Jeden Tag wird es mit einer halben Million
Queries der 2740 Filialen und der über 4000 Warenlieferanten belastet. Das
System läuft auf einem NCR WorldMark 5100M neben einer
weiteren
(Informix-) Datenbank. Lieferanten und Mitarbeiter können via Satellit über
mehrere HP-UNIX-Server auf die Datenbanken zugreifen, die z.B. eine 56-wöchige Aufzeichnung
aller Transaktionen einschließlich Datum, Verkaufsstelle, Produkt, Lieferant
etc. bereithalten. Am anderen Ende besitzt jede Verkaufsstelle einen HP-Server,
der mit den einzelnen Point-Of-Sales und tragbaren Telxon-Rechnern verbunden
ist. Jeder Kauf wird umgehend protokolliert.
Das
Neue daran ist aber nicht der Einsatz von Computern zur statistischen Abrechnung:
Eines der Hauptprobleme der Lagerhaltung ist die Differenz zwischen der
Schätzung des Verbrauchs eines Produktes durch den Einzelhändler und durch den
Produzenten des Produktes. Die Folge sind entweder Überschuß oder Ausverkauf.
In einem Pilotprojekt koppelten sich Wal-Mart und Warner-Lambert, ein Hersteller
von Drogerieartikeln, mittels eigens entwickelter CFAR („see far“)
Prognosetechnologie
zusammen. Die gemeinsame Prognose dient nun als Plan; „ein Spiel mit offenen Karten
zum Nutzen des Kunden“. Die Folge sind geringere Lagerhaltungskosten und
zeitlich exakte Lieferungen. Laut eigenen Angaben hat Wal-Mart Lagerverluste
besser im Griff als jede andere Handelskette. Weiterhin wurden Bewegungsmelder
und Infrarotkameras zur
Überwachung
der Kundenströme installiert und die Daten in das Data Warehouse übertragen.
Die gewonnen Erkenntnisse erlauben das optimale Aufstellen und Bestücken der
Regale sowie eine flexible Handhabung von Sonderangeboten. Geplant ist
weiterhin die elektronische Auszeichnung an den Regalen über LCD-Displays, die
ebenfalls mit dem System vernetzt sind.
(beide aus Konr@d 1/98)
Der
Erfolg ließ nicht lange auf sich warten. In den ersten 3 Quartalen des vergangenen
Geschäftsjahres konnte der Gewinn um 14% gesteigert werden, andere Unternehmen
zeigen Interesse an CFAR, und die Business News meint anerkennend: „After a rude earnings surprise, the chain
has decisively put its house in order ...“.
Aber
auch in Deutschland fordern unterrichtete und urteilsfähige Kunden ein
anpassungsfähiges Angebot, das besser auf deren individuelle Bedürfnisse
zugeschnitten ist. Das Marktvolumen für Datenmanagement soll im Jahr 2000 die
4-Milliardengrenze überspringen. Spezifischen Kundenwünschen versucht z.B. die
Lufthansa mit ihrem „Zielkundenmanagement“ gerecht zu werden. Vielfliegern
werden zu den prognostizierten Reiseterminen neben Reiseinformatioen und
Online-Buchung auch Partnerhotels und Anschlußflüge angeboten.
4. Eigenschaften
Geprägt hat
den Begriff „Data Warehouse“ der
kalifornische Datenbankspezialist
Bill Inmon in seinem Standardwerk
„Building the Data Warehouse“. Danach
ist ein Data Warehouse eine „themenorienierte,
integrierte, zeitbezogene und dauerhafte Sammlung von Informationen zur
Entscheidungsunterstützung des Managements.“.
Themenorientiert bedeutet dabei, daß die Daten im Gegensatz
zu operativen Daten nicht auf die Nutzung in einer Anwendung hin, sondern auf
ihren subjektspezifischen Zusammenhang gespeichert werden.
Die
Integration, Konsolidierung und
Aggregation der verteilten, unterschiedlich strukturierten Daten in einen
einheitlichen, homogenen Datenbestand ist Voraussetzung für deren flexible
Auswertung.
Bill
Inmon
Founder of Pine Cone Systems, Inc
Weiterhin
ist die Zeitbezogenheit der Daten
eines Data Warehouses ein grundlegender Unterschied zu operativen Systemen,
welche immer nur zum Zugriffszeitpunkt gültig sind. Diese könne zwar gelöscht
oder aktualisiert werden, es ist aber nicht möglich, zeitbezogene Aussagen zu
machen. Doch erst dadurch können Trends in der Entwicklung des Unternehmens
über die Vergangenheit bis in die Gegenwart verfolgt werden.
Letztlich ist auch die Beständigkeit der Daten von Bedeutung. Das heißt, daß einmal vorhandene
Daten nie gelöscht werden. Sie können zwar in ihrer Priorität sinken und auf
Sekundärmedien ausgelagert werden, stehen aber bei Bedarf immer wieder zur
Verfügung. Auch nach dem Einspielen neuer operativen Daten ermöglichen sie
jederzeit wieder reproduzierbare Analysen.
5. Architektur
Im unteren Bild wird die allgemeine Struktur eines Data
Warehouses gezeigt. Links im Bild sind die operationalen, (firmen-)internen
Datenquellen zu sehen. Sie haben i.a. keine einheitliche Struktur, es kann sich
also um neben häufig relationalen um hierarchisch verwaltete Altlasten,
Lotus-Notes-Daten oder HTML-Internet-Dokumente handeln. Weiterhin ermöglicht
ein Data Warehouse die Einbeziehung externer Informationsquellen wie z.B. die
Produktbeschreibungen von Mitbewerbern oder die Marktanalysen unabhängiger
Forschungsinstitute.
(aus
Chaudhuri, S.: „An Overview of Data Warehousing and OLAP Technology“)
An
erster Stelle steht die Umwandlung des Quelldatenformates in das des Data
Warehouses. Diese Aufgabe übernimmt ein
„Verpacker“ (Wrapper), der für jede
Datenquelle einmal (mit der jeweils benötigten Funktionalität) existiert. Dazu
muß er nicht nur verschiedene Datenbankdialekte verstehen können, er muß auch
Netzwerkprotokolle und die Datenstrukturen genutzter Anwendungen beherrschen.
Weiterhin untersucht er die Daten auf logische Fehler und korrigiert sie
gegebenenfalls (Scrubbing, auch Cleaning oder Auditing).
Ihm
zur Seite steht ein „Überwacher“ (Monitor),
der auf für das Data Warehouse relevante Änderungen der Ursprungsdaten
reagieren kann. Heutzutage wird meist periodisch „upgedated“.
Ein
„Aufsammler“ (Integrator, auch
Data-Warehouse-Manager) fügt die Daten in das Data Warehouse. Er muß dabei die
Filterung der Daten und Verschmelzung mit eventuellen anderen Quelldaten
übernehmen, sowie mit dem Überwacher in Kontakt zu bleiben. Er ist auch für die
Reduzierung auf die benötigte Informationsmenge verantwortlich, welche manchmal
nötig ist, um die Benutzer nicht mit Daten zu überschwemmen. Fehlender
Überblick schränkt den fabrikweiten Gebrauch vor allem für Nichtprofis ein.
Werden dann (im besten Fall vom Integrator selbst) signifikante Abweichungen
festgestellt, sollte es möglich sein, sich zu den interessanten Details
„durchzubohren“ (drill down).
Zuletzt
werden dann die behandelten Informationen in das Data Warehouse geladen. Der
Zeitplan wird dabei von der Metadatenbank (Metadaten
Repository) festgelegt. Sie enthält das „Inhaltsverzeichnis“: neben
Struktur und Inhalt des Warehouses eine Fülle weiterer Informationen über Daten
wie Extraktions-, Transformations- und Aggregationsgeschichte, Datenvolumen,
-verteilung, -beziehung zueinander u.v.a.
Oftmals
wird das Modell auch nur anhand der darin stattfindenden Datenflüsse charakterisiert.
Dabei treten 5 parallele Prozesse auf: eingehende Daten (In-Flow), Aufbereitung (Up-Flow),
internes Management (Down-Flow),
ausgehende Daten (Out-Flow), sowie
die Kommunikation mittels Metadaten (Meta-Flow).
(aus Widom, J. „Research Problems in Data Warehousing“)
Obwohl
das Data Warehouse logisch eine Einheit ist, handelt es sich in der Praxis
meist um ein verteiltes Datenbanksystem. Die damit verbundenen Probleme, z.B.
Partitionierung, Allokation, Replikation und Optimierung der Daten, Parallelisierung
von Transaktionen usw. sind allgemeiner Natur und betreffen Data Warehouses nur
mittelbar. Sie werden an dieser Stelle nicht weiter verfolgt.
In
Data Warehouses muß im allgemeinen je Abfrage eine viel größere Menge von
Tabellen durchsucht und vereinigt werden als in operationalen Systemen. Um dies
in akzeptabler Zeit zu ermöglichen, werden OLAP-Tools eingesetzt. Diese stellen
die Daten nach außen in Form eines multidimensionalen Würfels dar. Jede Dimension
wie z.B. Ort oder Zeit ist dabei ein Auswertungskriterium mit skalierbarem
Maßstab. Heutige OLAP-Tools sollten FASMI bieten: Fast (<5 sec.) Analysis
(jederart) of Shared
(Schutzmechanismen!) Multidimensional (s.o.) Information
(Ergebnisse).
Relationale Datenbanken
versuchen diese Art Multidimensionalität nachzubilden. Am häufigsten wird dazu
das Sternschema (Star Schema)
genutzt. Dabei steht im Mittelpunkt der Datenbank eine Faktentabelle, in der
jeder Eintrag über Zeiger mit einer eigenen Dimensionstabelle verbunden ist.
Mit dem Schneeflockenschema (Snowflake
Schema) lassen sich dagegen Hierarchien abbilden. Hier enthalten die
Dimensionstabellen keinerlei redundante Daten, sondern können ihrerseits auf
Untertabellen zurückgreifen.
(aus
Chaudhuri, S.: „An Overview of Data Warehousing and OLAP Technology“)
Relationale
Systeme haben sich bewährt, sie unterstützen Standards wie ODBC und SQL, und es
existieren Hilfswerkzeuge. Große Datenmengen lassen sich gut auf mehrere
Prozessoren verteilen. Neu ist dagegen das multidimensionale Datenmodell
(MOLAP) und damit die Multidimensionalen Datenbanken (MDBMS). Diese wur-
den
ausschließlich für die Arbeit mit mehreren Dimensionen geschaffen und unterstützen
dementsprechend die erforderlichen Datenbankoperationen. Beispielsweise müssen
die Datensätze nicht über Indizes gesucht werden, da ihre Position bekannt ist.
Nachteilig sind proprietäre Programmierschnittstellen, nur
(aus Wu, M.
C. „Research Issues in Data Warehousing“)
rudimentär
vorhandene Backup- und Restoremechanismen und langsame Updateverfahren.
Inzwischen scheint der Kampf jedoch entschieden: Marktbeobachter wie die
Metagroup bevorzugen auch im Hinblick auf den WWW-Markt das relationale Modell.
In diesem werden genaugenommen nur die vorkommenden Tupel gespeichert, während
bei MOLAP alle Tupel, auch leere, gespeichert werden und dadurch der Aufwand
mit steigenden Dimensionen genau exponentiell wächst. Bei anhaltendem Wachstum
der Datenmengen ist MOLAP nur für kleine Projekte geeignet.
(aus Rahm, E. „Mehrrechnerdatenbanksysteme“)
Die
letzte Stufe stellen die Endbenutzerwerkzeuge dar. Diese helfen bei der eigentlichen
„Wissensentdeckung“. Da es den Rahmen dieses Artikel sprengen würde, auf die
Funktionsweise aller einzugehen, und der Einsatz sich nicht notwendigerweise
auf Data Warehouses beschränkt, sollte die bloße Nennung ausreichen:
· Reportgeneratoren
· Statistik
· Data Mining
· Dokumenten-Retrieval
· Aktive Informationsfilter
· Prozeß- und Szenarienmodellierung,
Entscheidungsanalyse
· Geographische Informationssysteme (Data
Warehouse von SAS enthält Landkarten der Erde in verschiedenen Detailstufen)
· Führungsinformationssysteme
6.
Techniken und Anbieter
Warum gibt es Data Warehouse Systeme erst seit relativ kurzer
Zeit? Die grundlegenden theoretischen Ideen sind nicht neu. Der Hauptursache
war, daß sie erst jetzt technisch möglich wurden, nicht daß die Markt sie
verlangt hätte.
6.1.
Hardware
Den
größte Anschub erfuhr die Entwicklung durch die Leistungssteigerung von
Mehrprozessorsystemen und darauf optimierter Datenbanken. Wie schon zuvor erläutert,
ist nämlich das typische Data Warehousing aufgrund der Einmaligkeit und dem
Wirkungsbereich einer Abfrage deutlich rechenintensiver. Durch die mögliche
Zerlegung in Teilschritte, die parallel ausgeführt werden, boten sich
Client-Server-Technologie, Multiprozessorsysteme und parallele Datenbanken
geradezu an.
Als
Alternativen präsentieren sich dabei symmetrische Multiprozessorsysteme, Cluster
und massiv-parallele Rechner bzw. Verschmelzungen dieser Technologien. Symmetrische Mulitprozessorsysteme
basieren auf einem gemeinsamen Hauptspeicherbereich (SMP) und werden deshalb
auch als Shared-Memory Multiprocessing (SMMP) bezeichnet. Heutzutage können
statt der üblichen 4 schon bis zu 64 Prozessoren verknüpft werden. Ihr größtes
Manko ist die beschränkte Bandbreite des Busses, der die CPUs mit dem
Hauptspeicher bzw. den I/O-Geräten verbindet. Diese Grenze kann mit dem
Zusammenfügen einzelner SMP-Systeme zu Clustern
umgangen werden. Unter Umständen können die Rechner sogar gleichzeitig auf den
Plattenpool einer Datenbank zurückgreifen. Der hohen Skalierbarkeit durch
Zufügen neuer SMPs in den Cluster stehen jetzt die geringe Bandbreite zwischen
den SMPs innerhalb des Clusters und Konsistenzprobleme beim gleichzeitigen
Zugriff auf eine Datenbanktabelle entgegen. Massiv-parallele
Rechner (MPP) teilen nichts miteinander (deshalb auch als Shared-Nothing
bezeichnet). Sie haben eine eigenständige CPU, RAM, I/O usw. und sind untereinander
mit einem Hochgeschwindigkeitsnetzwerk verbunden. Weit verbreitet sind z.B. die
RS/ 6000 Rechner von IBM, von denen bis zu 512 Knoten unterschiedlicher Größe
(auch SMP) verbunden werden können. MPP wird deshalb auch von der Gartner-Group
für Data Warehouses empfohlen, da schnelle Zugriffe auf Plattenpools aufgrund
der nicht vorhersagbaren Datenanforderungen eine zentrale Rolle spielen.
Die
Chase Manhatten Bank konnte nach einer Umstellung auf ein Data Warehouse mit
Sybase MPP die geforderten Leistungssteigerungen um bis zu 100% übertreffen.
560 Gigabyte an Daten, verteilt auf 54 verschiedene Datenbanken, werden von 16
Servern verwaltet.
Als
Betriebssystem der Zielplattform wird heute weitgehend UNIX genutzt (51%), vor
Großrechnern (15%) und NT (10%).
(aus iX 4/96)
6.2.
Software
Voraussetzung
für einen möglichen Erfolg bei Aufbau eines Data Warehouses ist eine robuste
und leistungsfähige Datenbank. So verwundert es nicht, daß der Markt unter den
„Großen“ der Branche aufgeteilt ist: Oracle (27%) vor IBM (11%), Sybase (10%)
und Informix (9%).
(aus iX 4/96)
Auf
der Seite der Data Warehouse Managementsoftware sowie der OLAP-Tools läßt sich
noch keine verläßliche Prognose machen. Eine große Anzahl kleiner Firmen hat
sich auf dieses Gebiet spezialisiert; sie haben einen Entwicklungsvorsprung
gegenüber den erst jetzt in den Markt drängenden Großanbietern. Diese versuchen
den Nachteil jedoch durch Aufkäufe wieder wettzumachen. Unklarheit über die
eigentlichen Anforderung und fehlende Interoperatibilität lassen auf eine
baldige Standardisierung hoffen.
Zusammenfassend
läßt sich sagen, daß heute jede größere im Bereich Datenverwaltung tätige Firma
Lösungen für ein Data Warehouse anbietet.
6.3.
Einsatzgebiete
Data
Warehouses sollen eine solide Datenbasis zur Entscheidungsunterstützung sein,
werden also primär als Managementinformationssysteme eingesetzt, hauptsächlich
in den Bereichen Controlling, Geschäftsführung, Marketing und Vertrieb. Die
weitgehende und unkomplizierte Anfrage an ein Data Warehouse soll Informationsgewinn
für jedermann (Zugriffsberechtigten) ermöglichen.
Neben
dem „klassischen“ Data Warehouse wird dieser Begriff auch für eine Reihe
ähnlicher Konzepte ohne bedeutende strukturelle Unterschiede verwendet. Ein
Schlagwort ist dabei das “Virtuelle Data
Warehouse“. Darunter ist im Prinzip nur ein althergebrachtes operationales
System mit homogener Datenstruktur zu verstehen, auf dem die neuen
Analysewerkzeuge operieren. Ein weitergehender Gedanke kommt von NCR Teradata:
die “Executive Information Factory“
(EIF), die den Rückfluß gewonnener Erkenntnisse während der Bearbeitung einer
Anfrage in den Datenbestand zur Entscheidungssicherung integriert.
Beispielsweise können damit die vielgeliebten Umfragen ausgewertet werden.
Diese
Abspaltungen lassen schon erahnen, daß das Data Warehouse Konzept in einer
Krise steckt. Schuld daran tragen hauptsächlich die Anbieter der
Front-End-Tools, die mit Hilfe graphischer Oberflächen und einiger
demonstrativer Beispiele völlig unrealistische Erwartungen hinsichtlich der
erreichbaren Ergebnisse weckten. Es hat sich in der Praxis als fast unmöglich
herausgestellt, alle Unternehmensdaten auf dieselbe Art und Weise zu
modellieren. Die Aufwendigkeit des ETL-Vorgangs und der wirklichen Integration
der Daten, die komplizierte Bedienbarkeit der Extraktionstools sowie die Anforderungen
an die DV-Abteilungen im Blick auf Administration und Sicherung der
Client-Server-Strukturen wurden schwerstens unterschätzt.
Wie
aus nebenstehender Abbildung zur erkennen ist, entfällt der Großteil der Kosten
auf Personal und Hardware.
(aus iX 4/96)
Die
Größe der zu verwaltenden Daten wird von der Mehrheit der Beteiligten mit
>50 Gigabyte angegeben, beim Datenzuwachs geht man von einer jährlichen
Verdopplung aus, die Nutzerzahlen liegen meist bei 100 bis 500.
Deshalb
lautet die einheitliche Empfehlung der Experten: „Think big, start small“. Der
Komplettaufbau eines Data Warehouses sei ein „Blut, Schweiß und
Tränen“-Projekt. Deshalb sollte man mit Data Marts beginnen, überschaubaren
Projekte auf Abteilungsebene. Zum Beispiel mit „Rapid Warehousing“ (SAS): Schneller Aufbau eines kleinen Data
Warehouses, da nur ein kleiner homogener Datenbestand genutzt wird. Die „Enterprise Data Mart-Architektur“ (EDM)
von Siemens hilft beim Erstellen von Data Marts, die später zu einem Warehouse
zusammengefügt werden können. Dabei existiert neben den lokalen Data
Mart-Repositories ein globales, das sich die Metadaten je nach ihrem
wahrscheinlichen Gebrauch mit den lokalen teilt, die natürlich im Bedarfsfall
darauf zurückgreifen. Damit können auch mehrere Data Marts parallel entwickelt
werden, was den Einsatz der oben erläuterten Hardwarekonzepte erleichtert.
(aus Client server magazin
1-2/98)
Mittelpunkt
von EDM ist dabei der „Dynamic Data
Store“ (DDS), eine Zwischenschicht, die sämtliche Daten in konsolidierter
Form enthält. Es handelt sich also mehr oder weniger um eine zweistufige Lösung. EDM soll helfen, schnell
Erfolge unter akzeptablen Kosten zu erzielen und trotzdem die Erweiterbarkeit
zu gewährleisten.
Auch
eine Reihe weiterer Nachteile von multiplen Data Mart Lösungen wird damit
verhindert: Die massive Redun-
danz
zwischen den Data Marts, die fehlende gemeinsame Basis der integrierten Daten
sowie die verschiedenen Schnittstellen zwischen Data Marts und Applikationen.
7. Probleme
Mit der Einführung und Nutzung von Data Warehouses ist eine große
Anzahl von Problemen verbunden. Einige Aspekte in diesem Zusammenhang werden
unser Leben zukünftig viel stärker beeinflussen und verändern als andere neue
Technologien. Allerdings sollte jedem bewußt sein, daß grundlose Panik und
Zukunftsangst völlig fehl am Platze sind. Historisch gesehen waren viele
Befürchtungen unbegründet, neue Konzepte waren und sind der Grundstein der
Weiterentwicklung der Gesellschaft.
Es
liegt an jedem einzelnen, deren Anwendung zu beobachten.
7.1.
Forschungsprobleme
Da
Forschung und Einsatz von Data Warehouses parallel verläuft, sind die Probleme
häufig dieselben.
Das
Hauptproblem beim Einsatz eines Data Warehouses ist die Datenbereinigung und
Aufbereitung, so daß alle Nutzer damit umgehen können. Laut Inmon liegt darin
schon 80% des Gesamtaufwandes. Also sollte man auf unklare Datendefinitonen
verzichten. Bei der Datenextraktion, dem zeitlich aufwendigstem Teil, treten Probleme
vor allem beim Gleichmachen der Datenstrukturen (universelle Wrapper) auf,
weiterhin fehlt eine effiziente Beschreibungssprache für aggregierte Sichten.
Das Bemerken von Änderungen in den nichtrelationalen Quellen geschieht häufig
noch durch einen rechentechnisch aufwendigen strukturellen Vergleich (sozusagen
„deep compare“).
Auch
das Data Mart-Konzept kann noch nicht vollständig überzeugen. Einige Firmen
setzen daher schon mehrere Data Warehouses ein, was aber den ursprünglichen
Gedanken an ein vollständiges Datenlager untergräbt.
Ein
weiteres Problem ist die schlechte Skalierbarkeit. In den meisten Fällen mußten
die Investitionen in Hardware innerhalb der ersten 4 Monate gegenüber der
Planung verdoppelt werden. Das Einbinden neuer Datenquellen muß ständig möglich
sein (darf also nicht länger als das Wochenende dauern), weiterhin sind Konsistenz-
und Sicherheitsaspekte (Nutzerverwaltung) zu beachten. Die Verwaltung von
Datenmengen im Tera- und Pentabytebereich rückt in den Bereich des Möglichen
(die NASA benötigt täglich mehr als
ein Terabyte).
Auch
die Benutzerbedienung muß noch verbessert werden. So gelang es schon einigen Anwendern,
ihr neues Data Warehouse mit falsch formulierten Queries in die Knie zu
zwingen. Auch schwindet bei zunehmender Automatisierung die Aufmerksamkeit des
(nur noch dem Rechner assistierenden) Benutzers für Fehler.
7.2.
Betrieb von Data Warehouses in der Praxis
Laut
einer Umfrage des „Data Warehouse Institutes“ planen 95% der größeren amerikanischen
und 80% der deutschen Firmen den Einsatz von Data Warehouses in den nächsten Jahren.
Die Frage ist also nicht ob, sondern wie das Data Warehouse eingesetzt werden
soll. Gerade in Branchen wie der Telekommunikation oder der Finanzdienstleister
läßt sich die Informationsflut anders kaum bewältigen.
Bedingt
durch die derzeitige Aktualität des Themas sind Experten, die Betrieben bei der
Einführung helfen, dünn gesät. Die Einrichtung sollte zuerst in einzelnen
Abteilungen unter Einbeziehung der zukünftigen Nutzer geschehen, da diese ja später
davon profitieren sollen. Ein Data Warehouse sollte den laufenden Geschäftsbetrieb
nicht zu stark behindern, z.B. durch die Nichtverfügbarkeit der alten Datensysteme.
Die ersten Erfolge müssen nach spätestens 100 Tagen zu sehen sein, sonst ist
das Projekt durch mangelnde Akzeptanz und innerbetriebliche Widerstände bedroht.
Auch
die Kosten der neuen Technologie sollten nicht unterschätzt werden. Sie beginnen
je nach Datengröße bei einigen 100 000 Mark, leicht können aber bei Ausweitung
auf andere Abteilungen oder zu knapper Kalkulation einige Millionen daraus werden.
Deshalb empfiehlt sich für die Erstinstallation Vertrieb oder Marketing, da
dort im allgemeinen die größten Erfolgspotentiale vorhanden sind.
Zusammenfassend
ist zu empfehlen, daß jede Firma den Aufbau eines Data Warehouses mit gesundem
Mißtrauen verfolgen sollte. Hat letztlich alles geklappt, ist man jedoch mit
der Einführung trotzdem nicht entgültig fertig, da zufriedene Benutzer wieder
andere Anwendergruppen begeistern, die dann weitere Forderungen stellen werden.
7.3.
Soziale und gesellschaftliche Aspekte
Im
ausgehenden 20. Jahrhundert wird die Freiheit des einzelnen allerdings nicht
mehr durch den Staat, sondern durch ein computergestütztes Konglomerat aus
Banken, Versicherungen, Krankenkassen und Warenhäusern bedroht. Als bequemer
Fortschritt wird die Möglichkeit bargeldloser Bezahlung mit Geld- und
Kreditkarten dem Kunden verkauft. Kein Arztbesuch mehr ohne Chipkarte. IKEA
bietet schon heute die Möglichkeit, eine Clubkarte zu erwerben. Und wer hat
noch nicht Post/ Anrufe einer Versicherung erhalten, die ganz genau wußte, was
einem noch fehlt? Der gläserne Kunde wird Realität.
Der
mögliche Mißbrauch dieser Daten wird durch die Analysemethoden des Data Mining
noch verstärkt. Der bisher schon lukrative Handel mit Namenslisten enthält
zukünftig neben Adreßinformationen auch Details zum Konsumverhalten und
Freizeitinteressen. In erster Linie soll dies natürlich uns Kunden zugute
kommen. Lebensmittelmärkte könnten anhand unserer Einkaufsgeschichte
zusätzliche Kassen öffnen. Die Versicherung könnte nach Abgleich mit dem
Reiseveranstalter eine Auslandskrankenversicherung anbieten. Unsere Hausbank
könnte uns informieren, daß sie unsere Gehaltserhöhung höher als die Konkurrenz
verzinst.
Wahrscheinlicher
ist jedoch, daß ohne klare Bestimmungen nur treue und liquide Kunden die
Expreßkassen benutzen dürfen, nur Vielflieger Sonderangebote erhalten, und in
letzter Konsequenz, der Arbeitergeber bei Diagnose einer langwierigen Krankheit
rechtzeitig kündigen kann.
Manchmal
reicht es bereits aus, sich nicht an jedem Gewinnspiel zu beteiligen und auch
sonst nur die unbedingt nötigen Datenfelder auszufüllen. Alles Weitere muß
durch hinreichend strenge Gesetze geregelt werden. Doch gerade diese Grenze ist
nicht unumstritten, denn wann ist einer Person nachweisbar ein Schaden entstanden?
In den USA wird jeder Fluggast seit Beginn dieses Jahres auf Terrorismusverdacht
geprüft, häufige Reisen durch arabische Länder lassen Gepäckkontrollen unbemerkt
gründlicher ausfallen. Steht die Privatsphäre und der Geheimhaltungswunsch
eines einzelnen höher als bessere Produkte, mehr Service und Komfort für viele?
Immerhin wirkt der Kunde jetzt durch seinen Konsum aktiv auf zukünftige Produkte
ein.
„Es
ist okay, schlechte Kunden zu feuern.“, meint der Boß der Data-Warehouse-Firma
DB Intellect, „Warum sollten Sie Kunden wollen, die nicht profitabel sind?“.
Und mittels moderner Technik können die Unternehmen auch zum Gegenschlag
ausholen. Als Kalifornien 1996 die Caller-ID-Technik zuließ (Anzeige der Nummer
und des Namens des Anrufenden), dann nur unter der Bedingung, daß es möglich
sein müßte, sich zu anonymisieren. Ab April diesen Jahres biete nun die
Telefongesellschaft Packard Bell die Abweisung solcher Anrufe mittels
„Anonymous Call Rejection“ an.
8. Zukunft und
Ausblick
Niemand braucht sich Sorgen zu machen. Auch das Thema Data
Warehousing folgt dem in der Datenverarbeitungsindustrie so beliebten
„Sinusschema“:
Des
weiteren ist die von Inmon gelieferte Definition in der Praxis natürlich sehr
weit Ausleger, was schlagartig zu einem hohen Prozentsatz erfolgreicher Data Warehouse-Nutzer
führte. Dabeisein ist eben alles.
Unbestreitbar
hat die Idee der Zusammenführung und Vereinheitlichung der Unternehmensdaten zu
einer neuen Dimension von Analysewerkzeugen geführt. Ob diese allerdings wirklich
mehr leisten, als Bier und Windeln im Supermarkt am Freitagnachmittag
zusammenzurücken, muß die Praxis noch beweisen. Aktuelle Beispiele unterliegen scheinbar noch dem Betriebsgeheimnis.
Auch
Kosten und Zeitaufwand wurden häufig unterschätzt. Laut einer aktuellen Studie
der Wirtschaftsvereinigung „The Conference Board“ verzögert sich der geplante
Einsatz bei mehr als 50% aller Projekte, einige davon stecken völlig fest.
(aus iX 4/96, leider immer noch
aktuell)
„Shopping Tomorrow“
bzw. „Smart Shopping“ meint die
Bestellung von Waren des täglichen Bedarfs über das Internet. Mehr als die
Hälfte alle Verbraucher empfindet den ständigen Einkauf als lästig. Hier wird
ihnen die Möglichkeit geboten, sich die Ware bequem an die Haustür liefern zu lassen.
Für die Fläche der Bundesrepublik wird ein Bedarf von 20 Regionallagern bei
einer Lieferzeit im Zwei-Stunden-Takt geschätzt. In England und Amerika werden
bereits flächendeckende Praxis-tests durchgeführt, es bietet sich der Einsatz
von Datensammellagern an.
Zukünftig
werden Datenwarenhäuser verstärkt im Internet präsent sein, um die Nutzung
durch Geschäftspartner und Kunden zu ermöglichen. „Computing Services“ von SAS
ermöglicht nicht nur das Abfragen von Daten über das Internet, sondern auch
deren komplexe Verarbeitung. Der Zugriff erfolgt mittels JDBC-Treibern,
JConnect erlaubt die Steuerung der Analysesoftware und JTunnel umgeht die
javabedingten Einschränkungen der Zugriffs- und Schreibrechte.
Auch
im Bereich des Data Minings ist noch ein großer Spielraum für Verbesserungen vorhanden.
Da die statistischen Methoden mittlerweile ausreichend erforscht sind, erhofft
man sich von dem Einsatz künstlicher Intelligenz und des maschinellen Lernens
durchgreifende Erfolge. Neuronale Netze haben sich als besonders für inhomogene
Datenbestände geeignet erwiesen. Fuzzy-Cluster-Verfahren extrahieren Klassen
zusammengehöriger Fälle, aus denen automatisch Regeln generiert und in
Entscheidungsbäume integriert werden.
A.
Literaturverzeichnis:
Grundlagenliteratur:
Bager, Jo; Becker, Jörg; Munz,
Rudolf: „Zentrallager“ C’t 3/97
Rahm, Erhard: „Mehrrechnerdatenbanksysteme“ Vorlesungsskript Kap. 8
Diercks, Jürgen: „Bestens im Bilde“ iX 4/96
Kapitel 1:
„Datawarehouse
- einmal einfach dargestellt“ www.datawarehouse.de
Kinseley, Michael: „Transformation“ Time
Magazin March 9, 1998
Kapitel 2:
„Handel
im Netz für Firmen das Top-Thema“ Die
Welt 23.03.1998
„Komplettpaket
für Data Marts“ und „Reports im Warehouse“ Computerzeitung
7/98
Gupta, Vivek R.: „An Introduction to Data Warehousing“ System Service Corp. August 1997
Kühner, Dieter: „Data Warehouse eröffnet den Blick für eine
neue Anwendungsgeneration“ Computerzeitung
Saylor, Michael J.; Bansal, Sanju K.: „Open Systems
Decision Support“ Data Management Review
Januar 1995
Kapitel 3:
Darling, Charles B.; Semich, William J.: „Wal-Mart’s IT
secret: Extreme Integration“ Data
Warehouses Magazine (Online) November 1996
Meissner, Gerd: „Haste mal ‘nen Markt?“ Konrad 1/98 S. 54-57
Zellner, Wendy: „A Grand Reopening for Wal-Mart“ Business News (US) 09.02.1998
Kapitel 4:
„Die
Einführung eines Data Warehouse ermöglicht den gläsernen Kunden“ Universität Osnabrück, Fachbereich
Wirtschaftswissenschaften September 1997
Born, Achim: „Informationsdefizit“ iX 1/98
Heck, Daniel: „Datenauswertung ohne Eingriff in operative
Datenbanken“ Client Server Computing
6/96 S.66-69
Inmon, W. H.: „Building the Data Warehouse, Second Edition“ John Wiley
Kapitel 5:
„The Role of the
OLAP-Server in a Data Warehousing Solution“ Arbor
Software 1996
Branca, Isolde: „Microstrategy setzt auf ROLAP“ Datenbank Fokus 1/98
Chaudhuri, S.; Umeshwar, Dayal: „An Overview of
Data Warehousing and OLAP Technology“ Microsoft
Research bzw. Hewlett-Packard Labs. September
1997
Diercks, Jürgen: „Datenschürfer“ iX 8/96
Diercks, Jürgen: „Unbegrenzte Dimensionen“ iX 4/96
Orr, Ken: „Data Warehouse Technology“ The Ken Orr Institute 1997
Raden, Neil: „Modeling the Data Warehouse“ Archer Decision Sciences Inc. 1996
Wang, Zhenbo: „Data Warehousing: Eine Einführung“ Universität Karlsruhe Juli 1996 (ist
aber nur eine freche Kopie (Übersetzung ins Deutsche) von Widom, J.)
Widom, J.: „Research Problems in Data Warehousing“ Stanford University November 1995
Kapitel 6:
Born, Achim: „Alle wühlen mit“ iX 4/96
Freeman, Eva: „Birth of a terabyte data warehouse“ Data Warehouses Magazine (Online) April
1997
Greenfield, Larry: „Don't let data warehousing gotchas getcha“ Data Warehouses Magazine (Online) March
1996
Heiting, Mareile: „Von Generalisten zu Spezialisten“ Datenbank Fokus 9/97
Inmon, W. H.: „Are multiple data warehouses too much of a good
thing“ Data Warehouses Magazine (Online)
April 1997
Remus, A.: „Nach oben offen“ Client Server Computing 8/97
Roehreke, Imai-Alexandra: „Chase Manhatten Bank fährt ein paralleles
Data Warehouse“ Computerzeitung
Saxer, Marcel C.: “Die 10 Data Warehouse Gebote“ Whitepaper Tandem Computer GmbH
September 1996
Kapitel 7:
„Amerikaner
entdecken den Datenschutz“ Die Welt
21.03.1998
„Argumente
für und gegen den Einsatz eines Data Warehouse“ Universität Osnabrück, Fachbereich Wirtschaftswissenschaften September
1997
Keller, Achim: „Geldinstitute schieben Informationen über
Kunden nicht auf die lange Daten-Bank“ Computerzeitung
Zschunke, Peter: „Data Mining und Wissens-Management
beschäftigen die Experten auf der Cebit. Ein Ziel ist der „gläserne Kunde““ Der Spiegel 1998
Kapitel 8:
„Data-Warehouse
in der Krise“ Computerwoche
28.03.1998
Angstenberger, Joachim: „Intelligente Verfahren entdecken völlig
neue Zusammenhänge in alten Daten“ Computerzeitung
7/98
Boos, Michael: „Virtueller Einkauf verlangt neue Logistik“
Die Welt
Bosch, Ruth: „Aus Data Marts ein Data Warehouse
schmieden“ Client/ Server magazin
1-2/98
Dierck, Jürgen: „Web-Schürfrechte“ iX 7/97
Janetzko, D.; Steinhöfel, K.: „Lotsen los!“ c’t 3/97
Strüby, Reinhard: „Prinzip Hoffnung in der Prognose“ Datenbank Fokus 3/98
B. Schlagwörter
Aktive Filter: selbständige Suche nach vom Anwender
spezifizierten Themen im Datenbestand
CFAR: Colloborative Forecasting and Replenishment,
gemeinsame Vorhersage des Produktverbrauchs
Clusteranalyse: Verfahren der Statistik zur Klassifizierung
in Gruppen(„Cluster“)
Data Mart: Implementierung einer einzelnen Geschäftseinheit
zum schrittweisen Zusammenfügen zu einem Data Warehouse
Data Mining: Suche nach auffälligen oder korrelierenden
Mustern in den Daten des Data Warehouse
Data Warehouse: Eine Datenbank, die alle Unternehmensdaten
archiviert und zukünftige Entscheidungen durch das schnelle Auffinden und
Aufbereiten relevanter Informationen unterstützt
DBMS: Datenbankmanagementsysteme, Unterscheidung
nach Datenmodell, heutzutage existieren hauptsächlich relationale, in letzter
Zeit werden auch multidimensionale und objektorientierte Ansätze verfolgt
Dokumenten-Retrieval: Verwalten großer Mengen von Schriftstücken
auch unterschiedlichen Aufbaus
DSS: Decision Support Systems, Systeme zur Entscheidungsunterstützung
durch vorgefertigte oder zweckgebundene Anfragen, Analyse- und Berichterstellungswerkzeuge
E-Commerce: Handel in elektronischen Medien
EIS: Executive Information Systems, siehe DSS
Entscheidungsbaum: Graph, der Vorgänge in einer linearen
Baumstruktur abbildet, Alternativen werden durch Knoten und Objekte durch
Blätter dargestellt
Fuzzy-Theorie: Erweiterung der zweiwertigen Logik um
„unscharfe“ Beziehungen
GIS: Grafische Informationssysteme, Visualisierungstechnik
für Ergebnisdaten (z.B. Dichte eines Stoffe durch Farben darzustellen)
information overflow: Informationsüberlauf, Verlust der
Möglichkeit, aus Daten relevante Informationen zu erhalten aufgrund der puren
Masse
JDBC: Java Datebase Connectivity, plattformübergreifende
Datenbankschnittstelle der Programmiersprache Java von SUN
Lean Management: weniger Entscheidungsträger, flache
Unternehmenshierarchien sollen Wasserkopfbürokratie vermeiden
Knowledge Discovery: Wissensentdeckung, Gesamtprozeß der
Verwertung von Daten im Data Warehouse vom Aufstellen einer Anfrage bis zur
Erkenntnis neuen Wissens aus den Ergebnissen
Maschinelles Lernen: Wissensmehrung neuronaler Systeme
MDBMS: siehe DBMS
MIS: Management Information Systems, siehe DSS
MOLAP: OLAP mit MDBMS
Prozeßmodellierung: Entscheidungen wie z.B. Investitionen und
ihre Auswirkungen werden am Rechner in Form von Flußgraphen durchgespielt
ODBC: Open Database Connectivity, Datenbankschnittstelle
von Microsoft
OLAP: Online Analytical Processing, interaktive
Auswertung der Warehouse-Daten
OLTP: Online Transaction Processing, Auswertung
operationaler Daten
OODBMS: siehe DBMS
Point-of-Sale: Ort-des-Verkaufes, allgemein die Kasse
RDBMS: siehe DBMS
Report: von Spezialisten programmierte starre Anfrage
an eine Datenbank
ROLAP: OLAP mit RDBMS
Sicht: Folge von Anfrageoperationen, die unter dem
Sichtennamen langfristig abgespeichert wird
Skalierbarkeit: Fähigkeit eines Systems, sich veränderten
Benutzerverhalten anzupassen. Meist sind bei einem linearen Anstieg der
Nutzeranforderungen für gleiche Leistung deutlich höhere Investitionen in
Hardware erforderlich
Snowflake-Schema: Schema zur multidimensionalen
Datenmodellierung in RDBMS, logische Sicht in Form einer Schneeflocke
Star-Schema: Schema zur multidimensionalen
Datenmodellierung, logische Sicht in Form eines Sterns
SQL: Structured Query Language, Standardsprache
relationaler DBS