[Next] [Previous] [Up] [Top] [Contents] [Index]

Entwurf des Data Warehouse

 

3.4. Aggregation

3.4.1. Die Rolle der Aggregation im DW

Aggregation ist der Prozeß, bei dem die Daten der niedrigen Ebenen zu Zwischentabellen zusammengefaßt werden. Diese Zusammenfassungstabellen speichern die zusammenfassende Informationen und erlauben deshalb, allgemeine Abfragen zu beschleunigen und insbesondere Trends innerhalb der Daten zu erkennen.

Beispielsweise könnten die Anwender nach dem Gesamtverkauf des Unternehmens in einem bestimmten Monat fragen. Wenn es durchschnittlich 1000 Verkaufstransaktionen pro Tag in jeder der 1000 Stellen gibt und Daten auf der Transaktionsebene gespeichert werden, muß diese Abfrage 30 000 000 Datensätze zugreifen, um die Antwort zu liefern. Wenn es aber eine Pre-Aggregation des monatlichen Verkaufs existiert, müssen nur 1000 Datensätze zugegriffen werden.

Außerdem dient die Pre-Aggregation noch dazu, einen Gesamtüberblick der Geschäftsvorgänge zu liefern. Durch Vergleiche kann man zum Beispiel herausfinden, welche Produkte mit welchen Eigenschaften wo und wann am besten verkauft werden, also eine Gruppe von Trends leichter betrachten.

3.4.2. Die Methode und der Umfang der Aggregation

Obwohl Aggregation die Struktur eines DW übersichtlicher macht und im allgemeinen die Antwortszeit der Abfragen beschleunigt, wird dadurch auch der Umfang der Datenspeicherung und der Aufwand der Datenverwaltung vergrößert. Deshalb ist es sehr wichtig zu entscheiden, was und wie zusammengefaßt werden kann.

Eine spezielle Dimension wird zu einer Tabelle zusammengefaßt. Das ist in meisten Fällen die Zeitdimension. Folgende Zusammenfassungstabellen könnten gebildet werden: Verkäufe_in_Woche X, Verkäufe_im_Monat Y,... Häufig werden auch konzentrierte Dimensionsdaten, d.h. solche, die eine große Anzahl von Datensätzen enthalten, zusammengefaßt. Beispiele dafür sind Verkäufe_von_Produktgruppe G, Verkäufe_in_Region R, ... Dadurch wird die Performanz des DW verbessert, sonst ist eine Aggregation der Dimensionsdaten mit wenigen Datensätzen oft nicht effizient. Die auf dieser Weise erstellten Zusammenfassungstabellen werden wie eine Pseudo-Faktentabelle entworfen, da ihre Struktur dem anfänglichen Star-/Snowflake-Schema entspricht, nur die zusammengefaßte Dimension nicht mehr in ihnen enthalten sei. In einer Tabelle z.B. wie Verkäufe_im_April wird möglicherweise die Zeitdimension nicht mehr benötigt.

Eine Aggreagtion auf einer Ebene unterhalb der eigentlich benötigten ist in vielen Fällen sehr sinnvoll. Wenn der Gesamtverkauf im Jahr abgefragt wird, ist es nicht nötig, eine jährliche Aggregation zu machen. Das Ergebnis wird einfach aus der Zusammenfassung von 12 Datensätzen der monatlichen Aggregationen entnommen.


05.06.98

[Next] [Previous] [Up] [Top] [Contents] [Index]