[Next] [Previous] [Up] [Top] [Contents] [Index]

Entwurf des Data Warehouse

 

3.3. Entwurf der Dimensionstabellen

Im Vergleich mit der Faktentabelle sollte der Umfang der Dimensionstabellen relativ klein sein. Während die Faktentabelle häufig mehr als 10 Millionen Datensätze umfassen, enthält eine Dimensionstabelle aber ein paar tausend (im Falle einer Zeitdimension) bis einige hundert tausend oder sogar Millionen (im Falle einer Produktdimension) Datensätze. Ihr Entwurf hat trotzdem einen nicht geringen Einfluß auf die Komplexität und die Performanz der Datenbank.

Für die Formulierung und Festlegung von Dimensionen müssen zunächst alle relevanten Eigenschaften eines Informationsobjekts als Dimensionskandidaten festgehalten werden. Eine richtige Erkennung des Dimensionstypes ist für den Entwurf der Dimensionstabelle auch sehr nützlich. Als nächstes ist eine grobe Unterteilung der Dimensionen in verschiedenen Typen.

3.3.1. Dimensionstypen

a) Nicht-hierarchischer Dimensionstyp

Nicht-hierarchische Dimensionen spiegeln eine einfache interne Struktur wider. Zwischen den Dimensionspositionen bestehen keine vertikalen Beziehungen und deshalb bilden sie auch keine Hierarchie ab. Ein Beispiel dafür ist die Dimension "Wertart", deren Positionen beispielsweise Istzahlen, Sollwerte und Plangrößen seien.

b) Hierarchischer Dimensionstyp

Innerhalb hierarchischer Dimensionen bestehen vertikale Beziehungen zwischen Dimensionspositionen, so daß eine Hierarchie mit unterschiedlichen Verdichtungsstufen erkennbar ist. Es gibt folgende Beziehungstypen: Klassifikation, Generalisierung/Spezialisierung, Gruppierung und Aggregation. Die Granularität kennzeichnet den Verdichtungs- oder Detaillierungsgrad der Daten: detaillierte Daten haben eine niedrige Granularität und umgekehrt haben verdichtete Daten eine höhere Granularität. Ein einfaches Beispiel für diesen Typ ist die Hierarchie der Produktdimension: Sortiment => Produktgruppe => Produktname.

c) Kategorischer Dimensionstyp

Charakteristisch für diesen Dimensionstyp ist die Kombination mehrerer Eigenschaften eines Sachverhalts der realen Welt in einer Dimension. Dabei stehen keine Strukturen der abzubildenden realen Welt im Vordergrund, sondern analyserelevante Gruppierungen anhand von Eigenschaften der Informationsobjekte.

Beispielsweise sind für viele Unternehmen Informationen wie Geschlecht, Alter, Familienstand und Einkommen von Kunden von besonderer Bedeutung. Diese Eigenschaften werden als Dimensionspositionen abgebildet. Es gibt viele Gemeinsamkeiten mit dem hierarchischen Dimensionstyp: so eine hierarchische Struktur unter den Dimensionspositionen mit ähnlichem Beziehungstyp.

3.3.2. Normalisierung großer Dimensionstabellen

Im Abschnitt 2 wurden das Star-Schema und das Snowflake-Schema, die zwei Implementierungsmöglichkeiten für DW, besprochen. Häufig wird eine Kombination der beiden Ansätze für den Entwurf eines DW gewählt, weil jedes einzelne Schema Vorteile und auch Nachteile aufweist.

Durch die Denormalisierung der Dimensionstabellen als ein wichtiges Charakteristikum eines Star-Schemas wird die Anzahl der Verknüpfungsoperationen erheblich verringert. Das Problem liegt aber in den großen Datenbeständen insbesondere bei Dimensionen mit sehr vielen Attributen sowie Datensätzen und die Performanz des DW wird deshalb auch beeinflußt.

Ein Star-Schema wird durch die Normalisierung der Dimensionstabellen in ein Snowflake-Schema überführt. D.h., jede Dimensionstabelle enthält ein Schlüsselattribut für jede Ebene der Dimensionshierarchie, also für jedes Dimensionselement. Die Schlüssel verknüpfen die Dimensionstabelle sowohl mit der zentralen Faktentabelle als auch mit den Attributtabellen, welche die Informationen über die Dimensionselemente enthalten. Dadurch können große Datenbestände in den Dimensionstabellen verringert werden. Der Hauptnachteil dabei liegt in der höheren Komplexität des Snowflake-Schemas.

Der Kompromiß zwischen beiden Schemaarten nennt man partielle Normalisierung. Sie besteht aus der Normalisierung der Dimensionen, welche sehr groß sind und gleichzeitig sehr viele Attribute enthalten, und der Denormalisierung der üblichen Dimensionen.

Sehr große Dimensionstabellen können auch partitioniert werden, und zwar nach denselben Strategien wie für Faktentabellen.


05.06.98

[Next] [Previous] [Up] [Top] [Contents] [Index]