Entwurf des Data Warehouse
Im Vergleich mit der Faktentabelle sollte der Umfang der Dimensionstabellen relativ klein sein. Während die Faktentabelle häufig mehr als 10 Millionen Datensätze umfassen, enthält eine Dimensionstabelle aber ein paar tausend (im Falle einer Zeitdimension) bis einige hundert tausend oder sogar Millionen (im Falle einer Produktdimension) Datensätze. Ihr Entwurf hat trotzdem einen nicht geringen Einfluß auf die Komplexität und die Performanz der Datenbank.
Für die Formulierung und Festlegung von Dimensionen müssen zunächst alle relevanten Eigenschaften eines Informationsobjekts als Dimensionskandidaten festgehalten werden. Eine richtige Erkennung des Dimensionstypes ist für den Entwurf der Dimensionstabelle auch sehr nützlich. Als nächstes ist eine grobe Unterteilung der Dimensionen in verschiedenen Typen.
Beispielsweise sind für viele Unternehmen Informationen wie Geschlecht, Alter, Familienstand und Einkommen von Kunden von besonderer Bedeutung. Diese Eigenschaften werden als Dimensionspositionen abgebildet. Es gibt viele Gemeinsamkeiten mit dem hierarchischen Dimensionstyp: so eine hierarchische Struktur unter den Dimensionspositionen mit ähnlichem Beziehungstyp.
Durch die Denormalisierung der Dimensionstabellen als ein wichtiges Charakteristikum eines Star-Schemas wird die Anzahl der Verknüpfungsoperationen erheblich verringert. Das Problem liegt aber in den großen Datenbeständen insbesondere bei Dimensionen mit sehr vielen Attributen sowie Datensätzen und die Performanz des DW wird deshalb auch beeinflußt.
Ein Star-Schema wird durch die Normalisierung der Dimensionstabellen in ein Snowflake-Schema überführt. D.h., jede Dimensionstabelle enthält ein Schlüsselattribut für jede Ebene der Dimensionshierarchie, also für jedes Dimensionselement. Die Schlüssel verknüpfen die Dimensionstabelle sowohl mit der zentralen Faktentabelle als auch mit den Attributtabellen, welche die Informationen über die Dimensionselemente enthalten. Dadurch können große Datenbestände in den Dimensionstabellen verringert werden. Der Hauptnachteil dabei liegt in der höheren Komplexität des Snowflake-Schemas.
Der Kompromiß zwischen beiden Schemaarten nennt man partielle Normalisierung. Sie besteht aus der Normalisierung der Dimensionen, welche sehr groß sind und gleichzeitig sehr viele Attribute enthalten, und der Denormalisierung der üblichen Dimensionen.
Sehr große Dimensionstabellen können auch partitioniert werden, und zwar nach denselben Strategien wie für Faktentabellen.
[Next] [Previous] [Up] [Top] [Contents] [Index]