Seminar: Data Warehousing and Data Mining

Thema 4: Materialisierte Sichten

Bearbeiter: Steven Rickel, Student
mai97lwm@studserv.uni-leipzig.de
Betreuer: Holger Märtens, Dipl. Informatiker
Abteilung Datenbanken
Institut für Informatik
Fakultät für Mathematik und Informatik
Universität Leipzig

Inhalt
Einführung
Auswahl und Erzeugung
Pflege
Zusammenfassung
Literatur

1. Inhalt

In den letzten Jahren gewann das Thema Data Warehousing (DWH) immer mehr an Bedeutung. In einem DWH werden Daten von verteilten, heterogenen Datenbanken gesammelt. Diese Datenmengen können sehr mächtig sein und es kann eine große Anzahl von Anfragen auf ihnen gestellt werden. Um ein DWH effektiv zu nutzen, werden materialisierte Sichten verwendet.

Dieser Text ist in vier Abschnitte aufgeteilt. In der Einführung werden folgende Fragen beantwortet:

Was sind materialisierte Sichten (Definition)?
Warum nutzt man materialisierte Sichten (Vorteile)?
Welche Probleme bringen sie mit sich (Nachteile)?
Nach welchen Kriterien sind die zu materialisierenden Sichten auszuwählen (Aufgaben)?

Im zweiten Teil wird das Problem der Auswahl und der Erzeugung materialisierter Sichten diskutiert. Darin wird das allgemeine Problem spezifiziert und zwei Algorithmen zur Auswahl der zu materialisierenden Sichten vorgestellt:

Auswahl mit Hilfe des "0-1 Integer Programming Solution"
Auswahl mit Hilfe des "State Space Search Based Algorithm"

Die Pflege der materialisierten Sichten wird im dritten Teil behandelt. Darin wird zuerst wieder das allgemeine Problem dargelegt. Weiterhin wird mit Hilfe einiger Beispiele der ECA (Eager Compensation Algorithm) und das Problem der Selbstpflege materialisierter Sichten betrachtet.

Im vierten und letzten Teil findet man eine Zusammenfassung und Informationen über Ausblicke sowie Literaturhinweise.

2. Einführung

2.1. Definition von materialisierten Sichten

Ein DWH beinhaltet in der Regel große Mengen an Daten. Weiterhin werden häufige und komplexe Anfragen auf dem DWH gestellt. Dies erfordert eine hohe Effizienz beim Zugriff auf die Daten, d.h. bei der Beantwortung von Anfragen. Die Verwendung von redundanten Strukturen und Parallelismus bei der Bearbeitung von Anfragen kann die Effizienz erhöhen. Sichten (Views) sind aus Basisrelationen abgeleitete virtuelle Relationen. Es gibt zwei Ansätze zum integrierten Zugriff auf mehrere, verteilte und heterogene DBS:

on-demand(auf Verlangen): Dieser Ansatz benutzt virtuelle Sichten und wird bei häufigen Updates der Quellen verwendet.
data warehousing: Bei dieser Art werden die Daten von Interesse aus Quellen als Warehouse abgespeichert. Eine Technik zur Abfrage dieser Daten sind materialisierte Sichten.

An dieser Stelle ist zu erwähnen, daß manche Autoren ein DWH nur als Ansammlung von materialisierten Sichten definieren. In diesem Text wird das DWH als Sammlung von konsolidierten Daten angesehen, die unabhängig von den Quelldatenbanken ist.

Materialisierte Sichten ist eine Technik dabei, welche den Anfrageprozeß effizienter machen kann. Eine Sicht zu materialisieren heißt, das Ergebnis einer Sicht (die Tupel) im DWH zu speichern. Unmaterialisierte Sichten sind virtuelle Sichten.

2.2. Anwendung von materialisierten Sichten

Abb.1 : DWH mit materialisierten Sichten (Quelle: [LQA97])

Die Abb.1 zeigt auf abstrakter Weise die Verwendung von materialisierten Sichten. Von mehreren Quellen aus werden ausgewählte Relationen extrahiert. Nach einer Bearbeitung (nur Daten von Interesse; heterogene Quellen) werden diese als Basisrelationen im DWH abgespeichert. Auf den DWH werden Anfragen gestellt. Die materialisierten Sichten liegen zwischen den Anfragen und den Basisrelationen.

Der Vorteil, der sich aus materialisierten Sichten ergibt, ist die schnellere Antwortzeit besonders bei hoher Anfragerate und hoher Komplexität der Anfragen, da das Ergebnis nicht neu berechnet werden muß, sondern nur die gespeicherten Tupel abgerufen werden. Die Nachteile sind zusätzliche Kosten für die Speicherung (redundante Struktur) und die Pflege der materialisierten Sichten bei einem Update auf Basisrelationen.

2.3. Probleme und Problemlösungen

Es stellt sich die Frage, welche Anfragen beantwortet werden sollen, d.h. welche Anfragen sollen bei der Ermittlung der zu materialisierenden Sichten betrachtet werden. Durch Statistiken oder einfach aus dem Zweck des DWH lassen sich diejenigen Anfragen auswählen, welche eine komplexe Struktur haben und bzw. oder häufig gestellt werden.

Nun stellt sich die Frage, welche Sichten zu materialisieren sind. Es sollten alle ausgewählten Anfragen mittels materialisierten Sichten effizienter beantwortet werden. Jedoch kann es auch vorkommen, daß durch die Verwendung der materialisierten Sichten das DWH ineffizienter wird. Wenn hier von Sichten gesprochen wird, sind damit eigentlich Teilsichten gemeint. Die Erklärung folgt später. Wenn man alle Sichten materialisiert (alle Ergebnisse der Anfragen), erhält man die beste Leistung, da keine Zugriffe auf den Basisrelationen notwendig sind. Jedoch sind die Kosten für die Pflege der Sichten sehr hoch. Läßt man alle Sichten virtuell, bleibt die Leistung schlecht, aber es entstehen auch keine Kosten für die Pflege. Um eine optimale Lösung mit hoher Leistung und niedrigen Kosten zu erhalten, muß eine bestimmte Auswahl der Sichten materialisiert werden. Es kann aber auch möglich sein, daß die Pflege so kostenintensiv ist, daß die Verwendung von materialisierten Sichten ineffizient wird. Welche Kriterien muß nun die Auswahl haben?

Weiterhin muß geklärt werden, wie und wann Sichten gepflegt werden sollen. Pflege der materialisierten Sichten wird nötig durch Updates auf Basisrelationen. Nun muß ein effizientes Update der materialisierten Sichten gefunden werden, da bei der Pflege entstehende DB-Operationen in Konflikt mit gestellten Anfragen kommen können. Die Pflege der Sichten kann bei Nichtbenutzung des DWH (z.B. bei Nacht) geschehen. Jedoch muß die Pflege nach einer bestimmten Zeit fertig sein. Außerdem ist durch die Globalisierung ein Zugriff bei Nacht erwünscht. Eine zweite Möglichkeit ist die direkte Pflege nach einem Update auf die Basisrelationen. Wann die materialisierten Sichten zu pflegen sind, hängt somit vom Verwendungszweck des DWH ab.

Das Ziel ist es, daß die ausgewählten Anfragen mittels materialisierter Sichten effizienter beantwortet werden können und die Kosten für die Nutzung minimal werden. Dabei muß eine bestimmte Auswahl der zu materialisierenden Sichten gefunden werden. Man beachte dabei die Kosten für das Abarbeiten der Anfragen und für die Pflege. Weiterhin muß ein effizienter Algorithmus zum Updaten der materialisierten Sichten angewendet werden. Die Anwendung von bestimmten Algorithmen zur Auswahl und Pflege von materialisierten Sichten ist das Thema dieses Textes.

3. Auswahl und Erzeugung

3.1. Das allgemeine Problem

In der Literatur werden eine Reihe von verschiedenen Algorithmen zur Auswahl der zu materialisierenden Sichten vorgestellt. Zunächst wird jedoch das allgemeine Problem spezifiziert.

Ein DWH beinhaltet mehrere Basisrelationen R. Über den DWH werden Anfragen Q gestellt. Dabei können einige temporäre Ergebnisse Tmp für mehrere Anfragen genutzt werden. Diese temporären Ergebnisse werden nun im weiteren Text Sichten genannt. Auf den Resultaten Res werden dann durch weitere Projektionen und Selektionen die Anfragen beantwortet. Ein graphisches Beispiel gibt Abb.2.

Abb.2 : Mehrfach-Anfragen-Prozeß-Plan (Quelle: [YKL97])

Werden alle temporären Resultate, also Sichten, materialisiert, entstehen sehr geringe Kosten für den Anfrageprozeß. Es werden nur die gespeicherten Tupel abgerufen. Jedoch ist die Pflege sehr aufwendig, d.h. mit hohen Kosten verbunden, da diese Tupel eine große Anzahl von redundanten Strukturen sind. Im Beispiel bringt die Materialisierung von Temp6 keine Leistungserhöhung, da bei der Anfrage auf Temp7 oder auf Temp8 zugegriffen wird. Materialisiert man keine Sichten, so kommen zwar keine Kosten für die Pflege zustande, aber der Anfrageprozeß ist nur mit sehr hoher Rechenleistung zu bewältigen, besonders bei der Verwendung von komplexen Anfragen mit vielen Joins auf mächtigen Basisrelationen. Es muß eine geeignete Auswahl der zu materialisierenden Sichten gefunden werden. Dabei sollen die Kosten für die Bearbeitung der Anfragen und Pflege der Sichten minimal sein.

Tabelle1 : Kostenvergleich (Quelle: [YKL97])
materialisierte Sichten Kosten für Anfrage Kosten für Pflege Kosten total
keine 8.980.860k 0 8.980.860k
tmp3, tmp4, tmp8 7.201.547k 1.350.125k 8.551.672k
tmp3, tmp5 416.747k 16.032.204k 16.448.951k
tmp3, tmp4, tmp7 7.276.497k 1.220.055k 8.496.552k
tmp3, tmp7 8.281.547k 126.122k 8.407.669k
res1, res2, res3, res4 1.447k 17.384.934k 17.386.381k

Tabelle1 : Kostenvergleich (Quelle: [YKL97])
materialisierte Sichten	Kosten für Anfrage	Kosten für Pflege	Kosten total
keine	8.980.860k	0	8.980.860k
tmp3, tmp4, tmp8	7.201.547k	1.350.125k	8.551.672k
tmp3, tmp5	416.747k	16.032.204k	16.448.951k
tmp3, tmp4, tmp7	7.276.497k	1.220.055k	8.496.552k
tmp3, tmp7	8.281.547k	126.122k	8.407.669k
res1, res2, res3, res4	1.447k	17.384.934k	17.386.381k

Zur Veranschaulichung ein durchgerechnetes Beispiel in Tabelle1 für die oben gezeigte Abb.2. Als Kostenmaß dient dabei die Anzahl der Tupel, die für die Anfrageverarbeitung bzw. die Sichtenpflege verarbeitet werden müssen, falls die entsprechende Auswahl von Sichten materialisiert sind.

Es ist ersichtlich, daß ohne materialisierte Sichten der Anfrageprozeß sehr großen Rechenaufwand nach sich zieht (rund 9G Tupel). Wenn man alle Resultate materialisiert, entstehen hohe Kosten für die Pflege (rund 17G Tupel), aber die geringsten Kosten für den Anfrageprozeß. Es muß eine geeignete Auswahl getroffen werden. In der dritten und fünften Zeile wurden jeweils zwei Teilsichten materialisiert, jedoch die Gesamtkosten sind um den Faktor zwei verschieden. Die Ersparnis ist hier gegenüber der Verarbeitung ohne materialisierten Sichten sehr gering. Es gibt Fälle, in welchen die Ersparnis sehr hoch ist, aber auch Fälle, in welchen es keinen Kostengewinn gibt. In diesem Fall ist es abzuraten, materialisierte Sichten zu nutzen.

Es muß also eine geeignete Auswahl gefunden werden. Dieses Auswahlverfahren ist jedoch hoch komplex. Die Häufigkeit der Anfragen und die Häufigkeit von Updates auf Basisrelationen ist dabei auch entscheidend und kann mit Hilfe von Statistiken ermittelt werden. Der allgemeiner Algorithmus muß folgendermaßen aussehen:

Eingabe:
- Basisrelationen R, temporäre Sichten V, Anfragen Q
- Häufigkeit der Anfragen f_Q , Häufigkeit der Updates f_U
Ausgabe:
- Menge der zu materialisierenden (Teil-)Sichten M

3.2. "0-1 Integer Programming Solution" (aus [YKL97])

3.2.1. Einführung

Ein MVPP-Graph ("Multiple View Processing Plan") zeigt die Strategie der Verarbeitung von Anfragen im DWH (siehe Abb.2). Als erstes jedoch einige Spezifikationen.

Zur Beschreibung eines MVPP benötigt man ein Sechs-Tupel (V, A, C^q_a, C^r_m, f_Q, f_U). V sei die Menge aller Knoten (Basisrelationen, Sichten, Anfragen) und A sei die Menge aller Bögen über V. Es sei u->v, wenn ein Knoten u zur Berechnung von v benötigt wird. L sei nun die Menge aller Knoten, welche eine Basisrelation beschreiben. Für jedes v aus L sei f_U(v) die Häufigkeit von Updates auf die Basisrelation. R sei nun die Menge aller Anfragen. Für jedes v aus R sei f_Q(v) die Häufigkeit der Anfrage. C^q_a(v) beschreibt die Kosten für die Berechnung (access) von v beim Zugriff auf Anfrage (query) q. C^r_m(v) beschreibt die Kosten für die Pflege der materialisierten Sicht (materialized view) v bei einem Update auf Basisrelation (base relation). Ein Beispiel ist der oben gezeigte Graph (siehe Abb.2). Die Anfragen sind mit Nummern gekennzeichnet, welche deren Häufigkeit anzeigen.

Ein MVPP ist ein gerichteter, azyklischer Graph. Es gibt mehrere mögliche Graphen für dieselben Basisrelationen und Anfragen. Es wird nun mit dem "0-1 Integer Programming Solution" Algorithmus der kostengünstigste MVPP ermittelt. Nach diesem werden die zu materialisierenden Sichten ausgewählt. Für diese Algorithmen benötigt man Kostenfunktionen. Die Kostenanalyse sieht wie folgt aus:

Kosten für Prozeß der Anfrage: C_qp(v)=Summe[q aus R]{f_Q*C^q_a(v)}
Kosten für Pflege der Sichten: C_mv(v)=Summe[r aus L]{f_U*C^r_m(v)}
Kosten um ein Sicht zu materialisieren: C_total(v)=C_qp(v)+C_mv(v)
Kosten um eine Menge von Sichten zu materialisieren: C_total=Summe[v aus M]{C_total(v)}
Kostenfunktion (Nutzen geteilter Sichten): E_cost(v)=Summe[q aus R]{f_Q*C^q_a(v)/n_v}

Der Wert n_v sei die Anzahl der Anfragen, welche auf v liegen. Es sei bemerkt, daß C^q_a(v)=0, wenn die Anfrage q nicht auf die Sicht v zugreifen muß. Ebenso ist C^r_m(v)=0, wenn die Sicht v die Basisrelation r nicht benutzt.

Ziel ist es, das Sechs-Tupel, besser die Menge A, zu finden, so daß C_total minimal wird. Dies ist abhängig von

Häufigkeit auf Zugriff der globalen Anfragen f_Q(v)
Häufigkeit der Updates auf DB-Relationen f_U(v)
Kosten der Anfragenprozesse auf materialisierten Sichten C^q_a(v)
Kosten der Pflege von materialisierten Sichten auf Basisrelationen C^r_m(v)

3.2.2. Algorithmus zum Erstellen des optimalen MVPP

Dieser Algorithmus besteht aus drei Teilen. Als erstes werden select, project und aggregation Operationen der Sichten "hochgezogen" zu den Resultaten (pull up). Daraufhin wird der MVPP transformiert zum optimalen MVPP. Als letztes werden die select, project und aggregation Operationen wieder "runtergeschoben" (push down).

Das pull up und push down basiert auf Relationenalgebra. Die Transformation geschieht mit Hilfe vom "0-1 Integer Programming Solution" Algorithmus. Da alle select-, project- und aggregation- Operationen hochgeschoben sind, betrachtet man nur noch join-Operationen. Durch diesen Algorithmus wird der optimale Anfrageprozeß unter den gegebenen Annahmen ermittelt. Materialisierte Sichten bleiben erstmal außen vor. Weitere Notationen sind nun nötig.

Es gibt k globale Anfragen (q₁, q₂, ..., q_k). Für alle Anfragen q gibt es eine Menge von möglichen Join Plan Trees p (binäre Bäume mit Join Operationen als Knoten). Für alle Bäume einer Anfrage q sei p eine geordnete Liste der Form p(R,S) mit R, S sind Teilbäume von p. Für alle Join Plan Trees p sei s Join Pattern oder Teilbaum von p. Die Menge aller Join Plan Trees einer Anfrage q sei p(q) = {p_i : p_i sei Join Plan Tree von q}. Die Menge aller möglichen Join Plan Trees n aller Anfragen sei P = Vereinigung[i=1...k] p(q_i). Die Menge aller Join Patterns eines Join Plan Trees p sei s(p) = {s_i : s_i sei Join Pattern von p}. Die Menge aller möglichen Join Patterns m aller Join Plan Trees sei S = Vereinigung[i=1...n] s(p_i). Hierzu ein Beispiel zu den MVPP von oben (siehe Abb.2).

Join Plan Trees:
- p(q1) = {(r1,r2)} = {p1}
- p(q2) = {((r1,r2),r3), ((r1,r3),r2)} = {p3, p4}
- p(q3) = {(r3,r4)} = {p2}
- p(q4) = {((r1,r2),(r3,r4)), (((r1,r2),r3),r4), (((r1,r3),r2),r4)} = {p5, p6, p7}
Join Patterns:
- s(p1) = {(r1,r2)} = {s1}
- s(p2) = {(r3,r4)} = {s5}
- s(p3) = {(r1,r2), ((r1,r2),r3)} = {s1, s2}
- s(p4) = {(r1,r3), ((r1,r3),r2)} = {s3, s4}
- s(p5) = {(r1,r2), (r3,r4), ((r1,r2),(r3,r4))} = {s1, s5, s6}
- s(p6) = {(r1,r2), ((r1,r2),r3), (((r1,r2),r3),r4)} = {s1, s2, s7}
- s(p7) = {(r1,r3), ((r1,r3),r2), (((r1,r3),r2),r4)} = {s3, s4, s8}
Liste der Join Plan Trees:
- P = {p1, p2, p3, p4, p5, p6, p7}
Liste der Join Patterns:
- S = {s1, s2, s3, s4, s5, s6, s7, s8}

Man erhält zwei Mengen. Die Menge P mit allen möglichen Join Plan Trees (Abfragebäume der Anfragen) und die Menge S mit allen möglichen Join Patterns (Teilbäume der Join Plan Trees). Nun wird ein Algorithmus angewandt, der die günstigsten Join Plan Trees ermittelt. Zuerst werden zwei Matrizen konstruiert. Die Dimensionen sind n (Anzahl der Join Plan Trees), k (Anzahl der Anfragen) und m (Anzahl der Join Patterns).

A sei Matrix mit (k*n) Elementen:
- a_ij = 1 wenn Anfrage q_i von Join Plan Tree p_j beantwortet wird
B sei Matrix mit (m*n) Elementen:
- b_ij = 1 wenn join pattern s_i in Join Plan Tree p_j enthalten ist

Beispiel von oben:
A= ( 1 0 0 0 0 0 0 )
( 0 0 1 1 0 0 0 )
( 0 1 0 0 0 0 0 )
( 0 0 0 0 1 1 1 ) B= ( 1 0 1 0 1 1 0 )
( 0 0 1 0 0 1 0 )
( 0 0 0 1 0 0 1 )
( 0 0 0 1 0 0 1 )
( 0 1 0 0 1 0 0 )
( 0 0 0 0 1 0 0 )
( 0 0 0 0 0 1 0 )
( 0 0 0 0 0 0 1 )

Der "0-1 Integer Programming Solution" Algorithmus findet die Menge an Join Plan Trees, welche alle Anfragen beantworten, und die Kosten für die Anfragenbearbeitung sind minimal. Dabei wird pro Anfrage ein Join Plan Tree ausgewählt, jedoch kann man unter Umständen ein Join Pattern für mehrere Anfragen nutzen. Man betrachte dabei die kleinsten Kosten der Join Patterns. Tabelle2 vergleicht die Kosten der Join Patterns vom begleitenden Beispiel. Die Variable xi sei binäre Variable mit 1 wenn Join Plan Tree pi betrachtet wird.

Tabelle2 : Kosten der Patterns (Quelle [YKL97])
Patterns s1 s2 s3 s4 s5 s6 s7 s8
n_v 3 2 2 2 2 1 1 1
E_cost 3.3*10⁶ 6*10¹³ 6*10⁹ 6*10¹³ 3*10¹¹ 1.2*10¹⁸ 1.2*10¹⁸ 1.2*10¹⁸

Tabelle2 : Kosten der Patterns (Quelle [YKL97])
Patterns	s1	s2	s3	s4	s5	s6	s7	s8
n_v	3	2	2	2	2	1	1	1
E_cost	3.3*10⁶	6*10¹³	6*10⁹	6*10¹³	3*10¹¹	1.2*10¹⁸	1.2*10¹⁸	1.2*10¹⁸

Die Auswahl von Join Plan Trees geschieht auf dem Weg, daß das kleinste x0 gesucht wird.
min x0=Summe[i=1...m] (E_cost(s_i))*{Summe[j=1...n] (b_ij*x_j)} mit Summe[j=1...n] (a_ij* x_i)=1 für jede Anfrage q_i und E_cost(s_i)=Summe[q aus R](f_Q*C^q_a(s_i)/n_si Kosten für jedes Join Pattern.

Diese Kostenfunktion wurde oben definiert (siehe Abschnitt 3.2.1.). Das Ergebnis ist die Liste von Join Plan Trees und damit der optimalen MVPP, d.h. die Anfragenbearbeitung mit den geringsten Kosten für die Berechnung der Anfragen. Im Beispiel sind das: p1, p2, p3, p6.

3.2.3. Auswahl der zu materialisierenden Sichten

Es sei nun der optimale MVPP gegeben. Es werden die zu materialisierenden Sichten ausgewählt. Vorher jedoch noch einige Notationen. O_v sei die Menge der globalen Anfragen, welche v benutzen. I_v sei die Menge der Basisrelationen, durch welche v erzeugt wird. S_v sei Menge der Knoten, welche zum Erzeugen von v gebraucht werden. D_v sei die Menge der Knoten, welche von v aus noch erzeugt werden. Das Gewicht eines Knotens sei w(v)=Summe[q aus O_v](f_Q(q)*C^q_a(v)-Summe[r aus I_v](f_U(r)*C^r_m(v)). Diese Formel berechnet die Ersparnis, falls v materialisiert ist. LV sei Liste von Knoten basierend auf absteigender Reihenfolge von allen positiven w(v). Wenn w(v) negativ ist, ist es sehr ineffizient diese Sicht zu materialisieren, da die Pflege der Sicht teurer wäre als die Berechnung der Anfragen, welche v benutzen.

Im fünften Schritt wird ein Knoten betrachtet in Bezug auf die Kosten Cs. Diese sind Kosten für Materialisierung und Pflege inklusive der Kosten im Fall, daß schon Sichten, welche zur Berechnung von v gebraucht werden, ausgewählt sind. Ein positiver Wert heißt Kostengewinn und die Sicht wird in M aufgenommen. Im siebenten Schritt wird der Suchraum weiter eingeschränkt. Wenn alle direkt folgenden Teilsichten, d.h. die aus einem Knoten berechnet werden, materialisiert sind, bringt es keinen Gewinn, die Sicht zu materialisieren. Deshalb werden diese Sichten im neunten Schritt gesucht und eliminiert. M ist die Menge der zu materialisierenden Sichten.

Algorithmus:
1. M := Ø;
2. erzeuge Liste LV;
3. nimm erstes Listenelement von LV;
4. erzeuge O_v, I_v, S_v;
5. berechne Cs=w(v)-Summe[q aus O_v]{f_Q(q)*Summe[u aus D_v Durchschnitt M](C^q_a(u))};
6. if Cs>0 then lege v in Menge M ab und lösche v aus Liste LV;
7. elseif lösche v und alle Knoten aus LV, welche sich im Teilbaum von v befinden;
8. gehe zu Schritt 3. solange LV ungleich Ø;
9. für alle v aus M, wenn D_v Teilmenge M, dann lösche v aus M;

Zuerst wird der optimale MVPP ausgewählt. Der "0-1 Integer Programming Solution" Algorithmus findet diese optimale Lösung zur Anfragebearbeitung unter den gegebenen Voraussetzungen. Jedoch wird die Menge der Join Plan Trees und Join Patterns sehr mächtig bei vielen und sehr komplexen Anfragen. Da aber das Problem auf Matrizen mit nur Nullen und Einsen transformiert wurde, wird die Berechnung der Auswahl nicht so rechenaufwendig. Es ist auch möglich den MVPP auf anderem Wege zu ermitteln. Dieser Algorithmus würde aber den Rahmen hier sprengen. Jedoch wird dabei nicht sichergestellt, ob man den optimalen MVPP erhält. Im zweiten und eigentlichen Schritt zur Auswahl werden durch einen sehr einfachen Algorithmus die zu materialisierenden Sichten ausgewählt. Dieser Algorithmus kann aber auch sehr rechenaufwendig werden, da alle Knoten aus LV betrachtet werden.

3.3. "A State Space Search Based Algorithm" (aus [TS97])

3.3.1. Einführung

Nun wird ein zweiter Algorithmus dargestellt. Dieser vergleicht Zustände des DWH. Ein Zustand oder eine DWH-Konfiguration wird durch ein Tupel C=(V,Q^V) bestimmt. V ist die Menge der materialisierten Sichten und Q^V beschreibt die Menge der Anfragen Q, welche durch die Sichten V beantwortet werden. Der Startzustand ist gegeben durch C=(Q,Q^Q). Das bedeutet, daß alle Anfragenresultate materialisiert sind und bei Anfrage nur abgerufen werden muß. Daraus ergeben sich minimale Kosten für die Anfrageverarbeitung, aber maximale Kosten für die Pflege. Durch Transformationen in andere Zustände erhält man andere Kosten. Dabei werden mittels eines Graphen die Sichten und die Anfragen transformiert. Der Endzustand ist gegeben durch C=(R,Q). Daraus folgt, daß es keine materialisierten Sichten gibt und die Anfragen immer neu berechnet werden müssen. An dieser Stelle muß erwähnt werden, daß die Autoren eine etwas andere Definition des DWH benutzen, als Sammlung von materialisierter Sichten, als die Autoren vom ersten Algorithmus. Im Zustand C=(R,Q) sind nur noch die Basisrelationen materialisiert. Bei Anfrage müssen die Tupel komplett neu berechnet werden. Dabei kann man auf verschiedene Weise zum Zustand C=(R,Q) gelangen und die Anfragen Q können auf verschiedene Weise die Berechnung durchführen, d.h. wenn man auf verschiedene Weise zum Endzustand gelangen kann, können die Anfragen verschiedene Ausführungspläne haben. Das Ziel ist, den Zustand mit den geringsten Gesamtkosten zu suchen.

Der abstrakte Algorithmus hat folgendes als Eingabe: R={R₁,...,R_n} sei die Menge der Basisrelationen. Q={Q₁,...,Q_o} sei die Menge der Anfragen und f_Qi sei das Gewicht einer Anfrage Q_i (relative Häufigkeit der Anfrage). T={T₁,...,T_q} sei die Menge der Transaktionstypen über R (T_i wird bestimmt durch geänderte Basisrelation, Typ der Änderung und Größe jeder Änderung) und f_Ti sei das Gewicht eines Transaktionstypes T_i (relative Häufigkeit von Updates). Die Ausgabe: V={V₁,...,V_m} sei die Menge der Sichten.

Alle Anfragen werden durch Sichten beantwortet. Die Kosten der Anfragen berechnen sich E(Q^V)=Summe[i=1...o](f_Qi*E(Q^Vi)) und die Kosten der Pflege M(V)=Summe[i=1...q](f_Ti*M(T_i)). E und M sind wieder Kostenfunktionen (analog zu 3.2.1.).

Der Algorithmus untersucht Zustände, d.h. verschiedene DWH Konfigurationen, der Form s=(V,Q^V). Man betrachtet dabei ð_F=(R₁ * ... * R_k) als eine Anfrage. F sei eine Formel für Konjunktion von Vergleichen der Form (x op y + c) oder (x op c), mit c als Konstante, x, y als Attributnamen und op als Operator aus (=, <, <=, >, >=, (nicht ungleich)). Disjunktionen, Ungleichheit und Negation können durch geeignete Umformungen eliminieren werden.

3.3.2. Konstruktion des Mehrfachanfragengraphen

G^V sei ein Mehrfachanfragengraph über den Sichten V. S=(V,Q^V) beschreibt eine Konfiguration des DWH, die durch einen Zustand des Graphen mit s=(G^V,Q^V) beschrieben wird. G^V ist wie folgt definiert. Die Knoten beschreiben Relationen und die Kanten beschreiben Joins bzw. Selektionen in den Sichten. Der Graph beschreibt also die Struktur der Sichten.

Q^V sei nun wieder die Menge der Anfragen, welche durch V beantwortet werden. Für jedes join-Prädikat F_P in einer Sicht V_i der Form ð_F(R_k*...*R_l) gibt es eine Kante zwischen R_i und R_j bezeichnet mit V:F_P (join edge). Für jedes select-Prädikat F_P in einer Sicht V der Form ð_F(R_k*...*R_l) gibt es eine Kante von R_i zu R_i bezeichnet mit V:F_P (selection edge). Für jede Sicht V=R_i gibt es eine Kante von R_i zu R_i bezeichnet mit V:T mit T sei eine gültige Formel (selection edge). Somit hat ein Mehrfachanfragengraph alle Informationen über die Sichten.

3.3.3. Transformationen des Mehrfachanfragengraphen

Nun können Transformationen auf dem Graphen angewandt werden. Der Graph einer Sicht kann auch als Graph mehrerer (Teil)Sichten angesehen werden mit V={V₁,...,V_m}. Jede Kante bzw. eine Menge von Kanten kann als Sicht angesehen werden. Mittels drei Regeln entstehen Übergänge in weitere Zustände. Dabei werden auch die Anfragen umgeschrieben. Eine Kante sei e.

selection edge cut (e ist bezeichnet mit V:F_P):
- a) e ist einzige selection edge Kante, dann bezeichne Kante in V₁:T um
- b) sonst lösche e und bezeichne alle Kanten von V in V₁ um
- ersetzte alle V in Q^V durch ð_Fp(V₁)
join edge cut (e ist bezeichnet mit V:F_P):
- lösche e
- a) Löschung trennt nicht zwei Knoten vollständig voneinander, dann bezeichne alle Kanten von V in V₁ um
- b) sonst: benenne alle Kanten von V in V₁ um in einen Teil und in V₂ im anderen Teil des Graphen; ist ein Teil ein einzelner Knoten ohne Kanten, dann lege ein selection edge mit der Bezeichnung V₁:T bzw. V₂:T an
- ersetzte alle V in Q^V durch a) ð_Fp(V₁) bzw. b) ð_Fp(V₁*V₂)
view merging (zwei Sichten V und V₁ haben die gleiche Menge Knoten und jedes Prädikat im Graph impliziert (p->p') oder wird impliziert von einem Prädikat der anderen Sicht (p'->p); (p->p') heißt p hat schärfere Restriktion):
- lösche jede Kante einer Sicht, bezeichnet mit p, daß (p->p') mit p' Prädikat der anderen Sicht und nicht (p'->p)
- benenne alle V und V₁ in V₂ um
- ersetzte alle V in Q^V durch ð_Fp(V₁) mit p ist in F
- ersetze alle V₁ in Q^V durch ð_Fp(V₁) mit p ist in F

Bei Anwendung einer der drei Transformationsregeln auf s=(G^V,Q^V) erhält man einen neuen Zustand s'=(G^V',Q^V') mit einer Menge von Sichten V' mit der Garantie, daß alle Anfragen mit materialisierten Sichten beantwortet werden. Nach der Konstruktion des Graphen werden die Sichten wie die Anfragen definiert, d.h. alle Anfragenresultate materialisiert.

Ein Beispiel (mit dem * als Join-Zeichen) für Transformationen. Man betrachte eine Anfrage Q₁=R*_(A=C)(select_(D>5)S) für die Relationen R(A,B) und S(C,D). Damit ist die Menge Q={Q₁} und R={R,S}. Der Startzustand ist C₀=(Q,Q^Q), d.h. V=Q₁ und damit V={V}. Der entsprechende Mehrfachanfragengraph wird in Abb.3 gezeigt.

Abb.3 : Graph zum Bsp.

Nach einem join egde cut auf die Join-Kante im Graph (siehe Abb.4) ist die Menge der materialisierten Sichten V={V₁,V₂}={R,select_(D>5)S} und die Anfrage Q₁ wird berechnet als Q₁=V₁*_(A=C)V₂. Nach einen selection edge cut auf die Selection-Kante V₂:(B>5) ist die Menge V={V₁,V₃} und die Anfrage Q₁ wird berechnet aus Q₁=V₁*_(A=C)select_(D>5)V₂. Es sind nur noch die Basisrelationen materialisiert und die Anfrage Q₁ wird vollständig neu berechnet.

Abb.4 : Graph nach Transformationen

In Abb.5 wird eine andere Reihenfolge der Transformationen des in Abb.3 bestehenden Graphen durchgeführt. Nach einem selection edge cut der Selection-Kante V:(D>5) ist die Menge der zu materialisierenden Sichten V={V,V}={R*_(A=C)S,S} und die Anfrage Q₁ wird berechnet als Q₁=select_(D>5)V. Nach dem folgenden join edge cut auf die Join-Kante ist die Menge der zu materialisierenden Sichten V={V₁,V₃}={S,R} und die Anfrage Q₁ wird berechnet als Q₁=select_(D>5)(R*_(A=C)S). Die beiden Endzustände nach den Abb.4 und Abb.5 besitzen die gleiche Menge an materialisierten Sichten, jedoch verschieden Ausführungspläne für die Anfrage Q₁.

Abb.5 : Graph nach Transformationen

In der Abb.6 ist ein Beispiel für das view merging aufgezeigt. Man betrachte nun zwei Anfragen Q={Q₁,Q₂} mit Q₁=R*_(A=C)(select_(D>5)S) und Q₂=R*_(A>=C)(select_(D=6)S) auf den Basisrelationen R und S. Die Menge der zu materialisierenden Sichten ist V={V₁,V₂}={Q₁,Q₂}. Nach dem view merging ist die Menge der materialisierten Sichten V={V₃}={R*_(A>=C)(select_(D>5)S} und die Anfragen werden berechnet als Q₁=select(_(A=C)V₃) und Q₂=select(_(D=6)V₃).

Abb.6 : Graph nach Transformation

Durch die "edge cut"-Operationen werden die materialisierten Sichten verkleinert, d.h. es wird immer weniger materialisiert und immer mehr muß berechnet werden zur Anfrageverarbeitung. Durch die "view merging"-Operation werden mehrfache Sichten aus dem Graphen entfernt.

3.3.4. Auswahl der zu materialisierenden Sichten

Nun betrachtet man vom Anfangszustand s₀=(G^Q,Q^Q) aus alle möglichen Zustände mit den entsprechenden Kosten, bis man zu den Endzuständen gelangt. In einem Endzustand ist keine Transformation mehr möglich. Der Algorithmus sucht alle möglichen Zustände vom Ausgangszustand aus. Dabei werden die Kosten berechnet. Da es drei verschiedene Transformationsarten gibt, ist die Reihenfolge der Transformation bis zum Endzustand nicht vorgegeben. Dadurch berechnen zwar alle Endzustände die gleichen Tupel, aber auf verschiedenen Wegen. Wenn keine Transformationen mehr möglich sind, sucht man den Zustand s=(G^V,Q^V) mit minimalen Kosten. Jedoch kann die Anwendung dieses Algorithmus bei einer hohen Anzahl von komplexen Anfragen sehr teuer werden, da wieder alle Zustände betrachtet werden. Außerdem müssen die Anfragen in einer bestimmten Form sein bzw. gebracht werden. Das hat zur Folge, daß Anfragen sehr unübersichtlich werden können.

Algorithmus:
- berechne Kosten für s₀ = (G^Q,Q^Q);
- open = {s₀};
- closed = Ø;
- while (open ungleich Ø)
  - nimm einen Zustand s aus open;
  - for jede Transformation T(s,s')
    - if s' nicht aus (open vereinigt closed) then
      - berechne Kosten für s';
      - open = open vereinigt {s'};
    - endif;
  - endfor;
  - open = open-{s};
  - closed = closed vereinigt {s};
- endwhile;
- return den Zustand s mit den minimalen Kosten

4. Pflege (view maintenance)

4.1. Das allgemeine Problem

Ein Update auf Basisrelationen zieht ein Update auf die materialisierten Sichten nach sich. Für manche DWH ist es wichtig, daß nach einem Update auf einer Basisrelation sofort das Update der Sichten erwartet wird. Für andere reicht ein Update pro Tag (z.B. bei Nacht) aus. Dies ist natürlich anwendungsabhängig. Die Pflege der Sicht heißt neue Berechnung der Sicht. Eine Rematerialisierung der Sicht, d.h. eine völlige Neuberechnung, ist meist zu teuer, da die Updates oft klein in Bezug auf die Größe der Basisrelation sind. Wenn man nur den nötigen Teil der Sichten neu berechnet, d.h. den Teil der vom Update betroffen ist, ist dies weitaus billiger. Pflegeoperationen der Sichten und Anfragen können sich gegenseitig blockieren. Deshalb ist es am besten, nur bei Nichtbenutzung (in der Nacht) die Sichten zu pflegen. Zwei Probleme entstehen aber:

Globalisierung ( auch bei Nacht Zugriffe auf DWH erwünscht
Zeitbegrenzung ( am Morgen muß Pflege abgeschlossen und DWH konsistent sein

Es gibt viele Methoden, welche vor der Pflege Fallunterscheidungen (Art des Updates, Art der Sicht) durchführen, um dann verschiedene Algorithmen anzuwenden. Der ECA (unten) arbeitet ohne Fallunterscheidung. WH und Basisrelationen (Quelle) sind voneinander getrennt. Mögliche Protokolle:

WH sendet Anfragen an Quelle
Quelle sendet Antworten an WH
Quelle sendet Updates an WH

Um die Probleme der Pflege zu zeigen, werden drei Beispiele (aus [ZGHW95]) erklärt. Zunächst die Erklärung der Syntax. Eine Basisrelation wird beschrieben durch Name = (Attributnamen):(Tupel), eine Sicht durch Name = Projektion[Attributname](Joins(*) zwischen Basisrelationen) und ein Update durch Name = Updateart(auf Basisrelation, mit Tupel). Der Name wird hier durch Indizes spezifiziert.

Bsp.1: Es gibt zwei Basisrelationen R1=(W,X):([1,2]) und R2=(X,Y):([2,4]) und eine Sicht V=Proj[W](R1*R2)=([1]). Nun tritt ein Update U=insert(R2,[2,3]) auf. Die Pflege der Sicht:
- 1) update U auf Quelle; U wird zum WH geschickt
- 2) WH erhält U; WH sendet Anfrage Q=Proj[W](R1*[2,3]) zur Quelle
- 3) Quelle erhält und berechnet Q; Quelle sendet Antwort A=([1]) zurück
- 4) WH erhält A; A wird zu V hinzugefügt: V=([1],[1])

Im ersten Beispiel wird das Update korrekt behandelt.

Bsp.2: Es gibt zwei Basisrelationen R1=(W,X):([1,2]) und R2=(X,Y):() und eine Sicht V=Proj[W](R1*R2)=(). Nun treten zwei Updates auf U1=insert(R2,[2,3]) und U2=insert(R1,[4,2]). Die Pflege der Sicht:
- 1) update U1 auf Quelle; Quelle schickt U1 zum WH
- 2) WH erhält U1; WH sendet Anfrage Q1=Proj[W](R1*[2,3]) zur Quelle
- 3) update U2 auf Quelle; Quelle schickt U2 zum WH
- 4) WH erhält U2; WH sendet Anfrage Q2=Proj[W]([4,2]*R2) zur Quelle
- 5) Quelle erhält und berechnet Q1 mit aktuellen Basisrelationen {R1=([1,2],[4,2]) und R2=([2,3])}; Quelle sendet Antwort A1=([1],[4]) an WH
- 6) WH erhält A1; A1 wird zu V hinzugefügt: V=([1],[4])
- 7) Quelle erhält und berechnet Q2 mit aktuellen Basisrelationen R1 und R2; Quelle sendet Antwort A2=([4]) an WH
- 8) WH erhält A2; A2 wird zu V hinzugefügt: V=([1],[4],[4])

Im zweiten Beispiel tritt eine Anomalie auf. V=([1],[4]) wäre korrekt. Das Problem liegt daran, daß die Anfrage Q1 auf den Basisrelationen nach dem Update U2 berechnet wird (View Maintenance Anomaly). Würden mehrere Updates immer in einem genügend großen Abstand auftreten, so daß jede Anfrage zur Pflege berechnet wird, bevor ein neues Update auftritt, ist der Algorithmus korrekt.

Bsp.3: Es gibt zwei Basisrelationen: R1=(W,X):([1,2]); R2=(X,Y):([2,3]) und eine Sicht V=Proj[W,Y](R1*R2)=([1,3]). Nun treten zwei Updates auf U1=delete(R1,[1,2]) und U2=delete(R2,[2,3]). Pflege der Sicht:
- 1) update U1 auf Quelle; Quelle schickt U1 zum WH
- 2) WH erhält U1; WH sendet Anfrage Q1=Proj[W,Y]([1,2]*R2) zur Quelle
- 3) update U2 auf Quelle; Quelle schickt U2 zum WH
- 4) WH erhält U2; WH sendet Anfrage Q2=Proj[W,Y](R1*[2,3]) zur Quelle
- 5) Quelle erhält und berechnet Q1 mit aktuellen Basisrelationen {R1=() und R2=()}; Quelle sendet Antwort A1=() an WH
- 6) WH erhält A1; A1 wird von V abgezogen: V=([1,3])
- 7) Quelle erhält und berechnet Q2 mit aktuellen Basisrelationen R1 und R2; Quelle sendet Antwort A2=() an WH
- 8) WH erhält A2; A2 wird von V abgezogen: V=([1,3])

Der Algorithmus ist in diesem Beispiel nicht korrekt. Die Sicht müßte keine Tupel enthalten V=(). Mögliche Lösungen, um die Sichten korrekt zu halten, wären:

Rematerialisierung der Sichten
- ist aber zu zeit- und ressourcenaufwendig
Speicherung von Kopien aller sichtenrelevanter Teile der Basisrelationen im WH
- verschiebt nur das Problem

Anwendung eines korrekteren Algorithmus (z.B. ECA)

4.2. ECA (Eager Compensation Algorithm)

Der einfache Algorithmus wie er in den oberen drei Bsp. benutzt wurde, besteht aus vier Ereignissen, die eintreten können. Quelle und WH sind getrennt.

1. S_up : Die Quelle erhält ein Update U, führt dieses aus und sendet das Update an das WH.
2. S_qu : Die Quelle erhält eine Anfrage Q, führt diese aus auf den aktuellen Basisrelationen und sendet eine Antwort A an das WH.
3. W_up : Das WH erhält ein Update U, generiert Anfrage Q und sendet Q an Quelle
4. W_ans : Das WH erhält eine Antwort A und updated Sicht V mit Hilfe von A

Quelle:
- S_upi :
  - führe Update Ui aus
  - sende Update Ui an WH
  - löse Ereignis W_upi im WH aus
- S_qui :
  - erhalte Anfrage Qi
  - generiere Antwort Ai = Qi
  - sende Antwort Ai an WH
  - löse Ereignis W_ansi im WH aus
WH :
- W_upi :
  - erhalte Update Ui
  - generiere Anfrage Qi = V(Ui)
  - sende Anfrage Qi an Quelle
  - löse Ereignis S_qui in Quelle aus
- W_ansi :
  - erhalte Antwort Ai
  - generiere Sicht V = V + Ai

Bei diesem einfachen Algorithmus können Anomalien auftreten, wie die Beispiele oben gezeigt haben. Nun muß dieser Algorithmus noch modifiziert werden, um diese Anomalien zu entfernen. Betrachtet man die Ereignisse im WH, sei UQS die Menge an Anfragen, welche das WH nach Eintreffen des Updates abgeschickt hat, jedoch noch keine Antwort von der Quelle zurückkam. Es werden erweiterte Anfragen generiert, um Anomalien auszuschließen. Diese Anfragen "sehen" die Quelle so wie nach dem Update zur Anfrage und nicht im aktuellen Zustand. Wir nehmen an, daß alle Updates vor der Anfragebeantwortung angewendet wurden. Es werden also eine Menge von Updates "gleichzeitig" behandelt. In collect werden die Antworten gesammelt, und nach dem Eintreffen der letzten Antwort wird mit Hilfe von collect die Sicht gepflegt.

ECA:
- collect = Ø;
- Quelle :
  - S_upi : wie oben
  - S_qui : wie oben
- WH :
  - W_upi :
    - erhalte Update Ui
    - generiere Anfrage Qi = V(Ui) - Summe[Qj aus UQS](Qj(Ui))
    - sende Anfrage Qi an Quelle
    - löse Ereignis S_qui in Quelle aus
  - W_ansi :
    - erhalte Antwort Ai
    - collect = collect + Ai
    - if UQS = Ø then
      - V = V + collect
      - collect = Ø

Hierzu ein weiteres Beispiel.

Bsp.4: Es gibt drei Basisrelationen R1=(W,X):([1,2]), R2=(X,Y):() und R3=(Y,Z):(), eine Sicht V=Proj[W](R1*R2*R3)=() und drei Updates U1=insert(R1,[4,2]), U2=insert(R3,[5,3]) und U3=insert(R2,[2,5]). Pflege der Sicht (verkürzt):
- 1. WH erhält U1=insert(R1,[4,2]); WH sendet Anfrage Q1=V(U1)=Proj[W]([4,2]*R2*R3) zur Quelle
- 2. WH erhält U2=insert(R3,[5,3]); UQS={Q1}; WH sendet Anfrage Q2=V(U2)-Q1(U2)=Proj[W](R1*R2*[5,3])-Proj[W]([4,2]*R2*[5,3]) zur Quelle
- 3. WH erhält U3=insert(R2,[2,5]); UQS={Q1,Q2}; WH sendet Anfrage Q3=V(U3)-Q1(U3)-Q2(U3)=Proj[W](R1*[2,5]*R3)-Proj[W]([4,2]*[2,5]*R3)-Proj[W](R1-[4,2])*[2,5]*[5,3]) zur Quelle
- 4. WH erhält A1=[4]; collect=()+[4]=([4]); UQS={Q2,Q3}
- 5. WH erhält A2=[1]; collect=[1]+[4]=([1],[4]); UQS={Q3}
- 6. WH erhält A3=(); collect=[1]+[4]+()=([1],[4]); V=([1],[4])

Die Vorteile des ECA sind zum einen, daß er Kosten und Zeit spart, als wenn man die Sichten rematerialisieren würde, und zum anderen, daß das DWH nicht für die Pflege gesperrt werden muß. Wenn Updates nicht häufig auftreten, kann der einfache Algorithmus verwendet werden. Der Nachteil des ECA ist, daß er nicht immer korrekt arbeitet, aber in der Praxis meist ausreichend ist. Leider gaben die Autoren kein Beispiel dafür an. Es gibt zwei verwandte Algorithmen. Der LCA (Lazy Compensating Algorithm) arbeitet immer korrekt aber ist nicht so effizient in der Anwendung. Er arbeitet mit einem weitaus komplexeren Verfahren, welches den Rahmen hier aber sprengen würde. Der ECA-Key-Algorithmus wird im nächsten Abschnitt erklärt.

4.3. Selbstpflege der Sichten

Selbstpflege der Sichten heißt die Pflege ohne Benutzung der Basisrelationen. Diese Möglichkeit hängt ab von der Art des Updates und von den verwendeten Attributen in der Sicht. Wenn eine Sicht alle Schlüsselattribute der verwendeten Basisrelationen betrachtet und das Update ein delete ist, dann kann die Sicht mit Hilfe des ECA-Key-Algorithmus sich selber pflegen. Dieser Algorithmus arbeitet wie folgt:

collect wird initialisiert mit materialisierten Sichten
bei delete wird nicht auf Basisrelationen zugegriffen (key-delete)
bei insert wird eine Anfrage zum WH geschickt ohne erweiterte Anfragen
Antwort auf Anfrage wird in collect gesammelt (Duplikate ausgeschlossen)
wenn UQS = Ø, dann ist die Pflege beendet (V = collect)

Dazu ein weiteres Beispiel.

1. WH erhält U1=insert(R2,[2,4]); WH sendet Anfrage Q1=V(U1)=Proj[W,Y](R2*[2,4]) zur Quelle
2. WH erhält U2=insert(R1,[3,2]); WH sendet Anfrage Q2=V(U2)=Proj[W,Y]([3,2]*R2) zur Quelle
3. WH erhält U3=delete(R1,[1,2]); key-delete(V,R1,[1,2]); collect=collect-([1,3])=Ø; UQS={Q1,Q2}
4.WH erhält A1=([3,4]); collect=collect+([3,4])=([3,4]); UQS={Q2}
5. WH erhält A2=([3,3],[3,4]); collect=collect+([3,3])=([3,3],[3,4]) (Duplikate werden ausgeschlossen) da UQS=Ø; V=([3,3],[3,4])

Bei einem delete-Update erspart man sich die Anfrage des WH auf die Quelle. Wenn ein insert-Update auftritt, erspart man sich die Berechnung der erweiterten Anfragen. Man kann diesen Algorithmus aber nur anwenden, wenn die in der Projektion verwendeten Attribute einer Sicht Schlüsselattribute der Basisrelationen sind.

5. Zusammenfassung

Die Verwendung von materialisierten Sichten erhöht die Effizienz bei der Anfrageverarbeitung im DWH. Jedoch ist die Auswahl und die Pflege kein triviales Problem.

Es wurden zwei Algorithmen dargestellt, welche eine Auswahl der zu materialisierenden Sichten treffen. Beide können großen Rechenaufwand nach sich ziehen, wenn die Anzahl der Anfragen hoch ist und die Anfragen selber komplexe Struktur besitzen. In [LQA97] wird ein Algorithmus dargestellt, der den Suchraum (alle möglichen Zustände mit ihren Kosten) stark einschränken kann. Jedoch ist dieser unpraktisch für viele Probleme in der realen Welt. In der Literatur gibt es mehrere verschiedene Algorithmen. Ein Ziel ist es, Algorithmen zu finden, welche den Suchraum stark einschränken, d.h. nicht alle Zustände vergleichen, und dabei aber eine gute Lösung finden.

Eine Rematerialisierung der Sichten ist meist zu teuer. Die Kosten für die Pflege können stark reduziert werden, wenn man nur den Teil der Sichten pflegt, welcher auch von dem Update betroffen ist. [GM95] gibt eine guten Überblick über die Probleme, Techniken und Anwendungen der Pflege. Die Selbstpflege reduziert die Kosten sehr stark, da auf die Basisrelationen nicht zugegriffen werden muß. Jedoch ist diese nicht bei vielen Sichten und nicht bei allen Typen von Updates/Transaktionen anwendbar. In [Hu97] werden Algorithmen vorgestellt, welche die Möglichkeit der Selbstpflege entscheiden können. Ziel ist es, Algorithmen zu finden, welche die Pflege billiger gestalten.

6. Literatur

[BR96] : Baekgaard, L.; Roussopoulos, N.: Efficient Refreshment of Data Warehouse Views, TechReport CS-TR-3642, Univ. Maryland, 1996
[BPT97] : Baralis, E.; Paraboschi, S.; Teniente, E.: Materialized View Selection in a Multidimensional Database, Proc. VLDB, 1997
[CD97] : Chaudhuri, S.; Dayal, U.: An Overview of Data Warehousing and OLAP Technology, SIGMOD Record 26 (1), 1997
[GM95] : Gupta, A.; Mumik, I.S.: Maintenance of Materialized Views: Problems, Techniques, and Applications, IEEE Data Engineering 6, 1995
[Hu97] : Huyn, N.: Multiple-View Self-Maintenance in Data Warehousing Enviroments, Proc. VLDB, 1997
[LQA97] : Labio, W.; Quass, D.; Adelberg, B.: Physical Database Design for Data Warehouses, Proc. ICDE, 1997
[QW97] : Quass, D.; Widom, J.: On-Line Warehouse View Maintenance, Proc. SIGMOD Conf., 1997
[TS97] : Theodoratos, D.; Sellis, T.: Data Warehouse Configuration, Proc. VLDB, 1997
[YKL97] : Yang, J.; Karlapalem, K.; Li, Q.: Algorithms for Materialized View Design in Data Warehousing Enviroment, Proc. VLDB, 1997
[ZGHW95] : Zhuge, Y.; Garcia-Molina, H.; Hammer, J.; Widom, J.:View Maintenance in a Warehouseing Enviroment, Proc. SIGMOD Conf., 1995