Problemseminar Bio-Datenbanken


WS 2002/2003




Genexpressionsanalyse:


Verfahren & Datenbankanforderungen




Bearbeiter: Stefan Seemann

Betreuer: Do Hong Hai

Prof. Dr. Erhard Rahm




Inhaltsverzeichnis


1.  Einleitung

2.  Verfahren zur Gewinnung von Genexpressionsdaten

2.1.  Erklärung der allgemeinen Prinzipien
2.2.  Suppression Subtractive Hybridization (SSH)
2.3.  Differential Display (DD)
2.4.  Serial Analysis of Gene Expression (SAGE)
2.5.  Expressed Sequence Tag (EST) Clustering and Profiling
2.6.  Microarray
2.7.  Vergleich der Genexpressionsverfahren

3.  Anforderung an Genexpressionsdatenbanken

3.1.  Dateneigenschaften
3.2.  Verwaltung von Annotationen
3.3.  Datenintegration
3.4.  Datenanalyse

4.  Existierende Genexpressionsdatenbanken

4.1.  SAGE-basierende Datenbanken
     4.1.1.  eSAGE
     4.1.2.  SAGEmap

4.2.  EST-basierende Datenbanken
     4.2.1.  BodyMap
     4.2.2.  UniGene

4.3.  Microarray-basierende Datenbanken
     4.3.1.  GeneX
     4.3.2.  SMD

4.4.  Vergleich der Genexpressionsdatenbanken

5.  Zusammenfassung

6.  Literaturverzeichnis



1. Einleitung

Der menschliche Organismus setzt sich schätzungsweise aus 100 Billionen Zellen zusammen. Jede Zelle besteht aus einer Hülle, der Zellmembran, dem Zellinneren oder Zellplasma, wo die meisten der zellulären Prozesse ablaufen, und einem Zellkern. Darin knäult sich die DNA, das Genom, verpackt in 23 Chromosomenpaare. Die DNA besteht aus 3,2 Milliarden Bausteinen, in deren Abfolge die gesamte genetische Information zum Aufbau und Erhalt des menschlichen Lebens verschlüsselt ist.
           Mit der Fähigkeit vollständige Genome zu sequenzieren, richtet sich das Interesse der Wissenschaft nicht mehr nur auf die Produktion von DNA-Sequenzen. Die Definition der Funktionen der Gene im gesamten Genom ist die neue Herausforderung. Ein Schaltplan des Zusammenwirkens aller Gene und ihrer Produkte im Organismus soll die Lebensprozesse verständlich und für Therapien zugänglich machen. Als Grundlage der Forschungsarbeiten dient die Annahme, dass es eine hierarchische Beziehung zwischen der Struktur der Gene, ihrer Anordnung innerhalb des Genoms, der Funktion von Proteinen und Protein-Protein-Wechselwirkungen innerhalb eines Organismus gibt, wodurch sich Energiestoffwechsel, Reproduktion und Form ergeben.


Abbildung 1: Genexpression und Proteinsynthese in (a) prokaryotischer und (b) eukaryotischer Zelle

Die in einem Gen verwahrte Information setzt die Zelle in ein Protein um. Proteine sind die Akteure in der Zelle, sie übernehmen die unterschiedlichsten Funktionen und spielen bei sämtlichen Lebensfunktionen eine zentrale Rolle. In der Abbildung 1 wird dieser Vorgang für (a) prokaryotische Zellen und (b) eukaryotische Zellen erklärt. Prokaryoten sind einzellige Organismen, z.B. Bakterien, deren Genom sich direkt im Zellplasma befindet und deren Gene eine einzige ununterbrochene codierte Region enthalten. Da sich die Genomforschung vorrangig mit Säugetieren beschäftigt, soll die eukaryotische Zelle genauer betrachtet werden:

·     Transkription:

Die genetische Information wird von der DNA in die einsträngige messenger RNA (mRNA) umgeschrieben. Dabei synthetisiert ein Enzym, die RNA-Polymerase, entlang eines Gens ein Pre-mRNA-Molekül, das alle informationstragende Abschnitte (Exons) und alle Abschnitte ohne Information für die Proteinbildung (Introns) enthält und eine genaue RNA-Kopie dieses DNA-Abschnittes darstellt.

·     RNA Processing (Spleissen):

Noch im Zellkern werden die Intronbereiche aus diesen RNA-Strängen entfernt und die Exons exakt aneinander gefügt. Nun bewegt sich die mRNA, die nur noch aus kodierenden Bereichen besteht, durch die Poren der Kernhülle ins Zellplasma.

·     Translation:

An den Ribosomen im Zellplasma werden die Proteine erzeugt, wobei drei Basen der mRNA eine Aminosäure kodieren. Durch die Aneinanderheftung der Aminosäuren entstehen Polypeptide, aus denen sich durch die Strukturausbildung Proteine formen.

Dieser gesamte Prozess wird als Genexpression bezeichnet. Durch die Untersuchung der Genexpression, d.h. in welchen Zellen unter welchen Umweltbedingungen ein Gen aktiv ist und wie sehr deren Aktivierungsstärke unter verschiedenen Bedingungen schwankt, können die Genfunktionen hergeleitet werden. Dazu wird in der Praxis die mRNA aus dem Zellplasma isoliert und mittels verschiedener Genexpressionsverfahren weiterverarbeitet.
           Der Mensch besitzt 30 bis 40 Tausend Gene. Um den Genen Funktionen zuzuordnen, sind Vergleiche und statistische Analysen von unter unterschiedlichen Bedingungen expressionierten Genen nötig. Dadurch entstehen große Mengen an Genexpressionsdaten. Zentrale Datenbanken können Wissenschaftler über die Klonierungsprojekte anderer Forscher informieren und als Grundlage für die vergleichende Genetik benutzt werden. Diese Sequenzdatenbanken müssen die Fähigkeit besitzen, biologische und bibliografische Informationen zu organisieren und über Software das Alignment von Sequenzen, die Identifikation von Genen, die Translation von DNA-Sequenzen in Aminosäurensequenzen (Proteine) und die Suche nach Homologen (evolutionär verwandte Sequenzen) zu untersuchen. Das bedeutet die Sammlung, Speicherung, Organisation und Bearbeitung der Rohdaten und der Ergebnisdaten.
           Da die Genexpressionsanalyse ein wichtiges Werkzeug für die Genomforschung darstellt, wurden viele verschiedene Verfahren entwickelt. Diese reichen vom schon längere Zeit bekannten Northern Blotting bis zum heute sehr oft eingesetzten Microarrayverfahren. In dieser Ausarbeitung soll ein vergleichender Überblick über die zur Zeit bedeutendsten Genexpressionsverfahren gegeben werden. Dazu gehören Suppression Subtractive Hybridization (SSH), Differential Display (DD), Serial Analysis of Gene Expression (SAGE), EST Clustering and Profiling und die Hybridisierung auf Microarrays. Es werden die chemischen und informatischen Arbeitsschritte der einzelnen Verfahren vorgestellt und deren Vor- und Nachteile unter verschiedenen Aspekten erarbeitet. Auf die erhaltenen Ergebnisdaten und deren Nutzen für Datenbankanwendungen soll besonders eingegangen werden. Da sich die Genexpressionsanalysen auf öffentlich verfügbaren Datenquellen stützen, sollen die Anforderungen an diese Genexpressionsdatenbanken zusammengetragen und die zur Zeit existierenden öffentlichen Datenbanken vorgestellt und auf diese Anforderungen geprüft werden.
           Die Arbeit ist wie folgt gegliedert: Im nächsten Abschnitt werden die ausgewählten Genexpressionsverfahren im einzelnen diskutiert. Dieser Abschnitt endet mit einem Vergleich ihrer Vor- und Nachteile. Im dritten Abschnitt werden die Anforderungen an Genexpressionsdatenbanken betrachtet und im letzten Abschnitt einige ausgewählte existierenden Datenbanken vorgestellt und auf diese Anforderungen geprüft.



2. Verfahren zur Gewinnung von Genexpressionsdaten

In den letzten zwei Jahrzehnten kam es zur Veränderung der Technik der Genexpressionsverfahren von der Analyse einzelner bestimmter Gene (z.B. Northern-, Reverse Northern-, Southern-, Slot-, Dot-Blotting) zur gleichzeitigen Identifizierung vieler aktiver Gene (z.B. Differential Display, SAGE, Hybridisierung auf Microarrays). Bei den alten Verfahren kann nur die qualitative Aussage gemacht werden, ob ein Gen exprimiert wurde oder nicht, aber nicht wie stark es exprimiert wurde. Desweiteren können keine skalierbaren Aussagen getroffen werden, da nur die Expression eines Gens unter einer bestimmten Bedingung untersucht wird. Dennoch werden sie weiterhin als Kontrollverfahren für neuere Methoden angewendet. Die neuen Verfahren erzeugen quantitative und skalierbare Ergebnisse in großen Mengen, indem die gesamte DNA einer oder mehrerer Zellen unter verschiedenen Bedingungen auf ihre Expressionsstärke getestet wird. Da diese quantitativen Verfahren eine größere Bedeutung in der heutigen Genomforschung haben und die Informationsmenge in den Expressionsdatenbanken bestimmen, wird sich dieses Kapitel auf sie konzentrieren.

2.1. Erklärung der allgemeinen Prinzipien

Es existieren einige Basistechniken in der Genomforschung, die auch die Grundbausteine der einzelnen Genexpressionsverfahren darstellen:

·     Reverse transcription:

Da die aus der Zelle isolierten mRNA-Moleküle nur für eine kurze Zeit existieren, müssen sie in einen komplementären stabilen DNA-Strang (cDNA) synthetisiert werden. Dabei kommt ein Enzym aus Retroviren mit dem Namen reverse Transkriptase zum Einsatz.

·     Polymerasekettenreaktion PCR:

Die PCR vervielfältigt DNA Abschnitte. Dazu wird der DNA-Doppelstrang durch Erhitzen in zwei Einzelfäden getrennt. Adapter, 20 Basen lange DNA-Fragmente, die sich an die Enden der Stränge lagern und somit die Ergänzungsreaktion starten, werden beigefügt. Die DNA-Polymerase erkennt den Adapter und beginnt freie Nucleotide anzufügen. Es entstehen zwei vollständige Doppelstränge. Dieser Vorgang wird beliebig oft wiederholt. Dieses Verfahren ist notwendig, um genügend Kopien für die Sequenzierung zur Verfügung zu haben.

·     Sequenzierung:

Der zu sequenzierende DNA Abschnitt wird mit einem Adapter, dem Enzym DNA-Polymerase und freien Nucleotiden vermischt. Wie bei der PCR beginnt die Polymerase, Nucleotide an den Adapter zu fügen – ein komplementärer DNA-Strang wächst. Einige der freien Nucleotide sind mit einer fluorizierenden Substanz markiert (eine Farbe für jede Base) und stoppen die DNA-Bildung. Die entstandenen DNA-Fragmente werden anschließend nach ihrer Größe geordnet. Eine Laser-Kamera registriert, welche markierte Base jedes Fragment trägt und ermöglicht somit das Lesen der Sequenz.

·     Sequenzvergleich:

Der paarweise Vergleich der Sequenzen ist ein erster Schritt bei der Abschätzung der Eigenschaften eines neu sequenzierten Gens, beim Finden von Homologen in anderen Organismen oder der Identifizierung eines Gens als neuartig. Dazu wurden verschiedene Algorithmen entwickelt, wobei BLAST und FASTA zwei der populärsten und benutzerfreundlichsten Suchwerkzeuge für Sequenzähnlichkeiten im Internet sind.

·     Hybridisierung:

Es kann geprüft werden, ob zwei einzelsträngige DNA-Abschnitte oder ein DNA- und ein RNA-Abschnitt aneinander binden können. Dazu fixiert man die einsträngige DNA oder RNA mit bekannter Sequenz auf ein Trägermaterial und gibt die zu testenden Fragmente dazu, die mit Farbstoffen oder radioaktiv markiert wurden. Die zu testenden Moleküle binden an eine fixierte Probe, wenn diese eine komplementäre Basenabfolge besitzt, und können somit bestimmt werden.

Auch die älteren qualitativen Genexpressionsverfahren nutzen einige dieser Basistechniken, um Informationen über die Anwesenheit bestimmter Nucleinsäuren in einem Gewebe oder einen Zelltyp zu erhalten. Beim Northern Blotting werden RNA-Fragmente zunächst nach ihrer Größe elektrophoretisch aufgetrennt. Die RNA wird anschließend auf einen Filter transferiert, fixiert und durch die Hybridisierung mit einer geeigneten Sonde detektiert. Analog zum Northern Blotting kann man auch gelelektrophoretisch getrennte DNA auf ein Filter transferieren und immobilisieren. Dieses Verfahren wird als Southern Blotting bezeichnet und legte den Grundstein für die Entwicklung von DNA-Microarrays, die später beschrieben werden sollen.
           Welche der allgemeinen Prinzipien der Genomforschung in den in diesem Kapitel vorzustellenden Verfahren angewendet werden, soll die folgende Tabelle verdeutlichen:


SSH

DD

SAGE

EST

Microarray

Reverse transcription

X

X

X

X

PCR

X

X

X

X

Sequenzierung

X

Sequenzvergleich

X

X

Hybridizierung

X

X

Tabelle 1: Basistechniken in den Genexpressionsverfahren

2.2. Suppression Subtractive Hybridization (SSH)

Das Verfahren Suppression Subtractive Hybridization [DG96] ist die erste weit verbreitete Technik zur Identifizierung von mehreren exprimierten Genen. Abbildung 2 zeigt den Algorithmus von SSH, der aus einer Hybridisierungsphase und einer Vermehrungsphase mittels PCR besteht:

·    Input: SSH benutzt als Input isolierte mRNA aus einer Referenzprobe (Driver), deren Sequenz bekannt ist, und einer Experimentalprobe (Tester), deren Sequenz noch unbekannt ist. Die mRNA wird mittels Reverse transcription in cDNA umgewandelt. Die Tester-cDNA wird in zwei Teilproben aufgeteilt, wobei die Sequenzen jeder Teilprobe an einem Ende mit einem bestimmten Adapter gebunden werden.

·    Hybridisierungsphase: Während der ersten Hybridisierung werden beide Teilproben mit einem Überschuß an Driver-cDNA erschöpfend hybridisiert. Dabei entstehen vier verschiedene Sequenzkombinationen (a, b, c, d). Während der zweiten Hybridisierung werden die beiden Teilproben gemischt und hybridisieren miteinander. Dabei entsteht noch eine fünfte Sequenzkombination, in der sich einsträngige cDNAs beider Teilproben verbunden haben (e).



Abbildung 2: Algorithmus von SSH [Mo01]

·    Vermehrungsphase mittels PCR: Die überstehenden Enden der Hybride werden mit komplementären Adaptoren aufgefüllt um die Polymerasekettenreaktion (PCR) zu starten, wobei nur Hybride mit unterschiedlichen Adaptoren amplifiziert werden. Hybride mit identischen Adaptoren, bilden Strukturen aus, bei denen sich die Adaptoren zusammenlagern und werden somit nicht amplifiziert. Hybride mit nur einem Adaptor wollen sich nur linear amplifizieren und die nur aus Treiber-cDNA bestehenden Hybride besitzen keine Adaptoren, an denen die Ergänzungsreaktion starten kann.

·    Output: Die resultierenden Produkte sind überwiegend normalisierte, ausgewählte Sequenzen doppelsträngiger cDNA, die am Anfang in der Tester-cDNA, aber nicht in der Driver-cDNA vorkamen.

Fazit: SSH kann alle exprimierten Gene in einer Experimentalprobe finden, die in einer Genbibliothek nicht vorhanden sind. Damit können Gene isoliert werden ohne vorheriges Wissen über ihre Sequenz oder Identität. Es können aber keine Angaben über die Expressionsstärke der gewonnenen Gene gemacht werden, sondern nur die qualitative Aussage, dass ein Gen ausschließlich in der Experimentalprobe enthalten ist. Desweiteren erzeugt SSH keine skalierbaren Ergebnisse, da während eines Experiments nur Gene eines Gewebes unter gleichen Umweltbedingungen betrachtet werden können. Die isolierten Gensequenzen müssen mit Hilfe der später beschriebenen Verfahren genauer charakterisiert werden.
           Der Einsatz von SSH ist mit allgemeinen molekularbiologischen Techniken möglich, die keine speziellen Ausrüstungen oder Analysen erfordern. Mit SSH können experimentell sehr einfach potentielle neue Gene identifiziert werden. Die Menge der Ergebnisdaten ist aber relativ gering. Desweiteren erzeugt SSH keine quantitativen und keine skalierbaren Ergebnisdaten, wodurch ein Experiment nur gering differenzierbare Daten liefert. Daher ist es nicht sinnvoll Expressionsdatenbanken für die Ergebnisdaten zu erzeugen.

2.3. Differential Display (DD)

Die erste einfache Technik zur Analyse von Genexpressionsprofilen war das Differential Display [LP92]. Diese Verfahren vergleicht die Genexpression von zwei oder mehrere Experimente miteinander. Abbildung 3 zeigt den Algorithmus von Differential Display, der sich aus den Basistechniken Reverse transcription und PCR zusammensetzt:

·    Input: Pro Experiment nutzt Differential Display die mRNA einer Experimentalprobe als Eingangswert.



Abbildung 3: Algorithmus von Differential Display [Mo01]

·    Reverse transcription: Durch bestimmte Adapter, die die Ergänzungsreaktion einleiten, wird nur eine Untermenge pro mRNA-Probe in cDNA-Kopien synthetisiert.

·    PCR: Zufällige Fragmente dieser cDNA-Sequenzen mit einer Größe von einigen hundert Basenpaaren werden in einer PCR-Reaktion mit der Hilfe beliebiger Adapter selektiv vermehrt. Die Trennung dieses Gemisches durch Elektronenwanderung über ein möglichst langes Gel erzeugt ein hochkomplexes Muster aus ca. 100 bis 200 Banden.

·    Output: Die Bandenmuster werden ausgewertet, indem die relativen Intensitäten von Banden aus verschiedenen experimentellen Proben verglichen werden. Nur in einer Probe existierende Banden (ii und iii) oder mit unterschiedlicher relativer Intensität in mehreren Proben existierende Banden (i) repräsentieren potentiell unterschiedlich synthetisierte mRNA-Sequenzen. Um diese zu identifizieren, werden die entsprechenden Gelstücke ausgeschnittenen, vom Gel gereinigt und die erhaltenen cDNA-Fragmente werden mittels PCR erneut vermehrt und sequenziert.

Fazit: Die Genexpression erzeugt bei diesem Verfahren Banden von ähnlichen Genfragmenten. Durch den visuellen Vergleich der Banden verschiedener Experimentalproben können unterschiedlich exprimierte Gene ermittelt werden. Auch dieses Verfahren erzeugt keine quantitativen Ergebnisse, d.h die Genexpressionsstärke wird nicht ermittelt. Lediglich Vermutungen können aufgrund der Bandendicken aufgestellt werden. Dafür trifft Differential Display skalierbare Aussagen durch den Vergleich mehrerer verschiedener Experimentalproben. Somit kann die Expression eines Genes unter verschiedenen Experimentalbedingungen untersucht werden.
           Die Differential-Display-Methode tendenziert allerdings zu einer großen Anteil falsch-positiver Kandidaten. Deren Zahl muss durch ein unabhängiges Experiment, etwa eine Hybridisierung mit Northern Blotting, verringert werden, um ein aussagefähiges Ergebnis zu erhalten. Außerdem erfordert die Erforschung aller potentiellen differentiell sequenzierter Gene einen hohen Durchsatz des PCR-Verfahrens, einen hohen Zeit- und Arbeitsaufwand. Daher stehen auch für Differential Display keine öffentlichen Genexpressionsdatenbanken zur Verfügung.

2.4. Serial Analysis of Gene Expression (SAGE)

Mit Serial Analysis of Gene Expression (SAGE) [Ve95] [Ma00] lässt sich theoretisch die gesamte Genexpression in einem RNA-Gemisch untersuchen. Die Informationen werden durch eine Verknüpfung von chemischen und informatischen Verfahren gewonnen. Die SAGE-Technologie basiert auf dem Konzept, dass kurze Nucleotidsequenzen genügend Information zur eindeutigen Identifikation eines Gens enthalten, wenn sie einer bekannten Position im Gen entstammen. Abbildung 4 zeigt den Algorithmus von SAGE, der aus der Erzeugung einzelner SAGE tags (Nucleotidsequenzen), der Erzeugung von Pfaden von SAGE tags und der Sequenzanalyse und Datenbanksuche besteht:

·    Input: SAGE nutzt mRNA-Moleküle eines Gewebes oder einer Zelle als Ausgangsmaterial. Die mRNA wird in doppelsträngige cDNA-Sequenzen synthetisiert.

·    Erzeugung einzelner SAGE tags: Die cDNA-Sequenzen werden durch ein Enzym (NlaIII) an aus vier Basenpaaren (CATG) bestehenden Erkennungsmarken geschnitten. Anschließend klebt an diesen Erkennungsmarken ein Adapter (Linker) an, der von einem weiteren Enzym (Bsmfl) erkannt wird, welches typischerweise 14 oder 15 Basenpaare stromabwärts abschneidet. So entstehen kurze cDNA-Fragmente, die meistens 10 Nukleotiden lang sind und als SAGE tags bezeichnet werden.

·    Erzeugung von Pfaden von SAGE tags: Aufgrund der instabilen Enden der einzelnen SAGE tags und der Vermischung mit Ligasen, die die Verbindung von DNA-Fragmenten veranlassen, bilden sich Paare von SAGE tags (Ditags). Diese besitzen nun an beiden Enden einen Adapter, der die Vermehrung der Ditags mittels PCR einleitet. Nachdem die Ditags durch ein erneutes Enzym (NlaIII) von den Adaptern befreit wurden, bilden sich Konkatemere (miteinander verknüpfte DNA-Sequenzen) aus. Diese Pfade bestehen aus etwa 20 bis 30 SAGE tags von ca. 300 bis 500 Basenpaaren. Der Aufwand der anschließenden Sequenzierung, die notwendig ist für die Identifizierung der Transkripte, reduziert sich durch die Verkettung der Ditags deutlich. Die Durchsatz-Grenzen werden dabei überwunden, indem mehrere SAGE tags in jedem Pfad gemeinsam mittels automatischer DNA-Sequenzer analysiert (serieller Prozess) und parallel mehrere Pfade simultan sequenziert werden (paralleler Prozess).



Abbildung 4: Arbeitsweise von SAGE [PR01]

·    Sequenzanalyse und Datenbanksuche: Die aus der Sequenzierung gewonnenen Buchstabenketten werden mit informatischen Verfahren weiterverarbeitet. Zuerst werden sie mittels aufwendiger Algorithmen wieder in Ditags bzw. Tags unterteilt. Danach ermittelt man das zugrundeliegende Gen oder EST (Expressed Sequence Tag), indem man die in jedem SAGE tag enthaltenen Sequenzinformation mit vorhandenen Datenbanken vergleicht. Die SAGE tags werden neben der Genidentifikation auch zur Bestimmung der relativen Menge verwandter Gene in der mRNA-Population genutzt, indem die Häufigkeit des spezifischen SAGE tags im Projekt gezählt wird.

·    Output: SAGE liefert pro Projekt eine große Menge nichtredundanter sehr kurzer Nucleotidsequenzen, die jeweils ein Gen repräsentieren, und deren Anzahl im Projekt.

Fazit: Die Genexpression wird bei diesem Verfahren dargestellt durch Ketten von kurzen DNA-Sequenzen (SAGE tags), wobei jedes SAGE tag ein Fragment eines Gens entsprich. SAGE liefert Genexpressionskataloge für gegebene Zelltypen oder Gewebe mit hohem Durchsatz durch unvoreingenommene und hoch effiziente Molekularprozesse.SAGE erzeugt qualitative und quantitative Ergebnisse, da alle in der originalen RNA-Probe expressionierten Gene registriert werden.Desweiteren erzeugt SAGE skalierbare Ergebnisse, indem die erhaltenen Daten mit anderen Experimenten anderer Gewebe und anderer Umweltbedingungen verglichen werden. Wegen dieser Eigenschaften eignen sich SAGE-Daten zur Speicherung in Genexpressionsdatenbanken.
           Neben den vielen Vorteilen von SAGE existieren auch einige Nachteile, wie die schwierige Identifikation der durch SAGE tags repräsentierten Gene. Dieses Problem wird durch stärkere Generierung von kommentierten EST-Sequenzen gelöst, die als Referenzobjekte eingesetzt werden. Weitere Probleme treten bei der Identifikation von seltenen Genen auf, da die nötige Sequenzierung von 200000 bis 300000 SAGE tags einen hohen Arbeitsaufwand in sich birgt, sowie bei der fehlerhaften Identifizierung von SAGE tags, die durch Sequenzierungsfehler und durch falsche Identifikation der Erkennungsmarken in den SAGE-Sequenzen entstehen können. Außerdem werden bestimmte Transkripte nicht durch SAGE tags repräsentiert, wenn die Erkennungsmarke ein Teil ihrer eigenen Sequenz ist, und andere Transkripte werden durch mehrere SAGE tages dargestellt. Diese Probleme treten nur bei einer relativ kleinen Menge von Genen auf, sollten aber bei der Interpretation von SAGE-Daten berücksichtigt werden.

2.5. Expressed Sequence Tag (EST) Clustering and Profiling

Expressed Sequence Tag Clustering and Profiling [Va98] ist ein informatisches Analyseverfahren, das große Mengen von Expressed sequence tags (ESTs) mit statistischen Methoden und vergleichend auswertet. ESTs sind Sequenzen von zufällig gewählten cDNA-Fragmenten, die durch einmaliges Sequenzieren mittels automatischer Sequenzierer gewonnen werden, wobei der Mensch praktisch nicht eingreift. ESTs haben eine Länge von 300 bis 500 Basenpaaren (bp) und repräsentieren eine kodierende Region eines Genes.
           Diese EST-Sequenzen, zusammen mit Annotationen über deren Ursprungsgewebe oder -zelle, die Experimentbedingungen, das Einreichungsdatum und Bibliotheksangaben zur Kartierung, werden oft in Schüben von dutzenden bis tausenden in den verschiedensten Datenbanken eingereicht. Als bedeutendste Datenbankvertreter sollen an dieser Stelle dbEST und GenBank genannt sein. Sie sind redundante Nucleotidsequenzdatenbanken, die alle eingereichten EST-Sequenzen unbearbeitet, quasi als Rohdaten, abspeichern.
           Die Existenz und Anzahl von ESTs in einer gewonnenen Bibliothek, die ein gemeinsames Gen repräsentieren, ist ein Indikator der qualitativen und quantitativen Expressionsstärke dieses Genes in dem zugrunde liegenden Gewebe. Zur Bestimmung dieser Anzahl werden ähnliche ESTs, wobei die Bedingungen für Ähnlichkeit in verschiedenen Methoden unterschiedlich sein können, in einem Cluster zusammengefasst.
           Dieser rein informatische Ansatz des EST Clustering and Profiling wird in Abbildung 5 beschrieben:

·    Input: Alle relevanten ESTs, z.B. aus einem ganz bestimmten Gewebe stammend oder unter bestimmten Umweltbedingungen isoliert, werden aus einer EST Datenbank herausgefiltert und bilden eine Sub-bank (1).



Abbildung 5: Expressionsanalyse mittels EST Clustering and Profiling

·    Clustering: Die gefilterten EST-Sequenzen werden untereinander und mit bereits verfügbaren Clustern in den öffentlichen EST Datenbanken (UniGene) verglichen. Dieser Vergleich erfolgt meist mit je einer repräsentativen Sequenz pro verfügbaren Cluster (2). Ähnliche ESTs werden in einem neuen Cluster zusammengefasst, wobei jedes Cluster ein potentielles Gen repräsentiert (3).

·    Profiling: Jedes Cluster wird auf die Anzahl von relevanten und nicht relevanten ESTs geprüft, wodurch gewebetypische Gene identifiziert werden können (4). Durch die Gegenüberstellung von Cluster (Gene) und EST-Bibliotheken (Gewebe) können Genexpressionsmatrizen (Gene x Gewebe) und Genexpressionsprofile erstellt werden, in denen die Sequenzen der relevanten ESTs gezählt sind (5).

·    Output: EST Clustering erzeugt neue Cluster oder Erweiterungen von Clustern, die in den öffentlichen Genexpressionsdatenbanken wie UniGene abgespeichert werden können. EST Clustering and Profiling erzeugt Genexpressionsmatrizen bzw. Genexpressionsprofile zur Genexpressionsanalyse.

EST Clustering and Profiling ermöglicht eine einfache und effektive Voraussage von differentiell exprimierten Genen. Dabei sind statistische Analysen unbedingt notwendig, da unterschiedliche Bestände von ESTs das Ergebnis verfälschen können. Außerdem werden große Mengen an ESTs für die Analysen benötigt, wodurch das Verfahren sehr rechenintensiv und zeitaufwendig wird um die riesige Menge an Sequenzdaten zu verarbeiten. Anschließend müssen die erzeugten Ergebnisse mittels anderer Verfahren auf ihre Glaubhaftigkeit geprüft werden.
           Fazit: EST Clustering and Profiling drückt ein einzigartiges aktives Gen als Cluster von ähnlichen ESTs aus. Dieses Verfahren trifft quantitative Aussagen, in dem die Anzahl spezifischer EST-Sequenzen in einem Cluster etwas über die Expressionsstärke eines Gens aussagt. Außerdem trifft EST Clustering and Profiling skalierbare Aussagen, indem Cluster für verschiedene Gewebe und verschiedene Umweltbedingungen verglichen werden. Die Machbarkeit dieser Analysen ist davon abhängig, ob ESTs unter den gewünschten Bedingungen schon einmal sequenziert wurden.
           Durch das automatische Sequenzieren werden große Mengen von ESTs unkontrolliert erzeugt, wodurch aber auch die Fehlerwahrscheinlichkeit und die Unvollständigkeit gegenüber anderen Sequenzbibliotheken steigt. Mögliche Ursachen sind Sequenzierungsirrtümer oder die Kontamination mit heterologen Sequenzen.

2.6. Microarray

Das Interesse an der Microarray Technologie [Sc95] hat in den letzten Jahren stark zugenommen, da die Expression von Tausenden von Genen gleichzeitig gemessen und untersucht werden kann. Die Technik hat sich rasant weiterentwickelt und mit der Miniaturisierung und den fallenden Kosten für die Microarray Technologie steigt die Menge an produzierten Daten explosionsartig an.
           Das Grundprinzip von Microarrays ist die Hybridisierung von zwei komplementären einzelsträngigen Nucleinsäuresequenzen aneinander. Ist die genaue Sequenz eines Stranges bekannt, so kennt man im Falle einer Bindung auch die Sequenz des gebundenen Nukleotidstranges. Die bekannten Sequenzen werden auch als probes bezeichnet, während die zu untersuchenden Sequenzen targets genannt werden. Es existieren zwei verschiedene Arten von Microarrays:

·     cDNA-Arrays (spotted arrays): Dies ist die älteste Technologie für Microarrays und wurde an der Stanford Universität entwickelt. Sie basiert auf der Fixierung von cDNA probes einer Länge von 500 bis 5000 Basen, die jeweils ein Gen repräsentieren, auf Glasplatten oder Nylonmembranen.

·     Oligonukleotidarrays: Diese Arrays benutzen kürzere Sequenzen als cDNA probes. Sie werden als oligos bezeichnet und sind 20 bis 80 Basen lang. Im Gegensatz zu cDNA-Arrays wird ein Gen durch mehrere oligos repräsentiert. Diese Technik wurde durch Affymetrix entwickelt.

Die Abbildungen 6 und 7 zeigen den Algorithmus zur Hybridisierung von cDNA-Arrays, der aus der Hybridisierungsphase und der Visualisierung der erhaltenen Informationen besteht:

·    Input: Zwei zu untersuchende Proben von mRNA, z.B. aus einem gesunden Gewebe zur Kontrolle (control targets) und einem kranken Gewebe (sample targets), werden in cDNA umgewandelt.

·    Hybridisierungsphase: Die beiden cDNA-Proben werden unterschiedlich markiert, damit sie später unterschieden werden können. Bei Arrays aus Glasplatten werden unterschiedliche fluorizierenden Farbstoffe verwendet, die früher häufiger eingesetzten Arrays aus Nylonmembranen werden radioaktiv markiert. Anschließend werden die cDNA targets gegen die cDNA probes auf den Arrays hybridisiert.



Abbildung 6: Hybridisierungsphase eines cDNA-Arrays

·    Visualisierungsphase: Nach der Hybridisierung werden die losen cDNA targets vom Chip abgewaschen und die von den gebundenen cDNA  targets ausgegebenen Signale detektiert. Abbildung 7 zeigt, wie die fluorizierenden Farbstoffe auf Glasplattenarrays mit zwei Lasern unterschiedlicher Wellenlänge sichtbar gemacht werden. Dieser Prozess erzeugt ein Bild mit unterschiedlichen Farb- und Helligkeitsintensitäten für jeden Fixierungspunkt (spot) des Arrays, wobei die Intensitäten von der Anzahl gebundener cDNA targets an den komplementären cDNA probes abhängig sind.



Abbildung 7: Visualisierung der Information eines cDNA-Arrays

·    Output: Die Farb- und Helligkeitsintensität aller Spots, deren Anzahl in der Größenordnung von einigen 100.000 liegt, bilden die erzeugte Datenmenge. Diese Intensitäten werden gemessen und korrigiert, bevor die Expressionsstärke jedes einzelnen Gens als Zahl ausgedrückt durch Bildverarbeitungssoftware ermittelt wird.

Der Umgang mit Oligonukleotidarrays erfolgt ähnlich. Während cDNA-Arrays die relative Genexpressionsstärke einer Probe im Verhältnis zu einer anderen erzeugen, werden Oligonukleotidarrays zur Messung der absoluten Genexpressionsstärke in einer Probe, z.B. zur Definition einer bekannten Punktmutation oder eines Single-Nukleotid-Polymorphismus (SNP), genutzt. Dazu wird nur ein cDNA target benötigt und die synthetisierten DNA-Oligonukleotide auf dem Chip unterscheiden sich nur in einzelnen Basen.
           Fazit: Die Genexpression wird bei der Hybridisierung von Microarrays durch Farb- und Helligkeitsintensitäten charakterisiert, welche die Identität und die Expressionsstärke eines Genes bestimmen. Microarrays ermöglichen die Quantifizierung der Expressionsstärke der Gene, wobei Oligonukleotidarrays die absolute Genexpressionsstärke anzeigen und cDNA-Arrays die relative zwischen ihren zwei Proben. Desweiteren erzeugen Microarrays skalierbare Ergebnisse, indem gleichzeitig die Genexpression von verschiedenen Genen unter unterschiedlichen Bedingungen erfasst wird oder die Genexpression aus verschiedenen Experimenten verglichen wird. cDNA-Arrays ermöglichen somit die Identifizierung der Genexpressionsunterschiede von einem gesunden und kranken Gewebe in einem einzigen Experiment.
           Die Stärken der Microarrays liegt im Bereich der Diagnostik, um mit möglichst großen Durchsatz eine begrenzte Anzahl Gene gleichzeitig zu analysieren. Werden im Experiment cDNAs aus unterschiedlichen Geweben oder Zelltypen verwendet, kann man direkt ableiten, wie sich die untersuchten Gewebetypen in Bezug auf ihre Genexpression unterscheiden. Die Hauptproblematik der Technik liegt darin, dass nur cDNAs analysiert werden können, deren genetische Information bereits bekannt ist. Neue, unbekannte Gene kann man mit dieser Methode nicht untersuchen. Desweiteren ist durch die zugrundeliegende Technik der Hybridisierung die Sensitivität der Methode limitiert. Moleküle, die nur in geringer Anzahl in der Zelle vorliegen, können daher nicht detektiert werden. Und da die Menge eingebauter Farbstoffmoleküle pro cDNA noch nicht bekannt ist, dürften normalerweise nur cDNA targets mit identischer Sequenz absolut verglichen werden. Aufgrund dieser Einschränkungen lässt sich mittels Arrays kein vollständiges und umfassendes Genprofil erstellen.

2.7. Vergleich der Genexpressionsverfahren

In diesem Kapitel wurden die verschiedenen neueren Verfahren zur Genexpressionsanalyse vorgestellt. Sie unterscheiden sich teilweise sehr stark in ihren wichtigsten Eigenschaften, wie man in der Tabelle 2 leicht erkennen kann. Dabei reicht die Anzahl der erzeugten Daten in einem Experiment von einigen Hundert (- -) bis einigen Hunderttausend (+ +). Desweiteren bestehen relevante Unterschiede in der Quantitativität, der Skalierbarkeit und der Existenz von Datenbanken.


Genexpression

Anzahl

quanti-
tativ

skalier-
bar

Daten-
banken

SSH

Isolierte differentiell exprimierte Sequenzen

- -

   

nein

DD

Lage und Dicke von PCR-Banden

-

 

X

nein

SAGE

# SAGE tags

+ +

X

X

ja

EST

# Sequenzen in Clustern

+

X

X

ja

Microarray

Farb- und Helligkeitsintensität pro Spot

+ +

X

X

ja

Tabelle 2: Vergleich der Genexpressionsverfahren (Anzahl: sehr wenig - - bis sehr viel + +)

Durch die Quantitativitätseigenschaft können die Verfahren in zwei Gruppen unterteilt werden, in die qualitativen und die quantitativen:

·     Zu den qualitativen Verfahren gehören SSH und DD. Sie können exprimierte Gene identifizieren, aber nicht ihre Expressionsstärke bestimmen. Durch die SSH Methode können experimentell mit geringem technischen Aufwand potentielle neue Gene identifiziert werden. Die isolierten Gensequenzen müssen anschließend genauer charakterisiert werden, z.B in dem sie in einem Microarray als cDNA probe eingesetzt werden. Die DD Methode erzeugt 100 bis 200 Banden von ähnlichen Genfragmenten. Durch den visuellen Vergleich der Banden verschiedener Experimentalproben kann die Expression eines Genes unter verschiedenen Bedingungen untersucht werden. DD besitzt bereits den Vorteil, dass verschiedene DD-Experimente miteinander verglichen werden können, die Ergebnisdaten sind skalierbar. Dagegen können alle SSH-Experimente nur isoliert betrachtet werden.

·     Zu den quantitativen Verfahren gehören SAGE, EST Clustering and Profiling und Microarray. Sie können exprimierte Gene identifizieren und ihre Expressionsstärke bestimmen. Die Genexpression wird bei SAGE durch Ketten von kurzen SAGE tags, bei EST Clustering and Profiling durch Cluster von ähnlichen ESTs und bei der Hybridisierung von Microarrays durch Farb- und Helligkeitsintensitäten ausgedrückt. Während die Hybridisierung von Microarrays genauso wie SSH und DD ein rein chemisches Experiment darstellt, ist SAGE eine Kombination aus chemischen und informatischen Verfahren und EST Clustering and Profiling ein rein informatisches Verfahren. SAGE und EST erzeugen durch die automatische Sequenzierung große Mengen an Sequenzdaten, wobei SAGE noch 20 mal mehr Genexpressionsdaten erzeugt als die EST-Sequenzierung, und ein einziger Microarray kann ca. 300.000 verschiedene cDNA probes enthalten, die häufig jeweils mehr als 10 Expressionswerte erzeugen. Die Analyse der Ergebnisdaten erfolgt bei diesen Verfahren aufgrund ihrer hohen Anzahl komplett mit informatischen Methoden.

Die Voraussetzung für globale Untersuchungen von Genfunktionen sind der Vergleich verschiedener Experimente und große Mengen an Daten. Daher müssen Genexpressionsdatenbanken große Mengen von quantitativen und skalierbaren Werten aus verschiedenen Experimenten enthalten, um sinnvolle informatische Analysen durchführen zu können. Es eignen sich besonders die Ergebnisdaten von SAGE, EST Clustering and Profiling und Microarrays zur Archivierung in diesen Datenbanken. SSH und DD können eingesetzt werden, um experimentell streng abgegrenzte Problemstellungen zu lösen. Die erhaltenen Erkenntnisse können mit in den Datenbanken verfügbaren Informationen genauer untersucht werden. Auch die am Anfang des Kapitels kurz vorgestellten älteren Verfahren, wie Northern Blotting, werden noch immer zur Kontrolle eingesetzt, da sie qualitative Aussagen, ob ein bekanntes Gen in einer Probe enthalten ist oder nicht, leisten.
           Abschließend ist zu sagen, dass alle Verfahren ihre Bedeutung haben. Je nach Aufgabenstellung muss die geeignete Methode gewählt werden. Oft ist es auch sinnvoll, mehrere Verfahren und deren Ergebnisse zusammen zu nutzen. Die größte Bedeutung für die informatischen Analyseverfahren haben SAGE, EST Clustering and Profiling und Microarrays. Ihre Ergebnisse werden in Genexpressionsdatenbanken abgespeichert, deren Anforderungen und einzelne Vertreter in den nächsten Kapiteln vorgestellt werden sollen.



3. Anforderung an Genexpressionsdatenbanken

Dieses Kapitel untersucht die Hauptanforderungen an Genexpressionsdatenbanken, damit diese die Genexpressionsanalysen möglichst optimal unterstützen. Folgende Fragestellungen sollen dazu beantwortet werden:

·     Dateneigenschaften: Welche Arten von Daten sollten verwaltet werden und welche Eigenschaften dieser Daten müssen dabei berücksichtigt werden?

·     Verwaltung von Annotationen: Wie können Beschreibungen von Expressionsdaten sinnvoll abgespeichert werden?

·     Datenintegration: Zusätzlich zu den durch ein Genexpressionsexperiment selbst generierten Daten, sollten Genexpressionsanalysen die kommentierenden Informationen in öffentlichen Quellen mitnutzen. Welche Daten sind dazu nützlich und wie können sie integriert werden?

·     Datenanalyse: Welche Methoden sind nützlich zur Genexpressionsdatenanalyse?

Dieses Kapitel orientiert sich stark an dem Paper [Do03], dass speziell für Microarray-basierende Datenbanken die Anforderungen für Genexpressionsanalysen diskutiert.

3.1. Dateneigenschaften

Genexpressionsanalysen benötigen verschiedene Arten von Daten, die aus mehreren Genexpressionsverfahren stammen können. Es wird unterschieden zwischen Rohdaten, Expressionsdaten und Annotationsdaten. Tabelle 3 beschreibt die Rohdaten und die Expressionsdaten für die Verfahren EST Clustering and Profiling, SAGE und Microarray, sowie die zur Umwandlung eingesetzten Bearbeitungsmethoden und die jeweiligen Quellen für die Annotationen.


Daten

EST

SAGE

Microarray

Rohdaten

EST-Sequenzen

SAGE tags

gescannte Microarrays

Bearbeitungsmethode

Clustering

Sequenzalignment

Bildverarbeitung

Expressionsdaten

# ESTs
in Clustern

# SAGE tags

Farb- und Helligkeitsintensitäten

Quellen für Annotationen

Gene

öffentl. Quellen

öffentl. Quellen

öffentliche Quellen

Sample/Exp.

Benutzereingabe

Benutzereingabe

Benutzereingabe

Tabelle 3: Daten und Kommentarquellen der Genexpressionsverfahren

·     Rohdaten: Rohdaten werden während der im vorigen Kapitel beschriebenen Genexpressionsverfahren erzeugt. Sie repräsentieren den Ausgangspunkt für die Expressionsanalysen. Da die Algorithmen der Bearbeitungsmethoden sich noch ändern können oder vielleicht ganz neue Methoden entwickelt werden, sollten die Rohdaten und deren Verknüpfung mit den generierten Expressionsdaten verwaltet werden, damit frühere Analyseergebnisse korrigiert werden können.

·     Expressionsdaten: Die Expressionsdaten bilden den Grundstein für eine globale Verarbeitung, in der Daten aus verschiedenen Experimenten und Datenbanken gemeinsam analysiert werden. Um die Genexpressionsstärken der verschiedenen vorgestellten Verfahren miteinander zu vergleichen, müssen die Expressionsdaten zuerst normalisiert werden. Gegenüber den Rohdaten wird auf die Expressionsdaten sehr häufig zugegriffen. Deswegen werden an die Analyseverfahren hohe Leistungsanforderungen gestellt, um die großen Datenvolumen und die häufige Nutzung durch interaktive Analysen in kurzer Antwortzeit zu bewältigen. Mögliche Lösungen sind erweiterte DBMS Techniken, wie Indizierung und parallele Verarbeitung, um die Anforderungen spezifischer Analyseverfahren zu erfüllen.

·     Annotationsdaten: Annotationen sind unterstützende Daten. Sie beschreiben meist in Textform die in einem Experiment gemessenen Expressionsstärken. Dadurch helfen sie dem Nutzer bei dessen Analysen und Interpretationen. Es werden drei Arten von Annotationsdaten unterschieden:

(1)  Genannotation: Die Daten beschreiben die Merkmale des repräsentierten Genes eines Ergebnisdatums aus einem Genexpressionsverfahren, z.B. Name, aktuell bekannte Funktionen, Position im Chromosom. Derartige Informationen werden ständig gesammelt, regelmäßig aktualisiert und in verschiedenen öffentlichen Datenquellen zur Verfügung gestellt.

(2)  Sample Annotation: Die Daten beschreiben die Produktion einer Experimentalprobe, deren Quelle (Gewebe, Zelle) mit Charakteristikas (Krankheit), sowie genetische und chemische Manipulationen und Stimulationen während der Behandlung.

(3)  Experimentannotation: Die Daten erläutert den technischen Prozess des Experimentes mit Protokollen und Parametereinstellungen für Hardware und Software.

Typische Daten zur Genannotation werden aus externen öffentlichen Quellen integriert, während die anderen Annotationen vom Nutzer für jedes neue Experiment manuell eingegeben werden. Die manuelle Eingabe birgt einige Gefahren, auf die als nächstes eingegangen werden soll.

Tabelle 4 fasst die vorgestellten Daten mit ihren Eigenschaften und ihren Nutzen für die Analysen noch einmal zusammen.


Daten

Typ

Eigenschaften

Nutzen

Text (EST, SAGE), binär (Microarray)

große Dateien

Erzeugung von Expressionsdaten

Expressionsdaten

Zahlen

schnell wachsende Größe

statistische und Cluster-Analysen

Anno-tationen

Gene

Text

regelmäßiges Update

Interpretation, Berichte, Folgerung von Genfunktionen

Sample/Exp.

Benutzerabhängig, oft freier Text

Tabelle 4: wichtige Datenarten und ihre Eigenschaften

3.2. Verwaltung von Annotationen

Annotationsdaten müssen in einer einheitlichen und flexiblen Art aufgenommen und organisiert werden, damit sie effektiv zur Analyse von Expressionsdaten eingesetzt werden können. Die Nutzereingabe von Annotationsdaten erfolgt in aktuellen Datenbanken aber oft durch freie Textfelder. Diese sind meist ungeeignet, weil verschiedene Quellen und Nutzer unterschiedlichen Wortschatz verwenden, wodurch starke Abweichungen zwischen den Annotationen entstehen. Außerdem enthält jedes freie Textfeld mehrere Werte, deren einzelne Abfrage in einer Datenbank sehr schwierig ist.
           Besser geeignet ist der Einsatz von atomaren Begriffen oder Kategorien aus einfachen Datentypen mit einer klar definierten Semantik, wie z.B. einige vordefinierte Bausteine oder Werte aus vordefinierten Listen. Die Kategorien sollten in mehrere Stufen organisiert sein (Hierarchie, Taxonomie), damit die Aussagekraft erhöht wird. Es wird unterschieden zwischen dem lokalen Wortschatz, der für eine lokale Anwendung entwickelt wurde, und dem standardisierten Wortschatz, wie der GeneOntology (GO) Taxonomy für Genfunktionen [GO00].

3.3. Datenintegration

Die Integration von Annotationsdaten ist eine wichtige Voraussetzung, um die Genexpressionsanalysen zu verbessern. Die relevante Information ist typischerweise aus verschiedenen öffentlichen Datenquellen im Internet zu erhalten. Dabei ergänzen sich oft die Datenbanken der bereits vorgestellten Genexpressionsverfahren. Die auf Microarrays platzierten cDNA probes werden durch Sequenzdatenbanken wie GenBank und UniGene beschrieben, wobei die Daten in GenBank durch EST-Sequenzierung und in UniGene durch EST Clustering and Profiling erzeugt werden. GenBank und UniGene enthalten u.a. Annotationen zum Organismus, Genname und funktionelle Beschreibungen. Auch EST- und SAGE-Datenbanken arbeiten sehr stark zusammen. Dabei trägt die EST-Sequenzierung die Sequenz und kommentierende Informationen bei, während SAGE quantitative Daten zur Beschreibung der Häufigkeit dieser Sequenzen beisteuert. Außerdem helfen Proteindatenbanken bei der Charakterisierung von Genfunktionen. SwissProt verwaltet ausführliche Annotationsinformationen für jedes Genprodukt, dazu zählen biologische Quellen, Funktionen, Strukturen, Ähnlichkeiten zu anderen Proteinen und vieles mehr.
           Der Integrationsmechanismus wird in die virtuellen Integrationsverfahren Web Link Integration und Federated Integration sowie in die materialisierte (Materialized) Integration unterschieden:

·     Web Link Integration: Diese Methode wird in den meisten aktuellen Datenbanken eingesetzt. Sie speichert nur den Zugriffsschlüssel (accession key) zu den Daten in einer externen Quelle. Diese Web Links erlauben dem Nutzer die Navigation zu entsprechenden Quellen, um die Annotationsinformationen zu den interessierenden Genen zu beurteilen. Während diese Methode nur geringen Integrationsaufwand erfordert, existieren auch bedeutende Einschränkungen. Es ist nicht möglich zur selben Zeit mehrere ähnliche Gene zu betrachten, z.B um ein Gencluster zu identifizieren. Und noch entscheidender ist die Tatsache, dass der direkte Bezug auf Annotationen und Genexpressionen für Datenbankabfragen und Data Mining nicht möglich ist.

·     Federated Integration: Für diese Variante der virtuellen Integration müssen die Schemata der relevanten Quellen zuerst in ein globales Schema integriert werden. Die Bestimmung eines einheitlichen globalen Schemas ist ein Hauptproblem, da es große syntaktische Unterschiede zwischen verschiedenen Quellen gibt, trotz einiger verfügbarer globaler Taxonomien wie GO. Desweiteren wird eine komplexe Vermittlungssoftware benötigt, die Abfragen an das globale Schema durch geeignete Teilabfragen an die jeweiligen Datenquellen und die Kombination dieser Resultate unterstützt. Weitere Schwierigkeiten bestehen aufgrund nur elementarer Abfragefähigkeiten öffentlicher Quellen und der Abhängigkeit von der Verfügbarkeit und Performance der entsprechenden Quellen. Der positive Effekt dieser Methode ist die Verfügbarkeit immer hochaktueller Daten, die nie erneuert werden müssen, abgefragt und analysiert werden können.

·     Materialized Integration: Diese Methode entspricht Data Warehousing und erfordert intensive Vorbereitungsmaßnahmen. Es wird vor allem zur Analyse von Microarrays eingesetzt. Die benötigten Daten müssen aus den einzelnen Quellen beschafft werden, umgewandelt, gereinigt und danach einheitlich in der Datenbank gespeichert werden, zusammen mit den gemessenen Expressionsdaten. Da die externen Daten regelmäßigen aktualisiert werden, sind automatische Techniken zur kontinuierlichen Angleichung nötig. Sobald die Daten integriert sind, leistet die Warehouse Methode entscheidende Vorteile, indem auf relevante Daten direkt zugegriffen werden kann. Dadurch sind eine sehr hohe Performance und ausgeprägte Analysefähigkeiten möglich.

3.4. Datenanalyse

Der Analyseprozess nutzt die normalisierten Zahlen, welche die Expressionsstärke von Genen unter unterschiedlichen Bedingungen darstellen, um Beziehungen zwischen Genen und ihrer Experimentalprobe herzuleiten. Viele Methoden zur Genexpressionsanalyse sind bereits aus anderen Anwendungsbereichen bekannt, wie z.B. Data Mining und einige Statistikverfahren. Es wird zwischen den folgenden Familien von Analysemethoden unterschieden:

·     Querying / Reporting: Dieser Datenbankzugriff ermöglicht dem Nutzer die Navigation durch die Datenbank und die Beschaffung der benötigten Datenmenge für die spätere Untersuchung und Visualisierung. Um die Konstruktion von häufigen Abfragen zu vereinfachen und ihre Ausführung zu verschnellern, sollten vordefinierte Queries und Reports gespeichert sein, die zu jeder Zeit mit unterschiedlichen Parameterwerten ausgeführt werden können.

·     Online Analytical Processing (OLAP): OLAP wird häufig im Data Warehousing zur Analyse von multidimensionalen Daten eingesetzt, zu denen auch Genexpressionsdaten gehören. Der Nutzer kann sich dabei durch verschiedene Level in der Hierarchie einer Dimension bewegen, z.B. durch die Funktionshierarchie von Genen, um zusammenfassende Informationen über Genexpressionsmodelle zu beurteilen und zu vergleichen.

·     Data Mining: Data Mining unterstützt die Entdeckung von interessanten Modellen in großen Datensätzen. Es wird zwischen unüberwachten Methoden wie Clustering und überwachten Methoden wie Classification unterschieden. Clustering repräsentiert die am weitesten verbreitete Analysemethode für Expressionsdaten. Dabei werden Gene mit ähnlichen Eigenschaften gruppiert, um gemeinsam erzeugte oder funktionell verwandte Gene zu identifizieren. Classification nutzt vordefinierte Klassen mit bekannten Eigenschaften und Funktionen um Expressionsmuster in neuen Gendaten zu erkennen. Vertreter sind der hierarchical und der permutation-based Clustering Algorithmus.

·     Statistiken: Statistische Methoden werden eingesetzt, um unterschiedliche Daten aus verschiedenen Experimenten zusammenzuführen, damit sie anschließend gemeinsam ausgewertet werden können. Vertreter sind die ANOVA Methode, der t-Test und der Wilcoxon-Test.

·     Visualisierung: Alle Analysemethoden benötigen für die menschliche Interpretation eine verständliche Präsentation ihrer Resultate. Viele verschiedene Techniken erzeugen einen Überblick über eine große Datenmenge und ermöglichen deren gleichzeitige Auswertung. Zur Visualisierung werden z.B. Dendrogramme, Tabellen oder Diagramme eingesetzt.



4. Existierende Genexpressionsdatenbanken

Verschiedene Datenbanklösungen von verschiedenen Organisationen wurden in den letzten Jahren zur Verwaltung und Analyse von Genexpressionsdaten veröffentlicht. Aus den bereits vorgestellten Gründen liefern die Verfahren SAGE, EST Clusterung und Profiling und Microarray die Rohdaten für diese Datenbanken. In der Tabelle 5 sind einige der zur Zeit bedeutendsten Vertreter aufgezählt. Sie werden beispielhaft für alle existierenden öffentlichen Genexpressionsdatenbanken vorgestellt und auf die im vorigen Kapitel diskutierten Anforderungen überprüft.


Verfahren

Datenbank

Organisation

Referenz

SAGE

eSAGE

University of Michigan Medical School

[MI00]

SAGEmap

NCBI

http://www.ncbi.nlm.nih.gov/sage

[La00]

EST
Clustering
and Profiling

BodyMap

Osaka University

http://bodymap.ims.u-tokyo.ac.jp

[Hi00],

[Se01]

UniGene

NCBI

http://www.ncbi.nlm.nih.gov/UniGene

Web

Microarray

GeneX

NCGR

http://genebox.ncgr.org/genex

[Ma01]

SMD

Stanford University

http://genome-www4.stanford.edu/MicroArray/SMD

[Sh01]

Tabelle 5: Überblick über ausgewählte Genexpressionsdatenbanken

4.1. SAGE-basierende Datenbanken

Ausschließlich zur Speicherung und Analyse von SAGE-Daten wurden die öffentlichen Genexpressionsdatenbanken eSAGE und SAGEmap entwickelt. Desweiteren existieren viele verschiedene Genexpressionsdatenbanken, die neben SAGE-Daten auch durch andere Verfahren erzeugte Daten der Öffentlichkeit zur Verfügung stellen. Als Beispiele seien GeneX, ExpressDB, M-CHIPS und RAD2 genannt, die vor allem Daten aus dem Microarrayverfahren enthalten.

4.1.1. eSAGE
eSAGE [MI00] ist ein Datenbanksystem für die lokale Installation. Es besteht aus einer umfassende Sammlung von Softwaretools zur Verwaltung und Analyse von Daten, die mit SAGE erzeugt wurden. Es ist nur mit Windows Betriebssystemen lauffähig und die erzeugten Datenbanken sind für die Nutzung mit Microsoft Access formatiert.
           Die Verarbeitung der eingelesenen SAGE-Daten durch eSAGE wird in Abbildung 8 schematisch dargestellt. Es existiert eine klare räumliche Trennung zwischen den Rohdaten und Expressionsdaten, die sich in den sogenannten eSAGE Tag Databases befinden, und den bereits ausgewerteten Daten, die in einer zentralen eSAGE Analysis Database gespeichert werden. Lesbare Eingabeformate sind das standardisierte ASCII-Textdateiformat (*.seq) und PHD-Files (*.phd.1), die durch das Basen beschreibende Programm Phred [Ew98] aus den Ergebnisdaten der automatische Sequenzierung erzeugt wurden, um die Fehlerrate der Daten stark zu verringern. Zuerst werden aus den Rohdaten jeder sequenzierten SAGE-Bibliothek die SAGE ditags mit passender Länge selektiert, und anschließend werden aus dieser Datenmenge SAGE tags extrahiert, die ausschließlich aus nicht mehrdeutigen Basen (A, C, G oder T) bestehen. Die Software speichert für jede eingelesene Sequenzdatei die Daten aller Zwischenstufen in einer eigenen eSAGE Tag Database ab, die aus je einer Files Table, DiTag Table und Tag Table besteht. Eine zusätzliche Informationstabelle für SAGE-Bibliotheken enthält vom Nutzer getroffene Auswahlen über angeheftete Enzymsequenzen, die Länge der SAGE tags und die maximal erlaubte Länge der ditags.


Abbildung 8: Datenmanagement von eSAGE [MI00]

eSAGE erzeugt vergleichende Tabellen (Compare Table) in der zentralen eSAGE Analysis Database, indem zwei vom Nutzer gewählte Tag Tables zusammengefügt werden. Den enthaltenen SAGE tags ist zu diesem Zeitpunkt noch immer keine Identität zugeordnet worden. Zu diesem Zweck importiert eSAGE regelmäßig eine Flat-File von der Genexpressionsdatenbank UniGene in eine als Unigene Table bezeichnet Tabelle. Die Flat-File enthält kartierte SAGE tags und Annotationen aus Clustern mit Sequenzdaten von Menschen, Mäusen oder Ratten, und ist im anonymen FTP frei verfügbar (http://www.ncbi.nlm.nih.gov/sage). Sie wird in einem mehrstufigen automatischen Prozess erzeugt. Nachdem eine neue Compare Table fertiggestellt wurde, verknüpft sie eSAGE mit der UniGene Table und entwickelt eine einzelne informative TagID Table. Diese Tabelle unterstützt die automatische Überprüfung und Identifizierung von SAGE tags mittels UniGene-Cluster. Aufgrund des Imports der Referenzdaten von der Expressionsdatenbank UniGene und deren lokale Speicherung kann dieser Vorgang in die Familie der leistungsstarken Materialized Integration eingeordnet werden.
           eSAGE stellt viele nützliche Werkzeuge zur Datenanalyse zur Verfügung. So berechnet die Software während der Erstellung der Compare Table zusammenfassende Statistiken, welche die Beurteilung der Qualität der SAGE-Bibliothek erlauben. Eine eSAGE Analysis Database besitzt mehrere vordefinierte Queries und Reports, die automatisch angewendet werden, wenn eine TagID Table mit neuen Daten generiert wird. Die Anwender können die vordefinierten Queries und Reports auch abändern oder ihre eigenen entwickeln. Es besteht auch die Möglichkeit alle SAGE ditags zu finden, welche die Sequenz eines bestimmten SAGE tags beinhalten. Dies erlaubt dem Nutzer die schnelle Identifizierung von zusätzlichen Basen für ein noch unbekanntes SAGE tag, um synthetische Adapter für die PCR während des SAGE-Verfahrens zu erzeugen.
           Als besonders gut geeignete Eigenschaften für eine Expressionsdatenbank sind die konsequente Trennung von Rohdaten und Expressionsdaten, die leistungsstarke automatische Interpretation der SAGE tags mittels Materialized Integration und die veränderbaren vordefinierten Queries zu nennen. Nachteilig könnte sich die fehlende Datenintegration weiterer Genexpressionsdatenbanken außer UniGene erweisen. Außerdem muss eSAGE auf einem lokalen Rechner oder in einem Netzwerk installiert werden, wodurch nur die eigenen SAGE-Bibliotheken analysiert werden können. Über die Verwaltung der Sample- und Experiment Annotationen konnten leider keine Angaben gefunden werden.

4.1.2. SAGEmap
SAGEmap [La00] ist fähig alle mit SAGE erzeugten Sequenzdaten zu archivieren. Im Jahr 2000 beinhaltete sie über zwei Millionen SAGE tags aus 47 SAGE-Bibliotheken. Diese stammten alle aus menschlichen Geweben, z.B. aus dem Gehirn, der Brust oder der Haut.
           Verschiedene C-Programme erzeugen die Expressionsdaten aus den SAGE-Bibliotheken. Die isolierten SAGE tages werden in den vorhandenen Genbestand der relationalen Sybase-Datenbank eingeordnet, indem die bereits von eSAGE verwendeten UniGene SAGE tag mapping flatfiles eingesetzt werden. Dabei erkennen UniGene-Cluster ein SAGE tag durch einen Identifier. Wenn ein SAGE tag noch durch kein Cluster repräsentiert wird, schickt SAGEmap das SAGE tag an UniGene, wo es mittels einer systematischen Methode einem EST-Cluster zugeordnet wird. Diese Schlüsseleigenschaft von SAGEmap stellt die zur Zeit beste Schätzung der Abbildung von SAGE tags auf exprimierte Sequenzen in öffentlichen Datenbanken dar.
           Da SAGEmap genauso wie dbEST und UniGene vom National Center for Biotechnology Information (NCBI) verwaltet wird, werden die Sequenzinformationen im selben Format in eine Hierarchie eingeordnet. Dadurch wird die gegenseitige Datenintegration mittels Web Links erleichtert. Für jede SAGE-Bibliothek sammelt, ordnet und speichert SAGEmap die verfügbaren Informationen über das Gewebe, die Behandlung und Präparation der Experimentalprobe. Neu eingelesene SAGE-Datensätze erhalten eindeutige Bibliotheksnamen, damit sie nach der Archivierung wieder leicht aufgefunden werden können. Zur Erleichterung dieser Unterordnung und der späteren Filterung wurde das Programm SAGEmap Submission Tool (SST) in der Programmiersprache Java geschrieben, dass unter den Betriebssystemen Windows und Sun Solaris (UNIX) läuft und im Web frei verfügbar ist.
           SAGEmap verfügt auf seiner Weboberfläche über eine große Anzahl an Werkzeugen zur Datenanalyse. Das Virtual Northern Tool unterstützt Queries nach mRNA-Sequenzen im SAGE-Datenbestand, indem mögliche SAGE tags herausgefiltert werden. Die folgenden Tools zur Anzeige von SAGE tags und Genen werden zur gleichzeitigen Abfrage mehrerer Datensätze genutzt. Das Tag Display Tool zeigt die relative und absolute Menge der SAGE tags in den aktuell verwendeten SAGE-Bibliotheken, indem das Vorkommen in allen von UniGene bereitgestellten Sequenzen getestet wird. Das Gene Display Tool zeigt die relative und absolute Menge der Gene, die durch die SAGE tags der aktuell verwendeten SAGE-Bibliotheken repräsentiert werden, indem sie mit den Identifiers der UniGene-Cluster verglichen werden. Desweiteren wurde ein statistisches Vergleichswerkzeug zum Testen der unterschiedlichen Expression in SAGE-Daten entwickelt. Um die Downloadmenge für die Ergebnisdaten gering zu halten, werden nur die ersten 100 SAGE tags zusammen mit ihrer Anzahl, Geneigenschaften und Statistiken in einem verkürzten Format angezeigt. Wenn das komplette Resultat verlangt wird, kann eine Textdatei von der Webseite auf den lokalen Rechner heruntergeladen werden.
           SAGEmap ermöglicht die gleichzeitige Verarbeitung aller öffentlich verfügbaren SAGE-Daten, die durch eine interne Hierarchie gut strukturiert abgespeichert sind. Die Analysewerkzeuge, die direkt von der Weboberfläche gestartet werden können, erlauben zusammen mit den Annotationen durch Web Links zu UniGene und dbEST eine umfangreiche Untersuchung der Daten. Über die mögliche Archivierung der Rohdaten sind keine Informationen vorhanden.

4.2. EST-basierende Datenbanken

Große Mengen an EST-Sequenzen und EST-Cluster sind in öffentlichen Datenbanken verfügbar. Die unbearbeiteten Rohdaten befinden sich vor allem in den Datenbanken dbEST und GenBank. Die geclusterten Expressionsdaten sind unter anderen in den Genexpressionsdatenbanken BodyMap, UniGene, Stack und TIGR bespeichert. Die EST-Einträge sind mit verschiedenen Informationen annotiert, z.B. Organismus, Organ, Gewebe, Zelle, Typ, Krankheit und Bibliothek.

4.2.1. BodyMap
Die erste online verfügbare Sammlung von gewebespezifischen Sequenzprofilen präsentierte 1991 die Webseite von BodyMap [Hi00]. Im August 2000 bestand die Genexpressionsdatenbank BodyMap aus über 300.000 ESTs von 64 Menschen- und 39 Mäusegeweben [Se01].
           Die cDNA-Bibliotheken werden alle von der Osaka University selbst produziert, wodurch der Unterschied der Klonierungseffektivität zwischen den einzelnen Sequenzen minimiert werden kann. Vor der Speicherung der Sequenzen in der relationalen Sybase-Datenbank, werden Daten mit geringer Qualität automatisch aussortiert und sich wiederholende Sequenzen markiert. Aus den übrig gebliebenen Sequenzen werden Primary Cluster erzeugt, indem sie mit FASTA verglichen werden, dem Suchwerkzeug für Sequenzähnlichkeiten vom European Bioinformatics Institute (EBI). Zwei ESTs gelangen in das selbe EST-Cluster, wenn sie Regionen einer Länge von mindestens 50 Basenpaaren oder 70% ihrer Gesamtlänge besitzen, in denen mindestens 95% der Basen übereinstimmen. Anschließend wird pro neuem Primary Cluster eine repräsentative EST-Sequenz mit den Repräsentanten bereits früher generierter Cluster verglichen, wobei Secondary Cluster entstehen. Jedes unabhängige Cluster wird durch eine fünfstellige Cluster-ID gekennzeichnet, die als Gensignaturnummer (GS number) bezeichnet wird.
           Die repräsentativen Sequenzen der Secondary Cluster (GS-Cluster) werden regelmäßig mit den EST-Sequenzen aus GenBank und der letzten Version von UniGene verglichen, wobei die selben Identifikationskriterien wie während der Clusterbildung gelten. Als Ergebnis werden Web Links zur Accession Number der korrespondierenden Sequenz in GenBank und RefSeq und zur Hs_sequence der äquivalenten Sequenz in UniGene erzeugt.
           Desweiteren werden in einer Tabelle die GS-Cluster mit ihren Wiederholungen in allen verfügbaren BodyMap-Bibliotheken zusammengefasst (Gen x Gewebe), diese Gene Expression Matrix wird regelmäßig neu generiert. Detaillierte Informationen über jedes GS-Cluster werden in der Form einer GS Card angezeigt, dazu gehören die repräsentative Sequenz, die An- oder Abwesenheit von iterativen Sequenzen, das Multiple Alignment der durch das GS-Cluster repräsentierten EST-Sequenzen und die Verteilung über alle analysierten Bibliotheken. Da aber mehr als die Hälfte der Gene nur einmal identifiziert sind, leistet die Matrix nur geringe Informationen über die Genexpressionsstärken. Daher setzt BodyMap eine erst kürzlich entwickelte PCR-basierende Methode zur Skizzierung der Expressionsstärke mit dem Namen iAFLP ein. Ein mit iAFLP erzeugtes Profil und die dazugehörige Gene Expression Matrix sind in Abbildung 8 dargestellt.


Abbildung 9: Produktionsprozess mit iAFLP für BodyMap Datensätze [Se01]

Zur Datenanalyse stehen drei Queries zur Verfügung. Jede dieser Abfragen liefert einen Teil der komprimierten Gene Expression Matrix zurück aus dem die dazugehörigen GS Cards eingesehen werden können. Mit der Query Composition of mRNA kann ein Gewebe ausgewählt werden, damit BodyMap eine Liste von GS numbers erzeugt, die nach der Anzahl der Wiederholungen in der ausgewählten Bibliothek geordnet sind. Diese Liste zeigt die am häufigsten aufgetretenen Sequenzen in dem Gewebe und deren geschätzte Konzentration in der mRNA. Diese Daten werden unter anderem als Referenzen für die Microarray Hybridisierung eingesetzt. Die Query Expression patterns of genes erlaubt dem Nutzer die kombinierte Suche nach GS numbers, Nucleotidsequenzen, Stichwörtern, Zugriffsnummern für GenBank oder UniGeneIDs. Mit der Query Select genes by expression patterns können durch komplexe logische Ausdrücke eigene Expressionsmuster definieren werden, indem die An- oder Abwesenheit von ESTs in jeder Bibliothek betrachtet wird. Der einfache Vergleich der Häufigkeit von GS numbers kann aber nicht bestätigen, dass ein Gen besonders häufig in einem Gewebe auftritt. Ursache dafür sind die unterschiedlichen Gesamthäufigkeiten der zugrundeliegenden EST-Sequenzen. Daher verwendet BodyMap statistische Berechnungen für eine genauere Einschätzung der gewebetypischen Gene. Als Ergebnis wird eine Liste von GS numbers erzeugt, die bevorzugt in den gewählten Geweben vorkommen und nach der erwarteten Wahrscheinlichkeit ihres Auftretens geordnet sind. Als Unterstützung bietet die Webseite von BodyMap schnell ausfüllbare Radio Buttons zur Auswahl der Operatoren an.
           BodyMap stellt mit den GS Cards umfangreiche Annotationen zu jedem Cluster zur Verfügung. Desweiteren sind umfangreiche aktuellste Daten mittels Web Links aus anderen Genexpressionsdatenbanken integriert. Da die statistischen Analyseverfahren gute Ergebnisse erzielen für große Mengen an GSs, aber bei kleinen Mengen ungenaue Messungen erzeugen können, will BodyMap in der näheren Zukunft das Gene Ranking System basierend auf den iAFLP-Daten realisieren.

4.2.2. UniGene
Das Experimentalprojekt UniGene, verfügbar über die Homepage vom NCBI, beinhaltete am 28. September 2002 3.905.320 EST-Sequenzen in 121.062 Cluster. Jedes Cluster repräsentiert maximal ein menschliches Gen, viele Cluster bestehen aber auch nur aus einer EST-Sequenz und sind noch undefiniert.
           In der Genexpressionsdatenbank GenBank gespeicherte redundante EST-Sequenzen (Rohdaten) werden durch automatisches Partitionieren in einen nichtredundanten Bestand von genorientierten Clustern eingeordnet. Dabei setzt UniGene eine konservative Methode ein, um alle menschlichen EST-Sequenzen die minimalen Qualitätstandards entsprechen, eindeutigen Clustern zuzuordnen. Dieser Vorgang erfolgt regelmäßig im Abstand von einigen Tagen bis maximal einen Monat.
           Es existieren viele Analyseprogramme mit eigenen Webseiten, welche die in der Expressionsdatenbank UniGene gespeicherten Daten auswerten. Als bedeutendster Vertreter des EST Clustering and Profiling soll das Tool Digital Differential Display (DDD) vorgestellt werden. Es ist verfügbar unter http://inhouse.ncbi.nlm.nih.gov/ncicgap/ddd.html. DDD kann Gene, dessen Expressionsstärken sich von einem Gewebe zum anderen stark unterscheiden, durch statistische Tests identifizieren und dem Nutzer anzeigen. Eine mögliche Anwendung ist die Identifizierung von Genen, deren Expressionsstärke zwischen normalen und kranken Geweben schwankt. DDD nutzt die Vorteile von UniGene, indem die Anzahl verglichen wird, wie oft Sequenzen aus verschiedenen EST-Bibliotheken bestimmten UniGene-Clustern zugewiesen wurden. Obwohl große Unterschiede in der Anzahl bestehen, reflektieren nur einige dieser Unterschiede biologische Tatsachen. Deswegen nutzt DDD eine statistische Vergleichsmethode, den Fisher Exact Test, um nur die wohlmöglich wahren Unterschiede zu differenzieren. Ein wichtiger Faktor zur Bestimmung statistischer Bedeutung ist die absolute Anzahl von Sequenzen in jeder Bibliothek, die erfolgreich einem UniGene-Cluster zugewiesen wurde. Da in vielen Fällen nicht genügend Rohdaten in dbEST-Bibliotheken, einer Abteilung der Genexpressionsdatenbank GeneBank, enthalten sind, um mit dem Fisher Exact Test eine Trennschwelle für relevante statistische Werte zu überschreiten, enden viele Vergleiche ohne ein einziges Ergebnis.
           Auf der Webseite von DDD zeigt eine Tabelle die Wahl der Vergleichspools an, wobei ein Pool aus mehreren EST-Bibliotheken bestehen kann. Alle wählbaren Bibliotheken sind aufgelistet und durch einen Link mit einem zusammenfassenden Report der Bibliothek verknüpft. Die Abbildung 9 zeigt eine Expressionsmatrix, in der die Ergebnisse eines Vergleichs veröffentlicht werden.


Abbildung 10: Expressionsmatrix einer DDD-Analyse von UniGene Daten

In den Spalten stehen die zu vergleichenden Pools und in jeder Zeile ein repräsentiertes UniGene-Cluster. Über den Index des repräsentierten Genes erhält man einen zusammenfassenden Überblick über das UniGene-Cluster. Zu jedem Pool wird der repräsentative Anteil der Sequenzen an einem Gen als numerische Wert und als unterschiedlich stark ausgeprägter Punkt zur visuellen Unterstützung dargestellt. Wenn ein Pool an einem statistisch bedeutendem Vergleich mit einem anderen Pool beteiligt ist, wird das Verhältnis der beiden Pools zueinander angezeigt.
           UniGene verfügt jederzeit über die aktuellsten EST-Cluster mit umfangreichen Annotationen und dient somit den SAGE-Datenbanken als Referenz für bekannte Gene oder den Microarrays als Quelle für DNA probes um neue Gene genauer zu beschreiben. Es besteht eine hohe Integration der Genexpressionsdatenbanken dbEST, in der vor allem die EST-Sequenzen gespeichert sind, und GeneBank, in der die bekannten Gene gesammelt sind. Desweiteren sind umfangreiche Datenanalysen auf der Grundlage des EST Clustering and Profiling Verfahrens mit verschiedenen Programmtools möglich, wobei vordefinierte Queries und Reports, Data Mining, Statistiken und die Visualisierung der Ergebnisse eingesetzt werden.

4.3. Microarray-basierende Datenbanken

Die pro Microarray-Experiment gelieferten mehreren Millionen Daten müssen zentralisiert und standardisiert werden. Die dazu verwendeten Datenbanken sind wichtig für Vergleiche zwischen Daten die in verschiedenen Organismen, in verschiedenen Experimenten oder mit verschiedenen Techniken gewonnen wurden, sowie für das Aufstellen von Fehlerraten und Benchmarks. Die zur Zeit in der Forschungsgemeinde bewährtesten öffentlichen Genexpressionsdatenbanken sind ArrayDB, ExpressDB, GeneX, GIMS, M-CHIPS, RAD2, SMD und YMD [Do03]. Sie enthalten teilweise auch Ergebnisdaten aus anderen Verfahren, vor allem SAGE-Daten.

4.3.1. GeneX
GeneX [Ma01] ist eine relationale Datenbank (PostgreSQL, Sybase), die öffentliche Genexpressionsdaten mehrerer Verfahren speichern kann. Neben den Daten von cDNA-Arrays und Oligonucleotidarrays, wie Affymetrix Arrays, werden auch die Expressionsdaten von SAGE und Northern Blotting unterstützt. Die GeneX Technologie ist neben der online verfügbaren Version auch als lokale Installation nutzbar. Durch das Kommunikationsprotokoll GeneXML können die Daten zwischen verschiedenen Datenbanken ohne manuelle Eingriffe ausgetauscht werden, was vor allem bei lokalen Installationen von großem Vorteil ist.
           Es existieren zu den Experimenten und den Samples ausführliche Annotationen unter anderem über Hardware- und Softwareparameter, Geschlecht, Alter und Gewebe. Zur Eingabe dieser Annotationen kann der Nutzer einen lokal definierten Wortschatz verwenden, wodurch der negative Effekt von freien Texten minimiert wird, oder er nutzt eine Standardlösung mit festen Attributen für die Sample und Experiment Annotation.
           GeneX stellt ausschließlich die Web Link Integration für den Zugriff auf die Daten anderer Datenbanken zur Verfügung. Allerdings sind mit SGD, MGD, dbEST, GenBank, KEGG und SwissProt sehr viele verschiedene Referenzdatenbanken vorhanden.
           Die auf der Webseite verfügbaren Analyseprogramme sind mit Perl, Java und der statistischen Sprache R geschrieben. Das Query Interface zur Identifizierung interessierender Datensätze ist relativ einfach aufgebaut, aber das gebündelte Perl Modul Genex.pm ermöglicht es Programmierern mit einfachen Mitteln neue Queries zu erzeugen. Die verfügbaren Data Mining Tools lagern die gewählten Daten automatisch in einer Datei aus um sie zu verarbeiten, wobei mit hierarchical und K-means Clustering, dem permutation-based Algorithmus und PCA die verschiedensten Verfahren eingesetzt werden können. Typischerweise verfügen die Clustering Tools RClust und Eisen auch über Funktionen zur Visualisierung der Resultate. Beispiele sind Cluster-Bäume und Dendrogramme (Cluster Maps). Die Cluster Maps sind verlinkt, so dass der Nutzer vom resultierenden Cluster direkt zum interessierten Gen und dessen Annotation navigieren kann. Außerdem besitzt GeneX im Gegensatz zu den meisten anderen öffentlichen Microarray Datenbanken ein integriertes Tool mit dem Namen CyberT, dass verschiedene statistische Tests an Expressionsdaten durchführt, wie  t-Tests, Bonferonni Korrektur oder die Bayesianische Varianzabschätzung.
           GeneX speichert keine Rohdaten ab, dafür werden die Expressionsdaten mehrerer Genexpressionsverfahren gesammelt. GeneX stellt verschiedene transparente Analyseverfahren wie Clustering und statistische Tests zur Verfügung, die auch auf lokalen Plattformen genutzt und deren Ergebnisdaten mit GeneXML komfortabel ausgetauscht werden können. Nachteilig wirken sich die nicht vorhandenen lokalen Genannotationen bei der Interpretation von Analyseergebnissen aus.

4.3.2. SMD
Die Stanford Microarray Datenbank SMD [Sh01] ist eine relationale Datenbank, die auf dem Datenbank Managementsystem (DBMS) Oracle basiert. SMD repräsentiert die größte Microarray Datenbank mit mehr als 538 Millionen Expressionsdaten aus 25 Tausend Experimenten im Juli 2002. Sie speichert ausschließlich von cDNA-Arrays erzeugte Expressionsdaten.
           SMD enthält für jedes Experiment den Namen des Wissenschaftlers, Experimentparameter und Konditionen, sowie den Organismus aus dem die DNA probes stammen. SMD besitzt eine einheitliche und dennoch flexible Art der Nutzereingabe für Annotationen. Es stehen ein lokaler Wortschatz und feste Attribute für Sample und Experiment Annotationen zur Verfügung. Zusätzlich verwendet SMD auch die EAV-Methode zur Modellierung neuer Annotationsinformationen, wobei EAV nur eingesetzt wird, wenn es unbedingt notwendig ist.
           Neben den Web Links zu den Datenbanken dbEST, GeneMap, LocusLink und SwissProt verfügt SMD über die Möglichkeit Genannotationsdaten von verschiedenen externen Quellen zu integrieren und die lokalen Daten automatisch mit den Quellen in regelmäßigen Abständen zu aktualisieren. Die Materialized Integration erfolgt vor allem mit Daten aus UniGene.
           SMD ermöglicht seinen Anwendern eine webbasierte Auswahl oder Suche eines interessierenden Experiments und die anschließende Filterung der relevanten Gene durch spezifische Suchkriterien für die Grenzwerte, die Intervalle für Expressionswerte oder Genannotationsinformationen wie der Name, Organismus und Krankheit. Ein so herausgefiltertes einzelnes Array-Experiment kann man herunterladen oder Online bearbeiten. Das Data Mining Tool XCluster ermöglicht transparente integrierte Clusteranalysen, wie hierarchical und K-means Algorithmen, SOM oder SVD. Statistische Methoden sind dagegen nicht vorhanden. Zur Visualisierung der Cluster-Daten existieren Cluster Maps und Spot Maps. Cluster Maps sind wie in Abbildung 9 dargestellte Genexpressionsprofile. Sie besitzen integrierte Web Links zu den repräsentierten Genen. Spot Maps sind zoombare Arraybilder in die sich der Nutzer bis zu einen einzelnen Spot heranzoomen kann, um die Intensitätswerte zu bestätigen und andere Metadaten über die Spots zu erhalten.


Abbildung 11: Cluster Map zur Visualisierung von Cluster-Daten in SMD

Die Genexpressionsdatenbank SMD besitzt viele Eigenschaften zur Steigerung der Flexibilität, der Leistungsfähigkeit und der besseren Visualisierung der Ergebnisdaten. SMD speichert mit den gescannten Microarrays die Rohdaten der cDNAs ab, mit der EAV-Methode können neue Annotationsinformationen modelliert werden. Die Datenintegration durch Materilized Integration von Genannotationsdaten und deren automatisches Update ermöglichen eine enorme Leistungssteigerung bei der Interpretation der Daten, genauso wie die Visualisierungstechniken Cluster Map und Spot Map, welche die Ergebnisse der Clusteranalysen transparent darstellen. Ein Nachteil von SMD ist die eingeschränkte Präsentation von Genexpressionsverfahren, nur cDNA-Array spezifische Daten werden gespeichert.

4.4. Vergleich der Genexpressionsdatenbanken

Aufgrund der unterschiedlichen und teilweise unvollständigen Berichterstattung über die vorgestellten Genexpressionsdatenbanken und den unterschiedlichen Eigenschaften der durch verschiedene Expressionsverfahren erzeugten Rohdaten ist kein exakter Vergleich der Datenbanken auf Grundlage der diskutierten Anforderungen möglich. Dennoch sollen sie anhand einiger wichtiger Kriterien noch einmal gegenüber gestellt werden.
           Außer GeneX speichern alle vorgestellten Datenbanken nur die Ergebnisdaten eines Genexpressionsverfahrens ab. Eine erkennbare Trennung zwischen den Rohdaten und den Expressionsdaten erfolgt bei eSAGE und SMD, wobei die EST-basierenden Datenbanken ihre Rohdaten bereits aus anderen Expressionsdatenbanken importieren. Trotz der riesigen Datenmengen und der erforderlichen hohen Performance für die Datenanalyse, wurden in keiner der mir verfügbaren Quellen über die besprochenen Genexpressionsdatenbanken die erweiterten DBMS Techniken erwähnt, wie z.B. Parallel Processing.
           SAGEmap veranlasst eine besondere Datenintegration in der Expressionsdatenbank UniGene. Wenn ein SAGE tag noch durch kein UniGene-Cluster repräsentiert wird, schickt es SAGEmap zur Einordnung an UniGene. Unabhängig von der Einschränkung, dass die Datenintegration durch Web Links keine Verbesserung der Analyseverfahren für lokale Expressionsdaten mit sich bringen, erfordert diese Methode fast keinen Integrationsaufwand und ist der schnellste Weg um Datenbanklösungen der Öffentlichkeit nutzbar zu machen.Daher erfolgt die Genannotation noch bei einigen der vorgestellten Datenbanken über diese Technik. Dagegen speichern eSAGE und SMD diese Annotationsdaten mittels Materilized Integration lokal ab, wobei hauptsächlich UniGene als Referenzdatenbank dient. UniGene nimmt eine Ausnahmerolle in der Datenintegration ein, da es die Genannotationsdaten mit den Rohdaten durch die Expressionsdatenbank GenBank mitgeliefert bekommt.
           Integrierte Softwaretools zum Suchen, Vergleichen, Mischen und Erkennen von Unterschieden von Daten aus Experimenten, die unter verschiedenen Bedingungen und Orten gewonnen wurden, stellen alle untersuchten Datenbanken zur Verfügung. Auch vordefinierte Queries sind bei allen Standard, allerdings können neue individuelle Queries nur mit eSAGE und GeneX erzeugt werden. GeneX und SMD besitzen genauso wie die EST-basierenden Datenbanken Clustering Algorithmen. Diese Tools sind transparent unter einem einheitlichen User-Interface integriert und stellen ein relativ bequem zu benutzendes, leistungsstarkes Grundgerüst für die individuellen Analysen dar. Desweiteren eignen sich die Microarray-basierenden Datenbanken besonders für eine integrierte Visualisierung, während sich diese bei den anderen Datenbanken meist auf einfache Tabellen beschränkt.



5. Zusammenfassung

Im ersten Teil dieser Ausarbeitung wurden fünf Genexpressionsverfahren vorgestellt und miteinander verglichen. Danach wurden die Anforderungen an Datenmanagementsysteme aufgezählt, um für die Verwaltung und Analyse von Genexpressionsdaten geeignet zu sein. Abschließend wurden verfügbare öffentliche Genexpressionsdatenbanken diskutiert und auf die Umsetzung der Anforderungen miteinander verglichen.
           Es existiert eine große Menge an Verfahren, die sich unterscheiden bezüglich der Einsatzbereiche, der eingesetzten Techniken und der Ergebnisdaten. Vielversprechend für die Erforschung aller Genfunktionen erweisen sich Microarrays, SAGE und EST Clustering and Profiling, da diese Verfahren quantitative und skalierbare Ergebnisdaten in großer Anzahl erzeugen. In Bezug auf die Anforderungen zeigen die Genexpressionsdatenbanken noch Schwächen in unterschiedlichen Bereichen, aber vor allem in der Integration entfernter Annotationsdaten, die somit in den Analyseverfahren kaum berücksichtigt werden. Dagegen existieren bereits viele Möglichkeiten der vergleichenden Sequenzanalyse.



6. Literaturverzeichnis


[Ew98] Ewing, B. et al.: Base-calling of automated sequencer traces using phred. I. Accuracy assessment. Genome Res, 8(3):175-185, 1998.
[DG96] Diatchenko L., Gurskaya N. et al.: Suppression Subtractive Hybridization: A Method for generating differentially regulated or tissue-specific cDNA Probes and Libraries. Proc Natl Acad Sci, 93(12): 6025-6030, 1996.
[Do03] Do, H.H. et al.: Comparative Evaluation of Microarray-based Gene Expression Databases. BTW, 2003.
[Hi00] Hishiki, T. et al.: BodyMap : A Human and Mouse Gene Expression Database. Nucleic Acids research, 28(1): 136-138, 2000.
[La00] Lash, A.E. et al.: SAGEmap : A public Gene Expression Resource. Genome Research, 10: 1051-1060, 2000.
[LP92] Liang P., Pardee A.B.: Differential Display of eukaryotic messenger RNA by means of the Polymerase Chain Reaction. Science, 257: 967-971, 1992.
[Ma00] Madden, S.L. et al.: Serial Analysis of Gene Expression: From Gene Discovery to Target Identification. DDT, 5(9): 415-425, 2000.
[Ma01] Mangalam, H. et al.: GeneX: An Open Source Gene Expression Database and Integrated Tool Set. IBM System Journal, 40(2): 552-569, 2001.
[MI00] Margulies, E.H., Innis, J.W.: eSAGE: managing and analysis data generated with Serial Analysis of Gene Expression (SAGE). Bioinformatics, 16(7): 650-651, 2000.
[Mo01] Moody, D.E.: Genomics techniques: An Overview of Methods for the Study of Gene Expression. J. Anim. Sci., 79(E. Suppl.): E128-E135, 2001.
[PR01] Polyak, K., Riggins, G.J.: Gene discovery using the Serial Analysis of Gene Expression Technique: Implications for Cancar Research. Journal of Clinical Oncology, 19(11)>: 2948-2958, 2001.
[Sc95] Schena: Quantitative Monitoring of Gene Expression Patterns with a complementary DNA Microarray. Science, 270: 467-470, 1995.
[Se01] Sese, J. et al.: BodyMap incorporated PCR-based Expression Profiling Data and a Gene Ranking System. Nucleic Acids research, 29(1): 156-158, 2001.
[Sh01] Sherlock, G. et al.: The Stanford Microarray Database. Nucleic Acids research, 29(1): 152-155, 2001.
[Va98] Vatmatzis, G. et al.: Discovery of three Genes specifically expressed in human Prostate by expressed Sequence Tag Database Analysis. Medical Sciences, 95: 300-304, 1998.
[Ve95] Velculescu et al.: Serial Analysis of Gene Expression. Science, 270: 484-487, 1995.