Microarray-Datenbanken und
Genexpressions-Profiling
Bearbeiter: Frank Tietze Betreuer: Do Hong Hai
Seite
1. Auswahl der Zellpopulation 11
2. Extraktion der mRNA und reverse Transkription 12
3. Markierung 12
4. Hybridisierung 14
5. Scannen des Microarrays 14
6. Analyse 15
V. Genotypanalyse mit Oligonukleotidarrays 15
VI. Datenanalyse bei Genexpressionsprofilen 16
1. Clusteranalyse 18
· Hierarchische Clusteranalyse 19
·
K-Means-Clusteranalyse 20
·
Self-Organizing-Maps 20
·
Quality-Cluster-Algorithmus 21
2. Fourieranalyse 21
3. Faktorenanalyse 22
4. Diskriminanzanalyse 23
VII. Microarraydatenbanken 23
VIII. Fibroblasten-Serumstimulation (Beispiel) 26
IX. Zusammenfassung 28
X. Quellenverzeichnis 29
Wegbereiter des heutigen Einsatzes von sogenannten Genchips (microarrays) waren die rasanten Fortschritte innerhalb der Molekulargenetik in den letzten Jahren, insbesondere die Möglichkeit der systematischen Sequenzierung ganzer Genome, angefangen mit den relativ kleinen Bakteriengenomen, weiter über die Hefe (Pilz), dann den beiden vielzelligen Modellorganismen C. elegans (ein Fadenwurm) sowie Drosophila (Fliege) -und schließlich als Höhepunkt- dem Genom des Menschen.
Abbildung 1 Drosophila melanogaster
Nach derzeitigen Schätzungen gibt es in der Erbsubstanz des Menschen nur ungefähr 32000 Gene, was letztlich viel weniger ist, als primär auf Grund der Vielzahl verschiedenartiger Genprodukte (also den Proteinen) vermutet wurde. Dem stehen ca. 6000 Gene bei der Hefe, 13000 bei der Fliege und 19000 beim Wurm gegenüber.
Abbildung 2 C.elegans
Wenn man also bedenkt, daß die Anzahl der menschlichen Gene nur das reichlich 1,5-fache der Anzahl der Gene beim Wurm ausmacht (allerdings sind die Gene beim Menschen erheblich komplexer aufgebaut und größer ), andererseits aber den Unterschied in der Vielfalt von Merkmalen zwischen Mensch und Wurm betrachtet, ist man doch über diese Erkenntnis erstaunt. Letztlich zeigt dies aber nur, daß die einfache Übersetzung ein Gen – ein Merkmal so nicht zutreffen kann und man noch weit davon entfernt ist, die komplexen Mechanismen der molekulargenetischen Vorgänge in der Zelle wirklich verstanden zu haben. Da es viel weniger Gene als Eigenschaften gibt, wird jedes Gen mehrere Funktionen besitzen, zudem werden Merkmale in der Regel von verschiedenen Genen beeinflußt. Auf die Spitze getrieben heißt das, daß man vielleicht niemals von einem einzigen Gen genau wissen wird, welche Merkmale es alle beeinflußt. Es ist also eine Illusion, allein vom Genom auf die Phänomenologie des Individuums schließen zu wollen.
Eine weitere interessante Beobachtung der Genforschung war es festzustellen, daß es einen hohen Grad der Verwandschaft zwischen Genen ganz verschiedener Organismen gibt. So sieht man in der Hälfte der menschlichen Gene deutliche Ähnlichkeit zu Genen von Hefe, Fadenwurm oder Fliege. Da es bedeutend einfacher ist, die Funktionalität der Gene von Tieren zu erforsche, lassen sich auf diese Weise auch Rückschlüsse auf das menschliche Genom ziehen. [NV01]
Bisher wurde vorallem versucht, die Funktion von Genen unter Betrachtung nur des jeweiligen interessierenden einzelnen Gens herauszufinden. Dies ist zum Beispiel möglich, indem bei Zellkulturen oder Tieren (meist Mäusen) das betreffende Gen entfernt oder als Mutation eingebaut wird („knock out –Maus“) und man den daraus resultierenden Effekt beurteilt. Einen anderen Ansatzpunkt bietet die Microarraytechnik, welche die gleichzeitige Beurteilung aller Gene eines Organismus oder zumindest eines großen Teils dessen erlaubt. Damit lassen sich Rückschlüsse über Beziehungen zwischen Genen, über deren „Zusammenarbeit“ in Abhängigkeit von verschiedenen Umgebungsbedingungen, Stoffwechselsituationen oder Entwicklungsphasen bzw. Krankheiten ziehen. Um es nochmals hervorzuheben : die große Bedeutung des Einsatzes von Microarrays liegt unter anderem in der Möglichkeit des „Monitorings“ des gesamten Genoms eines Organismus.
Voraussetzung für die Anwendung von Microarrays sind natürlich die heute in jedem molekularbiologischen Labor elementaren Techniken zur Vermehrung von Nukleinsäuren wie die Polymerasekettenreaktion (PCR- s.Abb.4) oder das Klonen (s.Abb.3), das Umschreiben von DNA in RNA und umgekehrt sowie die Markierung von Nukleotiden (z.B. mit Fluoreszenzfarbstoff oder radioaktiv). Einen besonderen Schub stellte die Entwicklung einer Technik dar, Nukleinsäuren in hoher räumlicher Dichte, jedoch wohl unterscheidbar, auf einer festen Oberfläche (z.B.Glasträger) anzuheften.
Nicht zuletzt wäre der Einsatz von Microarrays auch ohne die sogenannte konfokale Lasermikroskopie nicht denkbar.
Abbildung 3a Prinzip des
Klonen von DNA, Bakterium Abbildung 3b Plasmid von E.coli
Abbildung
3c Plasmid wird als Vektor für bestimmte Gene
verwendet (hier am Beispiel des Insulingens)
Abbildung 3d Nach Einbau des fremden Gens in das Bakterium
erfolgt dessen Expression und Replikation. Durch Kultivierung der
Bakterienkolonie wird das Fremdgen vermehrt (geklont).
Microarrays beruhen auf der komplementären Basenpaarung von Nukleotidsequenzen (s.Abb.5 und 6). Liegt ein Nukleinsäuresegment als Einzelstrang vor, so kann sich nur der zu diesem Segment komplementäre Strang binden. Ist nun die genaue Sequenz eines Stranges bekannt, so kennt man im Falle einer Bindung auch die Sequenz des gebundenen Nukleotidstranges. Anders ausgedrückt besteht das Prinzip der Microarrays darin, die Anwesenheit von Nukleinsäuren einer speziellen Sequenz mit Hilfe dieser Eigenschaft der selektiven komplementären Bindung nachzuweisen. Ist es also nach Reaktion einer bekannten Nukleinsäure (Sonde) mit einer Mischung unbekannter Nukleinsäuren zur Bindung
Abbildung 4 Prinzip der Polymerasekettenreaktion
Abbildung 5 DNA-Doppelhelix
gekommen, müssen in der Mischung Nukleinsäuremoleküle vorhanden sein, deren Basensequenz komplementär zu jener der Sonde ist.
Bei Microarrays handelt es sich um kleine Glasträger ca. in der Größenordnung von 1.3 x 1.3 cm [LFGL 99]. Auf dieser Oberfläche befinden sich bis zu 300 000 voneinander abgetrennter Zellen (Spots). Auf jedem dieser Spots ist eine DNA-Probe bekannter Sequenz als Sonde fest angeheftet. Jeder dieser Spots wird mit einer in ihrer Zusammensetzung an verschiedenen Nukleinsäuresequenzen unbekannten Testsubstanz versetzt. Anschließend wird der Array abgewaschen. Dadurch verbleiben nur die auf Grund der Komplementarität gebundenen Nukleinsäuren der Testsubstanz auf dem Spot und lassen sich nach dieser als Hybridisierung bezeichneten Phase (s.Abb.7) auf dem Array nachweisen. Der Nachweis ist möglich, da die Nukleinsäuren der Testsubstanz vor der Hybridisierung mit Fluoreszenzfarbstoff markiert worden sind.
Abbildung 6 Prinzip der komplementären Basenpaarung
In der vorwiegend englischsprachigen Literatur zu Microarrays werden die beiden miteinander in Wechselwirkung tretenden Nukleotidsequenzen in verschiedener Funktion als `Probe` und `Target` bezeichnet. In diesem Übersichtsartikel soll für die fest auf dem Array
Abbildung 7 Darstellung
der Hybridisierung zwischen Probe und
Target
verankerte DNA (Sonde) mit bekannter Sequenz der Begriff `Probe` und für die markierte Testsubstanz mit unbekanntem Sequenzspektrum die Bezeichnung `Target` reserviert sein.
Es lassen sich entsprechend der unterschiedlichen Anwendung zwei große Gruppen von Microarrays unterscheiden:
· cDNA-Arrays zur Erstellung von Expressionsprofilen (vorwiegend quantitativer Ansatz)
· Oligonukleotidarrays zur Genotypanalyse (vorwiegend qualitativer Ansatz)
Um Verwirrungen zu vermeiden, soll noch erwähnt werden, daß es sich bei dem Begriff Genchip lediglich um eine Analogie zum Chip der Mikroelektronik handelt. Hiermit soll verdeutlicht werden, daß in Anlehnung an die Transistoren des elektronischen Chips auf kleinstem Raum (s.Abb.8) eine unvorstellbar große Anzahl von biologischen „Bauelementen“ – nämlich den DNA-Sonden (Proben) untergebracht ist.
Abbildung 8 Zur Veranschaulichung der Größenverhältnisse
von Microarrays
Es existieren verschiedene Verfahren der Herstellung von Microarrays, die sich jeweils einer der beiden folgenden Techniken zuordnen lassen:
-
in situ-Synthese
- „externe
Synthese“
Bei der in situ-Synthese wird die Probe auf dem Microarray hergestellt – die Nukleotidkette wird schrittweise verlängert (z.B. Photolithographie). Dieses Verfahren kommt insbesondere bei Oligonukleotidarrays zur Anwendung, da hier einerseits die Sequenzgenauigkeit von herausragender Wichtigkeit ist, andererseits die zu synthetisierende Kette im Vergleich zur Expressionsanalyse sehr kurz ist ( Aufwand dieser Methode wächst mit der Kettenlänge).
Dem stehen Verfahren gegenüber, bei denen die DNA-Sonden (Proben) „extern“ durch PCR oder Klonen hergestellt werden und dann mittels eines Roboters zielgenau auf die richtige Zelle des Microarrays aufgebracht werden (s.Abb.9). Hierbei handelt es sich in der Regel um längere Ketten. Die dabei entstehenden cDNA-Arrays werden vorallem zur Genexpressionsanalyse eingesetzt.
Abbildung 9 Arrayer
zur „externen“ Synthese von Microarrays
Um einen Einblick in den mit der Herstellung von Microarrays verbundenen Aufwand zu erhalten, sei kurz das Prinzip der Photolithographie als Verfahren der in situ-Synthese dargestellt (s.hierzu auch Abb.10):
Abbildung
10 Prinzip
der Herstellung von Oligonukleotidarrays durch das Verfahren der
Photolithographie
Auf dem Array werden zunächst kurze Verbindungsmoleküle kovalent befestigt, deren freies Ende jeweils durch eine photolabile Gruppe gegenüber Bindungsreaktionen geschützt ist. Mittels Lichtmasken können die verschiedenen Spots selektiv belichtet werden. Nach Belichtung wird die protektive Gruppe am freien Ende des Linkermoleküls abgespalten, dieses reagiert dann mit dem zuvor zugesetzten, gewünschten Nukleotid. Das freie Ende dieses Nukleotids ist wiederum durch eine photoreaktive Gruppe vor Anlagerung geschützt. Durch wiederholte Serien lokalisierter Belichtungen und Reaktionen des Kettenendes mit dem entsprechenden, zuvor aufgebrachten Nukleotid, läßt sich auf jedem Spot des Microarrays eine beliebige Oligonukleotidsequenz synthetisieren. Die Kettenlänge bei dieser Anwendung bewegt sich oft zwischen 15 und 35-mer Oligonukleotiden.
Die Entwicklung einer effizienten Synthesestrategie führte dazu, daß bei einer Kettenlänge N lediglich 4 x N Synthesezyklen nötig sind [LFGL 99].
Es werden hierbei im wesentlichen folgende Schritte durchlaufen. Eine schematische Übersicht gibt Abbildung 11.
(1) Auswahl der zu untersuchenden Zellpopulation
(2) Extraktion der mRNA und Reverse Transkription
(3) Markierung
(4) Hybridisierung
(5) Scannen des Microarrays
(6) Analyse / Speicherung / Interpretation der gewonnenen Daten [JB 00].
Abbildung 11 Schematische
Darstellung des Ablaufs eines Microarrayversuchs
1) Auswahl
der zu untersuchenden Zellpopulation
Ziel des Experimentes ist die Untersuchung der Genexpression bestimmter Zellen, d.h. man möchte wissen, welche Gene in diesen Zellen „angeschaltet“ sind. Die konkreten Fragestellungen können hierbei sehr vielfältig sein. So kann es von Interesse sein, die Genexpression unter verschiedenen Umgebungsbedingungen (z.B. nach Zugabe potentieller Medikamente o.ä.) bzw. innerhalb verschiedener Zellteilungsphasen oder Entwicklungszyklen zu beobachten und zu vergleichen. Welche Gene werden in Tumorgewebe exprimiert, dagegen aber nicht im gesunden Gewebe gleicher Organe ? Entsprechend dieser Heterogenität möglicher Fragestellungen unterscheiden sich die Microarrayexperimente deutlich im Detail. Ein konkretes Anwendungsbeispiele wird im letzten Abschnitt dargestellt..
Die zu untersuchenden Zellen entstammen Zellkulturen, Blut, chirurgischen oder pathologischen Gewebspräparaten (Abb.12). In diesen Zellen vorkommende mRNA soll mit Hilfe der Microarraytechnik quantitativ erfaßt werden. Nur exprimierte Gene führen zur Bildung einer entsprechend komplementären mRNA, also läßt sich die Expression dieser Gene nachweisen.
Abbildung 12 Auswahl
der zu untersuchenden Zellpopulation
2) Extraktion
der mRNA und Reverse Transkription
Zunächst muß die in der Zellpopulation vorliegende mRNA von den restlichen Zellbestandteilen und anderer RNA isoliert bzw. gereinigt werden. Der Anteil von mRNA am Gesamt-RNA-Bestand einer Zelle beträgt nur ca. 3%. Die meisten mRNA-Moleküle besitzen eine Polyadeninsequenz, so daß sie mit Hilfe einer auf einem Träger befestigten komplementären Oligothymidinkette „gefangen“ werden können. Ein Problem stellt die oft sehr geringe Menge verfügbarer mRNA dar, welche auf alle Arrayspots verteilt werden muß. Da RNA sehr instabil ist und innerhalb kürzester Zeit enzymatisch gespalten wird, muß sie vor der Hybridisierung in die stabile DNA zurückgeschrieben werden. Das wird mit dem Enzym Reverse Transkriptase (=RNA-abhängige DNA-Polymerase) bewerkstelligt. Dieses Enzym ist Bestandteil verschiedener RNA-Viren (Retroviren), die zur Vermehrung (Replikation) darauf angewiesen sind, ihr eigenes Genom in das der Wirtszelle (DNA) einzubauen (Abb.13). Die durch die reverse Transkription entstehende DNA wird als cDNA bezeichnet (copy DNA).
Abbildung 13 Replikationszyklus
von Retroviren
Probleme können auftreten, wenn die verschiedenen mRNA-Moleküle in unterschiedlichem Ausmaß reverse transkribiert werden. Hieraus resultiert eine Verschiebung der Mengenrelationen, das richtige Verhältnis mRNA : cDNA zwischen unterschiedlichen Genen bleibt nicht gewahrt. Da bei Genexpressionsanalysen vorallem quantitative Aussagen getroffen werden, kann die am Microarray gemessene Intensität fehlerhaft sein. Werden beispielsweise zwei Gene 1 und 2 gleich exprimiert, liegen mRNA-1 und mRNA-2 intrazellulär in derselben Konzentration vor. mRNA-1 wird anschließend im Vergleich zur mRNA-2 zum größeren Anteil reverse transkribiert. Die cDNA-1-Konzentration ist somit danach größer als die der cDNA-2. Die Auswertung führt dann fälschlicherweise zu der Annahme, Gen 1 würde stärker exprimiert. Diese Verzerrung bezeichnet man als `reverse transkription bias`.
Zudem sei hier angemerkt, daß es keine feste Korrelation zwischen zellulärer mRNA und zellulärem Proteinspiegel gibt, so daß absolut-quantitative Rückschlüsse aus den Ergebnissen des Microarrayexperiments auf die jeweilige Proteinkonzentration derzeit noch nicht möglich sind. Entsprechende mRNA vs. Protein-Korrelationsstudien laufen derzeit [BV 00].
3) Markierung
Um die am Microarray gebundene cDNA detektieren zu können, muß sie vor der Hybridisierung markiert werden, dies geschieht meist durch Einbau fluoreszierender Farbstoffe ( z.B. Cy3 -> rot und Cy5 -> grün ). Soll beispielsweise die Veränderung des Expressionsprofils vor und nach Zugabe einer bestimmten Substanz beurteilt werden, so kann die vor Zugabe gewonnene cDNA grün und die nach Zugabe extrahierte cDNA rot markiert werden (Abb.14). Jedes Arrayfeld wird dann mit beiden Targets bestückt. Nach Hybridisierung grün fluoreszierende Arrayfelder zeigen an, daß die entsprechenden Gene durch Zugabe der Substanz reprimiert werden, rot fluoreszierende Spots zeigen die nach Substanzzugabe exprimierten Gene an. Kommt es zu keiner Veränderung im Transkriptionslevel, fluoreszieren die betreffenden Felder gelb. Werden Gene im gesamten Verlauf des Experiments überhaupt nicht exprimiert, erscheinen die entsprechenden Spots auf dem Microarray als schwarze Punkte.
Abbildung 14 Microarrayversuch
unter verschiedenen Umgebungsbedingungen
Die Menge der pro cDNA-Molekül eingebauten Farbstoffmoleküle hängt sowohl von der Länge als auch Sequenz der cDNA ab. Da nicht bekannt ist, wieviel Farbstoffmoleküle pro cDNA eingebaut werden, lassen die gemessenen Intensitäten keine quantitativen Vergleiche zwischen verschiedenen cDNA-Molekülen zu, sondern nur zwischen identischen cDNA- Sequenzen der beiden Targets.
Abbildung 15 Microarray
Die in Publikationen veröffentlichten, bunt leuchtenden Microarrays (Abb.15) dienen lediglich der Illustration und sind nach Hybridisierung derart nicht mit bloßem Auge sichtbar. Erst durch Stimulation mit einem Laser wird der Farbstoff zur Fluoreszenz angeregt, detektiert werden dann die emittierten Wellenlängen. Jeder der Farbstoffe läßt sich nur durch Licht einer charakteristischen Wellenlänge (exzitatorische Wellenlänge) zur Fluoreszenz anregen. Die Wellenlänge des emittierten Lichts unterscheidet sich von der exzitatorischen Wellenlänge
4) Hybridisierung
Jedes Arrayfeld wird mit den zuvor vermischten und unterschiedlich markierten beiden cDNA-Targets versetzt. Pro Spot finden sich ausreichend DNA-Sonden (Proben), so daß es nicht zu kompetativen Verdrängungsreaktionen unter den cDNA-Targets kommt (gemeint ist, daß keine Konkurrenz um Bindungsplätze an den Sonden auftritt). Bei Komplementarität zwischen Sonde (Probe) und Target erfolgt die Bindung. Alle nicht gebundenen Targetmoleküle werden durch Abwaschen vom Microarray entfernt. Abbildung 16 zeigt eine elektronenmikroskopische Aufnahme des Hybridisationsvorgangs.
Abbildung 16 Elektronenmikroskopische
Aufnahme der Hybridisation zwischen Probe und Target
5) Scannen
des Microarrays
Mittels eines konfokalen Lasermikroskops wird jeder Spot des Arrays gleichzeitig mit der exzitatorischen Wellenlänge beleuchtet und das emittierte Licht für beide Farbstoffe absorbiert. Beide Farbstoffe müssen eine sich deutlich unterscheidende Emissionswellenlänge besitzen. Dadurch wird es möglich, durch Filter über zwei getrennte Kanäle jeweils selektiv nur das Licht eines Farbstoffs auf den Detektor zu leiten und dessen Intensität zu messen (Abb.17).
Abbildung 17 Intensitätsmessung der fluoreszierenden
Arrayfelder über zwei Kanäle (rot und grün)
6) Analyse
Auf die statistische Datenanalyse wird noch in Abschnitt VI ausführlich eingegangen.
V.
Genotypanalyse
mit Oligonukleotidarrays
Hierbei handelt es sich im Gegensatz zum Genexpressionsprofiling um eine vorwiegend qualitative Fragestellung. Eine typische Anwendung ist die Detektion bekannter Mutationen bzw. Polymorphismen. Das Verfahren basiert wiederum auf dem Prinzip der komplementären Basenpaarung, wobei ein bestimmter Genort von Interesse ist. Soll ein solcher Genabschnitt beispielsweise auf das Vorliegen einer Punktmutation oder eines Single-Nukleotid-Polymorphismus (SNP – häufigste Form von Variationen im menschlichen Genom) untersucht werden, so benutzt man als Proben vier DNA-Stränge, die sich nur an der zentral gelegenen, interessierenden Stelle in einer Base unterscheiden. An dieser Position steht in der Probe 1 die Base A, in Probe 2 die Base C, in Probe 3 die Base G und in Probe 4 die Base T (Abb.18). Nach Inkubation des Arrays mit der Targetsubstanz ist die Intensität auf dem Feld am höchsten, welches die zur jeweiligen Probe komplementäre Base trägt.
Bei der Analyse eines 1000 Basen umfassenden DNA-Abschnittes sind demzufolge mindestens 4000 Arrayfelder erforderlich.
Dieses Verfahren ist bislang zur Detektion von Variationen längerer Sequenzen (z.B. Deletion oder Insertion längerer Abschnitte, längere Polymorphismen) wenig geeignet [LFGL 99].
Abbildung 18 Prinzip der Genotypanalyse mit
Oligonukleotidarrays
VI. Datenanalyse bei
Genexpressionsprofilen
Aufgabe der statistischen Auswertung ist es, aus der Vielzahl von im Verlauf des Experiments gewonnenen Daten funktionelle Aussagen über das untersuchte Genom bzw. den Modellorganismus zu gewinnen. Mögliche Fragestellungen hierbei könnten sein:
· Funktion verschiedener Gene und an welchen zellulären Vorgängen sind sie beteiligt
· Aussagen zur Genregulation und Interaktion verschiedener Gene und Genprodukte
· Variation des Genexpressionslevels in verschiedenen Zelltypen und bei unterschiedlichen Umgebungsbedingungen bzw. Entwicklungsstadien
Die experimentell gewonnenen Daten können in einer sogenannten Genexpressionsmatrix dargestellt werden (Abb.19 und 20). Hierbei repräsentieren die Zeilen der Matrix unterschiedliche Gene, die Spalten dagegen verschiedene Stichproben (z.B. unterschiedliche Zeitpunkte, unterschiedliche Umgebungsfaktoren, unterschiedliche Gewebe usw.) . Auf diese Weise ist zunächst eine übersichtliche Darstellung der Expressionsdynamik für jedes einzelne Gen im Versuchsverlauf möglich.
Im nächsten Schritt wird beurteilt, welche Gene eine ähnliche Expressionsdynamik aufweisen. Wichtiges statistisches Hilfsmittel hierfür ist die Clusteranalyse. Werden beispielsweise Gengruppen vorwiegend während bestimmter Mitosestadien exprimiert, so kann angenommen werden, daß die Genprodukte eine entsprechende Funktion in diesen Zellteilungszyklen aufweisen. Erfolgt eine gesteigerte Genexpression nur im Tumorgewebe, dagegen nicht in gesunden Zellen, so scheinen die betroffenen Gene eine Bedeutung in der Pathogenese dieser Neoplasmen zu besitzen und können Ausgangspunkt weiterer Forschungsarbeit sein.
Abbildung 19 Schema
einer Genexpressionsmatrix
Hier wird deutlich, wie anhand von Genexpressionsanalysen funktionelle Aussagen getroffen werden können. Auf diese Weise ist die Erforschung von Genen mit bislang ungeklärter Funktion möglich. Kennt man die Funktion einer Gengruppe und kann nachweisen, daß unter bestimmten Umgebungsbedingungen ein zu untersuchendes Gen mit dieser Gengruppe koexprimiert wird, so scheint dieses betreffende Gen ebenfalls funktional mit den bekannten Genen gekoppelt zu sein [BV 00].
Abbildung 20 Genexpressionsmatrix
unter Variation der Umgebungsbedingungen. Gene mit ähnlicher Expressionsdynamik wurden bereits
in Clustern zusammengefaßt
Stellvertretend für verschiedene Analysemethoden soll in diesem Beitrag auf Grund des hohen Stellenwerts schwerpunktmäßig das Prinzip der Clusteranalyse dargestellt werden.
1.
Clusteranalyse
Unter einem Cluster versteht man eine Gruppe von Elementen, die bezüglich ihrer ähnlichen oder gleichen Eigenschaften als zusammengehörig betrachtet werden. Im Falle der Expressionsmatrix liegen meist Fluoreszenzintensitäten inform von Brüchen vor. Werden beispielsweise Messungen zu verschiedenen Zeitpunkten durchgeführt, so kann die zum Zeitpunkt 0 gewonnene cDNA grün markiert werden und als Referenzintensität dienen. Die zu den folgenden Zeitpunkten gewonnene cDNA wird rot markiert und vor Hybridisierung mit dem Referenztarget zu gleichen Anteilen vermischt. Werden die Intensitätsratios rot/grün gebildet, so erhält man Zahlenwerte kleiner Eins, falls im Vergleich zum Zeitpunkt 0 eine Intensitätsabnahme gemessen wurde (d.h. Genrepression), ein Ratio größer Eins bedeutet Intensitätszunahme (d.h. Genexpression), ein Ratio von Eins unveränderte Intensitäten (d.h. keine Veränderung des Expressionslevels im Vergleich zu Zeitpunkt 0). Alle Ratios werden anschließend logarithmisch transformiert (meist zur Basis 2), so daß gleiche Intensitätsänderungen numerisch gleichen Beträgen entsprechen. Eine Intensitätszunahme entspricht demnach einem positiven Wert, eine Intensitätsabnahme gleichen Betrags wird durch das negative Vorzeichen ausgedrückt. Werden zwei verschiedene Gene im Zeitverlauf, d.h. an N verschiedenen Zeitpunkten verglichen, so erhält man zwei Meßreihen mit jeweils N logtransformierten Intensitätsratios. Als Maß des Zusammenhangs kann hierbei einfach der Pearsonsche Korrelationskoeffizient berechnet werden. Zwei verschiedene Gene mit großen Korrelationskoeffizienten, d.h. ähnlicher Expressionsdynamik können im gleichen Cluster gruppiert werden. Die Abschätzung, wie groß der Korrelationskoeffizient sein muß, um die Einstufung zweier Gene in einem Cluster zu rechtfertigen, erfolgt technisch und damit wenig funktionell orientiert, was aber auf Grund der meist fehlenden Kenntnisse funktionaler Hintergründe verständlich ist.
Bei anderer Betrachtungsweise kann man sich jedes Gen als Vektor in einem N-dimensionalen Vektorraum vorstellen und als Ähnlichkeitsmaße berechenbare Größen des Vektorraums wie euklidischer Abstand oder Winkel zwischen den Vektoren heranziehen. Bei Normalisierung der N-dimensionalen Vektoren (d.h. Vektorbetrag ist 1) erhält man bei Vergleichen im Vektorraum ähnliche Aussagen wie bei o.g. Korrelationsanalyse (Betrag des Korrelationskoeffizienten auch zwischen 0 und 1 gelegen).
Die Umwandlung der „rohen“ Meßdaten in normalisierte Werte der Expressionsmatrix ist nicht so trivial, wie es scheinen mag. So muß auf einer sehr kleinen Fläche die exakte Abgrenzung eines Arrayfeldes zum benachbarten möglich sein, die Hintergrundsignalintensität pro Feld (beispielsweise durch unspezifisch gebundene Targets) muß beachtet und ggf. subtrahiert werden. Da die Signalintensität pro Spot nicht gleichmäßig verteilt ist, macht sich eine Mittelung erforderlich. Diese Nachbearbeitung wird durch verschiedenartige Bildverarbeitungssoftware bewerkstelligt, wobei jedes Labor individuelle Einstellungen vornimmt. Eine befriedigende Standardisierung zwischen den Laboren fehlt, so daß die Verläßlichkeit und Vergleichbarkeit vorliegender Daten aus Microarrayversuchen eingeschränkt ist. Diese wenigen Bemerkungen sollen die Problematik des noch in den Kinderschuhen steckenden Verfahrens andeuten, wobei, wie bereits bemerkt, die Schwierigkeiten auch in anderen Teilbereichen der Versuchsdurchführung liegen.
Hierarchische
Clusteranalyse
Die grafische Darstellung des Ergebnisses dieser Analyse erfolgt in Form eines als Dendogramm bezeichneten Binär-Baums (Abb.21). Aus allen Meßreihen wird die sogenannte Distanzmatrix berechnet, in welcher die Abstände zwischen allen Genen aufgeführt sind. Initial stellt jedes Gen ein eigenes Cluster dar (feinste Partition). Im nächsten Schritt wird das Genpaar mit der größten Ähnlichkeit, d.h. dem höchsten Korrelationskoeffizienten bzw. der kleinsten euklidischen Distanz ermittelt. Diese beiden Gene werden in einem neuen Cluster zusammengefaßt. Anschließend ist die Neuberechnung der nunmehr reduzierten Distanzmatrix erforderlich. Das zu diesem neuen Cluster am nähesten gelegene Gen wird nun auf einer in der Hierarchie höher gelegenen Ebene ebenfalls mit diesem Cluster fusioniert. Diese Prozedur wird N-1 mal wiederholt, bis am Ende nur noch ein Element (Gen) verbleibt. Die Grenze zwischen verschiedenen Clustern wird anschließend dort gezogen, wo das Abstandsmaß im Fusionierungsprozeß sprunghaft ansteigt. Der generierte Baum entspricht einer grafischen Darstellung dieses Fusionierungsprozesses.
Als Problem bei Anwendung des Pearsonschen Korrelationskoeffizienten muß die Empfindlichkeit gegenüber Ausreißern genannt werden, robuster wäre hier die Rangkorrelation ( Korrelationskoeffizient nach Spearman oder Kendall), welche allerdings auch weniger sensitiv ist.
Abbildung 21
Darstellung der schrittweisen
Fusionierung durch Hierarchischen
Clusterbaum
Bei Generierung des Baumes ist ein Kriterium erforderlich, welches den Abstand zwischen verschiedenen Clustern definiert. Anhand dieses Kriteriums können drei Formen der Hierarchischen Clusteranalyse unterschieden werden. Bezieht man sich auf die minimale Distanz zwischen Genen beider Cluster, so spricht man von „single linkage“, wird der maximale Abstand zugrunde gelegt, dann heißt das Verfahren „complete linkage“, ist die Distanz zwischen zwei Clustern jeweils der Durchschnitt aller Distanzen von jedem möglichen Paar aus beiden Clustern, führt das zum „average linkage “. Single linkage generiert oft große, ausgedehnte Cluster, complete linkage dagegen kleine kompakte Gruppen. Average linkage stellt einen Kompromiss dar und kommt deswegen häufig zum Einsatz. Nachteile der hierarchischen Clusteranalyse sind die Generierung extrem komplexer, unübersichtlicher Bäume, innerhalb derer die Abtrennung von Clustern oft schwerfällt. Zudem handelt es sich um ein lediglich auf Abständen basierendes lokales Verfahren, d.h. einmal verbundene Gene lassen sich nicht wieder separieren, es erfolgt keine globale Betrachtungsweise der Daten [HKY 99].
K-Means-Clusteranalyse
Einem anderen Prinzip folgt die zu den partitionierenden Verfahren gehörende K-Means-Clusteranalyse. Ausgehend von einer willkürlichen Gruppeneinteilung versucht man, durch Verlagerung der Objekte in andere Gruppen zu besseren Lösungen zu gelangen. Die Anzahl der nach Analyse erhaltenen Cluster K wird a priori festgelegt. Initial muß der Vektorraum also in K Bereiche partitioniert und jeweils ein Bereichszentrum berechnet werden. Die Festlegung des Bereichszentrums wie auch die initiale Partitionierung des Vektorraumes kann auf unterschiedliche Weise erfolgen (z.B. zufällig). Für die jeweils gültige Gruppenzuteilung wird die Summe aller Abstandsquadrate berechnet und überprüft, ob diese durch Verlagerung von Genen in andere Cluster minimiert werden kann. Abgebrochen wird, wenn alle Gene bezüglich ihrer Verlagerung überprüft wurden und keine Verbesserung mehr erzielt werden kann. Da sich nicht alle möglichen Gruppenbildungen testen lassen (bei m Genen ergeben sich Km Einteilungen !), stellt die gefundene Lösung lediglich ein lokales Minimum dar. Ein weiterer Nachteil dieses Verfahrens besteht darin, daß die ja unbekannte Anzahl der Cluster a priori bestimmt werden muß. Eine Teillösung hierfür wäre das Testen verschieden großer K`s. Auch die initiale Gruppeneinteilung kann bis zu einem bestimmten Grad variert werden.
Self-Organizing-Maps (SOM)
Die von Teuvo Kohonen 1982 [K 82] vorgestellten selbstorganisierenden Karten (self-organizing maps) stellen eine Klasse künstlicher neuronaler Netzwerke dar, die sich besonders in den Bereichen der Sprachverarbeitung und der Robotersteuerung bewährt hat. Eine selbstorganisierende Karte definiert die Abbildung eines Eingaberaums auf einen Ausgaberaum. Mit einem iterativen Verfahren, dem Prozeß der Selbstorganisation, wird eine zufällige initiale Abbildung dahingehend modifiziert, daß die resultierende Abbildung weitgehend zwei Anforderungen entspricht: Nachbarschaftserhaltung und Verteilungserhaltung.
Abbildung 22 Beispiel einer SOM
Aufgrund der Nachbarschaftserhaltung kann das Bild im Ausgaberaum als Karte des Eingaberaums angesehen werden [TUH]. Ohne in diesem Rahmen detaillierter auf die genaue Wirkungsweise eingehen zu können, sind SOM’s auch zur Clusterbildung bei Genexpressionsprofilen einsetzbar [TS 99]. In Abbildung 22 ist beispielhaft eine SOM dargestellt.
Quality-Cluster-Algorithmus
(QT-Clust)
Heyer et al. [HKY 99] entwickelten eine Form der Clusteranalyse mit mehr globaler Sicht auf die Daten als die vorab beschriebenen Verfahren. Das Prinzip besteht darin, Cluster zu finden, deren Durchmesser einen festgelegten Wert nicht überschreitet. Ausgehend von einem Gen als Kandidatencluster, werden andere Gene mit großem Korrelationskoeffizienten in dieses Cluster gruppiert. Die Zuordnung von Genen in ein Cluster erfolgt derart, daß die Zunahme des Clusterdurchmessers minimal ist. Dieser Vorgang iteriert solange, bis keine weitere Zuordnung von Genen zu Clustern möglich ist, ohne das der zuvor festgelegte maximale Clusterdurchmesser überschritten würde. Im folgenden Schritt wird nun ein zweites Gen als primäres Kandidatencluster ausgewählt und der gesamte Algorithmus wiederholt. Ein entscheidende Unterschied zur Hierarchischen Clusteranalyse besteht darin, daß die zuvor schon in andere Cluster gruppierten Gene in den folgenden Schritten wieder unabhängig für andere Kandidatencluster zur Verfügung stehen und somit trotz bereits vorliegender Bindung in einer Gruppe nicht aus der weiteren Betrachtung ausgeschlossen sind. Diese Prozedur wird für alle Gene wiederholt. Am Ende entspricht die Anzahl der Kandidatencluster der Anzahl untersuchter Gene. Die meisten Kandidatencluster überlappen sich. An dieser Stelle wird jeweils das größte Cluster ausgewählt. Als Ähnlichkeitsmaß dient bei diesem Algorithmus der Jackknife-Korrelationskoeffizient [HKY 99].
2. Fourieranalyse
Generell kann nach Abschluß eines beliebigen Clusterverfahrens die Qualität der Analyse kontrolliert werden, indem das Expressionsverhalten aller Gene über die Zeit in einem Diagramm dargestellt wird (Abb.23).
Abbildung 23 Koexpression der Gene eines Clusters
Hier erwartet man eine Koexpression dieser Gene, das heißt die Form der Graphen sollte etwa übereinstimmen. Eine Periodizität dieser Graphen tritt dann auf, wenn sich das Expressionsverhalten der Gene eines Clusters zyklisch verhält. Das ist beispielsweise bei in Zellteilungsprozesse involvierten Genen der Fall. Detailliertere Zusammenhänge lassen sich dabei mit Hilfe der Fourieranalyse aufdecken.
3. Faktorenanalyse
Auch die Faktorenanalyse hat zum Ziel, ähnliche Eigenschaften im Expressionsprofil von Genen zusammenzufassen. Gegenstand dieses statistischen Verfahrens ist es, aus einer großen Anzahl untereinander abhängiger Einflußgrößen wenige, die Datenvariabilität erklärende Faktoren herauszukristallisieren. Die Basishypothese der Faktorenanalyse besteht demnach darin, das die zwischen Genen beobachtete Korrelation durch einen oder mehrere, „hinter“ den Daten verborgene Faktoren verursacht wird. Damit weicht sie von dem Konzept der Korrelationsanalyse im engeren Sinne ab, welche einen kausalen Zusammenhang zwischen den Variablen finden möchte. Der Einsatz der Faktorenanalyse entspricht somit unserem biologischen Verständnis, daß einer Koexpression von Genen eine gemeinsame Funktion zugrunde liegt. Untersucht man beispielsweise eine Zelle mit vier verschiedenen Funktionszuständen, so könnte die Faktorenanalyse aus der Vielzahl untersuchter Gene mindestens vier signifikante Faktoren extrahieren, die „verborgen“ im Hintergrund stehen und die beobachtete Variabilität der Intensitäten erklären können .
Jeder gefundene Faktor ist mit einem bestimmten Gewicht (=Faktorladung) an der Erklärung der Ausgangsvariable beteiligt. Hierbei wird ein linearer Zusammenhang zwischen Ausgangsvariablen und Faktoren unterstellt.
Das Prinzip der Faktorenanalyse läßt sich grafisch deuten. Alle korrelierenden Ausgangsvariablen (Gene) lassen sich jeweils als Vektor in einem gemeinsamen Koordinatensystem darstellen, wobei der Kosinus des Winkels zwischen zwei Vektoren dem Korrelationskoeffizienten dieser beiden Variablen entspricht. Der erste Faktorvektor wird nun als Resultante aller Variablenvektoren in das Koordinatensystem gelegt. Der Kosinus des Winkels zwischen Variablen- und Faktorvektor ergibt den Korrelationskoeffizienten zwischen Faktor und jeweiliger Ausgangsvariable. Der zweite Faktor soll unabhängig vom ersten sein und muß daher wie alle weiteren Faktoren senkrecht auf den bereits vorhandenen Faktorenvektoren stehen. Die Summe der quadrierten Faktorenladungen bezogen auf eine Variable entspricht dem Varianzerklärungsteil dieser Faktoren (=Bestimmtheitsmaß). Wenn eine Variable restlos durch die extrahierten Faktoren erklärt wird, so beträgt diese Summe 1. Der durch alle extrahierten Faktoren erklärte Gesamtvarianzanteil heißt Kommunalität. Da diese nicht bekannt ist, in die Analyse aber eingeht, erfolgt bei der „klassischen“ Faktorenanalyse vorab eine Schätzung (meist wird der größte Korrelationskoeffizient zwischen den Variablen benutzt). In diesem Punkt liegt der Unterschied zur Hauptkomponentenanalyse (nicht zu verwechseln mit der Hauptachsentransformation!), in deren Rahmen keine Reszvarianz postuliert wird, das heißt die Kommunalität beträgt 1.
Um die Faktoren besser interpretieren zu können, was meist nur möglich ist, wenn jeder Faktor nur mit einer kleinen begrenzten Menge von Variablen korreliert, werden die Faktorenvektoren anschließend oft so rotiert, daß die Qualität der gefundenen Lösung bzgl. Kommunalität und erklärter totaler Varianz gleich bleibt, die Faktorladungsmatrix sich aber ändert. Häufig wird zum Zweck der besseren Interpretierbarkeit eine schiefwinklige Rotation durchgeführt, die allerdings bewirkt, dass die Faktoren korrelieren (Faktorladung ist dann nicht mehr gleich Korrelation).
Die eigentliche inhaltliche Interpretation der berechneten Faktoren kann allerdings durch kein statistisches Verfahren geleistet werden, sondern obliegt dem Forscher und beinhaltet eine große subjektive Komponente [B 99] [BEP 2000].
4. Diskriminanzanalyse
Die bisher dargestellten Formen der Clusteranalysen gehören zu den sogenannten Verfahren der `unsupervised analysis`, deren Ziel es ist, Objekte mit ähnlichen Eigenschaften in einer Gruppe zusammenzufassen. Ein anderer Ansatz wird bei den Verfahren der `supervised analysis` verfolgt. Bezogen auf die Microarrays geht es darum, Unterschiede zwischen Expressionsprofilen herauszufinden, um diese anschließend als Voraussage nutzen zu können. Werden beispielsweise Expressionsprofile gesunder und maligne entarteter Gewebe verglichen und können hier Regeln aufgestellt werden, die anhand der vorliegenden Expressionsprofile relativ sicher zwischen beiden unterscheiden, so kann dieses Verfahren bei Gewebeproben unklarer Dignität zur Frühdiagnostik von Malignomen eingesetzt werden.
Golub et al. [GS 99] verglichen Leukozytengenexpressionsprofile zwischen akuter myeloischer Leukämie (AML) und akuter lymphatischer Leukämie (ALL) und konnten 50 diskriminierende Gene detektieren, anhand derer anschließend in 29 von 34 Fällen die korrekte Klassifikation der vorliegenden Leukämieform gelang.
Die allgemeine Vorgehensweise ist immer gleich. Man versucht zunächst auf Grundlage bekannter Zuordnungen diskriminierende Parameter herauszufinden, „trainiert“ und korrigiert dann dieses System auf Expressionsprofilen bekannter Klassifikation, um letztendlich bei befriedigender Trennschärfe Datensätze unbekannter Klassifikation richtig zuzuordnen. Die hierbei zum Einsatz kommenden statistischen Verfahren der Diskriminanzanalyse sollen an dieser Stelle nicht weiter erörtert werden, sie unterscheiden sich jedoch bei Expressionsprofilen nicht von denen anderer Anwendungen [BV 00] [ESBB 98].
Ein einzelner Versuch mit 20 000 Felder pro Array kann eine Menge von einer Million Daten erzeugen, schon bei einer Versuchsserie werden mehrere Millionen Informationen generiert. Die Organisation einer derartigen Datenflut macht eine effiziente Datenbank erforderlich, welche gleichzeitig anderen Forschungseinrichtungen für Vergleiche, eigene Projekte oder Speicherung und Auswertung individueller Daten zugänglich sein sollte.
Beispielhaft für eine Vielzahl von Microarraydatenbanken wird hier die Stanford-Microarray-Datenbank (SMD) der Stanford University genannt, welche über Internetanbindung ohne zusätzliche Clientsoftware mit dem Webbrowser genutzt werden kann (http://genome-www5.stanford.edu/MicroArray/SMD/). Der Zugang ist von verschiedenen Plattformen aus ohne Probleme möglich (MacOS, UNIX, Windows). SMD läuft auf einem Sun-Server und nutzt Oracle 8 als DBMS, die Implementation erfolgte daher als relationale Datenbank. Skripte sind vorwiegend in PERL programmiert, aufwendigere Prozeduren auch in C. Der in SMD benutzte Quellcode sowie die zugrundeliegenden Datenbankschemata sind für Forschungseinrichtungen verfügbar. Das Hochladen von Daten aus eigenen Experimenten in die Datenbank ist über Webformular möglich. Die gespeicherten Microarraydaten und zugehörige Informationen zum Experiment können jederzeit aktualisiert werden. Umgekehrt ist auch ein Herunterladen der gespeicherten experimentellen Daten zur individuellen Weiterverarbeitung möglich.
Besonders hervorzuheben an SMD ist, daß neben den rein experimentellen Daten zugleich mit den einzelnen Arrayfeldern assoziierte biologische Informationen abgelegt werden. Dies ist insofern wichtig, da Arrayexperimente ohne den zugehörigen biologischen Kontext kaum sinnvoll interpretierbar sind. So sind beispielsweise für Expressionsversuche am Genom der Hefe (Saccharomyces cerevisiae), soweit bekannt, die molekularen Funktionen der einzelnen Gene gespeichert. Korrespondierend zu anderen biologischen Datenbanken (Sequenz-Datenbanken, Protein-Datenbanken) erfolgt bei neuen Erkenntnissen ein Update der SMD.
Für jedes Experiment sind der Name des Autors, jeweils eine die biologischen Hintergründe des Experiments beschreibende Kategorie / Subkategorie sowie der Modellorganismus angegeben. Jedes dieser Kriterien kann allein oder in Kombination für Datenbankanfragen verwendet werden.
Page
Navigation |
List
Navigation |
List Display |
|
Citation |
Organisms(s) |
Web Supplement |
PubMed Link |
Full Text |
Data in SMD |
Alizadeh AA, et al. (2000) Nature 403(6769):503-11 |
Homo sapiens |
||||
Blader IJ, et
al. (2001) J Biol
Chem 276(26):24223-31 |
Homo sapiens |
||||
Chu S, et al. (1998) Science 282(5389):699-705 |
Saccharomyces cerevisiae |
Abbildung 24 Ausschnitt aus der Liste verfügbarer Microarrayexperimente
in SMD
Daten können individuell für einzelne Spots, das einzelne Array, aber auch über mehrere, zuvor selektierte Arrays abgerufen und ausgewertet werden. Hierbei können verschiedene Ordnungskriterien und Filter eingesetzt werden (z.B. Einstellen einer minimalen Signalintensität, Ordnen nach auf- oder absteigenden Signalintensitäten pro Kanal, Auswahl von Arrayfeldern mit einer bestimmten Signaldifferenz usw.) Wie bei anderen Datenbankanfragen ist auch hier der Einsatz boolscher Ausdrücke möglich (z.B. Intensität Kanal 1 < 150 AND Intensität Kanal 2 > 300). Auf den abgerufenen Daten können mathematische und statistische Analysen und Transformationen durchgeführt werden. SMD unterstützt zur Auswertung von Genexpressionsprofilen bislang die Hierarchische Clusteranalyse sowie Selbstorganisierende Karten. Geplant ist die Einbindung weiterer statistischer Tools (beispielsweise des K-Means-Clustering) [SBK 01]. Abbildung 24 zeigt einen Auschnitt der Liste verfügbarer Arrayversuche in SMD. In Abbildung 25 ist beispielhaft ein in SMD generiertes Histogramm dargestellt. Für detailliertere Informationen lohnt sich ein Besuch oben genannter Adresse.