Bio-Datenbanken                        

 

 

 

 

 

 

     

 

 

 

                  Microarray-Datenbanken und Genexpressions-Profiling

 

 

 

 

                              Bearbeiter: Frank Tietze            Betreuer: Do Hong Hai

 

                                                 Inhaltsverzeichnis  

 

 

                                                                                                                                 Seite

 

 

I.                    Einleitung                                                                                         3

 

II.                 Prinzip von Microarrays                                                                      4                                           

 

III.               Herstellung von Microarrays                                                               8        

 

IV.              Genexpressionsanalyse                                                                    10

 

1.      Auswahl der Zellpopulation                                                        11

2.      Extraktion der mRNA und reverse Transkription            12       

3.      Markierung                                                                                12       

4.      Hybridisierung                                                                           14

5.      Scannen des Microarrays                                                           14

6.      Analyse                                                                                     15

 

V.                 Genotypanalyse mit Oligonukleotidarrays                                         15

 

 

VI.              Datenanalyse bei Genexpressionsprofilen                                          16

 

1.      Clusteranalyse                                                                           18

·        Hierarchische Clusteranalyse                                       19

·        K-Means-Clusteranalyse                                            20

·        Self-Organizing-Maps                                     20

·        Quality-Cluster-Algorithmus                                        21

 

2.      Fourieranalyse                                                                           21

3.      Faktorenanalyse                                                                        22

4.      Diskriminanzanalyse                                                                   23

 

 

VII.            Microarraydatenbanken                                                                   23

 

VIII.         Fibroblasten-Serumstimulation (Beispiel)                                          26

 

IX.              Zusammenfassung                                                                            28

 

X.                 Quellenverzeichnis                                                                           29

 

 

  

 

 

                                                  I. Einleitung

 

 

Wegbereiter des heutigen Einsatzes von sogenannten Genchips (microarrays) waren die rasanten Fortschritte innerhalb der Molekulargenetik in den letzten Jahren, insbesondere die Möglichkeit der systematischen Sequenzierung ganzer Genome, angefangen mit den relativ kleinen Bakteriengenomen, weiter über die Hefe (Pilz), dann den beiden vielzelligen Modellorganismen C. elegans (ein Fadenwurm) sowie Drosophila (Fliege) -und schließlich als Höhepunkt- dem Genom des Menschen.

 

 

                                    

 

                                                  Abbildung 1   Drosophila melanogaster

 

Nach derzeitigen Schätzungen gibt es in der Erbsubstanz des Menschen nur ungefähr 32000 Gene, was letztlich viel weniger ist, als primär auf Grund der Vielzahl verschiedenartiger Genprodukte (also den Proteinen) vermutet wurde. Dem stehen ca. 6000 Gene bei der Hefe, 13000 bei der Fliege und 19000 beim Wurm gegenüber.

 

                                                         

                                                              Abbildung 2   C.elegans

 

Wenn man also bedenkt, daß die Anzahl der menschlichen Gene nur das reichlich 1,5-fache  der Anzahl der Gene beim Wurm ausmacht (allerdings sind die Gene beim Menschen erheblich komplexer aufgebaut und größer ), andererseits aber den Unterschied in der Vielfalt von Merkmalen zwischen Mensch und Wurm betrachtet, ist man doch über diese Erkenntnis erstaunt. Letztlich zeigt dies aber nur, daß die einfache Übersetzung ein Gen – ein Merkmal so nicht zutreffen kann und man noch weit davon entfernt ist, die komplexen Mechanismen der molekulargenetischen Vorgänge in der Zelle wirklich verstanden zu haben. Da es viel weniger Gene als Eigenschaften gibt, wird jedes Gen mehrere Funktionen besitzen, zudem werden Merkmale in der Regel von verschiedenen Genen beeinflußt. Auf die Spitze getrieben heißt das, daß man vielleicht niemals von einem einzigen Gen genau wissen wird, welche Merkmale es alle beeinflußt. Es ist also eine Illusion, allein vom Genom auf die Phänomenologie des Individuums schließen zu wollen.

Eine weitere interessante Beobachtung der Genforschung war es festzustellen, daß es einen hohen Grad der Verwandschaft zwischen Genen ganz verschiedener Organismen gibt. So sieht man in der Hälfte der menschlichen Gene deutliche Ähnlichkeit zu Genen von Hefe, Fadenwurm oder Fliege. Da es bedeutend einfacher ist, die Funktionalität der Gene von Tieren zu erforsche, lassen sich auf diese Weise auch Rückschlüsse auf das menschliche Genom ziehen. [NV01]

Bisher wurde vorallem versucht, die Funktion von Genen unter Betrachtung nur des jeweiligen interessierenden einzelnen Gens herauszufinden. Dies ist zum Beispiel möglich, indem bei Zellkulturen oder Tieren (meist Mäusen) das betreffende Gen entfernt oder als Mutation eingebaut wird („knock out –Maus“) und man den daraus resultierenden Effekt beurteilt. Einen anderen Ansatzpunkt bietet die Microarraytechnik, welche die gleichzeitige Beurteilung aller Gene eines Organismus oder zumindest eines großen Teils dessen erlaubt. Damit lassen sich Rückschlüsse über Beziehungen zwischen Genen, über deren „Zusammenarbeit“ in Abhängigkeit von verschiedenen Umgebungsbedingungen, Stoffwechselsituationen oder Entwicklungsphasen bzw. Krankheiten ziehen. Um es nochmals hervorzuheben : die große Bedeutung des Einsatzes von Microarrays liegt unter anderem in der Möglichkeit des „Monitorings“ des gesamten Genoms eines Organismus.

 

 

 

                                   II. Prinzip von Microarrays

 

 

Voraussetzung für die Anwendung von Microarrays sind natürlich die heute in jedem molekularbiologischen Labor elementaren Techniken zur Vermehrung von Nukleinsäuren wie die Polymerasekettenreaktion (PCR- s.Abb.4) oder das Klonen (s.Abb.3), das Umschreiben von DNA in RNA und umgekehrt sowie die Markierung von Nukleotiden (z.B. mit Fluoreszenzfarbstoff oder radioaktiv). Einen besonderen Schub stellte die Entwicklung einer Technik dar, Nukleinsäuren in hoher räumlicher Dichte, jedoch wohl unterscheidbar, auf einer festen Oberfläche (z.B.Glasträger) anzuheften.

Nicht zuletzt wäre der Einsatz von Microarrays auch ohne die sogenannte konfokale Lasermikroskopie nicht denkbar.

 

 

                                                                               

 

Abbildung 3a  Prinzip des Klonen von DNA, Bakterium                         Abbildung 3b   Plasmid von E.coli

 

                                                               

 

 

                            

 

Abbildung 3c  Plasmid wird als Vektor für bestimmte Gene verwendet (hier am Beispiel des Insulingens)

 

 

 

                      

 

Abbildung 3d  Nach Einbau des fremden Gens in das Bakterium erfolgt dessen Expression und Replikation. Durch Kultivierung der Bakterienkolonie wird das Fremdgen vermehrt (geklont).                                             

                               

               

Microarrays beruhen auf der komplementären Basenpaarung von Nukleotidsequenzen (s.Abb.5 und 6). Liegt ein Nukleinsäuresegment als Einzelstrang vor, so kann sich nur der zu diesem Segment komplementäre Strang binden. Ist nun die genaue Sequenz eines Stranges bekannt, so kennt man  im Falle einer Bindung auch die Sequenz des gebundenen Nukleotidstranges. Anders ausgedrückt besteht das Prinzip der Microarrays darin, die Anwesenheit von Nukleinsäuren einer  speziellen Sequenz mit Hilfe dieser Eigenschaft der selektiven komplementären Bindung nachzuweisen. Ist es also nach Reaktion einer bekannten Nukleinsäure (Sonde) mit einer Mischung unbekannter Nukleinsäuren zur Bindung

 

 

                       

                                     

 

                                     

    

                                         

                                     

 

                                     

                                            Abbildung 4   Prinzip der Polymerasekettenreaktion

 

 

 

 

 

                                 

 

                                                     Abbildung 5   DNA-Doppelhelix

 

 

 

gekommen, müssen in der Mischung Nukleinsäuremoleküle vorhanden sein, deren Basensequenz komplementär zu jener der Sonde ist.

Bei Microarrays handelt es sich um kleine Glasträger ca. in der Größenordnung von 1.3 x 1.3 cm [LFGL 99]. Auf dieser Oberfläche befinden sich bis zu 300 000 voneinander abgetrennter Zellen (Spots). Auf jedem dieser Spots ist eine DNA-Probe bekannter Sequenz als Sonde fest angeheftet. Jeder dieser Spots wird mit einer in ihrer Zusammensetzung an verschiedenen Nukleinsäuresequenzen unbekannten Testsubstanz versetzt. Anschließend wird der Array abgewaschen. Dadurch verbleiben nur die auf Grund der Komplementarität gebundenen Nukleinsäuren der Testsubstanz auf dem Spot und lassen sich nach dieser als Hybridisierung bezeichneten Phase (s.Abb.7) auf dem Array nachweisen. Der Nachweis ist möglich, da die Nukleinsäuren der Testsubstanz vor der Hybridisierung mit Fluoreszenzfarbstoff markiert worden sind.

                                                         

                                     

 

                                            Abbildung 6   Prinzip der komplementären Basenpaarung

 

 

 

 

In der vorwiegend englischsprachigen Literatur zu Microarrays werden die beiden miteinander in Wechselwirkung tretenden Nukleotidsequenzen in verschiedener Funktion als `Probe` und `Target` bezeichnet. In diesem Übersichtsartikel soll für die fest auf dem Array

 

    

 

               Abbildung 7   Darstellung der Hybridisierung  zwischen Probe und Target

 

verankerte DNA (Sonde) mit bekannter Sequenz der Begriff `Probe` und für die markierte Testsubstanz mit unbekanntem Sequenzspektrum die Bezeichnung  `Target` reserviert sein.

Es lassen sich entsprechend der unterschiedlichen Anwendung zwei große Gruppen von Microarrays unterscheiden:

 

 

·        cDNA-Arrays  zur Erstellung von Expressionsprofilen (vorwiegend quantitativer Ansatz)

·        Oligonukleotidarrays  zur Genotypanalyse (vorwiegend qualitativer Ansatz)

 

Um Verwirrungen zu vermeiden, soll noch erwähnt werden, daß es sich bei dem Begriff Genchip lediglich um eine Analogie zum Chip der Mikroelektronik handelt. Hiermit soll verdeutlicht werden, daß in Anlehnung an die Transistoren des elektronischen Chips auf kleinstem Raum (s.Abb.8)  eine unvorstellbar große Anzahl von biologischen „Bauelementen“ – nämlich den DNA-Sonden (Proben) untergebracht ist.

 

                                

 

                                Abbildung 8   Zur Veranschaulichung der Größenverhältnisse von Microarrays

 

 

                                 III.  Herstellung des Microarrays

 

 

Es existieren verschiedene Verfahren der Herstellung von Microarrays, die sich jeweils einer der beiden folgenden Techniken zuordnen lassen:

 

-         in situ-Synthese

 

      -    „externe Synthese“

 

 

Bei der in situ-Synthese wird die Probe auf dem Microarray hergestellt – die Nukleotidkette wird schrittweise verlängert (z.B. Photolithographie). Dieses Verfahren kommt insbesondere bei Oligonukleotidarrays zur Anwendung, da hier einerseits die Sequenzgenauigkeit von herausragender Wichtigkeit ist, andererseits die zu synthetisierende Kette im Vergleich zur Expressionsanalyse sehr kurz ist ( Aufwand dieser Methode wächst mit der Kettenlänge).

Dem stehen Verfahren gegenüber, bei denen die DNA-Sonden (Proben)  „extern“ durch PCR oder Klonen hergestellt werden und dann mittels eines Roboters zielgenau auf die richtige Zelle des Microarrays aufgebracht werden (s.Abb.9). Hierbei handelt es sich in der Regel um längere Ketten. Die dabei entstehenden cDNA-Arrays werden vorallem zur Genexpressionsanalyse eingesetzt.

 

                                 

 

                                                 Abbildung 9   Arrayer zur „externen“ Synthese von Microarrays

 

 

 

Um einen Einblick in den mit der Herstellung von Microarrays verbundenen Aufwand zu erhalten, sei kurz das Prinzip der Photolithographie als Verfahren der in situ-Synthese dargestellt (s.hierzu auch Abb.10):

 

 

                    

 

 

    Abbildung 10   Prinzip der Herstellung von Oligonukleotidarrays durch das Verfahren der Photolithographie

 

 

 

Auf dem Array werden zunächst kurze Verbindungsmoleküle kovalent befestigt, deren freies Ende jeweils durch eine photolabile Gruppe gegenüber Bindungsreaktionen geschützt ist. Mittels Lichtmasken können die verschiedenen Spots selektiv belichtet werden. Nach Belichtung wird die protektive Gruppe am freien Ende des Linkermoleküls abgespalten, dieses reagiert dann mit dem zuvor zugesetzten, gewünschten Nukleotid. Das freie Ende dieses Nukleotids ist wiederum durch eine photoreaktive Gruppe vor Anlagerung geschützt. Durch wiederholte Serien lokalisierter Belichtungen und Reaktionen des Kettenendes mit dem entsprechenden, zuvor aufgebrachten Nukleotid, läßt sich auf jedem Spot des Microarrays eine beliebige Oligonukleotidsequenz synthetisieren. Die Kettenlänge bei dieser Anwendung bewegt sich oft zwischen 15 und 35-mer Oligonukleotiden.

Die Entwicklung einer effizienten Synthesestrategie führte dazu, daß bei einer Kettenlänge N lediglich 4 x N Synthesezyklen nötig sind  [LFGL 99].

 

 

                                     IV. Genexpressionsanalyse

 

 

Es werden hierbei im wesentlichen folgende Schritte durchlaufen. Eine schematische Übersicht gibt Abbildung 11.

 

(1)   Auswahl der zu untersuchenden Zellpopulation

(2)   Extraktion der mRNA und Reverse Transkription

(3)   Markierung

(4)   Hybridisierung

(5)   Scannen des Microarrays

(6)    Analyse / Speicherung  / Interpretation der gewonnenen Daten [JB 00].

 

 

 

                  

 

 

                               Abbildung 11    Schematische Darstellung des Ablaufs eines Microarrayversuchs

1)      Auswahl der zu untersuchenden Zellpopulation

 

Ziel des Experimentes ist die Untersuchung der Genexpression  bestimmter Zellen, d.h. man möchte wissen, welche Gene in diesen Zellen „angeschaltet“ sind. Die konkreten Fragestellungen können hierbei sehr vielfältig sein. So kann es von Interesse sein, die Genexpression unter verschiedenen Umgebungsbedingungen (z.B. nach Zugabe potentieller Medikamente o.ä.) bzw. innerhalb verschiedener Zellteilungsphasen oder Entwicklungszyklen zu beobachten und zu vergleichen. Welche Gene werden in Tumorgewebe exprimiert, dagegen aber nicht im gesunden Gewebe gleicher Organe ? Entsprechend dieser Heterogenität möglicher Fragestellungen unterscheiden sich die Microarrayexperimente deutlich im Detail. Ein konkretes Anwendungsbeispiele wird im letzten Abschnitt dargestellt..

Die zu untersuchenden Zellen entstammen Zellkulturen, Blut, chirurgischen oder pathologischen Gewebspräparaten (Abb.12). In diesen Zellen vorkommende mRNA soll mit Hilfe der Microarraytechnik quantitativ erfaßt werden. Nur exprimierte Gene führen zur Bildung einer entsprechend komplementären mRNA, also läßt sich die Expression dieser Gene nachweisen.

                                                                         

 

        

              

                                        Abbildung 12   Auswahl der zu untersuchenden Zellpopulation

 

 

 

 

2)      Extraktion der mRNA und Reverse Transkription

 

 

Zunächst muß die in der Zellpopulation vorliegende mRNA von den restlichen Zellbestandteilen und anderer RNA isoliert bzw. gereinigt werden. Der Anteil von mRNA am Gesamt-RNA-Bestand einer Zelle beträgt nur ca. 3%. Die meisten mRNA-Moleküle besitzen eine Polyadeninsequenz, so daß sie mit Hilfe einer auf einem Träger befestigten komplementären Oligothymidinkette „gefangen“ werden können. Ein Problem stellt die oft sehr geringe Menge verfügbarer mRNA dar, welche auf alle Arrayspots verteilt werden muß. Da RNA sehr instabil ist und innerhalb kürzester Zeit enzymatisch gespalten wird, muß sie vor der Hybridisierung  in die stabile DNA zurückgeschrieben werden. Das wird mit dem Enzym Reverse Transkriptase (=RNA-abhängige DNA-Polymerase) bewerkstelligt. Dieses Enzym ist Bestandteil verschiedener RNA-Viren (Retroviren), die zur Vermehrung (Replikation) darauf angewiesen sind, ihr eigenes Genom in das der Wirtszelle (DNA) einzubauen (Abb.13). Die durch die reverse Transkription entstehende DNA wird als cDNA bezeichnet (copy DNA).

 

                                  

 

                                                 Abbildung 13   Replikationszyklus von Retroviren

 

 

Probleme können auftreten, wenn die verschiedenen mRNA-Moleküle in unterschiedlichem Ausmaß reverse transkribiert werden. Hieraus resultiert eine Verschiebung der Mengenrelationen, das richtige Verhältnis mRNA : cDNA zwischen unterschiedlichen Genen bleibt nicht gewahrt. Da bei Genexpressionsanalysen  vorallem quantitative Aussagen getroffen werden, kann die am Microarray gemessene Intensität fehlerhaft sein. Werden beispielsweise zwei Gene 1 und 2 gleich exprimiert, liegen mRNA-1 und mRNA-2 intrazellulär in derselben Konzentration vor. mRNA-1 wird anschließend im Vergleich zur mRNA-2 zum größeren Anteil reverse transkribiert. Die cDNA-1-Konzentration ist somit danach größer als die der cDNA-2. Die Auswertung führt dann fälschlicherweise zu der Annahme, Gen 1 würde stärker exprimiert. Diese Verzerrung bezeichnet man als `reverse transkription bias`.

Zudem sei hier angemerkt, daß es keine feste Korrelation zwischen zellulärer mRNA und zellulärem Proteinspiegel gibt, so daß absolut-quantitative Rückschlüsse aus den Ergebnissen des Microarrayexperiments auf die jeweilige Proteinkonzentration derzeit noch nicht möglich sind. Entsprechende mRNA vs. Protein-Korrelationsstudien laufen derzeit [BV 00].

 

 

3)      Markierung

 

 

Um die am Microarray gebundene cDNA detektieren zu können, muß sie vor der Hybridisierung markiert werden, dies geschieht meist durch Einbau fluoreszierender Farbstoffe ( z.B. Cy3 -> rot und Cy5 -> grün ). Soll beispielsweise die Veränderung des Expressionsprofils vor und nach Zugabe einer bestimmten Substanz beurteilt werden, so kann die vor Zugabe gewonnene cDNA grün und die nach Zugabe extrahierte cDNA rot markiert werden (Abb.14). Jedes Arrayfeld wird dann mit beiden Targets bestückt. Nach Hybridisierung grün fluoreszierende Arrayfelder zeigen an, daß die entsprechenden Gene durch Zugabe der Substanz reprimiert werden, rot fluoreszierende Spots zeigen die nach Substanzzugabe exprimierten Gene an. Kommt es zu keiner Veränderung im Transkriptionslevel, fluoreszieren die betreffenden Felder gelb. Werden Gene im gesamten Verlauf des Experiments überhaupt nicht exprimiert, erscheinen die entsprechenden Spots auf dem Microarray als schwarze Punkte.

 

 

                                                                                                                                                                      

          

                           Abbildung 14   Microarrayversuch unter verschiedenen Umgebungsbedingungen

 

 

 

Die Menge der pro cDNA-Molekül eingebauten Farbstoffmoleküle hängt sowohl von der Länge als auch Sequenz der cDNA ab. Da nicht bekannt ist, wieviel Farbstoffmoleküle pro cDNA eingebaut werden, lassen die gemessenen Intensitäten keine quantitativen Vergleiche zwischen verschiedenen cDNA-Molekülen zu, sondern nur zwischen identischen cDNA- Sequenzen der beiden Targets.

 

 

                                                 

 

                                                                       Abbildung 15     Microarray 

Die in Publikationen veröffentlichten, bunt leuchtenden Microarrays (Abb.15) dienen lediglich der Illustration und sind nach Hybridisierung derart nicht mit bloßem Auge sichtbar. Erst durch Stimulation mit einem Laser wird der Farbstoff zur Fluoreszenz angeregt, detektiert werden dann die emittierten Wellenlängen. Jeder der Farbstoffe läßt sich nur durch Licht einer charakteristischen Wellenlänge (exzitatorische Wellenlänge) zur Fluoreszenz anregen. Die Wellenlänge des emittierten Lichts unterscheidet sich von der exzitatorischen Wellenlänge

 

 

4)      Hybridisierung

 

 

Jedes Arrayfeld wird mit den zuvor vermischten und unterschiedlich markierten beiden cDNA-Targets versetzt. Pro Spot finden sich ausreichend DNA-Sonden (Proben), so daß es nicht zu kompetativen Verdrängungsreaktionen unter den cDNA-Targets kommt (gemeint ist, daß keine Konkurrenz um Bindungsplätze an den Sonden auftritt). Bei Komplementarität zwischen Sonde (Probe) und Target erfolgt die Bindung. Alle nicht gebundenen Targetmoleküle werden durch Abwaschen vom Microarray entfernt. Abbildung 16 zeigt eine elektronenmikroskopische Aufnahme des Hybridisationsvorgangs.

 

 

                          

 

              Abbildung 16   Elektronenmikroskopische Aufnahme der Hybridisation zwischen Probe und Target

                 

 

5)      Scannen des Microarrays

 

 

Mittels eines konfokalen Lasermikroskops wird jeder Spot des Arrays gleichzeitig mit der exzitatorischen Wellenlänge beleuchtet und das emittierte Licht für beide Farbstoffe absorbiert. Beide Farbstoffe müssen eine sich deutlich unterscheidende Emissionswellenlänge besitzen. Dadurch wird es möglich, durch Filter über zwei getrennte Kanäle jeweils selektiv nur das Licht eines Farbstoffs auf den Detektor zu leiten und dessen Intensität zu messen (Abb.17).

 

 

 

                                   

 

      Abbildung 17    Intensitätsmessung der fluoreszierenden Arrayfelder über zwei Kanäle (rot und grün) 

 

 

 

                

6)      Analyse

 

Auf die statistische Datenanalyse wird noch in  Abschnitt VI ausführlich eingegangen.

 

 

                

                             V.  Genotypanalyse mit Oligonukleotidarrays

 

 

Hierbei handelt es sich im Gegensatz zum Genexpressionsprofiling um eine vorwiegend qualitative Fragestellung. Eine typische Anwendung ist die Detektion bekannter Mutationen bzw. Polymorphismen. Das Verfahren basiert wiederum auf dem Prinzip der komplementären Basenpaarung, wobei ein bestimmter Genort von Interesse ist. Soll ein solcher Genabschnitt beispielsweise auf das Vorliegen einer Punktmutation oder eines Single-Nukleotid-Polymorphismus (SNP – häufigste Form von Variationen im menschlichen Genom) untersucht werden, so benutzt man als Proben vier DNA-Stränge, die sich nur an der zentral gelegenen, interessierenden Stelle in einer Base unterscheiden. An dieser Position steht in der Probe 1 die Base A, in Probe 2 die Base C, in Probe 3 die Base G und in Probe 4 die Base T (Abb.18). Nach Inkubation des Arrays mit der Targetsubstanz ist die Intensität auf dem Feld am höchsten, welches die zur jeweiligen Probe komplementäre Base trägt.

Bei der Analyse eines 1000 Basen umfassenden DNA-Abschnittes sind demzufolge mindestens 4000 Arrayfelder erforderlich.

Dieses Verfahren ist bislang zur Detektion von Variationen längerer Sequenzen (z.B. Deletion oder Insertion längerer Abschnitte, längere Polymorphismen) wenig geeignet [LFGL 99].

 

 

                                                                  

 

                    Abbildung 18   Prinzip der Genotypanalyse mit Oligonukleotidarrays

 

                                     

                         

 

                     VI.  Datenanalyse bei Genexpressionsprofilen

 

 

Aufgabe der statistischen Auswertung ist es, aus der Vielzahl von im Verlauf des Experiments gewonnenen Daten funktionelle Aussagen über das untersuchte Genom bzw. den Modellorganismus zu gewinnen. Mögliche Fragestellungen hierbei könnten sein:

 

·        Funktion verschiedener Gene und an welchen zellulären Vorgängen sind sie beteiligt

·        Aussagen zur Genregulation und Interaktion verschiedener Gene und Genprodukte

·        Variation des Genexpressionslevels in verschiedenen Zelltypen und bei unterschiedlichen Umgebungsbedingungen bzw. Entwicklungsstadien

 

Die experimentell gewonnenen Daten können in einer sogenannten Genexpressionsmatrix dargestellt werden (Abb.19 und 20). Hierbei repräsentieren die Zeilen der Matrix unterschiedliche Gene, die Spalten dagegen verschiedene Stichproben (z.B. unterschiedliche Zeitpunkte, unterschiedliche Umgebungsfaktoren, unterschiedliche Gewebe usw.) . Auf diese Weise ist zunächst eine übersichtliche Darstellung der Expressionsdynamik für jedes einzelne Gen im Versuchsverlauf möglich.

Im nächsten Schritt wird beurteilt, welche Gene eine ähnliche Expressionsdynamik aufweisen. Wichtiges statistisches Hilfsmittel hierfür ist die Clusteranalyse. Werden beispielsweise  Gengruppen vorwiegend während bestimmter Mitosestadien exprimiert, so kann angenommen werden, daß die Genprodukte eine entsprechende Funktion in diesen Zellteilungszyklen aufweisen. Erfolgt eine gesteigerte Genexpression nur im Tumorgewebe, dagegen nicht in gesunden Zellen, so scheinen die betroffenen Gene eine Bedeutung in der Pathogenese dieser Neoplasmen zu besitzen und können Ausgangspunkt weiterer Forschungsarbeit sein.

                          

                                   Abbildung 19     Schema einer Genexpressionsmatrix

 

Hier wird deutlich, wie anhand von Genexpressionsanalysen funktionelle Aussagen getroffen werden können. Auf diese Weise ist die Erforschung von Genen mit bislang ungeklärter Funktion möglich. Kennt man die Funktion einer Gengruppe und kann nachweisen, daß unter bestimmten Umgebungsbedingungen ein zu untersuchendes Gen mit dieser Gengruppe koexprimiert wird, so scheint dieses betreffende Gen ebenfalls funktional mit den bekannten Genen gekoppelt zu sein [BV 00].

 

                                        

 

 

Abbildung 20   Genexpressionsmatrix unter Variation der Umgebungsbedingungen. Gene mit                                      ähnlicher Expressionsdynamik wurden bereits in Clustern zusammengefaßt

 

 

 

Stellvertretend für verschiedene Analysemethoden soll in diesem Beitrag auf Grund des hohen Stellenwerts schwerpunktmäßig das Prinzip der Clusteranalyse dargestellt werden.

 

                                                         

 

                                                       1. Clusteranalyse

 

Unter einem Cluster versteht man eine Gruppe von Elementen, die bezüglich ihrer ähnlichen oder gleichen Eigenschaften als zusammengehörig betrachtet werden. Im Falle der Expressionsmatrix liegen meist Fluoreszenzintensitäten inform von Brüchen vor. Werden beispielsweise Messungen zu verschiedenen Zeitpunkten durchgeführt, so kann die zum Zeitpunkt 0 gewonnene cDNA grün markiert werden und als Referenzintensität dienen. Die zu den folgenden Zeitpunkten gewonnene cDNA wird rot markiert und vor Hybridisierung mit dem Referenztarget zu gleichen Anteilen vermischt. Werden die Intensitätsratios rot/grün gebildet, so erhält man Zahlenwerte kleiner Eins, falls im Vergleich zum Zeitpunkt 0 eine Intensitätsabnahme gemessen wurde (d.h. Genrepression), ein Ratio größer Eins bedeutet Intensitätszunahme (d.h. Genexpression), ein Ratio von Eins unveränderte Intensitäten (d.h. keine Veränderung des Expressionslevels im Vergleich zu Zeitpunkt 0). Alle Ratios werden anschließend logarithmisch transformiert (meist zur Basis 2), so daß gleiche Intensitätsänderungen numerisch gleichen Beträgen entsprechen. Eine Intensitätszunahme entspricht demnach einem positiven Wert, eine Intensitätsabnahme gleichen Betrags wird durch das negative Vorzeichen ausgedrückt. Werden zwei verschiedene Gene im Zeitverlauf, d.h. an N verschiedenen Zeitpunkten verglichen, so erhält man zwei Meßreihen mit jeweils N logtransformierten Intensitätsratios. Als Maß des Zusammenhangs kann hierbei einfach der Pearsonsche Korrelationskoeffizient berechnet werden. Zwei verschiedene Gene mit großen Korrelationskoeffizienten, d.h. ähnlicher Expressionsdynamik können im gleichen Cluster gruppiert werden. Die Abschätzung, wie groß der Korrelationskoeffizient sein muß, um die Einstufung zweier Gene in einem Cluster zu rechtfertigen, erfolgt technisch und damit  wenig funktionell orientiert, was aber auf Grund der meist fehlenden Kenntnisse funktionaler Hintergründe verständlich ist.

Bei anderer Betrachtungsweise kann man sich jedes Gen als Vektor in einem N-dimensionalen Vektorraum vorstellen und als Ähnlichkeitsmaße berechenbare Größen des Vektorraums wie euklidischer Abstand oder Winkel zwischen den Vektoren heranziehen. Bei Normalisierung der N-dimensionalen Vektoren (d.h. Vektorbetrag ist 1) erhält man bei Vergleichen im Vektorraum ähnliche Aussagen wie bei o.g. Korrelationsanalyse (Betrag des Korrelationskoeffizienten auch zwischen 0 und 1 gelegen).

Die Umwandlung der „rohen“ Meßdaten in normalisierte Werte der Expressionsmatrix ist nicht so trivial, wie es scheinen mag. So muß auf einer sehr kleinen Fläche die exakte Abgrenzung eines Arrayfeldes zum benachbarten möglich sein, die Hintergrundsignalintensität pro Feld (beispielsweise durch unspezifisch gebundene Targets) muß beachtet und ggf. subtrahiert werden. Da die Signalintensität pro Spot nicht gleichmäßig verteilt ist, macht sich eine Mittelung erforderlich. Diese Nachbearbeitung wird durch verschiedenartige Bildverarbeitungssoftware bewerkstelligt, wobei jedes Labor  individuelle Einstellungen vornimmt. Eine befriedigende Standardisierung zwischen den Laboren fehlt, so daß die Verläßlichkeit und Vergleichbarkeit vorliegender Daten aus Microarrayversuchen eingeschränkt ist. Diese wenigen Bemerkungen sollen die Problematik des noch in den Kinderschuhen steckenden Verfahrens andeuten, wobei, wie  bereits bemerkt, die Schwierigkeiten auch in anderen Teilbereichen der Versuchsdurchführung liegen.

 

                                         

                                             Hierarchische Clusteranalyse

 

Die grafische Darstellung des Ergebnisses dieser Analyse erfolgt in Form eines als Dendogramm bezeichneten Binär-Baums (Abb.21). Aus allen Meßreihen wird die sogenannte Distanzmatrix berechnet, in welcher die Abstände zwischen allen Genen aufgeführt sind. Initial stellt jedes Gen ein eigenes Cluster dar (feinste Partition). Im nächsten Schritt wird das Genpaar mit der größten Ähnlichkeit, d.h. dem höchsten Korrelationskoeffizienten bzw. der kleinsten euklidischen Distanz ermittelt. Diese beiden Gene werden in einem neuen Cluster zusammengefaßt. Anschließend ist die Neuberechnung der nunmehr reduzierten Distanzmatrix erforderlich. Das zu diesem neuen Cluster am nähesten gelegene Gen wird nun auf einer in der Hierarchie höher gelegenen Ebene ebenfalls mit diesem Cluster fusioniert. Diese Prozedur wird N-1 mal wiederholt, bis am Ende nur noch ein Element (Gen) verbleibt. Die Grenze zwischen verschiedenen Clustern wird anschließend dort gezogen, wo das Abstandsmaß im Fusionierungsprozeß sprunghaft ansteigt. Der generierte Baum entspricht einer grafischen Darstellung dieses Fusionierungsprozesses.

Als Problem bei Anwendung des Pearsonschen Korrelationskoeffizienten muß die Empfindlichkeit gegenüber Ausreißern genannt werden, robuster wäre hier die Rangkorrelation ( Korrelationskoeffizient nach Spearman oder Kendall), welche allerdings auch weniger sensitiv ist.

                 

                         

                 

                Abbildung 21   Darstellung der schrittweisen Fusionierung durch Hierarchischen  Clusterbaum

 

 

        

Bei Generierung des Baumes ist ein Kriterium erforderlich, welches den Abstand zwischen verschiedenen Clustern definiert. Anhand dieses Kriteriums können drei Formen der Hierarchischen Clusteranalyse unterschieden werden. Bezieht man sich auf die minimale Distanz zwischen Genen beider Cluster, so spricht man von „single linkage“, wird der maximale Abstand zugrunde gelegt, dann heißt das Verfahren „complete linkage“, ist die Distanz zwischen zwei Clustern jeweils der Durchschnitt aller Distanzen von jedem möglichen Paar aus beiden Clustern, führt das zum „average linkage “. Single linkage generiert oft große, ausgedehnte Cluster, complete linkage dagegen kleine kompakte Gruppen. Average linkage stellt einen Kompromiss dar und kommt deswegen häufig zum Einsatz. Nachteile der hierarchischen Clusteranalyse sind die Generierung extrem komplexer, unübersichtlicher Bäume, innerhalb derer die Abtrennung von Clustern oft schwerfällt. Zudem handelt es sich um ein lediglich auf Abständen basierendes lokales Verfahren, d.h. einmal verbundene Gene lassen sich nicht wieder separieren, es erfolgt keine globale Betrachtungsweise der Daten [HKY 99].

 

 

                                              K-Means-Clusteranalyse

 

Einem anderen Prinzip folgt die zu den partitionierenden Verfahren gehörende K-Means-Clusteranalyse. Ausgehend von einer willkürlichen Gruppeneinteilung versucht man, durch Verlagerung der Objekte in andere Gruppen  zu besseren Lösungen zu gelangen. Die Anzahl der nach Analyse erhaltenen Cluster K wird a priori festgelegt. Initial muß der Vektorraum also in K Bereiche partitioniert und jeweils ein  Bereichszentrum berechnet werden. Die Festlegung des Bereichszentrums wie auch die initiale Partitionierung des Vektorraumes kann auf unterschiedliche Weise erfolgen (z.B. zufällig). Für die jeweils gültige Gruppenzuteilung wird die Summe aller Abstandsquadrate berechnet und überprüft, ob diese durch Verlagerung von Genen in andere Cluster minimiert werden kann. Abgebrochen wird, wenn alle Gene bezüglich ihrer Verlagerung überprüft wurden und keine Verbesserung mehr erzielt werden kann. Da sich nicht alle möglichen Gruppenbildungen testen lassen (bei m Genen ergeben sich Km Einteilungen !), stellt die gefundene Lösung lediglich ein lokales Minimum dar. Ein weiterer Nachteil dieses Verfahrens besteht darin, daß die ja unbekannte Anzahl der Cluster a priori bestimmt werden muß. Eine Teillösung hierfür wäre das Testen verschieden großer K`s. Auch die initiale Gruppeneinteilung kann bis zu einem bestimmten Grad variert werden.

 

                                          Self-Organizing-Maps (SOM)

Die von Teuvo Kohonen 1982 [K 82] vorgestellten selbstorganisierenden Karten (self-organizing maps) stellen eine Klasse künstlicher neuronaler Netzwerke dar, die sich besonders in den Bereichen der Sprachverarbeitung und der Robotersteuerung bewährt hat. Eine selbstorganisierende Karte definiert die Abbildung eines Eingaberaums auf einen Ausgaberaum. Mit einem iterativen Verfahren, dem Prozeß der Selbstorganisation, wird eine zufällige initiale Abbildung dahingehend modifiziert, daß die resultierende Abbildung weitgehend zwei Anforderungen entspricht: Nachbarschaftserhaltung und Verteilungserhaltung.

 

                               

                                                           Abbildung 22   Beispiel einer SOM

Aufgrund der Nachbarschaftserhaltung kann das Bild im Ausgaberaum als Karte des Eingaberaums angesehen werden [TUH]. Ohne in diesem Rahmen detaillierter auf die genaue Wirkungsweise eingehen zu können, sind SOM’s auch zur Clusterbildung bei Genexpressionsprofilen einsetzbar [TS 99]. In Abbildung 22 ist beispielhaft eine SOM dargestellt.

 

                                      

 

                                       Quality-Cluster-Algorithmus (QT-Clust)

 

Heyer et al. [HKY 99] entwickelten eine Form der Clusteranalyse mit mehr globaler Sicht auf die Daten als die vorab beschriebenen Verfahren. Das Prinzip besteht darin, Cluster zu finden, deren Durchmesser einen festgelegten Wert nicht überschreitet. Ausgehend von einem Gen als Kandidatencluster, werden andere Gene mit großem Korrelationskoeffizienten in dieses Cluster gruppiert. Die Zuordnung von Genen in ein Cluster erfolgt derart, daß die Zunahme des Clusterdurchmessers minimal ist. Dieser Vorgang iteriert solange, bis keine weitere Zuordnung von Genen zu Clustern möglich ist, ohne das der zuvor festgelegte maximale Clusterdurchmesser überschritten würde. Im folgenden Schritt wird nun ein zweites Gen als primäres Kandidatencluster ausgewählt und der gesamte Algorithmus wiederholt. Ein entscheidende Unterschied zur Hierarchischen Clusteranalyse besteht darin, daß die zuvor schon in andere Cluster gruppierten Gene in den folgenden Schritten wieder unabhängig für andere Kandidatencluster zur Verfügung stehen und somit trotz bereits vorliegender Bindung in einer Gruppe nicht aus der weiteren Betrachtung ausgeschlossen sind. Diese Prozedur wird für alle Gene wiederholt. Am Ende entspricht die Anzahl der Kandidatencluster der Anzahl untersuchter Gene. Die meisten Kandidatencluster überlappen sich. An dieser Stelle wird jeweils das größte Cluster ausgewählt. Als Ähnlichkeitsmaß dient bei diesem Algorithmus der Jackknife-Korrelationskoeffizient [HKY 99].

 

 

                                               2. Fourieranalyse

 

Generell kann nach Abschluß eines beliebigen Clusterverfahrens die Qualität der Analyse kontrolliert werden, indem das Expressionsverhalten aller Gene über die Zeit in einem Diagramm dargestellt wird (Abb.23).

 

                                       

         

                                             Abbildung 23    Koexpression der Gene eines Clusters                               

Hier erwartet man eine Koexpression dieser Gene, das heißt die Form der Graphen sollte etwa übereinstimmen. Eine Periodizität dieser Graphen tritt dann auf, wenn sich das Expressionsverhalten der Gene eines Clusters zyklisch verhält. Das ist beispielsweise bei in Zellteilungsprozesse involvierten Genen der Fall. Detailliertere Zusammenhänge lassen sich dabei mit Hilfe der Fourieranalyse aufdecken.

 

                                             

                                           3.  Faktorenanalyse

 

Auch die Faktorenanalyse hat zum Ziel, ähnliche Eigenschaften im Expressionsprofil von Genen zusammenzufassen. Gegenstand dieses statistischen Verfahrens ist es, aus einer großen Anzahl untereinander abhängiger Einflußgrößen wenige, die Datenvariabilität erklärende Faktoren herauszukristallisieren. Die Basishypothese der Faktorenanalyse besteht demnach darin, das die zwischen Genen beobachtete Korrelation durch einen oder mehrere, „hinter“ den Daten verborgene Faktoren verursacht wird. Damit weicht sie von dem Konzept der Korrelationsanalyse im engeren Sinne ab, welche einen kausalen Zusammenhang zwischen den Variablen finden möchte. Der Einsatz der Faktorenanalyse entspricht somit unserem biologischen Verständnis, daß einer  Koexpression von Genen eine gemeinsame Funktion zugrunde liegt. Untersucht man beispielsweise eine Zelle mit vier verschiedenen Funktionszuständen, so könnte die Faktorenanalyse aus der Vielzahl untersuchter Gene mindestens vier signifikante Faktoren extrahieren, die „verborgen“ im Hintergrund stehen und die beobachtete Variabilität der Intensitäten erklären können .

Jeder gefundene Faktor ist mit einem bestimmten Gewicht (=Faktorladung) an der Erklärung der Ausgangsvariable beteiligt. Hierbei wird ein linearer Zusammenhang zwischen Ausgangsvariablen und Faktoren unterstellt.

Das Prinzip der Faktorenanalyse läßt sich grafisch deuten. Alle korrelierenden Ausgangsvariablen (Gene) lassen sich jeweils als Vektor in einem gemeinsamen Koordinatensystem darstellen, wobei der Kosinus des Winkels zwischen zwei Vektoren dem Korrelationskoeffizienten dieser beiden Variablen entspricht. Der erste Faktorvektor wird nun als Resultante aller Variablenvektoren in das Koordinatensystem gelegt. Der Kosinus des Winkels zwischen Variablen- und Faktorvektor ergibt den Korrelationskoeffizienten zwischen Faktor und jeweiliger Ausgangsvariable. Der zweite Faktor soll unabhängig vom ersten sein und muß daher wie alle weiteren Faktoren senkrecht auf den bereits vorhandenen Faktorenvektoren stehen. Die Summe der quadrierten Faktorenladungen bezogen auf eine Variable entspricht dem Varianzerklärungsteil dieser Faktoren (=Bestimmtheitsmaß). Wenn eine Variable restlos durch die extrahierten Faktoren erklärt wird, so beträgt diese Summe 1. Der durch alle extrahierten Faktoren erklärte Gesamtvarianzanteil heißt Kommunalität. Da diese nicht bekannt ist, in die Analyse aber eingeht, erfolgt bei der „klassischen“ Faktorenanalyse vorab eine Schätzung (meist wird der größte Korrelationskoeffizient zwischen den Variablen benutzt). In diesem Punkt liegt der Unterschied zur Hauptkomponentenanalyse (nicht zu verwechseln mit der Hauptachsentransformation!), in deren Rahmen keine Reszvarianz postuliert wird, das heißt die Kommunalität beträgt 1.

Um die Faktoren besser interpretieren zu können, was meist nur möglich ist, wenn jeder Faktor nur mit einer kleinen begrenzten Menge von Variablen korreliert, werden die Faktorenvektoren anschließend oft so rotiert, daß die Qualität der gefundenen Lösung bzgl. Kommunalität und erklärter totaler Varianz gleich bleibt, die Faktorladungsmatrix sich aber ändert. Häufig wird zum Zweck der besseren Interpretierbarkeit eine schiefwinklige Rotation durchgeführt, die allerdings bewirkt, dass die Faktoren korrelieren (Faktorladung ist dann nicht mehr gleich Korrelation).

Die eigentliche inhaltliche Interpretation der berechneten Faktoren kann allerdings durch kein statistisches Verfahren geleistet werden, sondern obliegt dem Forscher und beinhaltet eine große subjektive Komponente [B 99] [BEP 2000].

 

 

                                             4.  Diskriminanzanalyse

 

 

Die bisher dargestellten Formen der Clusteranalysen gehören zu den sogenannten Verfahren der `unsupervised analysis`, deren Ziel es ist, Objekte mit ähnlichen Eigenschaften in einer Gruppe zusammenzufassen. Ein anderer Ansatz wird bei den Verfahren der `supervised analysis` verfolgt. Bezogen auf die Microarrays geht es darum, Unterschiede zwischen Expressionsprofilen herauszufinden, um diese anschließend als Voraussage nutzen zu können. Werden beispielsweise Expressionsprofile gesunder und maligne entarteter Gewebe verglichen und können hier Regeln aufgestellt werden, die anhand der vorliegenden Expressionsprofile relativ sicher zwischen beiden unterscheiden, so kann dieses Verfahren bei Gewebeproben unklarer Dignität zur Frühdiagnostik von Malignomen eingesetzt werden.

Golub et al. [GS 99] verglichen Leukozytengenexpressionsprofile zwischen akuter myeloischer Leukämie (AML) und akuter lymphatischer Leukämie (ALL) und konnten 50 diskriminierende  Gene detektieren, anhand derer anschließend in 29 von 34 Fällen die korrekte Klassifikation der vorliegenden Leukämieform gelang.

Die allgemeine Vorgehensweise ist immer gleich. Man versucht zunächst auf Grundlage  bekannter Zuordnungen diskriminierende Parameter herauszufinden, „trainiert“ und korrigiert dann dieses System auf Expressionsprofilen bekannter Klassifikation, um letztendlich bei befriedigender Trennschärfe Datensätze unbekannter Klassifikation richtig zuzuordnen. Die hierbei zum Einsatz kommenden statistischen Verfahren der Diskriminanzanalyse sollen an dieser Stelle nicht weiter erörtert werden, sie unterscheiden sich jedoch bei Expressionsprofilen nicht von denen anderer Anwendungen [BV 00] [ESBB 98].

 

 

 

 

                                  VII.  Microarray-Datenbanken

 

 

Ein einzelner Versuch mit 20 000 Felder pro Array kann eine Menge von einer Million Daten erzeugen, schon bei einer Versuchsserie werden mehrere Millionen Informationen generiert. Die Organisation einer derartigen Datenflut macht eine effiziente Datenbank erforderlich, welche gleichzeitig anderen Forschungseinrichtungen für Vergleiche, eigene Projekte oder Speicherung und Auswertung individueller Daten zugänglich sein sollte.

Beispielhaft für eine Vielzahl von Microarraydatenbanken wird hier die Stanford-Microarray-Datenbank (SMD) der Stanford University genannt, welche über Internetanbindung ohne zusätzliche Clientsoftware mit dem Webbrowser genutzt werden kann (http://genome-www5.stanford.edu/MicroArray/SMD/). Der Zugang ist von verschiedenen Plattformen aus ohne Probleme möglich (MacOS, UNIX, Windows). SMD läuft auf einem Sun-Server und nutzt Oracle 8 als DBMS, die Implementation erfolgte daher als relationale Datenbank. Skripte sind vorwiegend in PERL programmiert, aufwendigere Prozeduren auch in C. Der in SMD benutzte Quellcode sowie die zugrundeliegenden Datenbankschemata sind für Forschungseinrichtungen verfügbar. Das Hochladen von Daten aus eigenen Experimenten in die Datenbank ist über Webformular möglich. Die gespeicherten Microarraydaten und zugehörige Informationen zum Experiment können jederzeit aktualisiert werden. Umgekehrt ist auch ein Herunterladen der gespeicherten experimentellen Daten zur individuellen Weiterverarbeitung möglich.

Besonders hervorzuheben an SMD ist, daß neben den rein experimentellen Daten zugleich mit den einzelnen Arrayfeldern assoziierte biologische Informationen abgelegt werden. Dies ist insofern wichtig, da Arrayexperimente ohne den zugehörigen biologischen Kontext kaum sinnvoll interpretierbar sind. So sind beispielsweise für Expressionsversuche am Genom der Hefe (Saccharomyces cerevisiae), soweit bekannt, die molekularen Funktionen der einzelnen Gene gespeichert. Korrespondierend zu anderen biologischen Datenbanken (Sequenz-Datenbanken, Protein-Datenbanken) erfolgt bei neuen Erkenntnissen ein Update der SMD.

Für jedes Experiment sind der Name des Autors, jeweils eine die biologischen Hintergründe des Experiments beschreibende Kategorie / Subkategorie sowie der Modellorganismus angegeben. Jedes dieser Kriterien kann allein oder in Kombination für Datenbankanfragen verwendet werden.

 

For Citation, there are 35 matching your query

Page Navigation

List Navigation

List Display


  or  Download full list

Limit to:
Sorted by Header :

Filtered (on Sort Header) :

 

Citation

Organisms(s)

Web Supplement

PubMed Link

Full Text

Data in SMD

Alizadeh AA, et al. (2000) Nature 403(6769):503-11

Homo sapiens

PubMed

Blader IJ, et al. (2001) J Biol Chem 276(26):24223-31

Homo sapiens

PubMed

Chu S, et al. (1998) Science 282(5389):699-705

Saccharomyces cerevisiae

PubMed

 

            Abbildung 24   Ausschnitt aus der Liste verfügbarer Microarrayexperimente in SMD

 

 

Daten können individuell für einzelne Spots, das einzelne Array, aber auch über mehrere, zuvor selektierte Arrays abgerufen und ausgewertet werden. Hierbei können verschiedene Ordnungskriterien und Filter eingesetzt werden (z.B. Einstellen einer minimalen Signalintensität, Ordnen nach auf- oder absteigenden Signalintensitäten pro Kanal, Auswahl von Arrayfeldern mit einer bestimmten Signaldifferenz usw.) Wie bei anderen Datenbankanfragen ist auch hier der Einsatz boolscher Ausdrücke möglich (z.B. Intensität Kanal 1 < 150 AND Intensität Kanal 2 > 300). Auf den abgerufenen Daten können mathematische und statistische Analysen und Transformationen durchgeführt werden. SMD unterstützt zur Auswertung von Genexpressionsprofilen bislang die Hierarchische Clusteranalyse sowie Selbstorganisierende Karten. Geplant ist die Einbindung weiterer statistischer Tools (beispielsweise des K-Means-Clustering) [SBK 01]. Abbildung 24 zeigt einen Auschnitt der Liste verfügbarer Arrayversuche in SMD. In Abbildung 25 ist beispielhaft ein in SMD generiertes Histogramm dargestellt. Für detailliertere Informationen lohnt sich ein Besuch oben genannter Adresse.



 

 

 Abbildung 25  Für jeden in SMD abgelegten Microarrayversuch lassen sich statistische Berechnungen     durchführen und deren Ergebnisse grafisch darstellen. Die Abbildung zeigt die Häufigkeitsverteilung der Intensitäts-Log-Ratios am Beispiel der Fibroblasten-Serumstimulation (siehe nächster Abschnitt)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

                                       VIII.  Anwendungsbeispiel

 

 

Abschließend soll stellvertretend für die Vielzahl möglicher Einsatzgebiete von Microarrays ein konkretes  Beispiel angeführt  werden, bei dem Wachstums- sowie Zellteilungsvorgänge an einer Zellkultur studiert wurden. Die statistische Auswertung erfolgte mit Hilfe der Hierarchischen Clusteranalyse.

Einer menschlichen Fibroblastenkultur (unreife Bindegewebszellen) wurde das als Nährmedium dienende fetale Rinderserum für 48 Stunden entzogen (dieses Serum enthält die zu Wachstum und Proliferation der Zellen notwendigen Wachstumsfaktoren). Dies ist eine Möglichkeit zur Synchronisierung des Zellzyklus, ohne die eine Analyse der am Zellzyklus beteiligten Gene nicht möglich wäre, da sich normalerweise jede Zelle der Kultur gerade in einer anderen Phase befindet. Nach 48 Stunden wurde der Kultur das Serum wieder zugeführt und zu den Zeitpunkten 0 (Zeitpunkt der Serumgabe), 15 min, 30 min, 1h, 2h, 3h, 4h, 8 h, 12h, 16h, 20h und 24 h Fibroblasten als Targetspender entnommen. Die Hybridisierung erfolgte auf einem cDNA-Microarray, welches ca. 8600 verschiedene menschliche Gene als Proben enthielt. Alle Messungen erfolgten relativ zum Zeitpunkt 0, das heißt die  cDNA dieses Zeitpunktes wurde grün markiert, die cDNA der folgenden Zeitpunkte dagegen rot. Hybridisiert wurde mit einem Gemisch der cDNA des jeweiligen Zeitpunktes und der cDNA zum Zeitpunkt 0 (Referenztarget). In die Analyse wurden 517 Gene einbezogen, deren Expressionslevel sich mindestens um einen Faktor 3  verändert hat. Die Farbskale des Microarrays reichte von „gesättigtem“ grün bei log-ratio <= -3.0 bis „gesättigtem“ rot mit log- ratio >= +3.0 . Gelb entspricht demnach einem log-ratio von ca. 0. Im Rahmen der statistischen Auswertung konnten mehrere  Cluster detektiert werden, wobei es gelang, neun Gengruppen konkrete physiologische Funktionen im Prozeß der Wundheilung zuzuordnen. Siehe hierzu auch Abbildung 26. [IER 99] :

 

 

 

 

 

 

 

 

                                       

 

 

Abbildung 26    Gruppierung der in die Wundheilung involvierten Gene in neun Cluster. In jedem Cluster sind die Namen der einzelnen Gene aufgeführt und das jeweilige Intensitätsspektrum dargestellt.

 

 

 

 

 

 

                                       IX.  Zusammenfassung

 

 

Mit der Möglichkeit der Untersuchung des Expressionsverhaltens einer Vielzahl von Genen oder gar aller Gene eines Organismus quasi parallel, existiert ein mächtiges „Werkzeug“ zur Aufdeckung von Genfunktionen sowie Erkennung des Zusammenspiels verschiedener Gene bei  unterschiedlichsten biologischen Vorgängen. Die Technik der Microarrays ist bislang  nicht ausgereift. Eine Vielzahl von Problemen muß noch gelöst werden. Einen deutlichen Schub könnte die Standardisierung von Microarrayversuchen bewirken, da dann experimentelle Daten zwischen den Forschungseinrichtungen ausgetauscht werden könnten und somit „alle an einem Strang“ ziehen würden. Bei der Komplexität der mit der Versuchsdurchführung sowie Nachbearbeitung und Analyse ungeheuer großer Datenmengen   verbundenen Schwierigkeiten, ist die Zusammenarbeit verschiedener Fachrichtungen wie Biologie, Biochemie, Medizin sowie Informatik und Mathematik dringend gefragt. In diesem Zusammenhang entstehen neue Ausbildungsprofile wie die Bioinformatik, in der sowohl Kenntnisse  biologischer Vorgänge als auch informatische Sachverhalte vermittelt werden. Hierdurch können Kommunikationsprobleme zwischen den Fachrichtungen vermieden werden.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

                                         

 

 

 

 

 

 

 

 

 

 

 

 

 

                                 

                                              X.  Quellenverzeichnis

 

 

                                      A. Literatur

 

 

 

NV01           Nuesslein-Volhard,C.,Süddeutsche Zeitung,1./2.Dez.2001,Nr.277

LFGL99       Lipshutz,R.J., Fodor,S.P.A., Gingeras T.R.,Lockhart,D.J.,

                    High density synthetic oligonucleotide array

                    nature genetics suppl.,vol.21,20-24,1999

JB00            Buhler,J.,Anatomy of  Comparative Gene Expression Study.

                    Febr.2000, http://www.cs.washington.edu/homes/buhler/research/array/

SBK01        Sherlock,G.,Hernandez-B.,T.,Kasarskis,A.,Binkley,G.,Matese,J.,Dwight,S.,

                    Kaloper,M.,Weng,S.,Jin,H.,Ball,C.,Eisen,M.,Spellman,P.,Brown,P.,Botstein,D.,

                    Cherry,M.,The Stanford Microarray Database.

                    Nucleic Acids Research,Vol.29,No.1,152-155,2001

BV00           Brazma,A.,Vilo,J., Gene expression data analysis.

                    FEBS Letters 480,17-24,2000

GS99           Golub,T.R.,Slonim,D.K.,Tamayo,P.,Huard,C.,Gaasenbeek,M.,Mesirov,J.P.,

                    Coller,H.,Loh,M.L.,Downing,J.R.,Caliguiri,M.A.,Bloomfield,C.D.,Lander,E.S.,

                    Science 286,531-537,1999

ESBB98      Eisen,M.B.,Spellman,P.T.,Brown,P.O.,Botstein,D.,

                    Cluster analysis and display of genome-wide expression patterns.

                    Genetics,Vol.95,14863-14868,1998

HKY99        Heyer,L.J.,Kruglyak,S.,Yooseph,S., Exploring Expression Data:

                    Identification and Analysis of Coexpressed Gene.

                    Cold Spring Harbor Laboratory Press ISSN 1054-9803/99,1106-1115,1999

B99              Bader,J.S., http://brie.cshl.org/genome-informatics/expression/

IER99          Iyer,V.R.,Eisen,M.B.,Ross,D.T.,Schuler,G.,Moore,T.,Lee,J.C.F.,Trent,J.M.,

                    Staudt,L.M.,Hudson,J.Jr.,Boguski,D.L.,Shalon,D.,Botstein,D.,Brown,P.O.,

                    The Transcriptional Program in the Response of Human Fibroblasts to Serum.

                    Science,Vol.283,83-87,1999

K82             Kohonen,T., Self-organized Formation of Topologically Correct Feature Maps.

                    Biol.Cybern 43:59-69,1982

TS99           Tamayo,P.,Slonim,D.,Mesirov,J.,Zhu,Q.,Kitareewan,S.,Dmitrowsky,E.,

                    Lander,E.,Golub,T.,

                    Interpreting patterns of gene expression with self-organizing maps: Methods and

                   Application to hematopoietic differentiation.

                   Proc.Natl.Acad.Sci.96:2907-2912,1999

TUH           http://www.tu-harburg.de/infing98/ti2/pverteil/sok.htm

BEP00         Backaus,K.,Erichson,B.,Plinke,W.,MultivariateAnalysemethoden.Eine an-

                   wendungsorientierte Einführung. Springer Verlag, 2000

                   

 

        

 

 

 

 

 

 

 

 

                                                     B. Abbildungen

 

 

 

 

 

 

Abbildung 1                                           http://flybase.bio.indiana.edu/

Abbildung  2                                          http://www.tigr.org/

Abbildungen  3,4                                    http://strategis.ic.gc.ca./SSG/

Abbildung  5                                          http://gened.emc.maricopa.edu/

Abbildung  6                                           http://wsrv.clas.virginia.edu/

Abbildungen  7,8,10,11,12,14                http://www.nature.com/

Abbildungen ,16,17,18,20,22                 http://www.nature.com/

Abbildung  9                                           http://cm.gm.stanford.edu/

Abbildung  13                                         http://www.biophysik.net/rt.html

Abbildung  15                                         http://www.gene-chips.com

Abbildung  19                                         http://industry.ebi.ac.uk/

Abbildung  21                                         http://ep.ebi.ac.uk/    

Abbildung  23                                         http://www.genome.org/

Abbildungen  24,25                                http://genome-www5.stanford.edu/MicroArray/SMD/

Abbildung  26                                         http://www.sciencemag.org/