Bio-Datenbanken Wintersemester 2001/2002
Überblick über die Bio-Datenbanken
Bearbeiter: Collette
Hagert
Betreuer:
Do Hong Hai
Prof. Dr. Erhard Rahm
Inhalt
1 Motivation
.................................................... 3
2 Klassifikation von
Bio-Datenbanken
.................................................... 5
2.1 Spezielle und allgemeine Datenbanken ........................................................ 5
3 Charakteristika von
Bio-Datenbanken
.................................................... 6
3.1 Heterogenität .................................................... 6
3.2 Integration .................................................... 8
3.3 Redundanz und Fehler .................................................... 9
3.4 Annotation und Pflege .................................................... 9
3.5 Ontologien .................................................... 10
4 Sequenzanalyse
................................................... 10
4.1 Sequenzierung .................................................... 11
4.2 Sequenz-Alignment .................................................... 12
4.3 Assemblierung .................................................... 14
4.4 Suchmöglichkeiten .................................................... 14
5 Öffentliche Bio-Datenbanken
.................................................... 16
5.1 Sequenz-Datenbanken ...................................................17
5.1.1 EMBL ....................................................17
5.1.2 SWISS-PROT ...................................................19
5.2 Datenbanken für metabolische Pathways ..................................................... 20
5.3 Makromolekular 3D-Struktur-Datenbanken .................................................... 22
5.4 Sequenzmotiv-Datenbanken ................................................... 24
6 Zusammenfassung
.................................................. 25
Anhang
..................................................
26
Literaturverzeichnis
.................................................. 27
1 Motivation
Auf Grund der großen Mengen von Daten auf dem Gebiet der Molekularbiologie, die ausgetauscht, organisiert und analysiert werden müssen, sind unterschiedliche zentrale Datenbanken, die diese Daten enthalten, notwendig. Die vielen Daten sind nicht nur durch die Fortschritte, die zum Studieren von biologischen Strukturen (wie polymerase Kettenreaktionen und anatomische Sequenzierung) verwendet werden, entstanden. Sie sind auch durch die Fortschritte in den für die Forschung auf diesem Gebiet zur Verfügung gestellten Analysewerkzeugen (z.B. FASTA und BLAST), die die Sequenzierung der großen Anteile der Genome in den verschiedenen Spezies erlauben, entstanden. Das Wachstum der Sequenzen und Basenpaare in GenBank-Datenbank ist in Abb. 1.1 gezeigt.
Abb.1.1:
Wachstum der GenBank-Datenbank [18]
Es gibt über 500 Bio-Datenbanken weltweit [10], und die Anzahl steigt weiter. In diesen Datenbanken werden unterschiedliche Typen von Daten (z.B. Sequenzen, 3D-Strukturen, Sequenzmotive) gespeichert. Abb. 1.2 gezeigt das Wachstum von Sequenz- und 3D-Struktur-Datenbanken. Protein Data Base (PDB) ist eine 3D-Sruktur-Datenbank.
Abb. 1.2:
Das Wachstum von Sequenz- und 3D-Struktur-Datenbanken [20]
Andere Beispiele von biologischen Datenbanken sind:
Die Quelle des Materials (z.B. Genom, DNA), der Grad der Sequenzannotation (siehe Teil 2) und die Vollständigkeit der Sequenz bezüglich des biologischen Ziels (vollständig vs. partielle Erfassung eines Gens oder Genoms) sind unterschiedlich, weil die Daten aus unterschiedlichen wissenschaftlichen Gemeinschaften (z.B. Forscher, Genomprojekte) kommen. Das führt zur strukturellen und semantischen Heterogenität und zur Autonomie der Bio-Datenbanken [13]. Strukturelle Heterogenität bezieht sich auf Unterschiede in Datenbankverwaltungssystemen und in Datenmodellen. Semantische Heterogenität betrachtet den Inhalt der Datenbanken und die Bedeutung von Datenbank-Kategorien.
Biologen wollen den Zusammenhang zwischen den Phänotypen und den Genotypen wissen, um diese im Kontext der evolutionären Biologie zu betrachten. Genotypen sind intern kodierte, vererbbare Informationen, die alle Organismen haben [17]. Sie enthalten Instruktionen, die von den biologischen Werkzeugen benutzt und interpretiert werden, um die Phänotypen der Organismen zu bilden. Bei den Phänotypen eines Organismus handelt es sich um tatsächlichen körperlichen Merkmale der Genotypen z.B. Moleküle, Makromoleküle, Zellen, Strukturen, Metabolismus, Funktionen. In Abb. 1.3 wird der Zusammenhang zwischen Genotypen und Phänotypen gezeigt.
Abb. 1.3:
Zusammenhang zwischen Genotypen und Phänotypen [10]
Die Instruktionen werden in einem genetischen Code geschrieben. Ein genetischer Code ist eine lineare, nicht überlappende Sequenz von DNA-Basen: Adeninn (A), Guanine (G), Cytosine (C) und Thymine (T). Er ist redundant. Ein Phänotyp wird kanalisiert genannt, wenn Mutationen (Änderungen des Genoms) die körperlichen Merkmale eines Organismus nur unmerklich beeinflussen. Ein kanalisierter Phänotyp kann sich, wie schon erwähnt, aus einer großen Bandbreite von Genotypen bilden. In so einem Fall lässt sich aus der Kenntnis des Phänotyps nicht zuverlässig auf den Genotyp schließen. Bisher sind die Phänotypen als Ganzes mehr als die Genotypen verstanden worden [17], obgleich viele Biologen den Wunsch haben, bei der Analyse mit Genotypen anzufangen.
In vielen Fällen sind
Einträge aus mehreren wissenschaftlichen Veröffentlichungen, die
über die überlappenden Sequenzregionen berichten,
zusammengestellt worden.
Umgekehrt bringt eine einzige wissenschaftliche Veröffentlichung oft Daten
für mehrere Einträge, die
die gleichen Sequenzregionen auf unterschiedliche Art beschreiben. Das
führt zur Redundanz in Bio-Datenbanken.
Die Submission der Daten ist für wissenschaftliche Gemeinschaften offen. Abb. 1.4 zeigt den direkten Submissionsprozess. Forscher können also die eigenen Daten (aus ihrer Forschung) in die biologischen Datenbanken eintragen. Die Daten, die aus wissenschaftlichen Gemeinschaften kommen, sind nicht konsistent [15]. Die Bio-Datenbanken sind aus diesen Gründen inkonsistent.
Abb. 1.4: Der direkte Submissionsprozess [21]
Wie bereits angeführt, gibt es viele Daten und viele Bio-Datenbanken. Die Datenbanken enthalten redundante und inkonsistente Daten, und sie sind heterogen.
Ziel dieser Arbeit ist es, einen Überblick über die Bio-Datenbanken zu geben.
Die Arbeit ist in vier Teile aufgeteilt. Im ersten Teil werden die Klassen der Bio-Datenbanken besprochen. Der zweite Teil setzt sich mit den Charakteristika der Bio-Datenbanken auseinander. Der dritte Teil beschäftigt sich mit der Analyse von Sequenzen. Im letzten Teil werden die unterschiedlichen biologischen Datenbanken behandelt.
2
Klassifikation von Bio-Datenbanken
Biologische Daten können sehr komplex sein. Das bezieht sich nicht nur auf den Typ, sondern auch auf den Umfang und die Konstraints, die für die Beziehungen zwischen den Daten verwendet werden. Konstraints sind Beschränkungen, die die syntaktische und semantische Korrektheit einer Operation (und dadurch die Konsistenz einer Datenbank) garantieren. Die Klassifikation von biologischen Datenbanken ist durch die Komplexität der Daten schwierig. Genomische Datenbanken können in allgemeine und spezielle Datenbanken eingeteilt werden [15]. Abb.2.1 zeigt diese Klassifikation.
Abb. 2.1:
Klassifikation von genomischen Datenbanken [13]
Allgemeine Datenbanken sind Datenbanken,
die Informationen über bestimmte Klassen
von Molekülen enthalten, ohne irgendeine Funktion auszuschließen [13]. Im
Gegensatz dazu haben spezielle Datenbanken beschränkte Bereiche, zum Beispiel den Bereich
um einen spezifischen Modell-Organismus
(E.Coli (Bacterium), Hefe (Saccharamyces Cerevistae), Xenopus Laveis (afrikanischer
Frosch)) oder um einen Typ von biologischen
Funktionen (z.B. enzymatische Reaktionen).
Keine dieser Datenbanken enthält nur Genomprojektdaten [15]. Die Daten sind ein Mosaik von Daten aus Genomprojekten, gemischt mit den Daten aus einer Vielfalt wissenschaftlichen Gemeinschaften.
Darüber hinaus
folgen [10] die primären vs. sekundären und die tief angelegten vs. breit
angelegten Datenbanken.
Primäre vs. sekundäre
Datenbanken
Primäre Datenbanken sind Datenbanken, in denen Sequenzen deponiert werden. Sie werden von Experimentalisten generiert. Die Daten werden an die sekundären Datenbanken weitergeleitet. Datenbanken, die abgeleitetes Wissen von primären Datenbanken, der Analyse und den Expertisen oder von anderen sekundären Datenbanken sammeln, heißen sekundäre Datenbanken. Bei sekundären Datenbanken werden unterschiedliche Informationen durch die Analyse und/oder die Organisation hinzugefügt.
Zum Beispiel ist PDB (Protein Data Base) eine primäre 3D-Struktur-Datenbank,
die ihre Daten an die SCOP (Structural Classification of
Proteins)- eine typische sekundäre 3D-Struktur-Datenbank
- weiterleitet. Zu den Daten in SCOP
werden durch Analyse und
Organisation mehrere Informationen hinzugefügt. Die 3D-Strukturen aus der PDB
werden in SCOP in einem hierarchischen Schema von Falten, Superfamilien und
Familien klassifiziert.
Breit angelegte vs. tief
angelegte Datenbanken
Bei dieser Klassifizierung geht es um die Speicherung von Daten eines Datentyps ( z.B. 3D-Struktur ) entweder über eine bestimmte Spezies oder über mehrere Spezies. In breit angelegten Datenbanken werden Daten eines Datentyps oder eines biologischen Systems mehrerer Spezies gespeichert. In tief angelegten Datenbanken werden Daten eines Datentyps einer bestimmten Spezies gespeichert.
Beispiele zu den genannten Klassen von Datenbanken sind im Anhang angegeben.
3 Charakteristika von Bio-Datenbanken
3.1 Heterogenität
Typen von Daten: Es gibt vier Typen von Informationen [4], die über ein Gen oder ein Gen- produkt in den entsprechenden Datenbanken gespeichert werden. Die vier Typen sind:
· Genomische Informationen: Genomische Daten enthalten Informationen über die Lage der Chromosome, Intronen ( nichtkodierende Regionen in DNA), regulatorische Regionen.
· Evolutionäre Informationen: Antworten auf die Fragen " Befindet sich das Gen im anderen Organismus?" oder " Was ist sein taxonomischer Baum (hierarchische Kategorisierung von Spezies)?" stellen evolutionäre Informationen dar. Zu den evolutionären Informationen gehören Homologie (Ähnlichkeit zwischen zwei oder mehreren Sequenzen ), Taxonomie (Klassifikation von Spezies), Syntenie (Genomevolution in Pflanzen).
·
Strukturelle Informationen: Zu den strukturellen
Informationen gehören die Komformationsveräderungen,
Wasserstoffbrückenbindungen (die in einer gegebenen Struktur eines Proteins
beobachtet werden), atomische Koordinaten, Abstand zwischen den Mittelpunkten
zweier Residuen in einer Struktur, Winkeln zwischen Helices. Ein Helix
ist eine Konformation einer Polypetidkette,
die man in Proteinen häufig finden kann. Sie stellt eine stabförmige Struktur
dar.
·
Funktionale
Informationen: Funktionale Informationen sind z.B. Ergebnisse der Vergleiche
von funktionalen Eigenschaften verschiedener Proteinen, die Rolle eines
Proteins in einem Signaltransduktionsvorgang (Signal Transduction Pathway), die Rolle eines Proteins in einem Krankheitszustand.
Datenrepräsentationsformen:
Aus Sicht des Benutzers werden die Daten in
biologischen Datenbanken in verschiedenen Formen repräsentiert. Sie werden in den folgenden Formaten dargestellt:
Speicherung von biologischen Daten: Biologische Datenbanken haben unterschiedliche Formate, Strukturen, Umfang, Schemas [10]. Eine große Menge von biologischen Daten wird als Flatfiles (ascii text files) gespeichert, gleichzeitig gibt es relationale und objekt-orientierte biologische Datenbanken [13]. Das Organisationsschema für Flatfiles ist üblicherweise transparent (nicht sichtbar) für den Benutzer.
Datenbankverwaltungssysteme: Auch wenn die biologischen Datenbanken verwandte Daten enthalten, sind sie oft isoliert und werden durch verschiedene Grade von Heterogenität charakterisiert. Sie repräsentieren, wie schon erwähnt, unterschiedliche Schemas und werden durch unterschiedliche Datenbankverwaltungssysteme implementiert. Die Datenbankverwaltungssysteme reichen von Dateiverwaltungssystemen bis zu den Datenbankverwaltungssystemen [14]. Molekular-Datenbanken wie Genome Data Base (GDB), FlyBase, Genome Sequence Data Base (GSDB) und Protein Data Base (PDB) werden von kommerziellen relationalen Datenbankverwaltungssystemen (z.B ORACLE) verwaltet. Manche Datenbanken, z.B. Genom Datenbank für Hefe und verschiedene Pflanzen, werden mit AceDB (Durbin und Thierry-Mieg 1995) implementiert. LabBase und MapBase des Whitehead Institute for Biomedical Research in Cambridge sind in mit objektorientierten Datenbankverwaltungssystemen (z.B. EyeDB) entwickelt worden.
Zugriff auf Bio-Datenbanken: Die bekannteste Form des Zugriffs
ist die Verwendung von Perl-Scripts auf Flatfiles,
die heruntergeladen worden sind. XML-Formate werden ebenfalls verwendet, insbesondere für die Verteilung,
Speicherung und Interoperation.
Für den Zugriff auf multiple Datenbanken stehen unter Verwendung eines zentralen Tools immer mehr Mittel zur Verfügung. Anstatt eine Vielzahl von verschiedenen Datenbanken im Internet abzufragen, kann man ein Datenbankabfragesystem (z.B. Entrez, DBGET, Sequence Retrieval System (SRS)) verwenden, um auf einzelne Datenbanken mit Hilfe von gemeinsamen Schnittstellen zuzugreifen [4]. Textsuche (z.B. nach Autor) und SQL-Abfragen sind die am meisten verwendeten Abfragesprachen.
Eine dritte Möglichkeit ist die Verwendung von APIs in Corba. Mit dieser Methode wird keine Submission durch Abfrage erlaubt [10]. Corba definiert ein Set von Standards, aus denen ein kohärentes Framework besteht. In diesem Framework kann auf unabhängige Datenquellen zugegriffen werden.
Es werden also Dienste wie Browsing, Visualisierung, Abfragung und APIs für den End-User angeboten.
3.2 Integration
Um die Ergebnisse zu vergleichen, neue Hypothesen zu testen und zu verfolgen, müssen Biologen die Möglichkeit haben, komplexe Fragen zu stellen und Daten von verschiedenen Informationsquellen sowie Experimenten zu analysieren. Außerdem benötigen viele Abfragen Zugriff auf Daten aus multiplen Quellen. Sie alle verlangen die Integration von biologischen Informationen. Es ist wichtig, einen effektiven Mechanismus zur Integration dieser Informationen zu verwenden. Der Mechanismus muss in der Lage sein, Daten aus unterschiedlichen Quellen zu nutzen.
Zur biologischen Datenintegration und Dateninteroperation wird meist der WWW-Mechanismus benutzt. Das liegt daran, dass der WWW-Server einfach zu installieren ist und die Hypertext-Dokumente einfach zu generieren sind. Mit dieser Methode ist es dem Benutzer möglich, interaktiv von einer Repräsentation eines Eintrags in einer Datenbank zu einem anderen Eintrag in einer anderen Datenbank zu navigieren. Das Problem ist, dass die Hypertext-Links schwer zu verwalten sind.
Bio-Datenbanken (Flatfiles oder Tabellen) werden mit anderen Bio-Datenbanken (andere Flatfiles oder Tabellen ) durch ein gemeinsames Attribut ( z.B. AC, Accession number ) verbunden. Die Modell-Organismus-Datenbanken arbeiten intensiv daran, robuste und gegenseitige Verweise auf Datenbanken zu konstruieren, so dass der Benutzer von einer Datenbank zur anderen navigieren kann, ohne vorher gewisse Kenntnisse über die Relationen, die zwischen den Links existieren, zu haben [22]. Je mehr Links miteinander verbunden werden, desto umfassender sind die Informationen, die der Benutzer erhält.
Es gibt Schwierigkeiten, die paarweisen Verweise zwischen allgemeinen und speziellen Datenbanken mit allen anderen relevanten Datenbanken zu verwalten und einzurichten [15]. In Abb. 3.1 werden einige Verweise zwischen allgemeinen und speziellen Datenbanken mit anderen relevanten Datenbanken gezeigt.
Abb. 3.2:
Beispiel einer Annotation einer Proteinsequenz [1].
CC steht für Comment.
Vorgehensweise bei der Annotation: Sequenzdaten aus der Veröffentlichung werden zuerst analysiert (siehe Sequenzananlyse in Teil 3) und mit den Einträgen, die in den Datenbanken existieren, verglichen. Falls die neue Sequenz einem der Datenbankeinträge ähnlich ist, muss die Annotation, die für diesen Eintrag verwendet wurde, auch für den neuen Eintrag verwendet werden. Andere Annotationen und Merkmale, die für die Eintragfamilie spezifisch sind, werden noch angefügt. Dadurch werden dem Eintrag mehrere Informationen hinzugefügt.
Die Annotierung ist fehlerhaft, weil die meisten wichtigen Informationen in den Datenbanken nicht gemessen werden, sondern sie werden beschlossen z.B. die Identifikation von Genen in Gensequenzen. Die Automation von Annotationen ist nur bis zu einem gewissen Grad möglich. Um die richtige Annotation zu bekommen, muss diese im Labor weiter durchgeführt werden. Aufgaben bei der Pflege von Daten sind, die Fehler zu beseitigen, die Redundanz zu minimieren und die Einträge einheitlich zu machen.
3.5 Ontologien
Biologen brauchen sowohl für die Durchführung ihrer Analyse als auch für die Kommunikation miteinander ein entsprechendes Grundwissen [22]. Dieses wird in den Datenbanken gespeichert, und die Datenbanken müssen für die Forschungsarbeit genutzt werden. Das Wissen ist dabei aus zwei Gründen wichtig.
Eine Methode, die es ermöglicht, das Wissen innerhalb Bio-Informatik-Applikationen darzustellen, ist die Nutzung von Ontologien. Eine Ontologie ist eine Sammlung von Konzepten und den Relationen zwischen eben diesen [8]. Sie kann verwendet werden, um die semantische Heterogenität zu beseitigen und das Interoperationsproblem zu lösen [13]. Die Nutzung einer Ontologie als Mittel für die Sequenzannotation kann auch eine konsistente und genaue Annotation erlauben. Die Ontologien in Bio-Datenbanken unterschiedlich sind [12]. Dadurch wird der automatische Transfer von Annotationen schwierig.
4 Sequenzanalyse
In der Molekularbiologie wird unter einer Sequenz eine Zeichenkette verstanden, die ein Stück RNA, DNA oder Protein als Folge von Symbolen beschreibt [6]. Sie definiert die lineare Abfolge (Primärstruktur) von Basen im Falle der DNA bzw. von Aminosäuren in Falle von Proteinen. Abb. 4.1 zeigt ein Beispiel einer DNA-Sequenz.
Abb. 4.1:
Beispiel einer DNA-Sequenz in fasta Format
Sequenzanalyse wird generell durchgeführt, um entweder ein genaues Alignment (siehe Sequenzalignment in 4.2) einer neuen Sequenz mit bekannten Sequenzen zu erhalten oder um die Aspekte der Sequenzstruktur durch Vergleich mit bekannten strukturellen Elementen zu bestimmen. Sie kann grob in drei Phasen (Sequenzierung, Alignment und Assemblierung)
durchgeführt werden. Diese werden in Abb. 4.2 gezeigt.
4.1 Sequenzierung
Die Sequenzierung hat also das Ziel, die Reihenfolge der Basen in einem der beiden komplementären DNA-Stränge eines Chromosoms in Form eines langen Textstrings über das Alphabet der Aminosäure (20 Buchstaben) oder der Nukleotidsäuren (4 Buchstaben, A, C, G, T ) zu bestimmen [6].
Abb. 4.2: Die drei
Phasen Sequenzierung, Alignment
und Assemblierung eines Chromosoms [6]
Das rapide Wachstum von Nukleinsäure- und Proteinsequenzdaten ist von der Fähigkeit zum Lesen von DNAs abhängig [7]. Zur Zeit ist es geläufig, mit Hilfe von Gilbert- oder Sanger-Methoden, Strings von DNA der Länge bis zu 450 Basenpaare in einem Durchlauf zu lesen. Es gibt viele sequenzierte DNAs der Länge 50,000 bis über 300,000 [7]. Ein Verfahren, das kurze Substrings (meistens der Länge zwischen 350 bis 1000) verwendet, um Strings, die 100 bis 1000 Mal länger sind, zu bestimmen, wird bei der Sequenzierung benutzt. Ein bekanntes Verfahren, das dies leistet, ist das sogenannte Shotgun-Verfahren.
Shotgun-Verfahren: Das DNA-Molekül ist zu lang, um es von den heutigen Sequenzierungsmethoden in einem Durchlauf auslesen zu lassen, deshalb benutzt man dieses Verfahren [7]. Dabei wird zuerst das gleiche einzelsträngige DNA kopiert (geklont), und die Kopien werden zu vier unterschiedlichen Reaktionen (eine Reaktion für jeweils eine Base (A, C, G, T)) gegeben. Jede Reaktion führt zu einer Sammlung von einzelsträngigen DNA-Molekülen.
Die DNA wird in eine separate Spur gebracht, und die vier Spuren werden durch Elektro- phoresis analysiert. Elektrophoresis ist ein Verfahren, um die Größe oder die Länge von DNA zu messen. Die DNA werden dann, nachdem man sie ausgelesen hat, sequenziert und schrittweise miteinander verglichen, um Überlappungen zu finden (siehe Sequenzalignment) [6]. Diese Überlappungen braucht man, um die Fragmente wieder an der richtigen Stelle und in der richtigen Ausrichtung einordnen zu können. Ein solcher Vorgang wird als Assemblierung (siehe Assemblierung) bezeichnet.
Das Problem bei dem genannten Verfahren ist, dass für jedes einzelne sequenzierte Fragment nach dieser Behandlung (shotgun) die Lage und Ausrichtung im DNA-Molekül nicht mehr bekannt ist [6].
4.2 Sequenzalignment
Die komparative Analyse
ist in der Biologie ein Mittel, das seit langem eingesetzt wird, um
Entdeckungen zu machen. Das Ergebnis einer Suche nach Ähnlichkeiten zwischen
zwei oder mehreren Sequenzen, nach Homologien, wird
in Form eines Sequenzalignments dargestellt. Zwei
oder mehrere Nukleinsäure- bzw. Proteinsequenzpositionen werden untereinander
in Alignments gestellt, um die Beziehung zwischen den
Positionen dieser Sequenzen herzustellen. Abb. 4.3 zeigt ein multiples Alignment mit 3 DNA-Sequenzen.
Abb. 4.3: Beispiel eines multiplen
Alignments in fasta-Format
Verschiedene Protein- oder DNA-Sequenzen werden aligniert, um eines oder mehrere der folgenden Ziele zu erreichen [19].
Globales
vs. lokales Alignment
Es kann vorkommen, dass zwei Proteine nur einige Domänen gemeinsam besitzen können, während der Rest der Sequenz nicht verwandt ist. Die lokalen und globalen Alignments sind verschiedene Modelle von paarweisen Alignments. Beim globalen Alignment werden die ganzen Sequenzen verglichen. Im Gegensatz dazu werden beim lokalen Alignment nur Ausschnitte der jeweiligen Sequenzen miteinander verglichen. Lokale Alignments können also gemeinsame Domänen in divergenten Proteinen finden [4].
Abb.
4.4: Lokales Alignment von zwei Sequenzen.
Identische Reste sind umrandet.
Ziel des lokalen Alignments ist es, aus der großen Menge der möglichen Alignments das beste (optimale) herauszufinden. Ein Alignment ist optimal, wenn die gleichen Buchstaben der alignierten Wörter an gleichen Positionen stehen und die Anzahl der Lücken möglichst klein ist [6]. Genau legt man das über die Scoring-Funktion, die jedes Alignment bewertet, fest.
Bei der Berechnung eines Alignments braucht man eine Funktion w, die die Kosten der Überführung eines Alignments Sequenz 1 in eine andere Sequenz 2 berechnet. Die Funktion heißt Scoring-Function. Die Kosten w(a,b), um ein Zeichen a aus Sequenz 1 in b aus Sequenz 2 überzuführen, seien, wie folgt, definiert:
- w(a,a) = 0 (Match)
- w(a,b) = 1 (Mismatch)
- w(a,-) = w(-,b) = 1 (Indels,
insertions or deletions )
Die Gesamtkosten eines paarweisen Alignments setzen
sich dann aus der Summe all dieser Einzeloperationen zusammen. Von Interesse
sind lediglich solche Alignments mit
geringen Kosten, die optimalen Alignments. Ein
optimales Alignment von Sequenz 1 und Sequenz 2 ist
ein Alignment,
das die minimalen Kosten unter allen möglichen Alignments
aufweist. Abb. 4.5 zeigt zwei paarweise Alignments
mit unterschiedlichen Kosten.
Abb. 4.5: Zwei paarweise Alignments
mit unterschiedlichen Kosten
Das optimale Alignment
in diesem Beispiel ist folglich das mit den Gesamtkosten 2.
Problem ist, es kann mehrere optimale Alignments
gleichzeitig geben, und es ist sehr
schwierig, unter der sehr großen Menge an Alignments
auf den verschiedensten Datenbanken ein optimales Ergebnis zu finden. Dazu
benutzt man die dynamische Programmierung [11].
Multiple vs.
paarweise Alignments
Beziehungen sind nicht nur auf
zwei Sequenzen beschränkt, deshalb unterscheidet man zwischen den paarweisen (siehe Abb. 4.4) und den multiplen (mehr als
zwei) Alignments (siehe Abb. 4.3). Wenn beim Suchen
nach ähnlichen Sequenzen in einer Datenbank die bekannten Suchwerkzeuge
(FASTA, BLAST) verwendet werden, bekommt man oft viele Sequenzen, die der
neuen Sequenz ähnlich sind. Solche Vergleiche sind nur bei einer kleinen Anzahl
von Sequenzen möglich. Bei vielen Sequenzen sind diese Vergleiche unpraktisch.
Mit multiplen Sequenzalignments können alle ähnlichen Sequenzen in einer
einzigen Tabelle repräsentiert werden.
Die Sequenzen werden untereinander in einem Koordinatensystem aligniert. In diesem Koordinatensystem ist jede Zeile einer
Sequenz, und jeder Spalter hat die 'gleiche' Position in jeder Sequenz. Bei der
Konstruktion eines multiplen Alignments werden neue
Lücken an den Positionen, wo keine Lücken in einem entsprechenden paarweisen Alignment waren,
hinzugefügt. Das heißt, dass multiple Alignments mehr
Lücken haben als irgendein gegebenes Paar von
alignierten Sequenzen.
Es gibt N x M mögliche Alignments zwischen zwei Sequenzen (ohne Lücken) der Länge
N und M [4]. Falls Lücken erlaubt sind, gibt es viele verschiedene Anordnungen,
die berücksichtigt werden müsse. Abb. 4.6 zeigt ein Beispiel zweier Sequenzen,
die unterschiedlich angeordnet sind.
Abb.
4.6 (1)-(3):
Beispiel zweier Sequenzen mit drei unterschiedlichen Anordnungen
In diesem Fall gibt es
ungefähr N^M mögliche Alignments, weil alle mögliche
Paarungen zwischen den Elementen berücksichtigt werden müssen.
4.3
Sequenzassemblierung
Abb. 4.7: Assemblierung von
ATGTGCCGCA
Aus den zufällig über das
Chromosom verteilten Teilsequenzen
wird mittels Identifikation identischer Sequenzen die
gesamte Sequenz zusammengesetzt [6]. Abb. 4.7 zeigt ein Beispiel von
Assemblierung.
Zur Assemblierung braucht man sehr effiziente und ausgeklügelte Algorithmen (wie dynamische Programmierung, FASTA- und BLAST-Algorithmen), weil die Anzahl der Fragmente und somit die Anzahl der Vergleiche im allgemeinen sehr groß ist und im schlechten Fall Fragmente mehrfach vorhanden sein bzw. Lesefehler enthalten können. In dieser Phase sind im Gegensatz zur ersten Phase alle Basensequenzen und die Ausrichtung der Fragmente bekannt.
4.4 Suchmöglichkeiten
Das Wachstum von Sequenzdatenbanken wurde so schnell, dass die Entwicklung schnellerer Suchalgorithmen notwendig war. Daher wurden heuristische (d.h. approximative statt optimale Lösungen) Ansätze gewählt, die zwar weniger sensitiv, aber sehr schnell arbeiten. Die beiden bekannten sind BLAST und FASTA. Fasta war das erste weit verbreitete Programm für die Suche nach Ähnlichkeiten in den Datenbanken.
BLAST (Basic Local Alignment Search Tool): BLAST ist ein Werkzeug für die Suche nach lokalen Sequenzalignments, um Unterschiede bzw. Ähnlichkeiten zwischen zwei Erbinformationsträgern festzustellen. Es wurde 1990 entwickelt und ist die Grundlage einer großen Produktfamilie (BLAST 2 und PSI-BLAST, Möglichkeit, Alignments mit Lücken zu finden).
Ein Aufruf von BLAST mit einer fraglichen Sequenz liefert eine Liste von sogenannten high-scoring-segment-pairs zwischen den gesuchten und allen übrigen Sequenzen der Datenbank zurück. Abb. 4.9 zeigt einen Teil eines Blast-Queryergebnisses. Ein segment-pair ist ein Paar von Teilstücken einer Sequenz der gleichen Länge. Abb. 4.8 zeigt ein solches kurzes Alignment.
Ein solches segment-pair hat den Vorteil, Zeichen für Zeichen mit einer Kosten-Matrix ohne das Problem von gaps (Lücken) bewertet zu werden.
Abb. 4.8:
Beispiel von einem segment-pair
Abb. 4.9: Teil eines Blast-Queryergebnisses
Fasta: Mit FASTA können nicht nur Proteinsequenzen gesucht werden,
sondern auch DNA-Sequenzen. Dies wurde hauptsächlich
dadurch erreicht, dass man die
beiden Programme FASTN und FASTP in einem zusammengefasst hat [6]. Fasta
sucht zunächst nach Wörtern (k-tuples) der Query-Sequenz. Die k-tuple
Wörter sind kurze Muster von k aufeinander folgenden gleichen Buchstaben in
Query- und Datenbanksequenz. Für DNA ist k gleich 4-6, für die Proteine gleich
1-2. Solche kurze Übereinstimmungen zwischen der Query und der Datenbanksequenz
werden zu einem match vereinigt, wenn sie für k = 2
z.B. nicht weiter als 16 Positionen voneinander entfernt sind ( Lücken sind dabei nicht erlaubt). Fasta
ist viel schneller als eine dynamische Programmierungsmethode, aber langsamer
als BLAST.
Die Query-Sequenz wird in Feld SEARCH der FASTA/BLAST-Suchmaske als einfacher Text, in FASTA Format oder über ein Sequenz-ID eingefügt. Vor Beginn der Suche lässt sich eine Reihe von benutzerdefinierten Vorgaben machen. Abb. 4.10 zeigt einen Teil eines Fasta-Queryergebnisses.
Andere Suchwerkzeuge sind im Anhang angegeben.
Abb. 4.10: Teil
eines Fasta-Queryergebnisses
Skripte: Während sich Datenbanksuchen mit einzelnen oder wenigen Sequenzen leicht durchführen lässt, gerät man bei mehreren Hundert Sequenzen oder auch einer großen Menge von gefundenen Treffern, die weiter verarbeitet werden müssen, sehr schnell in die Situation, dass Suche und Abspeichern von Ergebnissen bzw. deren Weiterverarbeitung automatisiert werden müssen. Dies ist der Punkt, an dem Kenntnisse in der Erstellung, z.B. von PERL-Skripten, notwendig sind, um Datenbanken überhaupt effizient nutzen zu können. Komplexe, benutzerdefinierte Datenmuster, die dann in lokal vorhandenen Datenbanken gesucht werden, lassen sich auch mit Skripten beschreiben.
Datenbanken werden in der Molekularbiologie schon seit über eineinhalb Jahrzehnten zur Speicherung, Sammlung und Auswertung von Informationen eingesetzt. Die Entwicklung auf dem Gebiet der molekularbiologischen Datenbanken hat aber erst in den letzten Jahren eine enorme Dynamik entwickelt. Wenn man sich mit molekularbiologischen Datenbanken beschäftigt, hat man es hauptsächlich mit Sequenzdatenbanken zu tun. Deshalb ist eine Konzentration auf diese Art von Datenbanken sinnvoll. In diesem Teil werden die Sequenz-Datenbanken, die Datenbanken für metabolische Wege (Pathway), die makromolekulare 3D-Strukturdatenbanken und die Sequenzmotivdatenbanken behandelt.
5.1 Sequenz-Datenbanken
Genomische Sequenzdaten werden heute in großen Mengen durch die zahlreichen laufenden Genomprojekte erstellt. Genomprojekte konzentrieren sich unter anderem auf evolutionär interessante Organismen, auf molekularbiologische Modellorganismen und natürlich auf das menschliche Genom. Die Sequenz-Datenbanken enthalten hauptsächlich drei Arten von Informationen: die DNA-Sequenzen, die RNA-Sequenzen und die Aminosäure-Sequenzen Die drei wichtigen internationalen Datenbanken, in denen individuelle Labors oder große Sequenzierungskonsortien ihre Sequenzen hinterlegen und somit öffentlich zugänglich machen können, sind GenBank, die Datenbank des National Center for Biotechnology (NCBI), EMBL , die Nukleotiddatenbank des European Molecular Biology Laboratory und DDBJ, die DNA Data Base of Japan.
Die bekanntesten Proteinsequenzdatenbanken sind Swiss-Prot und PIR. EMBL und Swiss-Prot Datenbanken werden besprochen.
5.1.1 EMBL
Die Europäische Molekular Biologie Labor (EMBL) Nukleotidesequenz Datenbank wird von dem Europäischen Bioinformatik Institut (EBI) in internationaler Zusammenarbeit mit der DNA Daten Bank von Japan (DDBJ) und GenBank (USA) verwaltet [5]. Daten werden unter den zusammenarbeitenden Datenbanken täglich ausgetauscht. Die Hauptmitwirkenden der EMBL Datenbank sind individuelle Autoren und Genomprojektgruppen.
Nukleinsäuresequenzen bieten den wesentlichen Anfangspunkt zur Beschreibung und zum Verstehen von Struktur, Funktion und Entwicklung genetisch verschiedener Organismen. Die GenBank, EMBL und DDBJ Nukleinsäure Sequenz-Datenbanken haben von Anfang an Feature- und Stellentabellen zur Beschreibung von Funktionen bzw. Stellen der Sequenzdomäne hoher Ordnung und der Elemente innerhalb eines Genoms des Organismus.
Jeder Eintrag fängt mit einer Identifikationszeile (ID) an und endet mit einer Abschlusszeile (//). Abb. 5.1 zeigt ein Beispiel eines EMBL-Eintrags. Der Eintrag entspricht einer einzigen zusammenhängenden Sequenz, die in der Datenbank eingetragen ist oder von der in der Literatur berichtet wird.
Struktur des Datenbestandes: Der Bestand der EMBL und anderer Sequenzdatenbanken ist aus zwei Gründen in Teilmengen aufgeteilt [20]: Zum einen interessiert häufig bei der Suche nur eine Teilmenge aller deponierten Sequenzen. Derartige Teilmengen können über den Namen der Teildatenbank ausgewählt werden. Diese Aufteilung reflektiert im Wesentlichen taxonomische Aspekte (z.B. HUM = human, PLN = plants, PRO = prokaryotes, usw.), allerdings gibt es Ausnahmen wie HTG ( High Throughput Genome Sequences ), GSS ( Genome Survey Sequences ) und EST ( Expressed Sequence Tags). Diese Adressierung leitet sich von der spezifischen Natur der angesprochenen Daten oder dem technischen Ansatz der Datengewinnung ab.
Zum anderen ist für effektive(d.h. schnelle) Suchalgorithmen ein Preprocessing der Daten- bestände notwendig. Dieser Schritt ist aufgrund der Größe der Bestände aufwendig. Da sich der Inhalt der Datenbestände durch direkte Submission täglich vergrößert, wird das meist au-tomatisierte Update einer Sequenzdatenbank zwischen der Ausgabe vom "major releases" in eine Teildatenbank geschrieben. Diese ist im Verhältnis zur kompletten Datenbank wesentlich kleiner, daher sind die Kosten für das Preprocessing ebenfalls geringer.
Bei jeder neuen Veröffentlichung wird die Datenbank mit Namen EMBL generiert. Daten- sätze, die zwischen der Herausgabe zweier Veröffentlichungen hinzukommen, werden zunächst in die Datenbank EMBLNEW aufgenommen. Diese Sammlung geht bei der Erstellung der nächsten Veröffentlichung in die EMBL ein.
Datenbankeintragsstruktur: Datenbankeinträge werden im EMBL Flatfile-Format verteilt. Dieses Format bietet eine Struktur, die einfach zu lesen ist. Das EMBL Flatfile-Format besteht aus eine Reihe von streng kontrollierten Zeilentypen, die tabellarisch repräsentiert werden und aus vier Hauptblöcken bestehen [5].
Abb. 5.1: SRS Queryergebnis eines
EMBL-Eintrags mit AC-Nummer AF324378
Suchmöglichkeiten: Die Suche in EMBL-Datenbanken kann mit Hilfe von BLAST, SRS und Fasta erfolgen. Das Format der SRS Ergebnisse ist in Abb. 5.1 gezeigt. Blast- bzw. Fasta-Formate sind in Abb. 4.7 bzw. 4.8 gezeigt.
Verweise: EMBL hat Verweise auf TRANSFAC, IMGT, Flybase, TrEBML und SWISS-PROT.
5.1.2 SWISS-PROT
SWISS-PROT ist eine annotierte Proteinsequenz-Datenbank. Sie wurde 1986 eingeführt und wird seit 1987 von der Gruppe von Amos Bairoch und der EMBL-Datenbibliothek gemeinschaftlich gewartet [23]. Die SWISS-PROT Protein Datenbank enthält Sequenzeinträge, die aus verschiedenen Zeilentypen, jeder mit seinem eigenen Format, zusammengesetzt werden. Für Standardisierungszwecke stimmen die Formate von SWISS-PROT und EMBL Nukleotid Sequenzdatenbank nahezu überein. SWISS-PROT unterscheidet sich von den Proteinsequenz-Datenbanken durch drei deutliche Kriterien [3]:
Annotation: In SWISS-PROT können wie in vielen Sequenzdatenbanken zwei Klassen von Daten unterschieden werden: Die Kerndaten und die Annotation.
In jeden Sequenzeintrag werden die folgenden Kerndaten eingetragen: die Sequenzdaten, die Zitatinformationen (bibliografische Referenzen), die taxomischen Daten (Beschreibung der biologischen Quelle des Proteins).
Die Annotation besteht aus der Beschreibung der folgenden Gegenstände: Funktion(en) eines Proteins, Post-Translation-Modifikation(en), Domänen und Stellen, sekundäre Struktur (lokale Regionen in Sequenz und Raum, die konservierte geometrische Features zeigen), tertiäre Struktur (komplette 3D-Konformation des Proteins), quaternäre Struktur (eine Art und Weise, wie Strukturen der verschienen Sequenzen sich gegenseitig beeinflussen, z.B. Selbst-Assemblierung), Ähnlichkeiten mit anderen Proteinen, Krankheit(en), die mit einer Anzahl von Mängeln in einem Protein assoziiert sind, Sequenzkonflikte, Varianten etc.
Minimale Redundanz: Viele Sequenzdatenbanken enthalten für eine gegebene Protein-sequenz separate Einträge, die unterschiedlichen Literaturberichten entsprechen. In SWISS-PROT werden alle diese Daten zusammengefasst, um die Redundanz von Datenbanken zu minimieren. Kleinere Sequenzunterschiede werden in der Annotation vermerkt. Falls Konflikte zwischen verschiedenen Sequenzberichten existieren, werden sie in einer Featuretabelle des entsprechenden Eintrags angezeigt.
Integration mit anderen Datenbanken: Es ist wichtig, die Benutzer von Biomolekular-Datenbanken mit einem Integritätsgrad zwischen den drei Typen von sequenzähnlichen Datenbanken (Nukleinsäuresequenzen, Proteinsequenzen und Proteintertiärstrukturen) ebenso wie mit speziellen Datenbanken bekannt zu machen. SWISS-PROT hat zur Zeit Querverweise zu etwa 30 verschiedenen Datenbanken [20].
Abbildung 5.2:
SRS Queryergebnis eines SWISS-PROT-Eintrags mit AC-Nummer P51749
Die Querverweise werden in Form eines Zeigers auf Informationen, die mit SWISS-PROT-Einträgen verwandt sind, zur Verfugung gestellt und werden in Datensammlungen, jedoch nicht bei SWISS-PROT, gefunden. Das intensive Netzwerk von Querverweisen erlaubt SWISS-PROT, eine größere Rolle als Schwerpunkt der Zusammenarbeit der Biomolekular-Datenbanken zu spielen.
Die Einträge in der SWISS-PROT Datenbank sind so strukturiert, dass sie
nicht nur den menschlichen Lesern, sondern auch für Computerprogramme nützlich
sind. Abb. 5.2 zeigt einen Teil eines SWISS-PROT-Eintrags.
SWISS-PROT wird ergänzt durch TrEMBL (Tr für Translate). TrEMBL enthält die automatisch erzeugten Übersetzungen in
Proteinsequenzen aller codierenden Sequenzen der EMBL Datenbank.
Suchmöglichkeiten: Die Suche
in SWISS-PROT-Datenbanken kann wie in EMBL mit SRS, Blast und Fasta
erfolgen.
5.2 Datenbanken für metabolische Wege (Pathways)
Ein metabolicher Weg ist eine Abfolge von Relationen, die für Stoffwechsel sorgen, ähnlich wie Impulse innerhalb der Zelle, die zur Folge haben, einen bestimmten Stoff in einen anderen umzusetzen.
Die Daten, die in metabolischen Weg-Datenbanken gespeichert werden, sind eine Menge von funktionalen Rollen, die mit EC ( Enzyme Commision )-Nummern versehen werden. Die schon bekannten Informationen über Metabolismus eines Organismus können beispielsweise dazu verwendet werden, die Stoffwechselwege bei einem ähnlichen, neu sequenzierten Genom zu verstehen.
Jeder metabolische Weg kann also als ein Netzwerk von Enzymen oder von EC (Enzyme Commission)-Nummern (Abb. 5.3) dargestellt werden [8]. Abb. 5.4 zeigt ein Flatfile-Format eines Enzyms 1.2.1.18. EC-Nummern spielen beim metabolischen Weg zwei wichtige Rollen. Erstens werden sie als Knoten (Enzyme) identifiziert und zweitens als Schlüssel zur Verbindung mit genomischen Informationen verwendet. Wenn Gene der Enzyme in einem Genom mittels Sequenzähnlichkeitssuche und positioneller Korrelation der Gene identifiziert und die EC-Nummern korrekt zugeordnet worden sind, können organismusspezifische Wege, rechnergestützt
durch Korrelation der Gene in einem Genom mit Genprodukten (Enzyme), auf einem Weg laut Übereinstimmung der EC-Nummern konstruiert werden.
Abb. 5.3: KEGG
Queryergebnis für INOSITOL METABOLISMUS (Kohlenhydrat Metabolismus)
Abb. 5.4: DBGET Queryergebnis
eines Enzyms 1.2.1.18
Wichtig sind auch die regulatorischen Wege, die die Steuerungsvorgänge und die interzelluläre Kommunikation übernehmen. Die Kenntnisse über das regulatorische Netzwerk können zur gezielten Steuerung bestimmter Vorgänge im Organismus eingesetzt werden. Die Nutzung dieser Netzwerke ist kompliziert und ohne rechnergestützte Modellierung nicht zu bewältigen. Ein anderes Problem ist, dass es keine geeignete Identifizier für Funktionen in regulatorischen Wegen gibt. Mit Hilfe von metabolischen und regulatorischen Netzwerken kann der Stoffwechsel im menschlichen Organismus besser verstanden werden, somit können Störungen bei den normalen Vorgängen schnell und einfach erkannt werden, was zur Behandlung von Krankheiten sehr nützlich ist.
Beispiele von Datenbanken für metabolische Wege sind: LIGAND, KEGG, ENZYME, Klotho.
Suchmöglichkeiten: Die Suche in diesen Datenbanken kann mit Hilfe
von DBGET, KEGG und WIT durchgeführt werden.
KEGG- bzw. DBGET-Queryergebnisse sind in Abb. 5.3
bzw.5.4 gezeigt.
Verweise: Datenbanken für metabolische Pathways haben verweise auf PROSITE, Proteinsequenzmotiv, 3D-Struktur-Datenbanken.
5.3 Makromolekular 3D-Struktur-Datenbanken
Zur Bestimmung einer Funktion eines bestimmten Proteins geht man davon aus, dass die Struktur die Funktion eines Proteins bestimmt [6] . Die Struktur gewinnt man aus der Sequenz (auch wenn die Wissenschaftler das bisher noch nicht annähernd verstanden haben). Man vermutet, dass bestimmte strukturelle Merkmale auf eine bestimmte Funktion hindeuten. Die Merkmale versucht man anhand der Sequenz zu konstruieren. Die Sache wäre viel einfacher, wenn man 3D-Bilder von Proteinen erhalten könnte, aber das ist bekanntlich schwierig. Man kann auch nach Strukturähnlichkeiten auf Datenbanken mit Hilfe von entsprechenden Algorithmen und Ansätzen der Informatik suchen. Das Wissen über die schon bekannte Funktion und Struktur wird auf neu spezialisierte bzw. ähnliche Gene übertragen. Abb. 5.5 zeigt die 3D-Strukture eines Eintrags mit ID 1H61.
Abb. 5.5: Entrez 3D-Struktur-Queryergebnis des Eintrags mit ID 1H61
3D-Struktur von DNA und Proteinen: Im lebenden Organismus liegen
DNA und Proteine in einer
dreidimensionalen Struktur vor. Bei der Reduktion einer Tertiärstruktur
(3D-Struktur) auf die bloße Primärstruktur (Sequenz) geht eine
Fülle von Informationen verloren. Daher
wird ein Vergleich von Sequenzen einen geringeren Informationsgehalt
haben als der Vergleich von 3D-Strukturen. Diese Behauptung wird
offensichtlich beim Vergleich einer Proteinsequenz mit
der 3D-Struktur, die
von dieser Sequenz
eingenommen wird. Abb. 5.6 zeigt
ein Flatfile-Format von der in Abb. 5.5 gezeigten
3D-Struktur.
Abb. 5.6: Entrez Queryergebnis eines Eintrags mit PDB ID 1H61
Die Sequenz enthält z.B. keinerlei Informationen über die relative räumliche Lage der Residuen zueinander. Nach der Faltung in eine 3D-Struktur können Residuen, die in der Sequenz weit voneinander entfernt liegen, im Protein räumlich eng benachbart sein. Die 3D-Struktur eines Proteins wird zwar durch die Sequenz determiniert. Es ist jedoch bisher im Allgemeinen nicht möglich, aus der Sequenz die Tertiärstruktur eines Proteins vorherzusagen.
In 3D-Struktur-Datenbanken werden Daten wie atomische Koordinaten und einige strukturelle Parameter, die mit den Atomen (B-Faktor, occupancies) verbunden sind oder die aus der Struktur(Sekundärstruktur) berechnet werden, gespeichert. Die meisten 3D-Strukturen erhält man durch Röntgenstrahlkristallographie und magnetische Kernresonanzspektroskopie [16]. Sie stellen eine Fülle von Informationen über
dar. Die bekannten Beispiele von 3D-Struktur-Datenbanken sind PDB, SCOP und Class, Architecture, Topology, Homologuos superfamilies (CATH).
Suchmöglichkeiten: Entrez bzw. DBGET kann zur Suche in 3D-Struktur-Datenbanken benutzt werden. Formate sind in Abb. 5.4 bzw. Abb. 5.6 gezeigt.
Verweise: 3D-Struktur-Datenbanken haben Verweise auf Sequenz-Datenbanken, Motiv-Datenbanken.
5.4 Sequenzmotiv-Datenbanken
Abb. 5.7: ScanProsite Queryergebnis eines Eintrags mit AC-Nummer
P05130
Sequenzmotiv-Datenbanken sind Datenbanken für Protein-Familien, die als Domäne definiert werden. Domänen sind zusammenhängende Segmente der gesamten Proteinsequenzen. Abb. 5.8 zeigt einen Eintrags in einer Sequenzmotiv-Datenbank (Prosite).
Die Daten, die in Sequenzmotiv-Datenbanken gespeichert werden, sind multiple Align-
ments der Mengen von definierenden Sequenzen und der anderen Sequenzen in SWISS-PROT und TrEMBL, die an diese Alignments angepasst werden können.
Es ist beobachtet worden, dass, obwohl es eine große Anzahl von verschiedenen Proteinen gibt, viele auf Grund der Sequenzähnlichkeit in einer beschränkten Anzahl von Familien gruppiert werden können. Proteine oder Protein-Familien, die zu einer bestimmten Familie gehören, teilen sich die funktionalen Attribute und sind von einem gemeinsamen Vorfahren abgeleitet.
Die multiplen Alignments, die zur Definition von einer Domäne (Proteinfamilie) verwendet werden, heißen seed alignment. Dieses Alignment wird von den Fachleuten geschaffen zur Generierung eines Profils HMM (hidden Markov models) [8], das die anderen Sequenzen in den Datenbanken (SWISS-PROT und TREMBL), die die Domäne enthalten, identifiziert. Diese Datenbanken erlauben die Analyse von neuen Sequenzen bzgl. der Domäne, die in einer Sequenz entdeckt werden können. Es ist oft nützlicher, eine Domäne zu suchen, als eine Sequenzsuche durchzuführen. Wenn z.B. ein neues Protein eine Kinasedomäne hat, ist es hilfreich, eine Domäne-Datenbank (mit einer angemessenen Suchsoftware, z.B. InterPro) zur direkten Identifikation einer Domäne in einer Sequenz zu verwenden. Bekannte Beispiele von Sequenzmotiv-Datenbanken sind: Pfam, PRINTS, PROSITE, InterPro und BLOCKS.
Verweise: Sequenzmotiv-Datenbanken haben Verweise auf Sequenz-Datenbanken, andere Motiv-Datenbanken, 3D-Struktur-Datenbanken.
Suchmöglichkeiten: Suche in Motiv-Datenbanken kann mit Hilfe von
z.B. SRS, ProfileScan, ScanProsite,
Pfam HMM durchgeführt werden.
6 Zusammenfassung
Das in dieser Arbeit aufgezeigte Wachstum der Sequenzen zeigt, wie wichtig es ist, die biologischen Daten zu speichern und zu analysieren. Aus diesem Grund sind auch viele Datenbanken entstanden. Die Klassifikation der Datenbanken ist auf Grund der Datenkomplexität schwer. Die Charakteristika von biologischen Datenbanken führen dazu, dass der Nutzen dieser Datenbanken gering ist. Sie enthalten auch infolge der direkten Submission viele Fehler und inkonsistente Daten. Außerdem sind sie heterogen und oftmals auch redundant. Die Integration dieser Datenbanken ist auf Grund der unterschiedlichen Datentypen schwierig. Der automatische Austausch von Annotationen ist wegen unterschiedlicher Ontologien schwer.
Es muss bei der Submission auf Fehler, Redundanz und Konsistenz geprüft werden. Neue Mechanismen (wie APIs mit Corba) zur Integration von heterogenen Datenbanken müssen eingefügt werden, um den Austausch von heterogenen Daten zu ermöglichen. Die Einheitlichkeit der Ontologien ist anzustreben.
Anhang
Datenbanken |
Typ |
Beschreibung |
url |
GenBank |
allgemein, primär |
Nukleotidsequenz DB |
http://www.ncbi.nlm.nih.gov |
EMBL |
allgemein, breit, primär |
Nukleotidsequenz DB |
embl.html |
DDBJ |
allgemein |
Nukleotidsequenz DB |
http://www.ddbj.nig.ac.jp |
SWISS-PROT |
allgemein, breit, primär |
Proteinsequenz DB |
http://www.expasy.ch/ sprot |
PIR |
allgemein |
Proteinsequenz DB |
http://pir.georgetown.edu |
PDB |
allgemein, primär |
3D Struktur DB |
http://www.rcsb.org/pdb/ |
Enzyme |
sekundär, speziel |
DB für Enzymnomenklatur |
http://www.expasy.ch/ enzyme/ |
Ligand |
speziel |
DB für enzymatische Ligands, Substrate, reactionen |
dbget/ligand.html |
SCOP |
sekundär |
DB für Familien und strukturelle Proteinreactionen |
http://scop.mrc-lmb.cam. ac.uk/scop |
PRINTS |
sekundär |
DB für hierarchische Genfamilien-Fingerausdrücke |
http://www.bioinf.man.ac.uk/dbbrowser/PRINTS/ |
BLOCKS |
sekundär |
DB für konservierte Sequenz-regionen der Proteinfamilien |
http://www.blocks.fhcrc.org/ |
SBASE |
sekundär |
DB für annotierte Proteindomäne-Sequenzen |
http://www3.icgeb.trieste.it/~sbasesrv/ |
FlyBase |
tief |
DB für Drosophila-Sequenzen und genomische Informationen |
http://www.fruitfly.org |
STRBase |
tief |
DB für kurze Tandem-DNA Wiederholungen |
http://www.cstl.nist.gov/div831/strbase |
SGD |
tief |
DB für S.cerevisiae Genome |
http://genome-www. stanford.edu /Saccharomyces |
Tabelle 1:
Beispiele von Datenbanken unterschiedlicher Klassen.
Tool |
URL |
BLAST |
http://www.ncbi.nlm.nih.gov/BLAST/ |
DBGET |
http://www.genome.ad.jp/dbget-bin/www_bfind?pathway |
Entrez |
http://www.ncbi.nlm.nih.gov/entrez/query.fcgi |
Fasta |
http://www.fasta.genome.ad.jp/ |
Frame-ProfileScan |
http://www.isrec.isb-sib.ch/software/PFRAMESCAN_form.html |
KEGG |
http://www.tokyo-center.genome.ad.jp/kegg/kegg2.html |
Pfam HMM |
http://pfam.wustl.edu/hmmsearch.shtml |
ProfileScan |
http://hits.isb-sib.ch/cgi-bin/PFSCAN? |
ScanProsite |
http://us.expasy.org/tools/scnpsite.html |
SRS |
http://us.expasy.org/srs5/ |
WIT |
http://wit.mcs.anl.gov/MPW/ |
Tabelle 2: Beispiele von Tools
mit ihren entsprechenden URLs
Literaturverzeichnis
[1]
Apweiler,
R: Introduction to Molecular Biology Databases.
http://www.ebi.ac.uk/swissprot/Publications/mbd1.html
[2] Baxevanis A.D. :The Molecular Biology Database collection: an updated
compilation of
biological database
resources. Nucleic Acid Research,
2001, Vol. 29, No. 1
[3] Bairoch,A.
and Apweiler,R. (2000) The SWISS-PROT protein
sequence database and its
supplement TrEMBL in 2000. Nucleic Acids Res., 28,
45–48
[4] David M. Sander: Molecular Biology Databases
on the Internet II, 1997
http://www.tulane.edu/~dmsander/biotechniquessites2.html
[5] Geunter Stoesser, Wendy Baker, Alexandra van den Broek, Evelyn Camon, Maria
Garcia-Pastor, Carola
Kanz, Peter Sterk, Peter Stoehr and Mary Ann Tuli: The
EMBL
nucleotide sequence
database. Nucleic Acid Reasearch, 2001, Vol. 29, No. 1 17-21
[6] Maihub Dahdal: Datenbanken und Informationssysteme,2001
http://www.gp.tu-berlin.de/users/d/dahdal/bioinf
[7] Michael S. Waterman: Introduction to computational
biology: Maps, Sequences and Ge-
nomes,
CHAPMAN & HALL/CRC 2000
[8] Michael Huhns, Larry Stephens: Multiagentensysteme und Gemeinschaften von Agenten
ABSCM 2001/2002
[9] Minoru Kanehisa
and Susumu Goto: KEGG:
nomes.
Nucleic Acids Research, 2000, Vol.
28, No. 1 27-30
[10]
Norman Parton and Carole Goble: Information
Management for Genome Level Bio
informatics. VLDB 2001.
[11] Pavel A. Pevzner: Computational Molecular Biology: an Algorithmic
Approach,
MITPress 2000.
[12] Reinhard
Rauhut: Bioinformatik: Sequenz-Struktur-Funktion. Wiley-VCH,
2001
[13] Sklyar Nataliya : Survey of existing bio-ontologies,
Technical Report September 2001 [14] Victor
M. Markowitz: Characterising Heterogeneous Molecular
Biology Database Sys-
tems
[15] William
M. Gelbart: Databases in Genomic Research. Science,
1998, Vol.282,
[16] Databases in bioinformatics, 20.10.2001: http://www.sbc.su.se/~per/strbio2000
[17] Genotype
vs Phenotype,
23.12.2001: http://www.ess.ucla.edu/huge/genotype2.html
[18] Growth of GenBank: http://www.ncbi.nlm.nih.gov/Genbank/genbankstats.html
[19] http://www.swbic.org/education/comp-bio/simint.htm
[20] http://www.genome.ad.jp/dbget/db_growth.gif
[22] Ontology; Knowledge; Concept: http://img.cs.man.ac.uk/stevens/onto/node2.html
[23] Sequenz-Datenbanken: http://www-lehre.img.bio.uni-goettingen.de/edv/
Bio_Inf/ sequ/seq_db.htm