Bio-Datenbanken  Wintersemester 2001/2002

 

             Überblick über die Bio-Datenbanken

 

                                                     Bearbeiter:  Collette Hagert

                                                     Betreuer:     Do Hong Hai

 

                                                     Prof. Dr. Erhard Rahm

 

   

 

 

 

 

 

 

 

 

 

                                                                                                                      

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Inhalt

 

1          Motivation                                                        ....................................................   3

 

2          Klassifikation von Bio-Datenbanken             ....................................................   5

2.1       Spezielle und allgemeine Datenbanken             ........................................................  5

 

3         Charakteristika von Bio-Datenbanken           ....................................................   6

3.1       Heterogenität                                                      ....................................................   6

3.2       Integration                                                          ....................................................   8

3.3       Redundanz und Fehler                                       ....................................................    9

3.4       Annotation und Pflege                                       ....................................................    9

3.5       Ontologien                                                         .................................................... 10

 

4          Sequenzanalyse                                                ...................................................  10

4.1       Sequenzierung                                                   ....................................................  11

4.2       Sequenz-Alignment                                           ....................................................   12

4.3       Assemblierung                                                   ....................................................  14

4.4       Suchmöglichkeiten                                            ....................................................   14

 

5          Öffentliche Bio-Datenbanken                         .................................................... 16

5.1       Sequenz-Datenbanken                                         ...................................................17

5.1.1    EMBL                                                                ....................................................17

5.1.2    SWISS-PROT                                                    ...................................................19

5.2       Datenbanken für metabolische Pathways          .....................................................  20

5.3       Makromolekular  3D-Struktur-Datenbanken     .................................................... 22

5.4       Sequenzmotiv-Datenbanken                               ................................................... 24

 

6          Zusammenfassung                                            .................................................. 25

 

Anhang                                                                          .................................................. 26

Literaturverzeichnis                                                     .................................................. 27

 

 

                       

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1     Motivation

 

      Auf Grund der großen Mengen von Daten auf  dem Gebiet der Molekularbiologie, die ausgetauscht, organisiert und analysiert werden müssen, sind unterschiedliche  zentrale Datenbanken, die diese Daten enthalten, notwendig. Die vielen Daten sind nicht nur durch  die  Fortschritte, die  zum  Studieren  von  biologischen  Strukturen  (wie polymerase Ketten­reaktionen und anatomische  Sequenzierung) verwendet werden, entstanden. Sie sind  auch  durch die Fortschritte in den für die Forschung auf diesem Gebiet zur Verfügung  gestellten Analysewerkzeugen (z.B. FASTA und  BLAST), die die Sequenzierung der  großen  Anteile der  Genome  in  den  verschiedenen  Spezies  erlauben,  entstanden. Das Wachstum der Sequenzen und Basenpaare in GenBank-Datenbank ist in Abb. 1.1 gezeigt.

 

Abb.1.1: Wachstum der GenBank-Datenbank [18]

 

      Es gibt über 500 Bio-Datenbanken weltweit [10], und die Anzahl steigt weiter. In diesen Datenbanken  werden  unterschiedliche  Typen von Daten (z.B. Sequenzen, 3D-Strukturen, Sequenzmotive) gespeichert. Abb. 1.2 gezeigt das Wachstum von Sequenz- und 3D-Struktur-Datenbanken. Protein Data Base (PDB) ist eine 3D-Sruktur-Datenbank.

 

Abb. 1.2: Das Wachstum von Sequenz- und 3D-Struktur-Datenbanken [20]

 

 

Andere Beispiele von biologischen Datenbanken sind:

  • Sequenzmotiv-Datenbanken (Prosite, Pfam)
  • Literatur-Datenbanken (Medline) und
  • Genom-Datenbanken (Online Mendelian Inheritance in Man, (OMIN)).

 

     Die Quelle des  Materials (z.B. Genom, DNA), der Grad der Sequenzannotation (siehe Teil 2) und die Vollständigkeit der Sequenz bezüglich des  biologischen  Ziels  (vollständig vs. partielle Erfassung  eines Gens oder Genoms) sind   unterschiedlich, weil  die Daten  aus unterschiedlichen wissenschaftlichen  Gemeinschaften  (z.B. Forscher, Genomprojekte) kommen. Das führt zur strukturellen und semantischen Heterogenität und zur Autonomie der Bio-Datenbanken [13]. Strukturelle Heterogenität bezieht sich auf Unterschiede in Datenbankverwaltungssystemen und in Datenmodellen. Semantische Heterogenität betrachtet den Inhalt der Datenbanken und die Bedeutung von Datenbank-Kategorien.

      Biologen  wollen den Zusammenhang zwischen den Phänotypen und den  Genotypen  wissen, um diese im Kontext der  evolutionären  Biologie  zu   betrachten. Genotypen sind intern kodierte, vererbbare Informationen, die alle Organismen haben [17]. Sie enthalten Instruktionen, die von den biologischen Werkzeugen benutzt und interpretiert werden, um die Phänotypen der Organismen zu bilden. Bei den Phänotypen eines Organismus handelt es sich um tatsächlichen körperlichen Merkmale der Genotypen z.B. Moleküle, Makromoleküle, Zellen, Strukturen, Metabolismus, Funktionen.  In Abb. 1.3  wird der Zusammenhang zwischen Genotypen und Phänotypen gezeigt.

Abb. 1.3: Zusammenhang zwischen Genotypen und Phänotypen [10]

  

     Die Instruktionen werden in einem genetischen Code geschrieben. Ein genetischer Code ist eine lineare, nicht überlappende Sequenz von DNA-Basen: Adeninn (A), Guanine (G), Cytosine (C) und Thymine (T). Er ist redundant. Ein Phänotyp wird kanalisiert genannt, wenn  Mutationen (Änderungen des Genoms) die körperlichen Merkmale eines Organismus nur unmerklich beeinflussen. Ein kanalisierter Phänotyp kann sich, wie schon erwähnt, aus einer großen Bandbreite von Genotypen bilden. In so einem Fall lässt sich aus der Kenntnis des Phänotyps nicht zuverlässig auf den Genotyp schließen. Bisher sind die Phänotypen als Ganzes mehr als die Genotypen verstanden  worden [17], obgleich viele Biologen den Wunsch haben, bei der Analyse mit Genotypen anzufangen.

     In  vielen  Fällen sind  Einträge aus  mehreren  wissenschaftlichen Veröffentlichungen, die über die  überlappenden  Sequenzregionen  berichten,  zusammengestellt  worden. Umgekehrt bringt  eine einzige  wissenschaftliche Veröffentlichung oft  Daten  für  mehrere  Einträge, die  die gleichen Sequenzregionen auf unterschiedliche Art beschreiben. Das führt  zur  Redun­danz in Bio-Datenbanken.

     Die Submission der Daten ist für wissenschaftliche Gemeinschaften offen. Abb. 1.4 zeigt den direkten Submissionsprozess. Forscher können also die eigenen Daten (aus ihrer Forschung) in die biologischen Datenbanken eintragen. Die Daten, die aus wissenschaftlichen Gemeinschaften kommen, sind nicht konsistent [15]. Die Bio-Datenbanken sind aus diesen Gründen inkonsistent.

 

 

Abb. 1.4:  Der direkte Submissionsprozess [21]           

 

     Wie bereits angeführt, gibt es viele Daten und viele Bio-Datenbanken. Die Datenbanken enthalten redundante  und  inkonsistente  Daten, und  sie   sind  heterogen.

Ziel dieser Arbeit ist es, einen Überblick über die  Bio-Datenbanken  zu geben.

     Die  Arbeit  ist  in  vier  Teile  aufgeteilt. Im ersten  Teil  werden  die  Klassen  der Bio-Datenbanken besprochen. Der  zweite  Teil setzt sich mit den  Charakteristika der Bio-Da­tenbanken auseinander. Der dritte Teil beschäftigt sich  mit der Analyse von  Sequenzen.  Im letzten Teil werden die unterschiedlichen biologischen Datenbanken behandelt.

 

 

2     Klassifikation von Bio-Datenbanken

 

      Biologische Daten  können  sehr  komplex  sein. Das bezieht sich nicht  nur  auf den  Typ,   sondern auch auf den Um­fang  und die Konstraints, die für die Beziehungen zwischen den Daten verwendet werden. Konstraints sind Beschränkungen, die die syntaktische und semantische Korrektheit einer Operation (und dadurch die Konsistenz einer Datenbank) garantieren. Die Klassifikation von biologischen Datenbanken ist durch die Komplexität der Daten schwierig. Genomische Datenbanken können in allgemeine und spezielle Datenbanken eingeteilt werden [15]. Abb.2.1  zeigt diese Klassifikation.

 

Allgemeine vs. spezielle Datenbanken

Abb. 2.1: Klassifikation von genomischen Datenbanken [13]

    
   Allgemeine Datenbanken sind Datenbanken, die  Informationen über bestimmte Klassen von Molekülen enthalten, ohne irgendeine Funktion auszuschließen [13]. Im Gegensatz dazu haben spezielle Datenbanken beschränkte Bereiche, zum Beispiel  den  Bereich um  einen spezifischen Modell-Organismus (E.Coli (Bacterium), Hefe (Saccharamyces Cerevistae), Xenopus Laveis (afrikanischer Frosch)) oder um einen Typ von biologischen  Funktionen (z.B. enzymatische Reaktionen).

     Keine dieser Datenbanken  enthält nur Genomprojektdaten [15]. Die Daten sind ein Mosaik von Daten aus Genomprojekten, gemischt mit den Daten aus einer Vielfalt wissenschaftlichen Gemein­schaften.

     Darüber hinaus folgen [10] die primären vs. sekundären und die tief angelegten vs. breit angelegten Datenbanken.

 

Primäre vs. sekundäre Datenbanken

 

     Primäre Datenbanken sind  Datenbanken,  in denen Sequenzen deponiert  werden.  Sie werden von Experimentalisten generiert. Die Daten werden an die  sekundären Datenbanken weitergeleitet. Datenbanken, die abgeleitetes Wissen  von   primären Datenbanken, der  Analyse und  den Expertisen  oder  von  anderen  sekundären Datenbanken  sammeln, heißen  sekundäre  Datenbanken. Bei sekundären Datenbanken werden unterschiedliche Informationen durch die Analyse und/oder die Organisation hinzugefügt.

     Zum Beispiel ist PDB (Protein  Data  Base) eine primäre 3D-Struktur-Datenbank, die  ihre Daten an die SCOP (Structural Classification of Proteins)- eine typische sekundäre  3D-Struktur-Datenbank - weiterleitet. Zu den Daten in SCOP  werden  durch Analyse und Organisation mehrere  Informationen  hinzugefügt. Die 3D-Strukturen aus der PDB werden in SCOP in einem hierarchischen Schema von Falten, Superfamilien und Familien klassifiziert.  

 

Breit angelegte vs. tief angelegte Datenbanken

        

     Bei dieser Klassifizierung geht es um die Speicherung von Daten  eines Datentyps  ( z.B. 3D-Struktur ) entweder über eine bestimmte Spezies oder über  mehrere  Spezies. In  breit angelegten Datenbanken werden Daten eines Datentyps oder eines biologischen Systems mehrerer  Spezies gespeichert. In  tief angelegten Datenbanken werden  Daten  eines Datentyps einer bestimmten  Spezies  gespeichert.

     Beispiele zu den genannten Klassen von Datenbanken sind im Anhang angegeben.

 

 

3     Charakteristika von Bio-Datenbanken

 

3.1   Heterogenität

 

Typen von Daten: Es gibt vier Typen von Informationen [4], die  über ein Gen oder ein Gen- produkt in den entsprechenden Datenbanken gespeichert werden. Die vier Typen sind:

·        Genomische Informationen: Genomische Daten enthalten Informationen über die  Lage  der  Chromosome,  Intronen  ( nichtkodierende Regionen  in  DNA), regulatorische  Regionen.

·        Evolutionäre Informationen:  Antworten auf die Fragen " Befindet  sich  das Gen im  anderen Organismus?" oder " Was  ist  sein   taxonomischer  Baum  (hierarchische  Kategorisierung von Spezies)?" stellen evolutionäre Informationen dar. Zu den evolu­tionären Informationen gehören  Homologie (Ähnlichkeit zwischen zwei oder mehreren Sequenzen ),  Taxo­nomie (Klassifikation von Spezies), Syntenie (Genomevolution in Pflanzen).

·        Strukturelle  Informationen: Zu den strukturellen Informationen gehören die Komformationsveräderungen, Wasserstoffbrückenbindungen (die in einer gegebenen Struktur eines Proteins beobachtet werden), atomische Koordinaten, Abstand zwischen den Mittelpunkten zweier Residuen in einer Struktur, Winkeln zwischen Helices. Ein Helix ist eine Konformation einer Polypetidkette, die man in Proteinen häufig finden kann. Sie stellt eine stabförmige Struktur dar.

·        Funktionale Informationen: Funktionale Informationen sind z.B. Ergebnisse der Vergleiche von funktionalen Eigenschaften verschiedener Proteinen, die Rolle eines Proteins in einem Signaltransduktionsvorgang (Signal Transduction Pathway), die  Rolle eines Proteins in  einem Krankheitszustand.

 

Datenrepräsentationsformen: Aus Sicht des Benutzers werden die Daten in  biologischen Datenbanken in verschiedenen Formen repräsentiert. Sie  werden in den folgenden Formaten dargestellt:

  • Freier Text:  Da die Dateneinträge  annotiert  sein  müssen und die Annotationen  in einfacher englischer  Sprache  dargestellt werden,  müssen  sie als freier Text gespei­chert werden. Es gibt außerdem Literatur zu den Einträgen. Die Literatur und Publikationen werden auch  als freier Text gespeichert. Diese Form der Repräsentation ist unstrukturiert und kaum algorithmisch erfassbar.
  • Bilder: Beispiele von Bilder sind Mikroarrays (Genexpressi­onsdaten), 3D-Strukturen, Messkurven und Filme.

 

Speicherung von biologischen Daten:  Biologische   Datenbanken haben unterschiedliche   Formate, Strukturen, Umfang,  Schemas [10]. Eine  große  Menge von biologischen Daten  wird als Flatfiles (ascii text files) gespeichert, gleichzeitig gibt es relationale und objekt-orientierte biologische Datenbanken [13]. Das Organi­sationsschema für Flatfiles ist üblicherweise  transparent (nicht sichtbar) für den Benutzer.

 

Datenbankverwaltungssysteme: Auch wenn die biologischen Datenbanken verwandte Daten enthalten, sind sie oft isoliert und werden durch verschiedene Grade von Heterogenität charakterisiert. Sie repräsentieren, wie schon erwähnt, unterschiedliche Schemas und werden durch unterschiedliche Datenbankverwaltungssysteme implementiert. Die Datenbankverwaltungssysteme reichen von Dateiverwaltungssystemen bis zu den Datenbankverwaltungssystemen [14]. Molekular-Datenbanken wie Genome Data Base (GDB), FlyBase, Genome Sequence Data Base (GSDB) und Protein Data Base (PDB) werden von kommerziellen  relationalen Datenbankverwaltungssystemen (z.B ORACLE) verwaltet. Manche Datenbanken, z.B. Genom Datenbank für Hefe und verschiedene Pflanzen, werden mit AceDB (Durbin und Thierry-Mieg 1995) implementiert. LabBase und MapBase des Whitehead Institute for Biomedical Research in Cambridge sind in mit objektorientierten Datenbankverwaltungssystemen (z.B. EyeDB) entwickelt worden.

 

Zugriff auf Bio-Datenbanken: Die bekannteste Form des Zugriffs ist  die Verwendung   von Perl-Scripts auf Flatfiles, die heruntergeladen worden sind. XML-Formate werden ebenfalls   verwendet, insbesondere für die Verteilung, Speicherung und Interoperation.

     Für den Zugriff auf multiple Datenbanken stehen unter Verwendung eines zentralen  Tools immer  mehr  Mittel zur Verfügung. Anstatt eine Vielzahl von verschiedenen Datenbanken im Internet abzufragen, kann man ein Datenbankabfragesystem (z.B. Entrez, DBGET, Sequence Retrieval System (SRS)) verwenden, um auf ein­zelne  Datenbanken mit Hilfe von gemeinsamen Schnittstellen zuzugreifen [4]. Textsuche (z.B. nach Autor) und  SQL-Abfragen  sind  die am meisten verwendeten Abfragesprachen.

     Eine  dritte  Möglichkeit  ist   die  Verwendung  von  APIs  in  Corba. Mit  dieser  Methode wird keine Submission durch Abfrage erlaubt [10].  Corba definiert ein Set von Standards, aus denen ein kohärentes Framework besteht. In diesem Framework kann auf unabhängige Datenquellen zugegriffen werden.

     Es werden also Dienste wie Browsing, Visuali­sierung, Abfragung und APIs für den End-User angeboten.

 

3.2   Integration

 

     Um die Ergebnisse zu vergleichen, neue  Hypothesen  zu  testen und  zu verfolgen, müssen  Biologen die Möglichkeit haben, komplexe Fragen zu stellen und Daten von verschiedenen Informationsquellen sowie Experimenten zu analysieren. Außerdem  benötigen  viele Abfragen Zugriff auf  Daten  aus multiplen Quellen. Sie alle verlangen die Integration  von  biologischen Informationen. Es ist wichtig, einen effektiven Mechanismus zur Integration dieser Informationen zu verwenden. Der Mechanismus muss in der Lage sein, Daten aus unterschiedlichen Quellen  zu nutzen.

     Zur biologischen Datenintegration und Dateninteroperation wird meist der WWW-Mechanismus benutzt. Das liegt daran, dass der WWW-Server einfach zu installieren ist und die Hypertext-Dokumente einfach zu generieren sind. Mit dieser Methode ist es dem  Benutzer  möglich, interaktiv  von  einer Repräsentation  eines Eintrags in einer Daten­bank zu einem anderen Eintrag in einer anderen Datenbank zu navigieren. Das Problem ist, dass die Hypertext-Links schwer zu verwalten sind.

     Bio-Datenbanken (Flatfiles oder Tabellen) werden  mit  anderen Bio-Datenbanken  (andere Flatfiles  oder  Tabellen ) durch   ein   gemeinsames  Attribut  ( z.B. AC,  Accession  number ) verbunden. Die Modell-Organismus-Datenbanken arbeiten intensiv daran, robuste und gegenseitige Ver­weise auf  Datenbanken zu konstruieren,  so dass der Benutzer von  einer Datenbank zur  anderen navigieren  kann, ohne vorher  gewisse  Kenntnisse  über  die  Relationen,  die  zwi­schen  den Links existieren, zu haben [22]. Je mehr  Links miteinander verbunden werden, desto  umfassender sind die Informationen, die der Benutzer erhält.

     Es gibt Schwierigkeiten, die paarweisen Verweise  zwischen  allgemeinen  und speziellen Datenbanken mit allen anderen relevanten Datenbanken zu verwalten und einzu­richten [15]. In  Abb. 3.1 werden einige Verweise zwischen  allgemeinen und  speziellen Daten­banken mit anderen relevanten Datenbanken gezeigt.

 

Abb. 3.2: Beispiel einer Annotation einer Proteinsequenz [1]. CC steht für Comment.

 

Vorgehensweise bei der Annotation: Sequenzdaten aus der Veröffentlichung werden zuerst analysiert (siehe Sequenzananlyse in Teil 3) und mit den Einträgen, die in den Datenbanken existieren, verglichen. Falls die neue Sequenz  einem der Datenbankeinträge ähnlich ist,  muss die An­notation, die für diesen Eintrag verwendet wurde, auch für den neuen Eintrag verwendet werden. Andere Annotatio­nen und  Merkmale, die für die Eintragfamilie spezifisch sind, wer­den noch  angefügt. Dadurch werden dem  Eintrag mehrere Informationen hinzugefügt.

 

     Die Annotierung ist fehlerhaft, weil die meisten wichtigen Informationen in den Datenbanken nicht gemessen werden, sondern sie werden beschlossen z.B. die Identifikation von Genen in Gensequenzen. Die Automation von Annotationen ist nur bis zu einem gewissen Grad möglich. Um die richtige Annotation zu bekommen, muss diese im Labor weiter durchgeführt werden. Aufgaben bei der Pflege von Daten sind, die Fehler zu beseitigen, die Redundanz zu minimieren und die Einträge  einheitlich zu machen.

 

3.5   Ontologien

 

     Biologen brauchen sowohl für die Durchführung ihrer Analyse als  auch  für  die  Kom­munikation miteinander ein entsprechendes Grundwissen [22]. Dieses wird in den Datenbanken gespeichert, und  die Datenbanken müssen für die Forschungsarbeit genutzt werden. Das Wissen  ist  dabei aus zwei Gründen  wichtig.

  • Es gibt  Kommunikationsprobleme in Bio-Informatik. Wenn z.B. mehr als eine  Datenbank bzw. ein Analysenwerkzeug verwendet wird, muss ein Biologe sicher sein, dass das Wissen innerhalb einer Datenbank bzw. eines Analysenwerkzeugs mit den andern vergleichbar ist. Ein wichtiges Beispiel ist die unterschiedliche Benutzung des Wortes „Gen“. In einer Daten­bank  kann ein Gen als 'die kodierende Region der DNA', in der zweiten als 'DNA-Fragment, das  mit Hilfe der Prozesse Transkription  ( DNA à RNA ) und  Translation ( RNA à Protein ) in  einem  Protein  transformiert wird' , und  in der  dritten  als 'DNA-Region, die biologisch interessant ist und einen  Namen bzw. einen Phänotyp enthält', definiert werden.
  • Durch die Verwendung vom Wissen werden die Daten innerhalb einer Datenbank definiert und die Konstraints verwendet.

 

     Eine Methode, die es ermöglicht, das  Wissen innerhalb Bio-Informatik-Applikationen darzustellen, ist die Nutzung von Ontologien. Eine Ontologie ist eine Sammlung von Konzepten und den Relationen zwischen eben diesen [8].  Sie kann verwendet werden, um die semantische Heterogenität zu beseitigen und das Interoperationsproblem zu lösen [13]. Die Nutzung einer Ontologie als Mittel für die Sequenzannotation kann auch eine konsistente und genaue Annotation erlauben. Die Ontologien in Bio-Datenbanken unterschiedlich sind [12]. Dadurch wird der automatische Transfer von Annotationen schwierig.

 

4     Sequenzanalyse

 

     In der Molekularbiologie wird unter einer Sequenz eine Zeichenkette verstanden, die ein Stück RNA, DNA oder Protein als Folge von Symbolen beschreibt [6]. Sie definiert die lineare Abfolge (Primärstruktur) von Basen im Falle der DNA bzw. von Aminosäuren in Falle von Proteinen. Abb. 4.1 zeigt ein  Beispiel einer DNA-Se­quenz.

Abb. 4.1: Beispiel einer DNA-Sequenz in fasta Format

 

     Sequenzanalyse  wird  generell  durchgeführt, um  entweder  ein genaues Alignment (siehe Sequenzalignment in 4.2) einer neuen  Sequenz  mit  bekannten  Sequenzen  zu erhalten oder  um die Aspekte  der Sequenzstruktur durch Vergleich mit bekannten strukturellen Elementen zu bestimmen. Sie kann grob in drei Phasen (Sequenzierung, Alignment und Assemblierung)

durchgeführt werden. Diese werden in Abb. 4.2 gezeigt.

 

4.1    Sequenzierung

 

     Die Sequenzierung hat also das Ziel, die Reihenfolge der Basen in einem der beiden kom­plementären DNA-Stränge eines Chromosoms in Form eines langen Textstrings über das Alphabet der Aminosäure (20 Buchstaben) oder der Nukleotidsäuren (4  Buchstaben, A, C, G, T )  zu  bestimmen [6].

 

Abb. 4.2:  Die drei Phasen Sequenzierung, Alignment und Assemblierung eines Chromosoms  [6]

 

     Das rapide Wachstum von Nukleinsäure- und Proteinsequenzdaten ist von der Fähigkeit zum Lesen von DNAs abhängig [7]. Zur Zeit ist es geläufig, mit Hilfe von Gilbert- oder San­ger-Methoden, Strings von DNA der Länge bis zu 450 Basenpaare in einem Durchlauf zu lesen. Es gibt viele sequenzierte DNAs der Länge 50,000 bis über 300,000 [7]. Ein Verfahren, das kurze Substrings (meistens der Länge zwischen 350 bis 1000) verwendet, um Strings, die 100 bis 1000 Mal länger sind, zu bestimmen, wird bei der Sequenzierung benutzt. Ein be­kanntes Verfahren, das dies leistet, ist das sogenannte Shotgun-Verfahren.

 

Shotgun-Verfahren: Das DNA-Molekül ist zu lang, um es von den heutigen Sequenzierungsmethoden  in  einem Durchlauf auslesen zu lassen, deshalb benutzt man dieses Verfahren [7]. Dabei wird zuerst das gleiche einzelsträngige  DNA kopiert (geklont), und die Kopien werden zu vier unter­schiedlichen Reaktionen (eine Reaktion für jeweils eine Base (A, C, G, T)) gegeben. Jede Reaktion führt zu einer Sammlung von einzelsträngigen DNA-Molekülen.

     Die DNA wird in eine separate Spur gebracht, und die vier Spuren werden durch Elektro- phoresis analysiert. Elektrophoresis ist ein Verfahren, um die Größe oder die Länge von DNA zu messen. Die DNA werden dann, nachdem man sie ausgelesen hat, sequenziert  und schrittweise miteinander verglichen, um Überlappungen  zu  finden (siehe Sequenzalignment) [6]. Diese Überlappungen braucht  man, um die Fragmente wieder an der richtigen Stelle und in der richtigen Ausrichtung einordnen zu können. Ein solcher Vor­gang wird als  Assemblierung  (siehe  Assemblierung) bezeichnet.

     Das Problem bei dem genannten Verfahren ist, dass für jedes einzelne sequenzierte Fragment  nach dieser Behandlung (shotgun) die Lage und Ausrichtung im DNA-Molekül nicht mehr bekannt ist [6].

 

4.2     Sequenzalignment

 

     Die komparative Analyse ist in der Biologie ein Mittel, das seit langem eingesetzt wird, um Entdeckungen zu machen. Das Ergebnis einer Suche nach Ähnlichkeiten zwischen zwei oder mehreren Sequenzen, nach Homologien, wird in Form eines Sequenza­lignments dargestellt. Zwei oder mehrere Nukleinsäure- bzw. Proteinsequenzpositionen wer­den untereinander in Alignments gestellt, um die Beziehung zwischen den Positionen dieser Sequenzen herzustellen. Abb. 4.3 zeigt ein multiples Alignment mit 3 DNA-Sequenzen.

Abb. 4.3: Beispiel eines multiplen Alignments in fasta-Format

 

     Verschiedene Protein- oder DNA-Sequenzen werden aligniert, um eines oder  mehrere der folgenden Ziele zu erreichen [19].

  • Um nach einer Strecke oder Strecken von Sequenzen der alignierten Komponenten zu su­chen.
  • Um die Funktion des neu sequenzierten Gen oder Genprodukts zu identifizieren und/oder bestätigen;
  • Um die phylogenetischen oder evolutionären Ähnlichkeiten und/oder Variationen zwi­schen verschiedenen Spezies zu messen und zu entdecken.
  • Um den elementaren Sinn der gemeinsamen Struktur-Funktion-Beziehung zwischen den alignierten Sequenzen zu erfassen.

 

Globales vs. lokales Alignment

 

     Es kann vorkommen, dass zwei Proteine nur einige Domänen gemeinsam besitzen kön­nen, während der Rest der Sequenz nicht verwandt ist. Die lokalen  und  globalen Alignments sind verschiedene Modelle von paarweisen Alignments. Beim globalen Alignment werden die ganzen Sequenzen verglichen. Im Gegensatz dazu werden beim lokalen Alignment  nur Ausschnitte der jeweiligen  Sequenzen  miteinander verglichen. Lokale Alignments können also gemeinsame Domänen in divergenten Proteinen finden [4].

 

 Abb. 4.4: Lokales Alignment von zwei Sequenzen. Identische Reste sind umrandet.

 

     Ziel des lokalen Alignments ist es, aus der großen Menge der möglichen Alignments das beste (optimale) herauszufinden. Ein Alignment ist optimal, wenn die gleichen Buchstaben  der alignierten Wörter an gleichen  Positionen stehen und die Anzahl der Lücken möglichst  klein ist [6]. Genau legt man das über die Scoring-Funktion, die jedes Alignment bewertet, fest. 

     Bei der Berechnung eines Alignments braucht man eine Funktion w, die die Kosten der Überführung eines Alignments Sequenz 1 in eine andere Sequenz 2 berechnet. Die Funktion  heißt  Scoring-Function. Die Kosten w(a,b), um ein Zeichen a aus Sequenz 1 in b aus Sequenz 2 überzuführen, seien, wie folgt, definiert:

- w(a,a) = 0 (Match)

- w(a,b) = 1 (Mismatch)

- w(a,-) = w(-,b) = 1 (Indels, insertions or deletions )

     Die Gesamtkosten eines paarweisen  Alignments setzen sich dann aus der Summe all dieser Einzeloperationen zusammen. Von Interesse sind lediglich  solche Alignments  mit geringen Kosten, die optimalen Alignments. Ein optimales Alignment von Sequenz 1 und Sequenz 2  ist  ein  Alignment, das die minimalen Kosten unter allen möglichen Alignments aufweist. Abb. 4.5 zeigt zwei paarweise Alignments mit unterschiedlichen Kosten.

Abb. 4.5: Zwei paarweise Alignments mit unterschiedlichen Kosten

     Das optimale Alignment in diesem Beispiel ist folglich das mit den  Gesamtkosten 2.
Problem ist, es  kann mehrere optimale Alignments gleichzeitig geben, und  es ist sehr  schwierig, unter der sehr großen Menge an Alignments auf den verschiedensten Datenbanken ein optimales Ergebnis zu finden. Dazu benutzt man die dynamische Programmierung [11].

 Multiple vs. paarweise Alignments

     Beziehungen sind nicht nur auf zwei Sequenzen beschränkt, deshalb unterscheidet man zwischen den paarweisen (siehe Abb. 4.4) und den multiplen (mehr als zwei) Alignments (siehe Abb. 4.3). Wenn beim Suchen nach ähnlichen Sequenzen in einer Datenbank die be­kannten Suchwerkzeuge (FASTA, BLAST) verwendet werden, bekommt man oft viele Se­quenzen, die der neuen Sequenz ähnlich sind. Solche Vergleiche sind nur bei einer kleinen Anzahl von Sequenzen möglich. Bei vielen Sequenzen sind diese Vergleiche unpraktisch.

     Mit multiplen Sequenzalignments können alle ähnlichen Sequenzen in einer einzigen  Tabelle repräsentiert werden. Die Sequenzen werden untereinander in einem Koordinatensystem aligniert. In diesem Koordinatensystem ist jede Zeile einer Sequenz, und jeder Spalter hat die 'gleiche' Position in jeder Sequenz. Bei der Konstruktion eines multiplen Alignments werden neue Lücken an den Positionen, wo keine Lücken in einem entsprechen­den paarweisen Alignment waren, hinzugefügt. Das heißt, dass multiple Alignments mehr Lücken haben als irgendein gegebenes Paar von  alignierten Sequenzen.

     Es gibt N x M mögliche Alignments zwischen zwei Sequenzen (ohne Lücken) der Länge N und M [4]. Falls Lücken erlaubt sind, gibt es viele verschiedene Anordnungen, die berücksichtigt werden müsse. Abb. 4.6 zeigt ein Beispiel zweier Sequenzen, die unterschiedlich angeordnet sind.

 


Abb. 4.6 (1)-(3): Beispiel zweier Sequenzen mit drei unterschiedlichen Anordnungen

 

     In diesem Fall gibt es ungefähr N^M mögliche Alignments, weil alle mögliche Paarungen zwischen den Elementen berücksichtigt werden müssen.

 

4.3   Sequenzassemblierung

 

Abb. 4.7: Assemblierung von ATGTGCCGCA

 

     Aus den zufällig über das Chromosom verteilten Teilsequenzen  wird  mittels  Identifika­tion identischer Sequenzen die gesamte Sequenz zusammengesetzt [6]. Abb. 4.7 zeigt ein Beispiel von Assemblierung.

     Zur Assemblierung braucht man sehr effiziente und ausgeklügelte Algorithmen (wie  dynamische Programmierung, FASTA- und BLAST-Algorithmen), weil die Anzahl der Fragmente und somit die Anzahl der Vergleiche im allgemeinen sehr groß   ist  und  im  schlechten  Fall  Fragmente  mehrfach  vorhanden  sein  bzw.  Lesefehler enthalten können. In dieser Phase sind  im Gegensatz zur  ersten  Phase  alle  Basensequenzen und die Ausrichtung der Fragmente bekannt.

 

4.4    Suchmöglichkeiten

 

     Das Wachstum von Sequenzdatenbanken wurde so schnell, dass die Entwicklung schnelle­rer Suchalgorithmen notwendig war. Daher wurden heuristische (d.h. approximative statt optimale Lösungen) Ansätze gewählt, die zwar weniger sensitiv, aber sehr schnell arbeiten. Die beiden bekannten sind BLAST und FASTA. Fasta war das erste weit verbreitete Programm für die Suche nach Ähnlichkeiten in den Datenbanken.

 

BLAST (Basic Local Alignment Search Tool):  BLAST ist ein Werkzeug für die Suche nach lokalen Sequenzalignments, um Unterschiede bzw. Ähnlichkeiten zwischen zwei  Erbinfor­mationsträgern festzustellen. Es wurde 1990 entwickelt und ist die Grundlage einer großen  Produktfamilie (BLAST 2 und PSI-BLAST, Möglichkeit, Alignments mit Lücken zu finden).  

     Ein Aufruf von BLAST mit einer fraglichen Sequenz liefert eine Liste von soge­nannten  high-scoring-segment-pairs zwischen den gesuchten und allen übrigen Sequenzen der Datenbank zurück. Abb. 4.9 zeigt einen Teil eines Blast-Queryergebnisses. Ein  segment-pair ist ein Paar von Teilstücken einer Sequenz der gleichen Länge. Abb. 4.8 zeigt ein solches kurzes Alignment.

      Ein solches segment-pair hat den Vorteil, Zeichen für Zeichen mit einer Kosten-Matrix ohne das Problem von gaps (Lücken) bewertet zu werden.

 

Abb. 4.8: Beispiel von einem segment-pair

 

Abb. 4.9: Teil eines Blast-Queryergebnisses

 

 

Fasta: Mit FASTA können nicht nur Proteinsequenzen gesucht werden, sondern  auch  DNA-Sequenzen. Dies wurde hauptsächlich dadurch erreicht, dass man die  beiden  Programme FASTN und  FASTP in einem  zusammengefasst hat [6]. Fasta sucht zunächst nach Wörtern (k-tuples) der Query-Sequenz. Die k-tuple Wörter sind kurze Muster von k aufein­ander folgen­den gleichen Buchstaben in Query- und Datenbanksequenz. Für DNA ist k gleich 4-6, für die Proteine gleich 1-2. Solche kurze Übereinstimmungen zwischen der Query und der Daten­banksequenz werden zu einem match vereinigt, wenn sie für k = 2 z.B. nicht weiter als 16 Positionen voneinander entfernt sind ( Lücken sind dabei nicht erlaubt). Fasta ist viel schneller als eine dynami­sche Programmierungsmethode, aber langsamer als BLAST.

     Die Query-Sequenz wird in Feld SEARCH der FASTA/BLAST-Suchmaske als einfacher Text, in FASTA Format oder über ein Sequenz-ID eingefügt. Vor Beginn der Suche lässt sich eine Reihe von benutzerdefinierten Vorgaben machen. Abb. 4.10 zeigt einen Teil eines Fasta-Queryergebnisses.

     Andere Suchwerkzeuge sind im Anhang angegeben.

 

Abb. 4.10:  Teil eines Fasta-Queryergebnisses   

 

Skripte: Während sich Datenbanksuchen mit einzelnen oder wenigen Sequenzen leicht durchführen lässt, gerät man bei mehreren Hundert Sequenzen oder auch einer großen Menge von gefundenen Treffern, die weiter verarbeitet werden müssen, sehr schnell in die Situation, dass Suche und Abspeichern von Ergebnissen bzw. deren Weiterverarbeitung automatisiert  werden müssen. Dies ist der Punkt, an dem Kenntnisse in der Erstellung, z.B. von PERL-Skripten, notwendig sind, um Datenbanken überhaupt effizient nutzen zu können. Komplexe, benutzerdefinierte Datenmuster, die dann in lokal vorhandenen Datenbanken gesucht werden, lassen sich auch mit Skripten beschreiben.

 

 

5     Öffentliche Bio-Datenbanken

    

     Datenbanken werden in der Molekularbiologie schon seit über eineinhalb Jahrzehnten zur Speicherung, Sammlung und Auswertung von Informationen eingesetzt. Die Entwicklung auf dem Gebiet der molekularbiologischen Datenbanken hat aber erst in den letzten Jahren eine enorme Dynamik entwickelt. Wenn man sich mit molekularbiologischen Datenbanken be­schäftigt, hat man es hauptsächlich mit Sequenzdatenbanken zu tun. Deshalb ist eine Kon­zentration auf diese Art von  Datenbanken sinnvoll. In diesem Teil werden die Sequenz-Da­tenbanken, die Datenbanken für metabolische Wege (Pathway), die makromolekulare 3D-Strukturdatenbanken und die Sequenzmotivdatenbanken behandelt.

    

5.1   Sequenz-Datenbanken

 

     Genomische Sequenzdaten werden heute in großen Mengen durch die zahlreichen laufen­den Genomprojekte erstellt. Genomprojekte konzentrieren sich unter anderem auf evolutionär interes­sante Organismen, auf molekularbiologische Modellorganismen und natürlich auf das menschliche Genom. Die Sequenz-Datenbanken enthalten hauptsächlich drei Arten von Infor­mationen: die DNA-Sequenzen, die  RNA-Sequenzen und die  Aminosäure-Sequenzen Die drei wichtigen internationalen Datenbanken, in denen individuelle Labors oder große Sequenzie­rungskonsortien  ihre Sequenzen hinterlegen und somit öffent­lich zugänglich machen können, sind GenBank, die Datenbank des National Center for Bio­technology (NCBI), EMBL , die Nukleotiddatenbank des European Molecular Biology Labo­ratory und DDBJ, die DNA Data Base of Japan.

     Die bekanntesten Proteinsequenzdatenbanken sind Swiss-Prot und PIR. EMBL und Swiss-Prot Datenbanken werden besprochen.


5.1.1   EMBL

 

     Die Europäische Molekular Biologie Labor (EMBL)  Nukleotidesequenz  Datenbank  wird von dem Europäischen Bioinformatik Institut (EBI) in internationaler Zusammenarbeit mit der DNA Daten Bank von Japan (DDBJ) und GenBank (USA) verwaltet [5]. Daten werden unter den zusammenarbeitenden Datenbanken täglich ausgetauscht. Die Hauptmitwirkenden  der EMBL Datenbank sind individuelle Autoren und Genomprojektgruppen.

     Nukleinsäuresequenzen bieten den wesentlichen Anfangspunkt zur Beschreibung und zum Verstehen von Struktur, Funktion und Entwicklung genetisch verschiedener Orga­nismen. Die GenBank, EMBL und DDBJ Nukleinsäure Sequenz-Datenbanken  haben von Anfang an Feature- und Stellentabellen zur Beschreibung von Funktionen bzw. Stellen  der Sequenzdomäne hoher Ordnung und der Elemente innerhalb eines Genoms des Organismus.

     Jeder Eintrag fängt mit einer Identifikationszeile (ID) an und endet mit einer  Abschlusszeile (//). Abb. 5.1 zeigt ein Beispiel eines EMBL-Eintrags. Der Eintrag entspricht einer einzigen zusammenhängenden Sequenz, die in der Datenbank eingetragen ist oder von der in der Literatur berichtet wird.

 

Struktur des Datenbestandes: Der  Bestand  der  EMBL  und  anderer Sequenzdatenbanken ist aus zwei Gründen in Teilmengen aufgeteilt [20]: Zum einen interessiert häufig bei der  Suche  nur  eine  Teilmenge  aller deponierten  Sequenzen. Derartige Teilmengen  können  über  den  Namen der  Teildatenbank ausgewählt werden. Diese Aufteilung reflektiert im Wesentlichen taxonomische Aspekte (z.B. HUM = human,  PLN = plants, PRO = prokaryotes, usw.),  allerdings  gibt es Ausnahmen wie HTG ( High Throughput  Genome Sequences ),  GSS ( Genome Survey Sequences ) und  EST ( Expressed  Sequence Tags). Diese Adressierung leitet sich von der spezifischen Natur der angesprochenen Daten oder dem technischen Ansatz der Datengewinnung ab.

     Zum anderen ist für effektive(d.h. schnelle) Suchalgorithmen ein Preprocessing der Daten- bestände notwendig. Dieser  Schritt ist aufgrund  der Größe  der Bestände aufwendig. Da  sich der Inhalt der Datenbestände durch direkte Submission täglich vergrößert, wird das meist au-tomatisierte Update  einer  Sequenzdatenbank zwischen der Ausgabe vom "major releases" in eine Teildatenbank geschrieben. Diese ist im Verhältnis zur kompletten Datenbank wesent­lich kleiner, daher sind die Kosten für das Preprocessing ebenfalls geringer.

     Bei jeder neuen Veröffentlichung wird die Datenbank mit Namen EMBL generiert. Daten- sätze, die zwischen der Herausgabe zweier  Veröffentlichungen   hinzukommen,  werden zunächst in die Datenbank EMBLNEW aufgenommen. Diese Sammlung geht bei der Erstel­lung der nächsten Veröffentlichung in die EMBL ein.

 

 

Datenbankeintragsstruktur: Datenbankeinträge werden im EMBL Flatfile-Format verteilt. Dieses Format bietet eine Struktur, die einfach zu lesen ist. Das EMBL Flatfile-Format be­steht  aus eine Reihe von streng kontrollierten Zeilentypen, die tabellarisch repräsentiert werden und aus vier Hauptblöcken bestehen [5].

  • Beschreibung und Identifizier: Eintragsname, Molekültyp, taxonomische Division und Gesamtsequenzlänge (wird in ID-Zeile gefunden); accession number (AC); Sequenz-identifizier und Version (SV); Datum des letzten Updates und der Schaffung (DT); kurze Beschreibung der Sequenz (DE); Schlüsselwörter (keywords, KW); taxonomi­sche Klassifikation (taxonomic classification, OS, OC) und Verweise auf andere Da­tenbankeinträge (DR).
  • Zitate: Die Zitatendetails (RX, RA, RT und RL) der Publikation, der Name (RA, Autor) und die Kontaktdetails (RL, Location) des Antragstellers.
  • Features: Detaillierte Quelleninformationen, biologische Features, bestehend aus Fea­turelagen, Featurequalifizier, etc.
  • Sequenz: Gesamtsequenzlänge, Basenkomposition und Sequenz (SQ).

 

Abb. 5.1: SRS Queryergebnis eines EMBL-Eintrags mit AC-Nummer AF324378

 

Suchmöglichkeiten: Die Suche in EMBL-Datenbanken kann mit Hilfe von BLAST, SRS und Fasta erfolgen. Das Format der SRS Ergebnisse ist in Abb. 5.1 gezeigt. Blast- bzw. Fasta-Formate sind in Abb. 4.7 bzw. 4.8 gezeigt.

 

Verweise: EMBL hat Verweise auf  TRANSFAC, IMGT, Flybase, TrEBML und  SWISS-PROT.

 

5.1.2   SWISS-PROT

 

     SWISS-PROT ist eine annotierte Proteinsequenz-Datenbank. Sie wurde 1986 eingeführt und wird seit 1987 von der Gruppe von Amos Bairoch und der EMBL-Datenbibliothek gemeinschaftlich gewartet [23]. Die SWISS-PROT Protein Datenbank enthält Sequenz­einträge, die aus verschiedenen  Zeilentypen, jeder  mit seinem eigenen Format, zusammengesetzt werden. Für Standardisierungszwecke stimmen die Formate von SWISS-PROT und EMBL Nukleotid  Sequenzdatenbank  nahezu  überein. SWISS-PROT unterscheidet  sich von den Proteinsequenz-Datenbanken durch drei  deutliche  Kriterien [3]:

 

Annotation: In SWISS-PROT können wie in vielen Sequenzdatenbanken zwei Klassen von Daten unterschieden werden: Die Kerndaten und die Annotation.

     In jeden Sequenzeintrag werden die folgenden Kerndaten eingetragen: die  Sequenzdaten, die Zitatinformationen (bibliografische Referenzen), die taxomischen Daten (Be­schreibung der biologischen Quelle des Proteins).

     Die  Annotation  besteht aus der Beschreibung der  folgenden  Gegenstände:  Funktion(en) eines  Proteins, Post-Translation-Modifikation(en), Domänen und Stellen, sekundäre  Struktur (lokale  Regionen  in  Sequenz  und  Raum,  die  konservierte  geometrische Features  zeigen), tertiäre Struktur (komplette 3D-Konformation  des Proteins), quaternäre  Struktur (eine Art und Weise, wie Strukturen der verschienen Sequenzen sich gegenseitig beeinflussen, z.B. Selbst-Assemblierung), Ähnlichkeiten mit anderen  Proteinen, Krankheit(en), die mit einer  Anzahl von Mängeln in einem Protein assoziiert sind, Sequenzkonflikte, Varianten etc.

 

Minimale Redundanz: Viele Sequenzdatenbanken enthalten für eine gegebene Protein-sequenz separate Einträge, die unterschiedlichen Literaturberichten entsprechen. In SWISS-PROT werden alle diese Daten zusammengefasst, um die Redundanz von Datenbanken zu minimieren. Kleinere Sequenzunterschiede werden in der Annotation vermerkt.  Falls Kon­flikte zwischen  verschiedenen  Sequenzberichten  existieren, werden sie in einer Featureta­belle des entsprechenden Eintrags angezeigt.

 

Integration  mit  anderen Datenbanken: Es ist wichtig, die Benutzer von Biomolekular-Datenbanken mit einem Integritätsgrad zwischen den drei Typen von sequenzähnlichen Da­tenbanken (Nukleinsäuresequenzen, Proteinsequenzen und Proteintertiärstrukturen) ebenso  wie mit speziellen Datenbanken bekannt zu machen. SWISS-PROT hat zur Zeit  Quer­verweise zu etwa 30 verschiedenen Datenbanken [20].

Abbildung  5.2: SRS Queryergebnis eines SWISS-PROT-Eintrags mit AC-Nummer P51749

 

     Die Querverweise werden in Form  eines Zeigers auf  Informationen, die mit SWISS-PROT-Einträgen verwandt sind,  zur Verfugung gestellt und werden in Datensammlungen, jedoch nicht bei SWISS-PROT, gefunden. Das inten­sive Netzwerk von Querverweisen erlaubt SWISS-PROT, eine größere Rolle als Schwerpunkt der Zusammenarbeit der Biomolekular-Datenbanken zu spielen.

     Die Einträge in der SWISS-PROT  Datenbank sind so strukturiert, dass sie nicht nur den menschlichen Lesern, sondern auch für Computerprogramme nützlich sind. Abb. 5.2 zeigt einen Teil eines SWISS-PROT-Eintrags. SWISS-PROT wird ergänzt durch TrEMBL (Tr für Translate). TrEMBL enthält die automatisch erzeugten Übersetzungen in Proteinsequenzen aller codierenden Sequenzen der EMBL Datenbank.

 

Suchmöglichkeiten: Die Suche in SWISS-PROT-Datenbanken kann wie in EMBL  mit SRS, Blast und Fasta erfolgen.

 

5.2     Datenbanken für metabolische Wege (Pathways) 

 

     Ein metabolicher Weg ist eine Abfolge von Relationen, die für  Stoffwechsel  sorgen, ähnlich wie Impulse innerhalb der Zelle, die zur Folge haben, einen bestimmten  Stoff in einen anderen umzusetzen.

     Die Daten, die in metabolischen Weg-Datenbanken gespeichert werden, sind eine Menge von funktionalen Rollen, die mit EC ( Enzyme  Commision )-Nummern versehen  werden. Die schon bekannten Informationen über Metabolismus eines Organismus können beispielsweise dazu verwendet werden, die Stoffwechselwege bei einem ähnlichen, neu sequenzierten Genom zu verstehen.

     Jeder metabolische Weg kann also als ein Netzwerk von Enzymen oder von EC (Enzyme Commission)-Nummern (Abb. 5.3) dargestellt werden [8]. Abb. 5.4 zeigt ein Flatfile-Format eines Enzyms 1.2.1.18.  EC-Nummern spielen beim metabolischen Weg zwei wichtige Rollen. Erstens werden sie als Knoten (Enzyme) identifiziert und zweitens als Schlüssel zur Verbindung mit genomischen Informationen verwendet. Wenn Gene der En­zyme in einem Genom  mittels Sequenzähnlichkeitssuche und positioneller Korrelation der Gene identifiziert und die EC-Nummern korrekt zugeordnet worden sind, können organis­musspezifische Wege, rechnergestützt

durch Korrelation der Gene in einem Genom mit Gen­produkten (Enzyme), auf einem Weg laut Übereinstimmung der EC-Nummern konstruiert werden.

 

 

Abb. 5.3: KEGG Queryergebnis für INOSITOL METABOLISMUS (Kohlenhydrat Metabolismus)

 

Abb. 5.4:  DBGET Queryergebnis eines Enzyms 1.2.1.18

 

     Wichtig sind auch die regulatorischen Wege, die die Steuerungsvorgänge und die inter­zelluläre Kommunikation übernehmen. Die Kenntnisse über das regulatorische Netzwerk  können zur gezielten Steuerung bestimmter Vorgänge im Organismus eingesetzt  werden. Die Nutzung  dieser Netzwerke ist kompliziert und  ohne  rechnergestützte Modellierung nicht zu bewältigen. Ein anderes Problem ist, dass es keine geeignete Identifizier für Funktionen in  regulatorischen Wegen gibt. Mit Hilfe von metabolischen und regulatorischen Netzwerken kann der Stoffwechsel im  menschlichen Organismus besser verstanden werden, somit können  Störungen bei den normalen Vorgängen schnell und einfach erkannt werden, was zur Be­handlung von Krankheiten sehr nützlich ist.

     Beispiele von Datenbanken für metabolische Wege sind: LIGAND, KEGG, ENZYME, Klotho.

 

Suchmöglichkeiten: Die Suche in diesen Datenbanken kann mit Hilfe von DBGET, KEGG und  WIT durchgeführt werden. KEGG- bzw. DBGET-Queryergebnisse sind in Abb. 5.3 bzw.5.4 gezeigt.

 

Verweise: Datenbanken für metabolische Pathways haben verweise auf PROSITE, Proteinsequenzmotiv, 3D-Struktur-Daten­banken.

 

5.3   Makromolekular 3D-Struktur-Datenbanken

 

      Zur Bestimmung einer Funktion eines bestimmten Proteins geht man davon aus, dass die Struktur die Funktion eines Proteins bestimmt [6] . Die Struktur gewinnt man aus der Sequenz (auch wenn die Wissenschaftler das bisher noch nicht annähernd verstanden haben). Man vermutet, dass bestimmte strukturelle Merkmale auf eine bestimmte Funktion hindeu­ten. Die Merkmale versucht man anhand der Sequenz zu konstruieren. Die Sache wäre viel einfacher, wenn man 3D-Bilder von Proteinen erhalten könnte, aber das ist bekanntlich schwierig. Man kann auch nach Strukturähnlichkeiten auf Datenbanken mit Hilfe von ent­sprechenden Algorithmen und Ansätzen der Informatik suchen. Das Wissen über die schon be­kannte Funk­tion und Struktur wird auf neu spezialisierte bzw. ähnliche Gene übertragen. Abb. 5.5 zeigt die 3D-Strukture eines Eintrags mit ID 1H61.

 

Abb. 5.5: Entrez 3D-Struktur-Queryergebnis des Eintrags mit ID 1H61

 

3D-Struktur von DNA und Proteinen: Im lebenden Organismus liegen DNA und  Proteine in einer dreidimensionalen Struktur vor. Bei der Reduktion einer Tertiärstruktur (3D-Struktur)  auf  die bloße Primärstruktur (Sequenz) geht eine Fülle von Informationen verloren. Daher  wird ein Vergleich von Sequenzen einen geringeren Informationsgehalt haben als der Ver­gleich von 3D-Strukturen. Diese Behauptung wird offensichtlich beim Vergleich einer Prote­insequenz  mit  der  3D-Struktur,  die  von  dieser  Sequenz  eingenommen  wird. Abb. 5.6 zeigt ein Flatfile-Format von der in Abb. 5.5 gezeigten 3D-Struktur. 

 

Abb. 5.6: Entrez Queryergebnis eines Eintrags mit PDB ID 1H61

 

       Die Sequenz enthält  z.B. keinerlei Informationen über die relative räumliche Lage der Residuen zueinander. Nach der Faltung in eine 3D-Struktur  können Residuen, die  in der  Sequenz weit voneinander  entfernt liegen, im Protein  räumlich  eng  benachbart  sein. Die 3D-Struktur eines  Proteins wird zwar durch die Sequenz determiniert. Es ist jedoch bisher im Allgemeinen nicht möglich, aus der Sequenz die Tertiärstruktur eines Proteins vorherzusa­gen.

     In 3D-Struktur-Datenbanken werden Daten wie atomische Koordinaten und einige struktu­relle Parameter, die mit den Atomen (B-Faktor, occupancies) verbunden sind  oder die aus der Struktur(Sekundärstruktur) berechnet werden, gespeichert. Die meisten 3D-Strukturen erhält man durch Röntgenstrahlkristallographie und  magnetische Kernresonanzspektroskopie  [16].  Sie  stellen eine Fülle von Informationen über

  • die biologische Funktion
  • Mechanismen, die mit dieser Funktion verbunden sind 
  • evolutionäre Geschichte von Makromolekülen  und von Relationen zwischen Makromo­lekülen.

dar. Die bekannten Beispiele von 3D-Struktur-Datenbanken sind PDB, SCOP  und Class, Architecture, Topology, Ho­mologuos superfamilies (CATH).

 

Suchmöglichkeiten: Entrez bzw. DBGET kann zur Suche in 3D-Struktur-Datenbanken benutzt  werden. Formate sind in Abb. 5.4 bzw. Abb. 5.6 gezeigt.

 

Verweise: 3D-Struktur-Datenbanken haben Verweise auf Sequenz-Datenbanken,  Motiv-Datenbanken.

 

5.4   Sequenzmotiv-Datenbanken

 

Abb. 5.7: ScanProsite Queryergebnis eines Eintrags mit AC-Nummer P05130

 

 Abb. 5.8: SRS Queryergebnis eines Eintrags mit AC-Nummer PS00001

 

     Sequenzmotiv-Datenbanken sind Datenbanken für Protein-Familien, die als Domäne definiert werden. Domänen sind zusammenhängende Segmente der gesamten Proteinsequenzen.  Abb. 5.8 zeigt einen Eintrags in einer Sequenzmotiv-Datenbank (Prosite).

     Die Daten, die  in  Sequenzmotiv-Datenbanken  gespeichert  werden, sind  multiple  Align-

ments der Mengen von definierenden Sequenzen und der anderen Sequenzen in SWISS-PROT und TrEMBL, die an diese Alignments angepasst werden können.

Es ist beobachtet  worden, dass, obwohl es eine große Anzahl von verschiedenen  Proteinen gibt, viele auf Grund der Sequenzähnlichkeit in einer beschränkten Anzahl von  Familien gruppiert werden  können. Proteine oder Protein-Familien, die zu einer bestimmten Familie gehören, teilen sich die funktionalen Attribute und sind von einem gemeinsamen Vorfahren abgeleitet.

     Die multiplen Alignments, die zur Definition von einer Domäne (Proteinfamilie)  verwendet werden, heißen seed alignment. Dieses Alignment wird von den Fachleuten  ge­schaffen zur Generierung eines Profils HMM (hidden Markov models) [8], das die  anderen Sequenzen in den Datenbanken (SWISS-PROT und TREMBL), die die  Domäne enthalten, identifiziert. Diese Datenbanken erlauben die Analyse von neuen Sequenzen bzgl. der Do­mäne, die in einer Sequenz entdeckt werden können. Es ist oft nützlicher, eine Domäne zu suchen, als eine Sequenzsuche durchzuführen. Wenn z.B. ein neues Protein eine Kinasedomäne hat,  ist es hilfreich, eine Domäne-Datenbank (mit einer angemessenen Suchsoftware, z.B. InterPro) zur direkten Identifikation einer Domäne in einer Sequenz zu verwenden. Bekannte Beispiele von Sequenzmotiv-Datenbanken sind: Pfam, PRINTS, PROSITE, InterPro und BLOCKS. 

 

Verweise: Sequenzmotiv-Datenbanken haben Verweise auf  Sequenz-Datenbanken, andere Motiv-Datenbanken, 3D-Struktur-Datenbanken.

 

Suchmöglichkeiten: Suche in Motiv-Datenbanken kann mit Hilfe von z.B. SRS, ProfileScan, ScanProsite, Pfam HMM durchgeführt werden.   

 

 

6     Zusammenfassung

 

     Das in dieser Arbeit aufgezeigte Wachstum der Sequenzen zeigt, wie wichtig es ist, die    biologischen Daten zu speichern und zu analysieren. Aus diesem Grund sind auch viele Datenbanken entstanden. Die Klassifikation der Datenbanken ist auf Grund der Datenkomplexität schwer. Die Charakteristika von biologischen Datenbanken führen dazu, dass der Nutzen dieser Datenbanken gering ist. Sie enthalten auch infolge der direkten Submission viele Fehler und inkonsistente Daten. Außerdem sind sie heterogen und oftmals auch redundant. Die Integration dieser Datenbanken ist auf Grund der unterschiedlichen Datentypen schwierig. Der automatische Austausch von Annotationen ist wegen unterschiedlicher Ontologien schwer.

     Es muss bei der Submission auf Fehler, Redundanz und Konsistenz geprüft werden. Neue Mechanismen (wie APIs mit Corba) zur Integration von heterogenen Datenbanken müssen eingefügt werden, um den Austausch von heterogenen Daten zu ermöglichen. Die Einheitlichkeit der Ontologien ist anzustreben.

    

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Anhang

 

Datenbanken

Typ

Beschreibung

url

GenBank

allgemein, primär

Nukleotidsequenz DB

http://www.ncbi.nlm.nih.gov

EMBL

allgemein, breit, primär

Nukleotidsequenz DB

http://www.ebi.ac.uk/

embl.html

DDBJ

allgemein

Nukleotidsequenz DB

http://www.ddbj.nig.ac.jp

SWISS-PROT

allgemein, breit, primär

Proteinsequenz DB

http://www.expasy.ch/

sprot

PIR

allgemein

Proteinsequenz DB

http://pir.georgetown.edu

PDB

allgemein, primär

3D Struktur DB

http://www.rcsb.org/pdb/

Enzyme

sekundär, speziel

DB für Enzymnomenklatur

http://www.expasy.ch/

enzyme/

Ligand

speziel

DB für enzymatische Ligands, Substrate, reactionen

http://www.genome.ad.jp

dbget/ligand.html

SCOP

sekundär

DB für Familien und strukturelle Proteinreactionen

http://scop.mrc-lmb.cam. ac.uk/scop

PRINTS

sekundär

DB für hierarchische Genfamilien-Fingerausdrücke

http://www.bioinf.man.ac.uk/dbbrowser/PRINTS/

BLOCKS

sekundär

DB für konservierte Sequenz-regionen der Proteinfamilien

http://www.blocks.fhcrc.org/

SBASE

sekundär

DB für annotierte Proteindomäne-Sequenzen

http://www3.icgeb.trieste.it/~sbasesrv/

FlyBase

tief

DB für Drosophila-Sequenzen und genomische Informationen

http://www.fruitfly.org

STRBase

tief

DB für kurze Tandem-DNA Wiederholungen

http://www.cstl.nist.gov/div831/strbase

SGD

tief

DB für S.cerevisiae Genome

http://genome-www. stanford.edu

/Saccharomyces

 

Tabelle 1: Beispiele von Datenbanken unterschiedlicher Klassen.

 

Tool

URL

BLAST

http://www.ncbi.nlm.nih.gov/BLAST/

DBGET

http://www.genome.ad.jp/dbget-bin/www_bfind?pathway

Entrez

http://www.ncbi.nlm.nih.gov/entrez/query.fcgi

Fasta

http://www.fasta.genome.ad.jp/

Frame-ProfileScan

http://www.isrec.isb-sib.ch/software/PFRAMESCAN_form.html

KEGG

http://www.tokyo-center.genome.ad.jp/kegg/kegg2.html

Pfam HMM

http://pfam.wustl.edu/hmmsearch.shtml

ProfileScan

http://hits.isb-sib.ch/cgi-bin/PFSCAN?

ScanProsite

http://us.expasy.org/tools/scnpsite.html

SRS

http://us.expasy.org/srs5/

WIT

http://wit.mcs.anl.gov/MPW/

 

Tabelle 2: Beispiele von Tools  mit ihren entsprechenden URLs

 

Literaturverzeichnis

 

[1]     Apweiler, R: Introduction to Molecular Biology Databases.                

          http://www.ebi.ac.uk/swissprot/Publications/mbd1.html

[2]     Baxevanis A.D. :The Molecular Biology Database collection: an updated com­pilation of

          biological database resources. Nucleic Acid Research, 2001, Vol. 29, No. 1  

[3]     Bairoch,A. and Apweiler,R. (2000) The SWISS-PROT protein sequence database and its

          supplement TrEMBL in 2000. Nucleic Acids Res., 28, 45–48

[4]     David M. Sander: Molecular Biology Databases on the Internet II, 1997

          http://www.tulane.edu/~dmsander/biotechniquessites2.html

[5]     Geunter Stoesser, Wendy Baker, Alexandra van den Broek, Evelyn Camon, Maria

          Garcia-Pastor, Carola Kanz, Peter Sterk, Peter Stoehr and Mary Ann Tuli: The EMBL

          nucleotide sequence database. Nucleic Acid Reasearch, 2001, Vol. 29, No. 1 17-21

[6]     Maihub Dahdal: Datenbanken und Informationssysteme,2001

          http://www.gp.tu-berlin.de/users/d/dahdal/bioinf

[7]     Michael S. Waterman: Introduction to computational biology: Maps, Sequences and Ge-

          nomes, CHAPMAN & HALL/CRC 2000

[8]     Michael Huhns, Larry Stephens: Multiagentensysteme und Gemeinschaften von Agenten

          ABSCM 2001/2002

[9]     Minoru Kanehisa and Susumu Goto: KEGG: Kyoto Encyclopedia of Genes and Ge

          nomes. Nucleic Acids Research, 2000, Vol. 28, No. 1 27-30

[10]   Norman Parton and Carole Goble: Information Management for Genome Level Bio­

          informatics. VLDB 2001.

[11]   Pavel A. Pevzner: Computational Molecular Biology: an Algorithmic Approach,

          MITPress 2000.

[12]   Reinhard Rauhut: Bioinformatik: Sequenz-Struktur-Funktion. Wiley-VCH, 2001

[13]  Sklyar Nataliya : Survey of existing bio-ontologies, Technical Report September 2001 [14]   Victor M. Markowitz: Characterising Heterogeneous Molecular Biology Database Sys-

          tems

[15]   William M. Gelbart: Databases in Genomic Research. Science, 1998, Vol.282,

 

[16]   Databases in bioinformatics, 20.10.2001: http://www.sbc.su.se/~per/strbio2000

[17]   Genotype vs Phenotype, 23.12.2001:  http://www.ess.ucla.edu/huge/genotype2.html

[18]   Growth of GenBank: http://www.ncbi.nlm.nih.gov/Genbank/genbankstats.html

[19]   http://www.swbic.org/education/comp-bio/simint.htm

[20]   http://www.genome.ad.jp/dbget/db_growth.gif 

[21]   http://www.ebi.ac.uk/Information/Seminars/EU1998/guenter/sld041.htm

[22]   Ontology; Knowledge; Concept:  http://img.cs.man.ac.uk/stevens/onto/node2.html

[23]    Sequenz-Datenbanken:  http://www-lehre.img.bio.uni-goettingen.de/edv/

          Bio_Inf/ sequ/seq_db.htm