Benutzer:Lupino/Bioinformatik

Bioinformatik ist eine interdisziplinäre Wissenschaft, die biologische Fragestellungen mit Methoden der Informatik zu beantworten versucht oder auch Kenntnisse aus der Biologie zur Weiterentwicklung informatischer Geräte und Konzepte nutzt.

- Zum einen beschäftigt sich die Bioinformatik dabei mit Fragen von biologischen Sequenzen (DNA und Proteine), deren Speicherung und deren Vergleich, Aufklärung der Struktur und Funktion von Proteinen am Computer, der Interaktion von Proteinen, DNA und biochemischen Verbindungen, biologische Signalweiterleitung in Zellen und dem Erstellen von evolutionären Stammbäumen anhand biologischer Sequenzen.

Dabei umfasst die Bioinformatik einerseits die reine Bioinformatik, also die Entwicklung von an biologischen Fragestellungen angepassten Rechenvorschriften für Computer (siehe Algorithmus) sowie andererseits angewandte Bioinformatik, also die Anwendung dieser Algorithmen. Oft wird dabei unterschieden zwischen Bioinformatik an sich und der Computational Biology, meist also Computeranwendungen, die biologische Vorgänge nur simulieren, darstellen und/oder auswerten.

Biologische Experimente, die nur am Computer stattfinden, werden häufig in Anlehnung an in vivo und in vitro auch als in silico bezeichnet.

- Desweiteren beschäftigt sich die Bioinformatik mit weiteren Feldern wie z.B. der Neuroinformatik oder der Bionik, die sich mit der praktischen Umsetzung von Mensch-Maschine-Interaktionen beschäftigen bzw. das Verständnis des menschlichen Körpers voranbringen.

- Die Bioinformatik beschäftigt sich auch mit neuen Konzepten der Informatik; z.B. der Künstlichen Intelligenz oder der Spracherkennung.

Geschichte der Bioinformatik[Bearbeiten | Quelltext bearbeiten]

Nach den ersten Durchbrüchen in der Molekularbiologie der 50er und 60er Jahre wurden immer mehr Informationen über die Abfolge von Nukleotiden der DNA, so genannte Sequenzen, bekannt. Auch Proteine wurden zunehmend in ihrer Aminosäurenabfolge untersucht. Die rasch wachsenden Datenmengen stellten mehrere Anforderungen an die Forscher, die sich derer Untersuchung widmen:

Was kann ich aus dem Wissen über Sequenzen ableiten?
Was bedeuten ähnliche Sequenzen in Bezug auf die Funktion eines Gens/Proteins und in Bezug auf die stammesgeschichtliche Entwicklung?
Wie gehe ich mit den Datenmengen um und finde das, was ich suche, mit möglichst wenig falsch positiven Treffern?

In den 70er Jahren wurden die ersten Algorithmen entwickelt, die heute zum Standardrepertoire bioinformatischer Analysen gehören.

DNA-Sequenzierung, Proteinsequenzierung, M. Dayhoff, die Henikoffs etc.
Bioinformatikstandorte (Forschungszentren, keine Studiengänge (gibts bei Studium Bioinformatik))

Annotation und Datenbanken[Bearbeiten | Quelltext bearbeiten]

Biologische Daten, insbesondere DNA- und Proteinsequenzen, deren Kommentierung (die Annotation), 3D-Proteinstrukturen und auch neuere Experimentaldaten von beispielsweise Microarrays werden zunehmend in Datenbanken abgelegt. Die Vorteile liegen dabei in der einheitlichen Struktur, der leichteren Durchsuchbarkeit und der Automatisierbarkeit von Analysen durch Software.

Immer mehr Sequenzen vollständiger Genome[1] werden bekannt. Neben den beliebten Labortieren wie dem Fadenwurm Caenorhabditis elegans, der Fruchtfliege Drosophila melanogaster, dem Darmbakterium Escherichia coli, dem südamerikanischen Krallenfrosch Xenopus laevis, der Ratte Rattus norvegicus und der Maus Mus musculus sequenzieren weltweit Labore auch zunehmend Krankheitserreger (Pathogene) wie Listeria monocytogenes [2], Helicobacter pylori und Mycobacterium tuberculosum. Interessant ist auch die Sequenzierung dem Menschen evolutionär verwandter Spezies wie dem Schimpansen Pan troglodytes. Der Umfang dieser Daten wächst exponentiell [3].

Die ersten beiden Datenbanken, die auch heute noch zu den größten gehören, sind GenBank und die Protein Information Resource. UniProt(vorher SwissProt) vereinigt Daten über Proteinstruktur und -funktion und enthält qualitativ hochwertige, handgepflegte Einträge von Proteinsequenzen mit zahlreichen weiteren Informationen zu jedem einzelnen Protein. UniProt/TrEMBL dagegen enthält aus der EMBL-Nukleotiddatenbank automatisch translatierter Proteinsequenzen ohne weitere Annotation. Andere abgeleitete Datenbanken enthalten wiederkehrende Motive in Proteinsequenzen (PFAM), Informationen über Enzyme und biochemische Komponenten (BRENDA, KEGG LIGAND und ENZYME), über Stoffwechselnetzwerke (KEGG, PATHWAY) oder 3D-Strukturen (PDB), sowie vieles mehr. Bei der Suche nach relevanten Informationen helfen sog. Metasuchmaschinen, wie z.B. Bioinformatik-Harvester oder Entrez.

Sequenzanalysen[Bearbeiten | Quelltext bearbeiten]

Für die Biologie stellen sich insbesondere im Hinblick auf die Evolution die Fragen, wenn Sequenzdaten verfügbar sind:

Sind zwei Gene/Proteine zweier verschiedener Organismen auf ein Gen einer älteren Art zurückzuführen, das heißt, sind bestimmte Gene/Proteine homolog? Oder haben sich beide Gene unabhängig voneinander entwickelt und zeigen nur die gleiche Funktion, das heißt, hat konvergente Evolution stattgefunden?
Sind zwei Gene/Proteine innerhalb eines Organismus auf ein einzelnes ursprüngliches Gen zurückzuführen, das heißt, sind bestimmte Gene/Proteine ortholog?

Die Bioinformatik hilft bei diesen Fragestellungen mit konkreten Algorithmen. Der Vergleich zweier oder mehrerer Sequenzen heißt Alignment. Der Grundgedanke liegt darin, Sequenzen so untereinander zu schreiben, dass möglichst viele gleiche Nukleotide in einer Spalte stehen und in die Sequenzen möglichst wenig [[Gap (Bioinformatik){Gap]]s, sprich Lücken, eingefügt werden müssen. So genannte Scores (Punktbewertungen) helfen bei der Bildung dieser Alignments.

Will man untersuchen, ob zwei Gene ähnliche Bereiche zueinander besitzen, ohne eine von Beginn bis Ende der Sequenz große Ähnlichkeit anzunehmen, bildet man ein so genanntes lokales Alignment. Man verschiebt die die Sequenzen so zueinander, dass ein eventuell nur kleiner Bereich einen sehr hohen Score erzielt (siehe auch Smith-Waterman-Algorithmus beziehungsweise die ungenauere aber deutlich schnellere Alternative, der BLAST-Algorithmus). Beim globalen Alignment hingegen versucht man, zwei Sequenzen über ihre gesamte Länge möglichst so übereinander zu schreiben, dass der Score maximal wird (siehe auch Needleman-Wunsch-Algorithmus).

Vergleich der Proteinsequenzen der Triosephosphat-Isomerase der Hefe und des Hühnchens

Die Punktevergabe (Scoring) bei DNA-Sequenzalignments funktioniert mit recht einfachen Matrizen, bei denen eine Konservierung von Nukleotiden mit positiven Punkten belohnt, Lücken und Austäusche mit negativen Punkten bestraft werden. Bei Proteinsequenzen ist zusätzlich zu berücksichtigen, dass es statt nur vier Nukleotiden wie bei der DNA 20 Aminosäuren gibt, bei denen ein Austausch nicht immer gleich bestraft werden kann: Wird im Rahmen eines evolutionären Prozesses eine Aminosäure gegen eine chemisch recht ähnliche ausgetauscht, muss dies beim Scoring weniger bestraft werden als ein funktionell bedeutsamerer Austausch. Die beiden häufigsten Matrizen für diese Bewertungsaufgabe sind PAM (percent acceptable mutations von Margret Dayhoff, 1978) und BLOSUM (blocks substitution matrix). Inzwischen gibt es auch andere Methoden, darunter die Verwendung von Hidden Markov Models und Gibbs-Sampling, die für bestimmte Aufgaben geeigneter sind, zum Beispiel die Suche von Promotoren.

DNA-Sequenzanalyse[Bearbeiten | Quelltext bearbeiten]

Bei der Neusequenzierung eines Genoms stellen sich zu Beginn die Fragen:

Wo befinden sich Open Reading Frames, also offene Leseraster für Gene auf der DNA?
Welches sind die proteinkodierenden Bereiche auf der DNA?
Wo finden sich Promotoren?
Wo finden sich Transkriptionsfaktorbindestellen, Enhancer und Silencer?

Proteinsequenzanalyse[Bearbeiten | Quelltext bearbeiten]

Wenn die DNA die Legislative darstellt, sind Proteine die Exekutive. Ihre räumliche Struktur, die nur durch die Aminosäuresequenz festgelegt wird, bestimmt die Aufgaben eine Proteins.

Computergestütze Visualisierung des Glucocorticoid Rezeptors (PDB ID: 1GLU) gebunden an seinem DNA Gegenstück). Die Oberfläche des Proteins wurde nach seiner Elektrostatik gefärbt. Erstellt mit BALLView.

Bestimmte Aminosäurefolgen finden sich als grundlegendes Muster in sehr vielen Proteinen wieder; sie legen die Sekundärstruktur fest. Alpha-Helices, Beta-Faltblätter und Turns finden sich in vielen Proteinen wieder und dienen in der Bioinformatik oft auch als Klassifizierungsmerkmal (siehe Structural Classification of Proteins). Auch eine lange Kette hydrophober Aminosäuren ist ein funktioneller Hinweis - meist auf ein eine Biomembran durchziehendes Protein, wie etwa der im Bild gezeigte Kaliumkanal.

Bioinformatiker haben Werkzeuge entwickelt, die mit Hilfe mathematischer Methoden wie Hidden Markov Models oder Neuronalen Netzen Wahrscheinlichkeiten für das Vorkommen einer bestimmten Sekundärstruktur entlang einer Proteinsequenz ermitteln.

Eine große Herausforderung für die Bioinformatik in Zusammenarbeit mit Experten aus Quantenchemie und Thermodynamik ist die Vorhersage einer dreidimensionalen Proteinstruktur (Tertiärstruktur) und das Zusammenspiel mehrerer Proteine in ihrer Quartärstruktur. Theoretisch könnte man diese mit Hilfe der First Principles, also derjenigen Naturgesetze, die zur richtigen Faltung eines Proteins führen, eindeutig vorhersagen. Praktisch sind diese Gesetzmäßigkeiten nicht bekannt oder können nicht praktisch nutzbar gemacht werden. Stattdessen verwendet man Strukturinformationen Sequenz-ähnlicher Proteine, Daten aus unvollständigen Röntgenkristallographien, genetische Algorithmen und andere mathematische Methoden, um möglichst nahe an die mögliche reale Struktur heranzukommen. Mittlerweile findet alljährlich ein Wettbewerb (CASP) [4] statt, in welchem sich die verschiedenen Verfahren an gelösten aber unveröffentlichen 3D-Strukturen untereinander messen können.

Eine bestimmte Klasse von Proteinen, die Enzyme, beschleunigen chemische Reaktionen, die unter normalen nicht-biologischen Reaktionen nicht oder nur sehr selten auftreten würden. Die räumliche Anordnung von Proteinen hat sich dabei so entwickelt, dass das Enzym die biologisch sinnvolle Reaktion möglichst effektiv verrichtet. Die Aminosäuren innerhalb des Proteins, die die eigentliche Arbeit an der jeweiligen chemischen Verbindung beziehungsweise den jeweiligen chemischen Verbindungen verrichten, heißen aktives oder Reaktionszentrum (englisch active site). Die Vorhersage eines solchen aktiven Zentrums ist mit Methoden des Proteinsequenz-Alignments gegen eine Datenbank mit ähnlichen Enzymen und einer Reihe mathematischer Methoden möglich, die auch meist auf Vorwissen (zum Beispiel über typische Sequenzmotive wie Zinc-Finger u.ä.) zurückgreifen.

Proteininteraktionsanalyse

RNA-Sequenzanalyse[Bearbeiten | Quelltext bearbeiten]

Vorhergesagte Sekundärstruktur der Methionin-tRNA von Homo sapiens

RNAs erfüllen als Vermittler beim Informationsfluss von der DNA zu den fertigen Proteinen eine wichtige Rolle. Erst relativ spät wurde entdeckt, dass RNAs ähnliche Aufgaben wie Proteine übernehmen können. Die Sekundärstruktur von RNAs gibt Aufschluss über ihre Funktionsweise als beispielsweise tRNAs. Programme wie RNAFold [5] verwenden zum Beispiel den Algorithmus von Michael Zuker, um nach einer Energiefunktion auf thermodynamischen Grundlagen die Bildung von RNA-Basenpaaren vorherzusagen (siehe Bild). Alternativ lassen sich auch die Anzahl der Basenpaarungen maximieren (Nussinov-Algorithmus), weitere Algorithmen werden aktuell getestet.

Homologiemodelle[Bearbeiten | Quelltext bearbeiten]

Untersuchungen zum Auffinden ähnlicher und verwandter Gene/Proteine in neu sequenzierten Spezies

Erstellung Physikalischer Karten[Bearbeiten | Quelltext bearbeiten]

In der Erstellung von Genkarten ist es einer der ersten Schritte, eine physikalische Karte herzustellen. Die populärsten Varianten sind Restriktionskarten und Hybridisierungskarten. Für die Bestimmung der Karten ist eine Reihe von Algorithmen formuliert worden:

Analyse von Netzwerken[Bearbeiten | Quelltext bearbeiten]

Unter biologischen Netzwerken (Pathways) versteht man im Allgemeinen Stoffwechselnetzwerke, also Gruppen von Enzymen, die einen Stoffwechselprozess ablaufenlassen (wie zum Beispiel im Citratzyklus oder der Glykolyse) oder Signaltransduktionsnetzwerke. An diese Netzwerke lassen sich mit bioinformatischen Methoden Fragen stellen, zum Beispiel:

Wie sehen die Netzwerke unterschiedlicher Mechanismen im Vergleich zueinander aus?
Kann der Ausfall von einzelnen Enzymen umgangen werden?
Welches sind zentrale Elemente des Netzwerks?
Wo wird das Netzwerk in seiner Aktivität reguliert?

Von der Datenbankseite her liefert die Kyoto Encyclopedia on Genes and Genomes, kurz KEGG, Informationen über Pathways. KEGG enthält auch die Roche Biochemical Pathway Charts, eine von Boehringer-Ingelheim (inzwischen Roche) als Werbegeschenk und bei Molekularbiologen beliebtes Poster herausgegebene Karte der wichtigsten Stoffwechsel- und Zellprozessnetzwerke.

Die Elementarmodenanalyse greift auf Informationen über reversible und irreversible Reaktionen zurück, aus denen errechnet wird, ob der Weg von einem bestimmten Substrat zu einem anderen möglich ist. Flußanalyse quantifiziert unter Annahme eines Fließgleichgewichtes die Stoffflüße durch die Reaktionen eines Reaktionsnetzwerkes.

Phylogenie[Bearbeiten | Quelltext bearbeiten]

Die klassische Disziplin der Systematik nutzt morphologische Merkmale, um die stammesgeschichtliche Entwicklung der Lebewesen zu untersuchen und evolutionäre Stammbäume zu erstellen (Phylogeneseforschung). Sequenzen sind die Grundlage (Genotyp) für die Merkmale einer Art (Phänotyp). Mit den Methoden der Bioinformatik ist erstmalig die Erstellung von Darstellungen der tatsächlichen Abstammungsverhältnisse von Arten, Stämmen oder sogar Individuen möglich.

Je nach Entwicklungsabstand der Lebewesen ist es für die Erstellung eines Baums der Abstammungsverhältnisse notwendig, vorher einen Teil oder das gesamte Genom der beteiligten Lebewesen zu sequenzieren. In der frühen Phase der computationellen Phylogenie begnügte man sich mit der Nukleotidsequenz der Ribosom-16S-Untereinheit. Inzwischen verwendet man entweder mehrere Gene, deren Sequenzen aneinandergekoppelt werden, oder man geht zur Analyse ganzer Genome über, die besondere Anforderungen stellt, aber auch die korrektesten Ergebnisse bringt.

Methoden[Bearbeiten | Quelltext bearbeiten]

Sequenzanalysen[Bearbeiten | Quelltext bearbeiten]

Übliche Methoden der Bioinformatik zur phylogenetischen Sequenzanalyse sind Parsimony, bei der die geringste Anzahl von "Erklärungen", in diesem Fall Sequenzübereinstimmungen, die Abstammungsverhältnisse klären soll. Beim Neighbour-joining werden alle Sequenzen mit allen in einem Alignment verglichen, die jeweils ähnlichsten zueinander werden als verwandt aufgefasst und in der nächsten Runde des Joinings als eine gemeinsame Art behandelt, bis ein vollständiger Baum entsteht. Gegenwärtig am häufigsten verwendet wird das Maximum Likelihood-Modell, welches auf statistischen Annahmen über die Evolution von Sequenzen beruht.

Orthologieuntersuchungen[Bearbeiten | Quelltext bearbeiten]

Sind viele Genome bekannt und sind die einzelnen Gene darin charakterisiert, wie dies bereits insbesondere bei den Bakterien der Fall ist, können orthologe Gene zwischen Individuen markiert werden. Alles, was nicht ortholog ist, entstammt einer Insertion oder Deletion eines Gens, je nachdem, welche zeitliche Reihenfolge angenommen wird. Damit müssen nur noch solche Ereignisse analysiert werden, um die Abstammungsverhältnisse festzustellen.

Querschnittsbereiche[Bearbeiten | Quelltext bearbeiten]

Software[Bearbeiten | Quelltext bearbeiten]

Erweiterungen zu bestehenden Programmiersprachen
- BioJava
- BioPerl
Softwarepakete
- EMBOSS
- GCG
- Vienna RNA
- NCBI-BLAST
- CLC bio Workbenches
- ... to be continued

Literatur[Bearbeiten | Quelltext bearbeiten]

Volker Knoop und Kai Müller: Gene und Stammbäume - Ein Handbuch zur molekularen Phylogenetik. Spektrum Akademischer Verlag, Heidelberg, 2006. ISBN 3-8274-1642-6
Andrea Hansen: Bioinformatik: Ein Leitfaden für Naturwissenschaftler. Birkhäuser, Basel , 2004. ISBN 3764362537
Arthur M. Lesk: Bioinformatik. Spektrum Akademischer Verlag, Heidelberg , 2002. ISBN 3827413710
David W. Mount: Bioinformatics [6]. Cold Spring Harbor Laboratory Press, Cold Spring Harbor, 2004. ISBN 0879697121
Pierre Baldi und Søren Brunak: Bioinformatics: the Machine Learning Approach. MIT Press, Cambridge, 1998. ISBN 02620244X
B.F. Francis Oulette und Andreas D. Baxevanis: Bioinformatics: a Practical Guide to the Analysis of Genes and Proteins. Wiley & Sons, New York City, 1998. ISBN 0471324418
Reinhard Rauhaut: Bioinformatik: Sequenz - Struktur - Funktion. Wiley-VCH, Weinheim, 2001. ISBN 3527303553
Peter Clote und Rolf Backofen: Computational Molecular Biology: An Introduction. Wiley, & Sons, Chichester, 2000. ISBN 0471872512
Jonathan Pevsner: Bioinformatics and Functional Genomics, John Wiley & Sons Inc, 2003. ISBN 0471210048
Thomas Lengauer: Bioinformatics, From Genomes to Drugs, 2 Vols. Wiley-VCH, 2002. ISBN 3527299882