Bioinformatik
aus Wikipedia, der freien Enzyklopädie
Die Bioinformatik (englisch bioinformatics, auch computational biology) ist eine interdisziplinäre Wissenschaft, die Probleme aus den Lebenswissenschaften mit theoretischen computergestützten Methoden löst. Sie hat zu grundlegenden Erkenntnissen der modernen Biologie und Medizin beigetragen. Bekanntheit in den Medien erreichte die Bioinformatik in erster Linie 2001 mit ihrem wesentlichen Beitrag zur Sequenzierung des menschlichen Genoms.
Bioinformatik ist ein weitgefächertes Forschungsgebiet, sowohl was die Problemstellungen als auch die angewandten Methoden angeht. Wesentliche Gebiete der Bioinformatik sind die Verwaltung und Integration biologischer Daten, die Sequenzanalyse, die Strukturbioinformatik, die Analyse von Daten aus Hochdurchsatzmethoden (~omics). Da Bioinformatik unentbehrlich ist, um Daten im großen Maßstab zu analysieren, bildet sie einen wesentlichen Pfeiler der Systembiologie.
Der Bioinformatik wird im englischen Sprachraum oft die computational biology gegenübergestellt, die einen weiteren Bereich als die klassische Bioinformatik abdeckt, meist benutzt man beide Begriffe jedoch synonym.
Bioinformatik ist mittlerweile eine etablierte eigenständige Wissenschaft, die zu den Grundlagenwissenschaften der Biologie und Medizin zählt, und als solche in Deutschland an vielen Standorten studierbar ist (siehe auch: Studium Bioinformatik).
Inhaltsverzeichnis |
[Bearbeiten] Sequenzanalyse
Die ersten reinen Bioinformatikanwendungen wurden für die DNA-Sequenzanalyse und für Sequenzvergleiche entwickelt. Bei der Sequenzanalyse geht es in erster Linie um das schnelle Auffinden von Mustern in Protein- oder DNA-Sequenzen. Beim Sequenzvergleich (sequence alignment) geht es um die Frage, ob zwei Gene oder Proteine miteinander verwandt ("homolog") sind. Dazu werden die Sequenzen so übereinander gelegt und gegeneinander ausgerichtet, dass eine möglichst gute Übereinstimmung erzielt wird. Ist die Übereinstimmung signifikant besser als durch zufällige Ähnlichkeit zu erwarten wäre, kann man auf Verwandtschaft schließen: bei Genen und Proteinen impliziert Verwandtschaft meist ähnliche Funktion und stets ähnliche Struktur. Die zentrale Bedeutung des Sequenzvergleichs für die Bioinformatik liegt demnach in ihrem Einsatz für die Sequenz- und Strukturvorhersage unbekannter Gene. Zur Anwendung kommen dabei Algorithmen der dynamischen Programmierung und heuristische Algorithmen. Die dynamische Programmierung liefert optimale Lösungen, ist aber wegen der benötigten Computerresourcen in der Praxis nicht auf sehr lange Sequenzen oder sehr große Datenbanken anwendbar. Heuristische Algorithmen eignen sich zur Durchsuchung der großen, global verfügbaren Datenbanken, die sämtliche bekannten Sequenzen archivieren; sie garantieren zwar keine optimalen Ergebnisse, leisten aber dennoch so gute Dienste, dass die tägliche Arbeit des Bioinformatikers und Molekularbiologen ohne den Einsatz beispielsweise des BLAST-Algorithmus nicht möglich wäre. Weitere häufig verwendeten Algorithmen die je nach Einsatzgebiet unterschiedliche Funktionen erfüllen sind FASTA, Needleman-Wunsch oder Smith-Waterman.
Seltener benötigt man bei biologischen Fragestellungen die Suche nach exakten Übereinstimmungen von kurzen Sequenzenabschnitten, typischerweise für Schnittstellen von Restriktionsenzymen in DNA Sequenzen, gegebenenfalls auch von Sequenzmustern in Proteinen, aus der PROSITE Datenbank.
Eine große Rolle spielt die Bioinformatik auch bei der Genomanalyse. Die in kleinen Einheiten sequenzierten DNA-Bruchstücke werden mit Hilfe bioinformatischer Methoden zu einer Gesamtsequenz zusammengefügt.
Des Weiteren wurden Methoden zum Auffinden von Genen in unbekannten DNA-Sequenzen entwickelt (Genvorhersage, engl. gene finding oder gene prediction). Dieses Problem wird mit verschiedenen Rechenmethoden und Algorithmen angegangen, darunter statistische Sequenzanalyse, Markow-Ketten, künstliche neuronale Netze zur Mustererkennung, etc.
Sowohl anhand von DNA- als auch von Aminosäuresequenzen lassen sich phylogenetische Bäume erstellen, die die evolutionäre Entwicklung der heutigen Lebewesen aus größtenteils unbekannten und daher hypothetischen Vorfahren darstellen.
[Bearbeiten] Strukturbioinformatik
Mit der Aufklärung und weitreichenden Funktionsanalyse verschiedener vollständiger Genome verlagert sich der Schwerpunkt bioinformatischer Arbeit auf Fragestellungen der Proteomik, wie z. B. dem Problem der Proteinfaltung und Strukturvorhersage, also der Frage nach der Sekundär- oder Tertiärstruktur bei gegebener Aminosäuresequenz. Auch die Frage nach der Interaktion von Proteinen mit verschiedenen Liganden (Nukleinsäuren, anderen Proteinen oder auch kleineren Molekülen) wird untersucht, da sich daraus neben Erkenntnissen für die Grundlagenforschung auch wichtige Informationen für Medizin und Pharmazie ableiten lassen, beispielsweise darüber, wie ein durch eine Mutation verändertes Protein Körperfunktionen beeinflusst, oder welche Medikamente wie an verschiedenen Proteinen wirken. Da bioinformatische Informationen oft über viele Datenbanken verteilt sind (ca. 350 weltweit), werden Bioinformatik Meta-Suchmaschinen (Bioinformatik-Harvester, Entrez, EBI SRS) häufig benutzt, um entsprechende Informationen zu finden.
[Bearbeiten] Integrative Bioinformatik
Ein nicht unerheblicher Teil der Arbeit eines Bioinformatikers besteht - neben mathematisch anspruchsvollen Analysen - in der Datenaufbereitung und Speicherung in geeignet indizierten und verlinkten biologischen Datenbanken. Die verwirrende Vielfalt von DNA- (z. B. GenBank) und Proteindatenbanken (z. B. UniProt) weltweit führte bisher oft zu redundanter und damit fehlerlastiger Datenhaltung, zumal DNA-Sequenzen teils in Fragmenten, teils in vollständig assemblierten Genomen vorliegen. Idealerweise würde die Speicherung von Genom- und Proteomdaten eine Rekonstruktion der Regelwerke eines gesamten Organismus erlauben. Die gewünschte Abbildung von identifizierten Proteinen zu "ihrem" Gen und umgekehrt sowie die Zuordnung von Proteinen zu einem metabolischen Pfad ist aber noch nicht in Sicht.
Ein wesentlicher Punkt neben fehlerbehafteten Einträgen und doppelter Datenhaltung unter unterschiedlichen Schlüsseln ist das weitgehende Fehlen von kontrollierter Vokabularien und Ontologien, die eine Zuordnung von Funktionsbezeichnungen quer durch alle Ebenen ermöglichen. Das Gene Ontology-Konsortium (GO) versucht derzeit, eine konsistente Nomenklatur für die Funktion, den Prozess und der Zelllokalisation von Gen-Produkten zu erstellen.
[Bearbeiten] Siehe auch
[Bearbeiten] Literatur
- Gibas und Jambek: Einführung in die praktische Bioinformatik, O'Reilly, 2002, ISBN 3-89721-289-7
- Nicola Gaedeke: Biowissenschaftlich recherchieren: Über den Einsatz von Datenbanken und anderen Ressourcen der Bioinformatik, Birkhäuser, 2007, ISBN 3764385251
[Bearbeiten] Weblinks
- http://www.iscb.org International Society for Computational Biology
- http://biowaredb.org Suchmaschine für >5800 publizierte Bioinformatik Ressourcen
- http://harvester.fzk.de Meta-Suchmaschine für Gene & Proteine von Mensch, Maus, Ratte, Zebrafish, Arabidopsis und Drosophila
- http://www.ncbi.nlm.nih.gov/Entrez "Entrez" Life Science Suchmaschine des NCBI
- Bioinformatics World Sammlung von Online-Ressourcen der Bioinformatik inkl. Fragestellungen und Erklärungen (letztes Update 2006)