Proteinstrukturvorhersage

aus Wikipedia, der freien Enzyklopädie
Wechseln zu: Navigation, Suche

Die Proteinstrukturvorhersage umfasst alle Methoden, rein rechnerisch aus der Aminosäuresequenz eines Proteins die dreidimensionale Struktur des gefalteten Moleküls zu ermitteln. Sie ist eines der wichtigen Ziele der Bioinformatik und der theoretischen Chemie. Sie ergibt sich aus der praktischen Schwierigkeit, die atomare Struktur eines Proteins in der Natur mit physikalischen Methoden zu messen. Insbesondere für die genauen Atompositionen innerhalb der Tertiärstruktur besteht großer Bedarf; sie bilden die Grundlage für das Arzneistoffdesign und andere Methoden der Biotechnologie.

Die bisher entwickelten Methoden der Proteinstrukturvorhersage bauen auf der Kenntnis der Primärstruktur auf, um so die Sekundärstruktur und/oder die Tertiärstruktur zu postulieren. Ein weiteres Detailproblem ist die Ermittlung der Quartärstruktur aus vorliegenden Tertiärstrukturdaten. Implementationen der dabei entwickelten Algorithmen stehen großteils im Quelltext oder als WWW-Server zur Verfügung. Aufgrund der enormen Bedeutung einer endgültigen Lösung des Problems hat sich mit CASP seit 1994 ein jährlicher Wettbewerb für den Vergleich der besten Lösungsmethoden etabliert.

Motivation[Bearbeiten]

Die Ermittlung der natürlichen Proteinstruktur mit physikalischen Methoden ist zwar für viele, aber bei weitem nicht alle, Proteine möglich und mit hohen Kosten und zeitlichem Aufwand verbunden. Bis 2012 konnten mithilfe von NMR und Röntgenstrukturanalyse die Strukturen von etwa 50.000 verschiedenen Proteinen ermittelt werden (diese Zahl reduziert sich auf 30.000, wenn Proteine mit mehr als 10 Prozent Sequenzunterschied betrachtet werden). Dem stehen schätzungsweise mehr als 30 Millionen Proteinsequenzen gegenüber. Für eine zuverlässige rein rechnerische Methode zur Bestimmung der Proteinstruktur aus der Aminosäuresequenz ergibt sich daher großer Bedarf. Die vorauszusehende Beschleunigung der Sequenzierung ganzer Genome, ja sogar ganzer ökologischer Metagenome, vergrößert die Diskrepanz zwischen bekannten Primär- und Tertiärstrukturen und damit eine Dringlichkeit der Lösung des Problems zusätzlich.[1]

Sekundärstrukturbetrachtungen[Bearbeiten]

Die Sekundärstrukturvorhersage ist eine Sammlung bioinformatischer Techniken, die darauf abzielen, die Sekundärstruktur von Proteinen und RNA mithilfe ihrer Primärstruktur vorherzusagen (Aminosäuren beziehungsweise Nukleotide). Bei Proteinen, um die es im Folgenden ausschließlich geht, besteht die Vorhersage darin, bestimmte Abschnitte der Aminosäuresequenz als wahrscheinliche α-Helix, β-Faltblatt, β-Schleife oder als strukturlos zu markieren. Ein Erfolg wird ermittelt, indem die Voraussage mit dem Resultat des DSSP-Algorithmus verglichen wird, der auf die tatsächliche Struktur angewandt wird. Über diese allgemeinen Strukturmotive hinaus gibt es außerdem Algorithmen zur Erkennung spezieller wohldefinierter Strukturmotive wie Transmembranhelices oder Coiled-Coils.[2]

Die besten modernen Methoden der Sekundärstrukturvorhersage erreichen etwa 80 Prozent Genauigkeit, was ihre Benutzung bei der Faltungserkennung, der Ab-Initio-Strukturvorhersage, und beim Sequenz-Alignment erlaubt. Die Entwicklung der Genauigkeit von Sekundärstrukturvorhersage-Methoden wird durch wöchentliche Benchmarks wie LiveBench und EVA dokumentiert.[3]

Tertiärstrukturbetrachtungen[Bearbeiten]

Da eine völlige Neuberechnung (ab initio) der Proteinstruktur mittels rein physikalisch-energetischer und quantenchemischer Methoden selbst für kleine Proteine zu aufwändig ist, haben sich Algorithmen zur Strukturvorhersage durchgesetzt, die entweder auf eine Klassifikation einzelner Teile der Aminosäurensequenz oder auf vorhergesagte Contact Maps zurückgreifen und erst in einem zweiten Schritt die endgültigen Atompositionen berechnen.

Strukturklassen/Domänen[Bearbeiten]

Verschiedene statistische Methoden haben sich zur Klassifizierung unbekannter Proteine herausgebildet. Die erfolgreichsten verwenden Hidden Markov Models, die auch bei der Lösung des Problems der Spracherkennung erfolgreich sind. Die entsprechenden Zuordnungen können von Strukturbiologie-Datenbanken wie Pfam und InterPro heruntergeladen werden. Ist bereits eine Proteinstruktur innerhalb einer Klasse bekannt, können die Strukturen weiterer Mitglieder durch vergleichende Vorhersage berechnet werden. Im andern Fall steht mit der Vorhersage der Contact Map einer Strukturklasse eine neue Methode zur Verfügung, die nicht mehr auf physikalische Strukturbestimmung angewiesen ist.[4][5][6][7]

Vorhersage aus evolutionärer Information[Bearbeiten]

Mit der Verfügbarkeit großer Mengen genomischer Sequenzen wird es möglich, die Koevolution von Aminosäuren in Proteinfamilien zu untersuchen. Man kann annehmen, dass sich im Lauf der Evolution innerhalb einer strukturell konservierten Proteinfamilie die dreidimensionale Struktur der Proteine nicht wesentlich ändert. Die Faltung des Proteins ergibt sich dabei durch die Wechselwirkungen zwischen den einzelnen Aminosäuren. Verändert sich durch eine Mutation eine der Aminosäuren im Protein, kann sich die Stabilität des Proteins verringern und muss durch kompensatorische (korrelierte) Mutationen wiederhergestellt werden.

Mehrere statistische Methoden existieren, evolutionär gekoppelte Positionen innerhalb einer strukturell klassifizierten Proteinfamilie zu ermitteln, wobei als Input das multiple Sequenzalignment der jeweiligen Familie dient. Frühe Methoden bedienten sich dazu lokaler statistischer Modelle, die immer nur zwei Aminosäurepositionen in der Sequenz gleichzeitig betrachten, was zu unzureichender Vorhersagegenauigkeit aufgrund transitiver Effekte führt.[8] Beispiele hierfür sind die McLachlan Based Substitution correlation (McBASC),[9] observed versus expected frequencies of residue pairs (OMES),[10] statistische Kopplungsanalyse (statistical coupling analysis, SCA) sowie Methoden basierend auf gegenseitiger Information (Mutual Information, MI).[11]

Erst durch die Verwendung globaler statistischer Ansätze wie der Maximum-Entropie-Methode (inverses Potts-Modell) oder partiellen Korrelationen wurde es möglich, die kausale Koevolution zwischen Aminosäuren von indirekten, transitiven Effekten zu unterscheiden.[12][13][14][15][16] Neben der Überlegenheit globaler Modelle zur Kontaktvorhersage wurde im Jahr 2011 erstmals gezeigt, dass die vorhergesagten Aminosäurekontakte verwendet werden können, um 3D-Proteinstrukturen allein aus Sequenzinformation vorherzusagen.[12] Dabei werden weder verwandte Strukturen oder Fragmente verwendet, und die Berechnungen können selbst für Proteine mit mehreren hundert Aminosäuren innerhalb weniger Stunden auf einem normalen Rechner durchgeführt werden.[12][17] Darauffolgende Publikationen zeigten, dass auch Transmembranproteine mit beträchtlicher Genauigkeit vorhergesagt werden können.[18][19]

Ab-initio-Vorhersage[Bearbeiten]

Jede naive (mit Vorwissen unbelastete) Proteinstruktur-Vorhersagemethode muss in der Lage sein, die astronomische Größe des zu durchsuchenden Raums möglicher Strukturen zu durchmessen. Zur Veranschaulichung dient das Levinthal-Paradox. Ab-initio (auch: de-novo)-Methoden beruhen dabei lediglich auf der Anwendung physikalischer Prinzipien (Quantenchemie) auf die bekannte Primärstruktur, um eine Simulation des Faltungsvorgangs zu erreichen. Andere Methoden gehen von den möglichen Strukturen aus und versuchen, eine geeignete Bewertungsfunktion, die meist die Berechnung der freien Enthalpie enthält, zu optimieren (Anfinsen-Dogma). Solche Berechnungen erfordern nach wie vor einen Supercomputer und können nur für die kleinsten Proteine durchgeführt werden. Die Idee, durch verteiltes Rechnen Rechenkraft für die ab-initio-Vorhersage zur Verfügung zu stellen, führte zur Realisierung der Projekte Folding@home, das Human Proteome Folding Project und Rosetta@home. Trotz der erforderlichen Rechenkraft ist ab-inito ein aktives Gebiet der Forschung.[20]

Vergleichende Vorhersage[Bearbeiten]

Vergleichendes Proteinmodelling verwendet bekannte (physikalisch gemessene) Strukturen als Startpunkt oder Vorlage. Das funktioniert in den Fällen, in denen ein homologes Protein mit bekannter Struktur existiert. Da sich die Proteinstrukturen nicht beliebig entwickelt haben, sondern stets mit einer biologischen Funktion assoziiert sind, können Proteine zu Gruppen zusammengefasst werden, die sowohl strukturell homolog als auch funktionell einheitlich sind, wobei die Zugehörigkeit zu einer solchen Gruppe leicht mittels maschinellem Lernen (HMM) auffindbar ist (s. o.). Auf der anderen Seite bemühen sich Strukturbiologen, mindestens zu jeder dieser Proteingruppen ein repräsentatives Protein physikalisch zu vermessen, so dass im Idealfall alle restlichen Proteinstrukturen mittels Vergleich vorhergesagt werden könnten.

Homologie-Modelling[Bearbeiten]

Bei der vergleichenden Vorhersage hat sich mittlerweile das Homologie-Modelling durchgesetzt: Auf bekannte Proteinstrukturen (Template) wird die zu untersuchende Amonisäuresequenz mittels Peptidbindung übertragen und die resultierenden Raumerfüllungen untersucht. Daraus kann abgeleitet werden, welche Struktur die untersuchte Sequenz einnimmt in Abhängigkeit von der Template-Struktur.[21]

Vorausgesetzt ist, dass Template und Probesequenz zu einer gemeinsamen Strukturfaltung geeignet sind und aneinander ausgerichtet werden können, denn das Sequenzalignment stellt beim vergleichenden Modelling das Hauptproblem dar. Ohne Zweifel gelingen mit sehr ähnlichen Sequenzen die besten Resultate.[22][20]

Vorhersage aus Contact Maps[Bearbeiten]

Die Einteilung von Proteinen in strukturelle Gruppen erlaubt die Vorhersage einer Contact Map für diese Gruppe durch Berechnung gekoppelter Positionen im Alignment (s. o.). Auf der anderen Seite erhalten Strukturbiologen auch bei der physikalischen Vermessung der Proteinstruktur mittels NMR zunächst eine Contact Map. Es haben sich daher schon früh Algorithmen entwickelt, um von einer Contact Map Rückschlüsse auf die Protein-Tertiärstruktur zu erhalten. Damit ist es nun prinzipiell möglich, zuverlässig aus beliebigen Sequenzen die Proteinstruktur vorherzusagen, solange eine große Menge an Sequenzen von Proteinen gleicher Gruppierung zur Verfügung steht, um gekoppelte Positionen, und damit eine Contact Map zu ermitteln. Mit dem zunehmenden Tempo der Sequenzierung stehen bereits genug Bakteriengenome (nahezu 10.000) zur Verfügung, um die Methode erfolgreich auf diese anzuwenden, und beispielsweise auch Membranproteine zu modellieren. Aber auch die Anzahl eukaryotischer Sequenzen ist in manchen Fällen ausreichend, und die Situation entspannt sich diesbezüglich zusehend.[23][24]

Vorhersage der Seitenkettengeometrie[Bearbeiten]

Das exakte Einpassen der Aminosäure-Seitenketten stellt ein eigenes Problem innerhalb der Proteinstrukturvorhersage dar. Dabei wird das Proteinrückgrat als starr vorausgesetzt und die möglichen Konformationen (Rotamere) der einzelnen Seitenketten so verändert, dass die Gesamtenergie minimiert wird. Methoden, die speziell die Seitenkettenvorhersage durchführen, sind beispielsweise die Sackgassen-Eliminierung (DEE) und self-consistent mean field (SCMF). Beide Methoden benutzen Rotamer-Bibliotheken, in denen erfahrungsgemäß günstige Konformationen mit Detaildaten verzeichnet sind. Diese Bibliotheken können rückgratunabhängig, sekundärstrukturabhängig oder rückgratabhängig indiziert sein.[25][26][27][28]

Die Seitenkettenvorhersage ist besonders bei der Bestimmung des hydrophoben Proteinkerns nützlich, wo die Seitenketten am engsten gepackt sind; sie ist weniger geeignet für die flexibleren Oberflächenabschnitte, wo die Anzahl möglicher Rotamere wesentlich ansteigt.[29][30]

Quartärstrukturbetrachtungen[Bearbeiten]

In den Fällen, in welchen aufgrund von Laborergebnissen bekannt ist, dass ein Protein mit einem anderen oder gleichen einen Proteinkomplex bildet, und ebenso die Tertiärstruktur(en) vorliegen, kann mithilfe von Docking-Software herausgefunden werden, wie die Proteine im Komplex zueinander orientiert sind (Quartärstruktur). Darüber hinaus stehen mit den genomischen Contact Maps Daten zur Verfügung, die Rückschlüsse über Berührungspositionen zulassen, da diese funktionell gekoppelt sind. Dies gilt gleichermaßen für Protein-Protein-Interaktionen, wobei hier Berührungspositionen von Genpaaren derselben Spezies betrachtet werden. Erste Anwendungen auf Toxin-Antitoxin-Systeme und andere Signalnetzwerke in Bakterien wurden bereits vorgestellt.[31][32]

Einzelnachweise[Bearbeiten]

  1. RCSB: Redundancy in the Protein Data Bank
  2. Mount DM (2004). Bioinformatics: Sequence and Genome Analysis. 2. Cold Spring Harbor Laboratory Press. ISBN 0-87969-712-1.
  3. Leong Lee, Leopold, J.L.; Frank, R.L.: Protein Secondary Structure Prediction Using BLAST and Exhaustive RT-RICO, the Search for Optimal Segment Length and Threshold. Mai 2012.
  4. Chen C, Zhou X, Tian Y, Zou X, Cai P: Predicting protein structural class with pseudo-amino acid composition and support vector machine fusion network. In: Anal. Biochem.. 357, Nr. 1, Oktober 2006, S. 116–21. doi:10.1016/j.ab.2006.07.022. PMID 16920060.
  5. Chen C, Tian YX, Zou XY, Cai PX, Mo JY: Using pseudo-amino acid composition and support vector machine to predict protein structural class. In: J. Theor. Biol.. 243, Nr. 3, Dezember 2006, S. 444–448. doi:10.1016/j.jtbi.2006.06.025. PMID 16908032.
  6. Lin H, Li QZ: Using pseudo amino acid composition to predict protein structural class: approached by incorporating 400 dipeptide components. In: J Comput Chem. 28, Nr. 9, Juli 2007, S. 1463–6. doi:10.1002/jcc.20554. PMID 17330882.
  7. Xiao X, Wang P, Chou KC: Predicting protein structural classes with pseudo amino acid composition: an approach using geometric moments of cellular automaton image. In: J. Theor. Biol.. 254, Nr. 3, Oktober 2008, S. 691–696. doi:10.1016/j.jtbi.2008.06.016. PMID 18634802.
  8. Giraud BG et al. (1999): "Superadditive correlation." In: "Physical Review E", 59, 4983-4991.
  9. Gobel, U. et al. (1994): Correlated mutations and residue contacts in proteins. In: Proteins, 18, 309–317.
  10. Kass, I. and Horovitz, A. (2002): Mapping pathways of allosteric communication in GroEL by analysis of correlated mutations. In: Proteins, 48, 611–617.
  11. Wollenberg, K. R. and Atchley, W. R. (2000): Separation of phylogenetic and functional associations in biological sequences by using the parametric bootstrap. In: Proc. Natl Acad. Sci. USA, 97, 3288–3291.
  12. a b c Marks, D. S. et al. (2011): "Protein 3D structure computed from evolutionary sequence variation". In: "PLoS One" 6, e28766
  13. Lapedes, A. et al (2012, submitted in 2002): "Using Sequence Alignments to Predict Protein Structure and Stability With High Accuracy." In: "arXiv", 29.
  14. Burger, L. & van Nimwegen, E (2010): "Disentangling direct from indirect co-evolution of residues in protein alignments". In: "PLoS Comput Biol" 6, e1000633.
  15. Morcos F, et al. (2011): Direct-coupling analysis of residue coevolution captures native contacts across many protein families. In: Proc Natl Acad Sci USA 108:E1293–E1301.
  16. Jones, D. T. et al.: "PSICOV: precise structural contact prediction using sparse inverse covariance estimation on large multiple sequence alignments". In "Bioinformatics" 28, 184–190.
  17. Marks D.S. et al.(2012): "Protein structure prediction from sequence variation." In:"Nature Biotechnology", 30(11), 1072–1080.
  18. Hopf, T. A. et al. (2012): Three-dimensional structures of membrane proteins from genomic sequencing. Cell, Band 149, S. 1607–1621.
  19. Nugent T., Jones D.T. (2012): Accurate de novo structure prediction of large transmembrane protein domains using fragment-assembly and correlated mutation analysis. PNAS, Band 109, Nr. 24, S. E1540–E1547."
  20. a b Zhang Y: Progress and challenges in protein structure prediction. In: Curr Opin Struct Biol. 18, Nr. 3, 2008, S. 342–348. doi:10.1016/j.sbi.2008.02.004. PMID 18436442. PMC: 2680823 (freier Volltext).
  21. X. Qu, R. Swanson, R. Day, J. Tsai: A guide to template based structure prediction. Current Protein & Peptide Science, Band 10, Nummer 3, Juni 2009, S. 270–285 doi:10.2174/138920309788452182
  22. Zhang Y and Skolnick J: The protein structure prediction problem could be solved using the current PDB library. In: Proc Natl Acad Sci USA. 102, Nr. 4, 2005, S. 1029–1034. doi:10.1073/pnas.0407152101. PMID 15653774. PMC: 545829 (freier Volltext).
  23. A. Kolinski, J. Skolnick: Reduced models of proteins and their applications Polymer, Band 45, Nr. 2, Jan 2004, S. 511–524.
  24. J. I. Sulkowska, F. Morcos, M. Weigt et al.: Genomics-aided structure prediction. PNAS, Band 109, 2012, S. 10340–10345, doi:10.1073/pnas.1207864109.
  25. Dunbrack, RL: Rotamer Libraries in the 21st Century. In: Curr. Opin. Struct. Biol.. 12, Nr. 4, 2002, S. 431–440. doi:10.1016/S0959-440X(02)00344-5. PMID 12163064.
  26. Lovell SC, Word JM, Richardson JS, Richardson DC: The penultimate rotamer library. In: Proteins: Struc. Func. Genet.. 40, 2000, S. 389–408. doi:10.1002/1097-0134(20000815)40:3<389::AID-PROT50>3.0.CO;2-2.
  27. Richardson Rotamer Libraries
  28. Shapovalov MV, Dunbrack, RL: A smoothed backbone-dependent rotamer library for proteins derived from adaptive kernel density estimates and regressions. In: Structure (Cell Press). 19, Nr. 6, 2011, S. 844–858. doi:10.1016/j.str.2011.03.019. PMID 21645855. PMC: 3118414 (freier Volltext).
  29. Voigt CA, Gordon DB, Mayo SL: Trading accuracy for speed: A quantitative comparison of search algorithms in protein sequence design. In: J Mol Biol. 299, Nr. 3, 2000, S. 789–803. doi:10.1006/jmbi.2000.3758. PMID 10835284.
  30. Krivov GG, Shapovalov MV, Dunbrack, RL: Improved prediction of protein side-chain conformations with SCWRL4. In: Proteins. 77, Nr. 3, 2009, S. 778–795. doi:10.1002/prot.22488. PMID 19603484. PMC: 2885146 (freier Volltext).
  31. A. Procaccini, B. Lunt, H. Szurmant, T. Hwa, M. Weigt: Dissecting the specificity of protein-protein interaction in bacterial two-component signaling: orphans and crosstalks. In: PloS one. Band 6, Nummer 5, 2011, S. e19729. doi:10.1371/journal.pone.0019729. PMID 21573011. PMC 3090404 (freier Volltext).
  32. F. Morcos, A. Pagnani, B. Lunt, A. Bertolino, D. S. Marks, C. Sander, R. Zecchina, J. N. Onuchic, T. Hwa, M. Weigt: Direct-coupling analysis of residue coevolution captures native contacts across many protein families. PNAS Band 108, Nummer 49, Dezember 2011, S. E1293–E1301. doi:10.1073/pnas.1111471108. PMID 22106262. PMC 3241805 (freier Volltext).

Literatur[Bearbeiten]

  • G. L. Butterfoss, B. Yoo u. a.: De novo structure prediction and experimental characterization of folded peptoid oligomers. PNAS, Band 109, 2012, S. 14320–14325, doi:10.1073/pnas.1209945109.

Weblinks[Bearbeiten]

Server/Software zur Vorhersage[Bearbeiten]