Benutzer:Dirk123456/Baustellenbaustelle 001/Baustelle-2/Baustelle-2.5

aus Wikipedia, der freien Enzyklopädie
Zur Navigation springen Zur Suche springen

CpG-Suppression, Mutation, Selektion, Bird (1980, PMID 6253938, PMC 324012 (freier Volltext)).

Vorbereitung von Abbildungen, Zitate überprüfen, Thema ist die CG-Suppression

DNA-Methylierung und CpG-Häufigkeiten korrelieren - Bird et. al. (1980)

[Bearbeiten | Quelltext bearbeiten]

Bereits 1925 wurde 5-Methylcytosin als möglicher Bestandteil von Nukleinsäuren vermutlich erstmalig erwähnt.[1] Wenngleich die damalige mikroskopische Untersuchung noch nicht als echter Nachweis gelten kann, zeigt es die Anfänge der biochemischen Erforschung von Nukleinsäuren und das eine Idee von den Einzelbausteinen schon sehr früh vorhanden war.

Ab Ende der 1940er Jahre gab es Möglichkeiten, 5-Methylcytosin gezielter nachzuweisen.[2][3][4] 1951 war bekannt, dass 5-Methylcytosin bei Tieren und Pflanzen und Mikroben in unterschiedlicher Menge vorkommt. [5]

In den 1950er Jahren kam es zu einem rasanten Anstieg des Wissens über Nukleinsäuren, unter anderem wurde ein Modell der DNA-Struktur vorgeschlagen, das bald darauf Watson-Crick-Modell genannt wurde und das die Funktion der DNA als Erbsubstanz erklären konnte.[6][7]

Ende der 1950er Jahre gab es mehrere Möglichkeiten, DNA hinsichtlich ihrer Zusammensetzung aus Einzelbausteinen zu untersuchen;[8][9] es gab aber keine Methode, mit der alle Dinukleotid-Kombinationen vollständig und gleichzeitig erfasst werden konnten, die mit den Grundbausteinen der DNA möglich sind. So konnte Sinsheimer 1955 beispielsweise 16 Dinukleotide aus Kalbsthymus isolieren; allerdings wären damit 25 Kombinationen möglich gewesen, da fünf verschiedene Einzelbausteine vorlagen, die dort A, G, C, M und T genannt wurden.[8] Während A, G, C und T die auch heute noch üblichen Symbole für Nukleobasen sind, stand das „M“ für 5-Methylcytosin, quasi als fünfte Base.[8]

Anfang der 1960er Jahre wurde eine Methode entwickelt, die in etwa „Analyse der Häufigkeiten der Basen-Sequenz des nächsten Nachbarn“ (kurz Nearest-Neightbor-Analyse) genannt wurde.[10][11] Damit konnten alle 16 Dinukleotid-Sequenzen analysiert werden, die mit den vier Grundbausteinen A, C, G und T möglich sind. Da bei den Untersuchungen der „Basen-Sequenz des nächsten Nachbarn“ eine radioaktive Markierung der Phosphorsäuregruppe zwischen zwei Bausteinen innerhalb des DNA-Strangs zum Einsatz kam, bot sich eine Schreibweise der Art „Gesuchte Nachbarbase (X)–Phosphorsäuregruppe–Vorbestimmte Base (Y)“ an. So kam beispielsweise für die vorbestimmten Base Guanin (Y = G) markiertes Desoxycytidintriphosphat (dCTP32) zum Einsatz, dessen P32 in einem enzymatischen Syntheseschritt auf den Vorgängerbaustein in der wachsenden DNA-Kette übertragen wurde. Die folgende Analyse, beispielsweise für die Nachbarbase Cytosin (X = C), bezog sich auf ein enzymatisches Abbauprodukt, das Cp genannt wurde, so dass in diesem Fall auf die Häufigkeit der Zweibasensequenz CpG geschlossen werden konnte.[10][11]

Es wurde bereits in der ersten Arbeit zur Nearest-Neightbor-Analyse[10] darauf hingewiesen, dass mit dieser Methode keine Unterscheidung zwischen 5-Methylcytosin und Cytosin getroffen werden kann. In einer zweiten Arbeit[11] wurde die Methode zusätzlich auf einzelsträngige DNA adaptiert, es wurde erkannt, dass CpG das Dinukleotid ist, das sich bei verschiedenen Lebewesen am meisten unterscheidet und das es z. B. bei Säugetieren deutlich seltener ist, als die Häufigkeit der Einzelbausteine (also C und G) erwarten ließ.[10][11]

Vergleicht man die drei Pyrimidine Cytosin, 5-Methylcytosin und Thymin, dann fällt auf, dass Cytosin durch Methylierung zu 5-Methylcytosin und 5-Methylcytosin durch Desaminierung zu Thymin werden kann. In den 1960er Jahren wurde eine Hypothese[12] aufgestellt, nach der eine solche Umwandlung mit der Differenzierung in Zusammenhang stehen sollte; aus einer originalen C·G-Paarung sollte während der Differenzierung eines Seeigelembryos eine T·G-Mismatch-Paarung werden, die bei einer Zellteilung zu zwei Zellen führen würde, von denen die eine Tochterzelle an der entsprechenden Position eine „neue“ T·A-Paarung und die andere Tochterzelle die „alte“ C·G-Paarung trüge. Die Hypothese wurde so nicht bestätigt,[12] enthält aber mit der enzymatischen Methylierung und Desaminierung sowie der Umwandlung von C·G- in T·A-Paare gedankliche Ansätze, die später evolutionären Vorgängen zugeordnet wurden.

Ende der 1970er Jahre wurde angenommen, dass die geringe Häufigkeit von CpG in vielen höheren Organismen auf der Umwandlung von 5-Methylcytosin nach Thymin[13] beruht und für das Bakterium Escherichia coli tatsächlich nachgewiesen, dass 5-Methylcytosin ein bevorzugter Ort (hot spot) der Mutation (C→T)[14] ist.

Eine wichtige Quelle der Erforschung der Verteilung von Nukleobasen stellten die Restriktionsendonukleasen dar, zumal sie unterschiedlich methylierungssensitiv sein können. Es wurde gefunden, dass gerade die bakteriellen Restriktionsendonukleasen, die häufig an Orten mit CpG-Sequenz schneiden, gut geeignet sind, die Verteilungs- und Methylierungsmuster von Nukleobasen höheren Organismen zu bestimmen und wurden dahin gehend untersucht (z. B. [15]). Ende der 1970er Jahre stand z. B. mit den Restriktionsendonukleasen Hpa II und Msp I ein Paar von sogenannten Isoschizomeren zur Verfügung, die beide in der Sequenz 5'-CCGG-3' schneiden, wobei Hpa II vom Methylierungsstatus des internen CpG abhängig ist (Hpa II schneidet nur, wenn Cytosin nicht methyliert ist[16]), während Msp I unabhängig vom Methylierungsstatus[17] arbeitet.

Vergleichende Untersuchungen zur CpG-Dichte und der Methylierung der DNA stützten die These, dass die Methylierung von CpG dieses Dinukleotid ungewöhnlich mutierbar macht und dies hauptsächlich durch die Mutationen von 5-Methylcytosin zu Thymin käme.[18]

Weiterhin konnte für Tiere, die insgesamt eine sehr geringe CpG-Dichte in ihren Genomen aufweisen, gezeigt werden, dass es Bereiche gibt, in denen diese Dichte deutlich höher ist, als in der Umgebung; Bird et al. 1985 konnten in der Maus ca. 30.000 „Inseln“ finden.[19]

Nach den ersten Vorstellungen sollten die CpG-Inseln vorrangig dadurch entstehen, dass die Mutationen, die sonst zum Verlust von CpG führen würden, in den Inseln nicht von Belang wären, da die Cytosine dort (meist) nicht methyliert seien;[19][20][21] allerdings beantwortete das nicht die sich ergebenden Fragen, z. B., wozu es Methylierungen gibt, warum diese in den Inseln fehlen, wie das umgesetzt wird und welche Bedeutung es hat. In Überblicksarbeiten wurde auf die häufige Lokalisierung von Inseln mit unmethylierten CpG-Stellen in der Umgebung von Genen[20] und speziell von Haushaltsgenen[21] hingewiesen.

In der Folgezeit waren gezielte, vergleichende und umfassende Sequenzanalysen möglich, die zur Definition von CpG-Inseln auf Sequenzbasis führten.[22] Gardiner-Garden und Frommer analysierten die ihnen damals (1987) zur Verfügung stehende DNA-Sequenzen von Wirbeltieren hinsichtlich des CG-Gehalts, des Gehaltes von CpG-Dinukleotiden, von CpG-Inseln, von Genen und deren Bestandteilen (Exons und Introns sowie 5'- und 3'-flankierende Sequenzen), von Transkriptionsfaktor-Bindungsstellen (GC-Boxen) und Argenin-Codons (CGC) sowie hinsichtlich des Zusammenhang zwischen diesen Elementen.[22]

Es wurden Mechanismen gefunden, die der CG-Suppression (also dem Abnehmen der CpG-Stellen während evolutionärer Zeiträume) entgegenwirken. So schwächt beispielsweise die bevorzugte Reparatur von T·G-Mismatch-Paaren zu C·G-Paaren die mutagene Wirkung der Desaminierung von 5-Methylcytosin ab.[23] Weiterhin wurde gefunden, dass G+C-reiche Regionen häufiger rekombinieren, als G+C-arme und das eine CG-bevorzugenden Genkonvertierung (CG-biased gene convesation, GC-BGC) stattfindet.[24] CG-bevorzugende Genkonvertierung bedeutet, dass es bei einer Rekombination zur asymmetrischen Verteilung der Erbsubstanz kommt; das heißt beispielsweise, dass bei Heterozygotie hinsichtlich des G+C-Anteils mehr Keimzellen mit G+C-reicheren Allelen gebildet werden können.[25]

Von Drezler et al. (2007)[26] wurde eine eigene Größe definiert (UBCS, unexpected biased clustered substitutions, „unerwartet voreingenommener Cluster-Austausch“), um zum einen zwischen Substitutionen von einzelnen Stellen und von zusammenhängenden Bereiche sowie zum anderen zwischen Bevorzugung, Diskriminierung und Neutralität (also Voreingenommenheit von Austauschen) unterscheiden zu können. Eine Untersuchung beim Schimpansen und beim Menschen hatte erbracht, dass diese UBCS (die „unerwartet voreingenommenden Cluster-Austausche“) vor allem in den telomernahen Bereichen der Autosomen vorkommen und gen- und G+C-reich sind, was die Theorie der GC-biased gene conversation als treibende Kraft der Evolution weiter stärkte.[26] Die G+C-Anreicherung durch die CG-bevorzugenden Genkonvertierung zöge auch einen Hinzugewinn an CpG-Stellen nach sich.[26]

Cohen et al. (2011)[27] testeten vor allem drei mutmaßliche Triebkräfte der Evolution, die mit CpG-Inseln in Verbindung stehen konnten: Die CpG-Stellen-Verarmung durch C-nach-T-Mutationen durch die Desaminierung von 5-Methylcytosin, die CG-biased gene conversation und die genetische Selektion. Dazu verglichen sie die Genome von Mensch und verwandten Affen mithilfe anpassungsfähiger Algorithmen und kamen zu dem Schluss, dass die genetische Selektion unmittelbar kaum benötigt wird, um die Entstehung von CpG-Inseln zu erklären.[27] Vereinfacht ausgedrückt, würden die „blinden Kräfte“ (also CpG-Stellen-Verarmung durch die Desaminierung von 5-Methylcytosin und CpG-Stellen-Anreicherung durch die CG-biased gene conversation) auch erst einmal ausreichen, um CpG-arme Genome mit CpG-Inseln zu erschaffen, ohne das eine „bewertende Instanz“ (also die genetische Selektion) da wäre; anderseits weisen die Autoren[27] darauf hin, dass es wichtig ist, zu berücksichtigen, dass die genetische Selektion in einigen Fällen dennoch indirekt auf die Anreicherung von CpG-Stellen hinwirken könnte. Exons benötigen beispielsweise einen hohen G+C-Gehalt und haben daher auch mehr CpG-Stellen als sie genomische Umgebung und in wenigen Fällen könnte tatsächlich eine Auswahl auf hohe CpG-Dichte vorliegen (ICRs, imprinting control regions, Kontrollbereiche für die genomische Prägung).[27] Die recht unterschiedlichen und teilweise gegenläufigen Evolutionsregimes rechtfertigten die Einteilung der CpG-reichen genomischen Bereiche in Klassen; so wurden die Inseln in drei Hauptgruppen eingeteilt:[27]

  1. in „klassische“ CpG-Inseln,
  2. in BGC-CpG-Inseln und
  3. in CpG-Inseln, die CpG-Stellen verlieren.

Die „klassischen“ CpG-Inseln entsprechen nach den Vorstellungen von Cohen et al. (2011)[27] am ehesten den ursprünglich von Bird 1985[19] beschriebenen Inseln und sind meistens konstitutiv und insgesamt wenig methyliert. Sie verlieren nur langsam CpG-Stellen. Die BGC-CpG-Inseln sind deutlich stärker methyliert als „klassische“ CpG-Inseln und würden ihre CpG-Stellen schnell verlieren, würde dem nicht die CG-bevorzugende Genkonvertierung entgegenwirken (BGC, biased gene conversation). Nach den Vorstellungen von Cohen et al. (2011)[27] kommt es bei den BGC-CpG-Inseln, die häufig in Telomernähe liegen, zu einem Gleichgewicht zwischen Gewinn und Verlust von CpG-Stellen. Die dritte Gruppe sind nach den Vorstellungen von Cohen et al. (2011)[27] CpG-Inseln, die CpG-Stellen verlieren, da ein früheres Evolutionsregime nicht mehr wirkt, das den Verlust der CpG-Stellen verhindert hatte oder das den Zugewinn von CpG-Stellen gewährleistet hatte.

Schorderet & Gartler 1992 / PMC 48364;[28]

  • Beschäftigt sich mit CpG-Suppression und Codonpositionen. Frei verfügbar und Benutzung des Worts „CpG-Suppression“ im Titel

Salser 1977 / keine ID;[13]

  • Wird bei Bird 1980 / PMID 6253938, PMC 324012 (freier Volltext); und Schorderet & Gartler 1992 / PMID 1736311, PMC 48364 (freier Volltext); als erster angegeben, der die CG-Suppression durch mC->T-Umwandlung öffentlich gedacht hat.

Coulondre et al. 1978 / PMID 355893;[14]

  • Wird oft als Hauptzitat für spontane Desaminierung von mC->T angesehen. Echte Experimente außerhalb von E. coli scheints nicht viele zu geben.

Waalwijk & Flavell 1978 / PMID 704354, PMC 342244 (freier Volltext);[17]

  • Isoschizomere (5'-CCGG-3') für die Unterscheidung von CpG und 5mCpG

Bird 1980 / PMID 6253938, PMC 324012 (freier Volltext);[18]

  • Sozusagen Vorbereitung des bedeutenden Artikels Bird 1985 / PMID 2981636;

Bird 1985 / PMID 2981636;[19]

Cooper & Gerber-Huber 1985 / PMID 3902251;[20]

  • Überblick, das Wort CpG suppression wird verwendet und die CpG-Inseln werden mit Genen in Verbindung gebracht.

Bird 1986 / PMID 2423876;[21]

  • Überblick über Gedanken zum Auftreten von Methylierung und Inseln; Inseln oft bei Genen

Gardiner-Garden & Frommer 1987 / PMID 3656447;[22]

  • Erste systemetische Sequenzanalyse?

Cohen et al. 2011 / doi:10.1016/j.cell.2011.04.024;[27]

  • Öffentlich verfügbare Arbeit aus Cell! Beschreibt mehrere "Evolutionary Regimes" und weit darauf hin, dass Selektion möglich, aber nicht notwendig ist.

Jeltsch at al. 2018 / doi:10.3390/genes9110566[29]

  • Review über ein anderes Thema, wenig Evolution.

Sarda & Hannenhalli 2018 / PMC 5927659 (freier Volltext);[30]

  • Review mit neuen Erkenntnissen, beschreibt CpG-Inseln als dynamische Elemente der Evolution und Gentranskription. Für das Verständnis, wo es herkommt und wozu es da ist.
weitere Zitate GC-BGC
[Bearbeiten | Quelltext bearbeiten]

Cohen et al. 2011 / PMID 21620139 doi:10.1016/j.cell.2011.04.024

...Diese G / C-Substitutionsasymmetrie, die im Allgemeinen der verzerrten Genkonversion zugeschrieben wird (Brown & Jiricny, 1987 / PMID 3040266;[23]

, Duret und Galtier, 2009 / PMID 19630562;[31]

, Eyre-Walker, 1993 / PMID 8394585;[24]

, Galtier et al., 2001 / PMID 11693127 PMC 1461818 (freier Volltext);[32]

), führt zu einem erhöhten G / C-Gehalt ( Dreszer et al., 2007 / [26]

) und damit (indirekt) den CpG-Gehalt erhöht. ...

Brown & Jiricny, 1987 / PMID 3040266;[23]

Duret und Galtier, 2009 / PMID 19630562;[31]

  • Beschäftigt sich tatsächl. mit GC-BGC, nicht freier Text, eine Art Review, Stichwörter: isochores, recombination, selection, neutral evolution, mutation, comparative genomics; gefunden bei Cohen et al. 2011 / PMID 21620139 doi:10.1016/j.cell.2011.04.024;

Eyre-Walker, 1993 / PMID 8394585;[24]

  • freier PDF-Text, geht vor allem um G+C-reiche Regionen, die als Chiasmata wirken: Je G+C, desto Rekombination; je Rekombination desto Mutation -> Genkonversation; viel G+C ist viel GC-BGC. gefunden bei Cohen et al. 2011 / PMID 21620139 doi:10.1016/j.cell.2011.04.024;

Galtier et al., 2001 / PMID 11693127 PMC 1461818 (freier Volltext);[32]

Dreszer et al., 2007 / [26]

  • "unexpected biased clustered substitutions" (UBCS), Vergleich Schimpanse und Mensch, BGC mehr in männlicher Keimlinie (Chr X hat keine UBCS); gefunden bei Cohen et al. 2011 / PMID 21620139 doi:10.1016/j.cell.2011.04.024; : ... ), führt zu einem erhöhten G / C-Gehalt (Dreszer..2007) und damit (indirekt) den CpG-Gehalt erhöht.



Lamb et al. 1986 / PMID 3770472 PMC 1202960 (freier Volltext);[33]

  • bevorzugte Genkonversion in (niederen) Pilzen
Die Methylierung (Methylation) von Cytosin (Cytosine) an CpG-Stellen führt zu 5-Methylcytosin (5-methyl Cytosine), das bei spontaner Desaminierung (deamination) zu Thymin (Thymine) wird und zu einer Verringerung der CpG-Stellen in methylierter DNA führen kann.
Vereinfachte Darstellung einer Hypothese zur Entstehung von CpG-Inseln.
Ein Vorläufer-Genom (Ancestral genome) befand sich in einem Organismus, in dem CpG-Stellen (CpG-site) nicht methyliert wurden und mit „normaler“, Häufigkeit auftraten. Der betrachtete Genomabschnitt kam in einen Kontext, in dem eine regulierte Methylierung von CpG-Stellen (Methylated GpC site) erfolgte. Das könnte z. B. durch horizontalen Gen-Transfer erfolgt sein.
Innerhalb eines evolutionären Zeitraums (Evolutionary timescale) kam es dann zur Ausdünnung von methylierten CpG-Stellen über den Großteil des betrachteten Genomabschnitts im nunmehr „modernen“ Genom (Modern genome). In einem kleinen Bereich trat kaum Methylierung auf, so dass dort die ursprüngliche, hohe CpG-Dichte erhalten blieb und zur CpG-Insel (CpG island) führte.


-- Noch kein guter Übergang --

Kurz nachdem es möglich wurde, die Dinukleotid-Zusammensetzungen auf der einen Seite und die DNA-Methylierungsmuster auf der anderen Seite in größerem Umfang zu prüfen, fiel auf, dass sich die Genome verschiedener Organismen hinsichtlich ihrer Basenkomposition und der Methylierung der Basen unterscheiden und dass es einen Zusammenhang zwischen diesen beiden Eigenschaften geben könnte.

Die Methylierungsmuster konnten beispielsweise durch die Verwendung von methylierungssensitiven Restriktionsendonukleasen erfasst werden.[18] Von allen Dinukleotiden, die auftreten können, wich das CpG in vielen Fällen in der gemessen Häufigkeit am deutlichsten von jener ab, die man erwartet würde, wenn man die Häufigkeiten der Einzelbausteine in Betracht zieht. Bei den Wirbeltieren war dieser Unterschied am größten und der CpG-Anteil in den Genomen sehr gering. [34]

Der Gedanke, dass die geringe Häufigkeit der CpG-Dinuklotide auf eine hohe Mutationsrate zurückzuführen sei, da eine Methylierung der Cytosin-Basen an diesen Stellen eine Umwandlung in Thymin begünstigen könnte, geht möglicherweise auf Salser (1977) zurück. [35]

Andere Forscher hatten davon abweichend den Standpunkt eingenommen, dass CpG, ob methyliert oder nicht, bei der Kodierung von DNA durch natürliche Selektion diskriminiert wird und daher während der Evolution eliminiert wird. [36] [37]

Vergleichende Untersuchungen zur CpG-Dichte und der Methylierung der DNA stützten die These, dass die Methylierung von CpG dieses Dinukleotid ungewöhnlich mutierbar macht und dies hauptsächlich durch die Mutationen von 5-Methylcytosin zu Thymin käme. [18]

Die Frage, ob der geringe Gehalt an CpG-Stellen in vielen Genomen, der als CG-Suppression bezeichnet wird, auf Mutation oder Selektion zurückzuführen ist, kann nicht beantwortet werden, wenn man eine der beiden Seiten ausschließt.

Hohe Mutationsraten durch Desaminierung von 5-Methylcytosin führen vermutlich so lange zur Abnahme der CpG-Stellen, bis die Selektion dies verhindert.

Scarano et al. (1967) - "mC nach T"-Theorie bei Seeigel-Differenzierung nicht bestätigt

[Bearbeiten | Quelltext bearbeiten]
Scarano et al. 1967 PMID 5231746, PMC 224485 (freier Volltext) [12]
wo gefunden:
Bird 1980 PMID 6253938, PMC 324012 (freier Volltext) [18]

Verwendete Arten

  • Sphaerechinus granularis - Der Violette Seeigel (Sphaerechinus granularis) ist ein im Mittelmeer und östlichen Atlantik vorkommender Seeigel.
  • Paracentrotus lividus - Der Steinseeigel (Paracentrotus lividus) ist ein im Mittelmeer und östlichen Atlantik vorkommender Seeigel.

Zitate für DNA-Methylasen:

  • 4 Gold, M., and J. Hurwitz, these PROCEEDINGS, 52, 292 (1964).
  • 5 Fujimoto, D., P. R. Srinivasan, and E. Borek, Biochemistry, 4, 2894 (1965).

Reinigung der DNA-Methylase von E. coli: Gold & Hurwitz (1964)[38] Fortführung der Studien zur DNA-Methylierung: Gold & Hurwitz (1964)[39] Kein freier Text, kein Abstract: Fujimoto, Srinivasan & Borek (1965)[40]

Siehe nebenstehender Text

Die schematische Darstellung ist an eine Abbildung aus der Veröffentlichung von Scarano et al. (1967)[12] zum hypothetischen Wechsel der Basenpaarung bei der Differenzierung angelehnt (Fig. 1. – Mechanism of the hypothetical base pair change in DNA underlying cell differentiation).

Scarano et al. nahmen an, dass es bei der Differenzierung des Seeigelembryos zu einem Wechsel der Basenpaarung an C/G-Basenpaaren kommen könnte, indem Cytosin methyliert (erster Schritt) und anschließend desaminiert wird (zweiter Schritt). Dadurch entstünde ein T-G-Basenpaar, für das keine Bindung durch Wasserstoffbrücken vor läge. Anschließend käme es zur Replikation (dritter Schritt), nach welcher in der verdoppelten DNA sowohl der Originalzustand (C/G-Basenpaar) als auch eine Veränderung (T/A-Basenpaar) vorhanden wären.

Oben: 1, 2 und 3 sind die nummerierten Schritte der gedachten Umwandlung – Methylierung (1), Desaminierung (2) und Replikation (3); Von links nach rechts: Vom Ausgangszustand der betrachteten Stelle in der DNA bis zu den beiden Ergebnissen des hypothetischen Basenpaarwechsels; Farbliche Hervorhebungen: Blau kennzeichnet den Ausgangszustand und Rot die Änderungen an der betrachteten Stelle; Pfeile: symbolisieren Umwandlungsschritte und sind meist rot dargestellt; der blaue Pfeil zeigt auf ein Ergebnis, das der Ausgangslage entspricht. C und G sind die Basen der ursprünglichen DNA-Sequenz, T und A sollen Basen der geänderten DNA-Sequenz darstellen. H3C- ist eine Methylgruppe am Cytosin; X1, X2, X3 und X4 sind beliebige Nachbar-Basen an der betrachteten Stelle; Die grauen Linie zeigen Bindungen. Die waagerechten Linien bilden die Basenpaarung ab und die senkrechten die Basenabfolge.

[Bearbeiten | Quelltext bearbeiten]
?
Alter Entwurf für eine Bild-Unterschrift
Abbildung 1 (FIG. 1.) auf Seite 1395 einer Veröffentlichung von Scarano et al. (1967).

[12] Die Abbildung mit der Bildunterschrift "Mechanismus des hypothetischen Wechsels der Basenpaarung in DNA, welche der Zelldifferenzierung unterliegt" (Mechanism of the hypothetical base pair change in DNA underlying cell differentiation) sollte eine Vorstellung veranschaulichen, bei der die genetische Information während der Zelldifferenzierung verändert würde. Eine DNA-Cytosin-Methylase (DNA-cytosine methylase) übertrüge eine Methylgruppe auf die Base Cytosin. Anschließend wandelte eine DNA-5-Methylcytosin-Aminohydrolase (DNA-5-CH3-aminohydrolase) das methylierte Cytosin in Thymin um. Im nächsten Schritt würde die DNA-Replikation (DNA-replication) dazu führen, dass zwei unterschiedliche Doppelstränge entstünden, bei dem der eine die ursprüngliche CG-Paarung und der andere eine TA-Paarung an der betrachteten Stelle enthielte.

A fraction of the mouse genome that is derived from islands of nonmethylated, CpG-rich DNA

[Bearbeiten | Quelltext bearbeiten]

Cell. 1985 Jan;40(1):91-9.

Bird A, Taggart M, Frommer M, Miller OJ, Macleod D. Abstract About 1% of the mouse genome is cleaved by Hpa II to give a discrete fraction on gels. The nonmethylated fraction is present in all tested tissues, including sperm, and contains Hpa II sites at about 15 times their frequency in bulk DNA. About 80% of the fraction is composed of sequences that occur once or a few times per genome; the remainder is largely rDNA. Unlike bulk DNA, the fraction is not deficient in CpG, and this may be directly due to the lack of methylation. Genomic mapping of three nonribosomal fragments showed that they are part of islands of DNA within which nonmethylated Hpa II and Hha I sites are highly concentrated. We estimate about 30,000 islands per haploid genome and discuss evidence that many may be associated with genes. PMID: 2981636

Unmethylated domains in vertebrate DNA

[Bearbeiten | Quelltext bearbeiten]

Nucleic Acids Res. 1983 Feb 11; 11(3): 647–658.

PMCID: PMC 325743 (freier Volltext) PMID: 6188105

D N Cooper, M H Taggart, and A P Bird

Hpa II: schneidet methylierungssensitiv (CCGG) und Msp I schneidet insensitiv, also methyliert und nicht-methyliert. Überhängende enden mit klenow-enzym aufgefüllt (P32). die meisten experimente mit hühnern.

Recombination Dynamics of a Human Y-Chromosomal Palindrome: Rapid GC-Biased Gene Conversion, Multi-kilobase Conversion Tracts, and Rare Inversions

[Bearbeiten | Quelltext bearbeiten]

Pille Hallast, Patricia Balaresque, Georgina R. Bowden, Stéphane Ballereau, Mark A. Jobling

PLoS Genet. 2013 Jul; 9(7): e1003666. Published online 2013 Jul 25. doi: 10.1371/journal.pgen.1003666 PMCID: PMC 3723533 (freier Volltext)

Der Artikel zeigt die bevorzugte Umwandlung von W nach S, also von A|T nach G|C.


A specific mismatch repair event protects mammalian cells from loss of 5-methylcytosine

[Bearbeiten | Quelltext bearbeiten]

keine PMID | Cell, VOLUME 50, ISSUE 6, P945-950, SEPTEMBER 11, 1987

Thomas C. Brown / Josef Jiricny / DOI:https://doi.org/10.1016/0092-8674(87)90521-6

Leider kein Volltext, nur Abstract. In diesem Abstract steht nichts über GC-biased gene conversation. Es geht zwar auch um den Nicht-Verlust der G- und C-Nukleotide trotz Desaminierung von 5mC, es wird aber ein Reparaturmechanismus vorgeschlagen. 99% von künstlicher Fehlpaarungen (T/G) in Virus-DNA (SV40) wurden korrigiert, 90% zu C/G, also richtig, 8% zu T/A, also "falsch". 347 Plaques ingesamt, 343 korrigiert, 314 nach G, 29 nach T.

Recombination and mammalian genome evolution

[Bearbeiten | Quelltext bearbeiten]

Proc Biol Sci. 1993 Jun 22;252(1335):237-43.

Eyre-Walker A.

Leider kein freier Text. Im Abstract werden mehrere Fakten aufgezählt, die zeigen, das G+C-Verluste überall dort auftritt, we wo wenig Rekombination stattfindet. Deshalb wird auf Genkonvertierung gesetzt.

Evolutionary Changes in Vertebrate Genome Signatures with Special Focus on Coelacanth

[Bearbeiten | Quelltext bearbeiten]
Iwasaki et al. 2014 doi:10.1093/dnares/dsu012, PMID 24800745, PMC 4195492 (freier Volltext). [41]

gelesen wo: Suche nach "cg suppression" or "cpg suppression"

  • Fische, 'Quastenflosser, Tetrapoden
  • Vergleich von CpG und CC/GG und anderen Di-, Tri- und Tetra-Sequenzen
  • Stammbäume von verschiedenen DNA-Methyltransferasen
  • Methylierung und CG-suppression korrelieren recht gut.
  • Die Fische unterscheiden sich stark, haben insgesamt weniger CG-Suppression, als die Vierbeiner.
  • Der Quastenflosser hat eine ähnliche, sogar etwas höhere CG-suppr als die meisten Fische.
  • die CpG Häufigkeiten in und außerhalb von Inseln wurden für 11 Arten bestimmt. es wurde nicht weiter drauf eingegangen, was das bedeutet.

Ergebnis: es gibt eine Evo, die zur CG-Suppr führt und von den Methylierungssystemen abhängt.

Methylated Cytosines Mutate to Transcription Factor Binding Sites that Drive Tetrapod Evolution

[Bearbeiten | Quelltext bearbeiten]
He et al. 2015 doi:10.1093/gbe/evv205, PMID 26507798, PMC 4994754 (freier Volltext) [42]

wo gelesen: dieser artikel zitiert anderen artikel:

Aussagen in He et al. 2015 PMC 4994754 (freier Volltext):

  • 5mC deaminates to thymidine 10–50 times faster than unmethylated cytosine deaminates to uracil (Coulondre et al. 1978 PMID 355893; Chen et al. 2014 PMID 24843013), to create a T•G mismatched base pair.
  • Error-free base excision repair can correct the naturally occurring T•G mismatch to the original C•G base pair and thus CG methylation is not mutagenic (Huff and Zilberman 2014 PMID 24630728).
  • Although T•G to C•G repair pathways exist in mammals, they are inefficient (Walsh and Xu 2006 PMID 16570853; Sjolund et al. 2013 PMID 23195996), resulting in T•G base pairs mutating to T•A base pairs, thus creating a TG dinucleotide.
  • Deamination of 5mC is thought to cause the 4-fold depletion of the CG dinucleotide compared with all other dinucleotides in mammalian genomes (Bird et al. 1995 PMID 8655645).
  • As expected, the deamination product of 5mCG, TG, is the most abundant dinucleotide in vertebrates, but not other phyla (Gentles and Karlin 2001 PMID 11282969; Simmen 2008 PMID 18485662).

5mC desaminiert 10-50 Mal schneller zu Thymidin als unmethyliertes Cytosin zu Uracil (Coulondre et al., 1978, PMID 355893; Chen et al., 2014, PMID 24843013) und führt zu einem fehlgepaarten Basenpaar T • G. Eine fehlerfreie Basenexzisionsreparatur kann die natürlich vorkommende T • G-Fehlpaarung zu dem ursprünglichen C • G-Basenpaar korrigieren und somit wäre die CG-Methylierung nicht mutagen (Huff und Zilberman 2014 PMID 24630728). Obwohl T • G-nach-C • G - Reparaturwege bei Säugetieren existieren, sind sie ineffizient (Walsh und Xu 2006 PMID 16570853; Sjolund et al. 2013 PMID 23195996), was dazu führt, dass T • G-Basenpaare zu T • A-Basenpaaren mutieren und ein TG-Dinukleotid erzeugen. Es wird angenommen, dass die Desaminierung von 5-mC die 4-fache Verarmung des CG-Dinukleotids im Vergleich zu allen anderen Dinukleotiden in Säugetiergenomen verursacht (Bird et al., 1995 PMID 8655645). Wie erwartet, ist TG, das Desaminierungsprodukt von 5mCG, das am häufigsten vorkommende Dinukleotid in Wirbeltieren, jedoch nicht in anderen Phyla (Gentles und Karlin 2001 PMID 11282969; Simmen 2008 PMID 18485662).

/ Coulondre et al., 1978, PMID 355893; [14] / Chen et al., 2014, PMID 24843013; [43] / Huff und Zilberman 2014 PMID 24630728; [44] / Walsh und Xu 2006 PMID 16570853; [45] / Sjolund et al. 2013 PMID 23195996; [46] / Bird et al., 1995 PMID 8655645; [47] / Gentles und Karlin 2001 PMID 11282969; [48] / Simmen 2008 PMID 18485662; [49] /

Molecular Processes Connecting DNA Methylation Patterns with DNA Methyltransferases and Histone Modifications in Mammalian Genomes

[Bearbeiten | Quelltext bearbeiten]
Jeltsch, Broche & Bashtrykov 2018; doi:10.3390/genes9110566 [29]

gelesen wo: Suche nach "evolution cpg islands"

Typical definitions for CGIs are an average GC frequency of ≥50% and CpG observed/expected ratio of ≥0.6 in regions of ≥400–500 bps. [50]

Typische Definitionen für eine CpG-Insel verlangen einen Genomabschnitt von mindestes 400 bis 500 bp Länge, der einen durchschnittlichen G+C-Gehalt von mindestens als 50 % aufweist und in dem ein CpG-Verhältnis (beobachtet zu erwartet) von mindestens 60 % vorliegt. [50]


Primate CpG Islands Are Maintained by Heterogeneous Evolutionary Regimes Involving Minimal Selection

[Bearbeiten | Quelltext bearbeiten]

https://www.cell.com/cell/fulltext/S0092-8674(11)00482-X

Cohen, Kenigsberg, Tanay 2011; doi:10.1016/j.cell.2011.04.024 [27]

Artikel:

Säugetier-CpG-Inseln sind wichtige epigenomische Elemente, die zuerst experimentell als genomische Fraktionen mit geringem DNA-Methylierungsgrad charakterisiert wurden.

Derzeit werden CpG-Inseln allein anhand ihrer genomischen Sequenzen definiert.

Hier entwickeln wir evolutionäre Modelle, um zu zeigen, dass verschiedene evolutionäre Prozesse CpG-Inseln erzeugen und erhalten.

Ein zentrales Evolutionsregime, das zu einem angereicherten CpG-Gehalt führt, wird durch niedrige DNA-Methylierungsniveaus und folglich niedrige CpG-Deaminierungsraten verursacht.

Eine weitere wichtige Kraft, die CpG-Inseln bildet, ist die verzerrte Genkonversion, die konstitutiv methylierte CpG-Inseln stabilisiert, indem sie eine schnelle Desaminierung mit der CpG-Fixierung ausbalanciert.

Evolutionsanalysen und Daten zur Populationsgenetik legen nahe, dass die Selektion auf einen hohen CpG-Gehalt keinen signifikanten Faktor für die Erhaltung von CpGs in differentiell methylierten Regionen darstellt.

Die heterogenen, aber nicht selektiven Ursprünge der CpG-Inseln haben direkte Auswirkungen auf das Verständnis der DNA-Methylierungsmuster in gesunden und erkrankten Zellen.

Vor fünfundzwanzig Jahren zeigte ein wegweisender Artikel von Bird und seinen Kollegen, dass ein erheblicher Teil des Mausgenoms reich an unmethylierten CpG-Dinukleotiden ist. Es wurde geschätzt, dass diese Fraktion ungefähr 30.000 genomische CpG-Inseln bildet (Bird et al., 1985). Später wurde die ursprüngliche experimentelle Vorstellung von CpG-Inseln durch ein Kriterium ersetzt, das auf dem CpG-Gehalt der DNA-Sequenz beruhte (Gardiner-Garden und Frommer, 1987, Takai und Jones, 2002). Es wurde gezeigt, dass die experimentellen und rechnerischen Definitionen mit anderen wichtigen genomischen Elementen, insbesondere Transkriptionsstartstellen (TSS), weitgehend überlappen und korrelieren. CpG-Inseln wurden zu wichtigen genomischen Merkmalen in der epigenetischen Forschung. Entsprechend dem vorherrschenden Paradigma kann die Rolle der DNA-Methylierung durch Charakterisierung ihres Methylierungszustands untersucht werden. Kürzlich hat eine umfassende Kartierung der DNA-Methylierung in verschiedenen Zelltypen das Fehlen einer Methylierung in der Mehrzahl der CpG-Inseln bestätigt, aber auch zahlreiche Fälle von differentiell methylierten oder sogar konstitutiv methylierten Regionen aufgedeckt, die aufgrund ihres Sequenzgehalts als CpG-Inseln definiert sind ( Dindot et al., 2009, Doi et al., 2009, Lister et al., 2009). Die Interpretation dieser Daten und massiver epigenetischer Profile, die derzeit gesammelt werden, erfordert eine Neubewertung der Frage nach den evolutionären Ursprüngen der CpG-Insel. Sind DNA-Methylierungsmuster und CpG-Dichten evolutionär konserviert? Wenn ja, welche evolutionären Kräfte erhalten sie? Entwickeln sich CpGs unter selektivem Druck, ähnlich wie auf Protein-kodierende Sequenzen oder Transkriptionsfaktor-Bindungsstellen?

In ihrer ursprünglichen Studie beobachteten Bird und seine Kollegen, dass ein Mangel an Methylierung und ein hoher CpG-Gehalt evolutiv gekoppelt sein könnten. Der vorgeschlagene Hauptmechanismus war die erhöhte Mutabilität von 5-Methyl-Cytosinen (5mC), möglicherweise aufgrund einer ungenauen Fehlpaarungsreparatur von desaminierten 5mCs (d. H. Uracils), die Thymine bei der Replikation einführen (Bird, 1980). In Wirbeltieren findet man fast immer methylierte Cytosine im Zusammenhang mit CpG-Dinukleotiden. Das Ergebnis ist eine erhöhte CpG-Mutabilität, die dazu führt, dass methylierte Regionen CpGs schnell verlieren. Da die Rate der durch CpG erzielten Substitutionen in diesen Regionen nicht erhöht ist, konvergieren ihre Sequenzen bei niedrigem CpG-Gehalt zu einem evolutionären Gleichgewicht (1A). Im Gegensatz dazu können unmethylierte CpG-Inseln einen höheren CpG-Gehalt aufrechterhalten, da sie nicht zur Überlagerung neigen. Diese elegante evolutionäre Rationalisierung für CpG-Inseln ist im Wesentlichen neutral - sie übernimmt keine Funktion für die CpGs in CpG-Inseln und schlägt einen Mechanismus vor, der nicht die Reinigung der Selektion gegen den CpG-Verlust beinhaltet (wir bezeichnen es als das Hypodeaminations-System von Bird, Abbildung 1B). . Im impliziten Gegensatz (aber nicht unbedingt im Widerspruch zu dieser Idee) wird angenommen, dass CpG-Inseln häufig als Entwicklungsschalter fungieren, die der Zelle eine Form des epigenetischen Gedächtnisses verleihen, indem sie zelltypenspezifische Hyper- und Hypomethylierungsmuster erzeugen (Baylin und Herman 2000, Doi et al., 2009, Gal-Yam et al., 2008, Irizarry et al., 2009, Keshet et al., 2006, Reik, 2007, Straussman et al., 2009, Weber et al. 2005). Es wird vermutet, dass differentiell methylierte Regionen funktionieren, indem sie die Bindung spezifischer Faktoren auf methylierungsabhängige Weise anregen oder verhindern (Bartke et al., 2010, Illingworth et al., 2010, Jorgensen und Bird, 2002, Kim et al., 2007). Wenn die CpGs in CpG-Inseln epigenetische Schalter kodieren, kann man die Hypothese aufstellen, dass die Selektion den Verlust von CpGs in ihnen verlangsamt, was zu einem selektiven evolutionären Prozess führt, der sich vom ursprünglichen Regime von Bird unterscheidet. Ein selektives Regime kann von dem neutralen Hypodeaminationsregime unterschieden werden, da es die Raten von Nicht-Aminierungs-CpG-Verlustsubstitutionen (z. B. CG → AG) verringern würde (verglichen mit allgemeinen Substitutionen, 1C). Wichtig ist, dass die Selektion zur Entstehung von CpG-Inseln beitragen kann, auch wenn sie nicht direkt für CpGs ausgewählt wird. Bemerkenswerte Beispiele sind Exons (1D), die ihre für G / C-reichen Proteine ​​kodierenden Sequenzen im Allgemeinen konservieren und daher einen höheren CpG-Gehalt aufweisen können als die meisten Genome. Es wird erwartet, dass die obigen Evolutionsprozesse (Birds Hypodeamination-Regime, CpG-Auswahl und allgemeine Selektion) den CpG-Gehalt in den betroffenen Regionen stabilisieren, das Genom kann jedoch auch CpG-reiche Sequenzen enthalten, die nicht stabil sind und ihre CpGs kontinuierlich verlieren (1E) ). Die CpG-Verlustdynamik kann ausgelöst werden, wenn einige Einschränkungen (fehlende Methylierung, Selektion) verloren gehen, die die CpG-Insel ursprünglich stabilisierten.

Trotz der potenziellen evolutionären Heterogenität des genomischen CpG-Repertoires basieren viele der derzeitigen Versuche, die Rolle der DNA-Methylierung bei der Regulation von Entwicklung und Krebs zu verstehen, auf einem Ansatz, der alle CpG-reichen Regionen im Genom einheitlich oder basierend darauf analysiert geschichteter CpG-Gehalt (z. B. Regionen mit hohem, mittleren oder niedrigen CpG-Gehalt [Meissner et al., 2008, Weber et al., 2007]). In dieser Arbeit stellen wir ein umfassendes Modell für die Untersuchung der Evolution von Primaten-CpGs vor und verwenden es, um die Ursprünge von CpG-reichen Sequenzen im menschlichen Genom zu charakterisieren. Wir zeigen, dass der derzeitige Arbeitssatz der CpG-Inseln (Abbildung 1F) erweitert und neu klassifiziert werden muss, um mehrere radikal unterschiedliche Evolutionsregime zu beschreiben. Unsere vorgeschlagene Klassifizierung umfasst die klassischen unmethylierten CpG-Inseln, CpG-Inseln in Exons, konstitutiv methylierte CpG-Inseln, die durch einen erhöhten G / C-Gehalt in voreingenommenen Genkonvertierungs-Hotspots getrieben werden, und Pseudo-CpG-Inseln, die sich im Verlauf der Genomentwicklung der Primaten verschlechtern. Das detaillierte Evolutionsmodell ermöglicht es uns, die Kräfte zu charakterisieren, aus denen diese Klassen von CpG-Inseln hervorgehen, und zu dem Schluss, dass die reinigende Selektion des CpG-Gehalts wahrscheinlich nicht global an der Aufrechterhaltung von CpG-reichen Regionen im menschlichen Genom beteiligt ist. Insbesondere zeigen wir, dass sich die evolutionäre Dynamik in gewebespezifischen differentiell methylierten Regionen (TDMRs) nicht von denen unterscheidet, die weltweit in nicht-methylierten CpG-Inseln beobachtet werden. Wir schlagen ein überarbeitetes genomisches Rahmenwerk für das Verständnis der DNA-Methylierung in Primaten-Genomen vor (siehe http://compgenomics.weizmann.ac.il/tanay/?page_id=196 für eine Liste der genomischen Intervalle und ihrer Klassifizierung), von der wir glauben, dass sie dies tun wird Die Verwirrung, die derzeit die Interpretation entstehender genomweiter epigenomischer Profile verwechselt, ist weitgehend auszuschließen.

Unterschiedliche Regime der CpG-Evolution:
[Bearbeiten | Quelltext bearbeiten]

Unter Verwendung eines neuen evolutionären Modells mit vielen Parametern (Abbildung S1A, online verfügbar, Experimental Procedures) folgten wir Ahnensequenzen und regionalen evolutionären Substitutionsraten aus Alignments von fünf Primatengenomen (Abbildung S1B). Das Modell wurde entwickelt, um kontextabhängige Variationen der Substitutionsraten, insbesondere Variationen der CpG-Deaminierungsraten (Fig. 2A, Fig. S2A), sorgfältig zu kontrollieren, ohne die die evolutionäre Inferenz auf CpG-Dinukleotide stark verzerrt ist. Das Modell konnte auf regionale Desaminierungsraten schließen und zeigte, dass diese quantitativ über die verschiedenen Stammlinien der Primaten konserviert sind (2B, S2B) und in bemerkenswerter Weise mit den DNA-Methylierungsniveaus in humanen embryonalen Stammzellen (hESCs) korreliert sind (2C). Die Analyse künstlicher Ausrichtungen, die mit unserem evolutionären Modell simuliert wurden, bestätigte, dass unsere Lern- und Inferenzalgorithmen robust sind (Abbildung S2C), und zeigten eine gute Übereinstimmung von abgeleiteten und simulierten evolutionären Statistiken, selbst für seltene Ereignisse (z. B. Substitutionen bei den insgesamt seltenen CpGs). Um die evolutionäre Dynamik von CpG-reichen Regionen im menschlichen Genom umfassend zu untersuchen, konzentrierten wir uns auf alle genomischen, nicht-exonischen, nicht repetitiven DNA mit mindestens 3% CpG-Gehalt. Wir haben repetitive Regionen ausgeschlossen, da die evolutionäre Analyse dieser Regionen nicht zuverlässig ist und exonische Regionen getrennt von intergenischen Regionen modelliert. Für jede CpG-reiche Region schätzten wir den gesamten CpG- und G / C-Gehalt, die abgeleiteten Raten von CpG-Verstärkung und -Deaminierung und die abgeleiteten Raten von G / C-Gewinn und -Verlust (Abbildung 2D, 3A - 3D). Wir haben diese evolutionären Parameter mit hochauflösenden Daten zu den Methylierungsniveaus der DNA in hESCs und Fibroblasten ergänzt (Lister et al., 2009). Wie in Abbildung 3E (siehe auch Abbildungen S3A und S3B) gezeigt, zeigt die auf diesen Parametern basierende Clustering-Analyse mehrere unterschiedliche Entwicklungsregime, die zur Bildung von Regionen mit hohem CpG-Gehalt im Genom beitragen. Ein großer Cluster (als hypodeaminierte Inseln bezeichnet und umfasst insgesamt 8,43 Mbp) stellt klassische unmethylierte CpG-Inseln dar, die niedrige Desaminierungsraten mit variablem CpG- und G / C-Gehalt aufweisen und im Allgemeinen langsamer als die durchschnittliche Nicht-CpG-Nukleotid-Divergenz sind. Eine andere Klasse von Regionen mit hohem CpG-Gehalt (BGC-Inseln), entwickelt sich unter einem anderen Regime und zeigt eine schnellere Desaminierung und höhere Methylierungsniveaus (ein weiterer 4,54 Mbp-Cluster umfasst Regionen mit mehrdeutiger Klassifizierung, die meistens aufgrund einer zweideutigen Klassifizierung vorliegen unzureichende Evolutionsdaten). Als Referenz gilt, dass exonische CpG-Inseln (die wir separat modelliert und analysiert haben) einem anderen System unterliegen, das variable Methylierungsniveaus und insgesamt niedrige Divergenzraten (sowohl für CpGs als auch für Nicht-CpGs) aufweist, wie von der allgemeinen funktionalen Einschränkung erwartet, die ihre Sequenzen beibehält . Zusammengenommen charakterisieren die Daten die gut unterstützte Klasse von unmethylierten und hypodeaminierten CpG-Inseln, die mit dem Schema von 1B kompatibel ist und durch CpG-Selektion wie in 1C beeinflusst werden kann oder nicht (siehe unten). Trotz dieser Klasse wird ein überraschend beträchtlicher Teil des CpG-Gehalts des Genoms methyliert und entwickelt sich dynamisch, wobei er einen unterschiedlichen Sequenzgehalt (Abbildung S3C) und genomische Eigenschaften (Abbildung S3D) zeigt. Interessanterweise stellt die evolutionäre Dynamik in methylierten CpG-Inseln ihren CpG-Gehalt durch schnelle Desaminierung ständig in Frage - es war daher unklar, ob der CpG-Gehalt dieser Elemente evolutionär stabil ist und welche Mechanismen den beobachteten schnellen CpG-Verlust kompensieren.

Hypodeaminierte CpG-Inseln:
[Bearbeiten | Quelltext bearbeiten]

Die größte Klasse von CpG-reichen Regionen zeichnet sich durch langsame CpG-Deaminierungsraten aus und repräsentiert genomische Regionen mit geringen Methylierungsniveaus. Dieser Satz (Tabelle S1) ist das natürlichste genomische Analogon zur ursprünglichen (experimentellen) Vorstellung von CpG-Inseln (Bird et al., 1985). Wie in 4A gezeigt, ist die Chromosomenverteilung dieser Elemente im Allgemeinen gleichmäßig. Darüber hinaus zeigt die Analyse der Position dieser Inseln, dass 78,2% von ihnen innerhalb von 10 kb einer annotierten Transkriptionsstartstelle (TSS) vorhanden sind (4B). Ein Vergleich der hypodeaminierten Inseln mit verfügbaren Daten zur Chromatinstruktur in hESCs (Daten von GSM466734 und GSM469971) hebt außerdem die Übereinstimmung zwischen diesen Inseln und den Chromatinmarkierungen H3K4me3 und H3K27me3 hervor (4C). Auffallend hohe 80% der hypodeaminierten Inseln im 1-kb-Bereich eines bekannten TSS überschneiden sich mit H3K4me3-markierten Domänen. Auf der anderen Seite überschneiden sich 76% der Inseln, die über 1,5 kb aus einem TSS bestehen, mit H3K27me3-markierten Domänen. Die Korrelation mit den Histon-Methylierungsmustern (Edwards et al., 2010, Tanay et al., 2007) ist für hypodeaminierte CpG-Inseln ausgeprägt, da sie für andere CpG-reiche Regionen nicht beobachtet wird, was darauf hindeutet, dass die CpG-Fülle nicht ausreichend ist, um H3K27me3 oder zu erzeugen H3K4me3-Domänen.


CpG-Inseln mit methylierter voreingenommener Genkonversion:
[Bearbeiten | Quelltext bearbeiten]

Im Gegensatz zu der Klasse hypodeaminierter CpG-Inseln weist eine andere Klasse von CpG-reichen Regionen hohe Desaminierungsraten und hohe Methylierungsgrade auf (Tabelle S1). Die chromosomale Verteilung dieser Elemente (Fig. 5A, Fig. S4) zeigt ein nicht gleichförmiges Verhalten mit Clustern in subtelomerischen Regionen (und einigen anderen Hotspots, z. B. in den Chromosomen 2, 9 und 11). Diese Elemente befinden sich meist weit weg von bekannten TSSs (Abbildung 5B). Eine detaillierte Analyse der Entwicklungsdynamik in dieser Klasse zeigt hohe Raten der CpG-Desaminierung, die durch hohe Raten von CpG-Substitutionen ausgeglichen werden. Allgemeiner wird in diesen Regionen ein schneller Zuwachs an G / C-Nukleotiden in anderen Kontexten als CpG-Dinukleotiden beobachtet (Abbildung S2A). Diese G / C-Substitutionsasymmetrie, die im Allgemeinen der verzerrten Genkonversion zugeschrieben wird (Brown und Jiricny, 1987, Duret und Galtier, 2009, Eyre-Walker, 1993, Galtier et al., 2001), führt zu einem erhöhten G / C-Gehalt ( Dreszer et al., 2007) und damit (indirekt) den CpG-Gehalt erhöht. Die so erzeugten CpG-Inseln unterscheiden sich evolutionär von den klassischen hypodeaminierten CpG-Inseln. Daher führt die BGC-Dynamik zu evolutionär stabilen, konstitutiv methylierten CpG-dichten Regionen. Dies wird weiter durch die Metaanalyse mehrerer DNA-Methylierungsprofile in Mensch und Rhesus unterstützt (5C). 1.723 UCSC-CpG-Inseln (12% der UCSC-CpG-Inseln, die sich nicht wiederholend oder exonisch sind) entwickeln sich ausschließlich aufgrund der BGC und nicht aufgrund der klassischen Hypodeaminationsdynamik. Weitere 734 UCSC-CpG-Inseln (5%) sollen das BGC- und das Hypodeaminationsregime kombinieren. Diese Heterogenität in der aktuellen Definition von CpG-Inseln zeigt, dass ihre Klassifizierung, die ausschließlich auf dem G / C-Gehalt und dem CpG-Verhältnis basiert, irreführend sein kann. Eine große Anzahl von CpG-Inseln, die konstitutiv methyliert und an Transkriptionsstartstellen entkoppelt sind, sollte daher als spezifische Klasse bewertet werden, der die charakteristischen epigenetischen Eigenschaften fehlen, die typischerweise mit CpG-Inseln verbunden sind. Die evolutionäre Begründung für den CpG-Gehalt und die hohen Methylierungsniveaus dieser Klasse lässt sich leicht im zugrundeliegenden Substitutionsprozess nachweisen.

Erhaltung und Zerfall von regionalen CpG-Inhalten:
[Bearbeiten | Quelltext bearbeiten]

Die variablen Raten von CpG-Deaminierung und CpG-Substitutionen im gesamten Genom legen nahe, dass sich der Gesamt-CpG-Gehalt bestimmter Regionen seit der Divergenz der menschlichen und der Rhesuslinie verändert hat. Das Modell, das wir zur Bestimmung der CpG-Substitutionsraten (Tabelle S2) verwendeten, wurde speziell entwickelt, um sicherzustellen, dass die Analyse für nichtstationäre Regime robust ist, in denen der regionale CpG-Gehalt entlang der Linien zunimmt oder abnimmt. Wir berechneten beispielsweise Substitutionsraten, die für jede phylogenetische Linie spezifisch waren, und berücksichtigten die Variabilität der Desaminierungsraten, so dass der Ancestral-Status divergenter CpGs genau geschätzt werden konnte (experimentelle Verfahren). Ein Vergleich der abgeleiteten Änderung des CpG-Gehalts in den unabhängigen Abstammungslinien, die zu den Genomen von Mensch und Rhesus führen, zeigt, dass der Gesamt-CpG-Gehalt in Hypodeaminations-CpG-Inseln im Durchschnitt leicht abnahm und dass CpG-Inseln mit vorgefasster Gen-Umwandlung häufig den CpG-Gehalt verloren (5D) ). Insbesondere zeigen 15% der voreingenommenen Genkonversions-CpG-Inseln (aber nur 0,28% der hypodeaminierten Inseln) einen signifikanten CpG-Verlust (Abnahme ihres CpG-Gehalts von über 15% in menschlichen und Rhesus-Abstammungslinien; Experimentelle Verfahren). Ein detailliertes Screening auf genomische Regionen mit signifikantem Hinweis auf einen CpG-Verlust im menschlichen Genom ergab insgesamt 1,73 MB, wobei sich 619 der UCSC-CpG-Inseln überschneiden. Die detaillierte Liste dieser Elemente (die wir als Pseudo-CpG-Inseln bezeichnen) ist in Tabelle S3 verfügbar.

Keine globalen Unterschriften der CpG-Auswahl bei DMRs:
[Bearbeiten | Quelltext bearbeiten]

Von einer funktionalen Gruppe von geclusterten CpGs wird erwartet, dass sie eine spezifische evolutionäre Signatur der Auswahl erstellt. Beispielsweise zeigt die Evolutionsdynamik in den H19- und GTL2 / DLK1-Prägekontrollregionen (ICRs), dass sich diese gut charakterisierten funktionellen epigenetischen Elemente unter einem bemerkenswerten Mutationsdruck entwickeln, der durch eine hohe absolute methylierungsgekoppelte schnelle Desaminierung verursacht wird (6A und 6B). Im Gegensatz zu diesem Druck ist die Rate des CpG-Verlusts durch Nicht-Aminierungssubstitutionen in diesen Regionen niedriger als erwartet, was darauf schließen lässt, dass CpG-Verlustereignisse ausgewählt werden. Eine reinigende Selektion (zusätzlich zu einer potenziellen kompensatorischen Verstärkung von CpGs [Schulz et al., 2010]) kann daher zur Stabilisierung des CpG-Gehalts in ICRs beitragen. Im Gegensatz zu den H19- und GTL2 / DLK1-ICRs, die in der männlichen Keimbahn methyliert sind, weisen ICRs, die in der weiblichen Keimlinie methyliert sind, geringere Desaminierungsraten auf. Trotzdem ist die Rate des CpG-Verlusts durch Nicht-Desaminierungssubstitutionen auch in den maternalen ICRs niedriger als erwartet, was darauf hindeutet, dass die reinigende Selektion den Erhalt von CpGs sowohl in väterlichen als auch in mütterlichen ICRs bewirkt (Abbildung S4, Abbildung 6C). Zusammenfassend wird gezeigt, dass ICRs eine bekannte funktionelle Rolle für die DNA-Methylierung mit einer spezifischen evolutionären Signatur der Selektion koppeln, und bieten Arbeitsbeispiele, um ähnliche Verhaltensweisen in anderen epigenetischen Hotspots zu testen.

Eine große Anzahl von gewebespezifischen differentiell methylierten Regionen (TDMRs) wurde kürzlich charakterisiert, indem DNA-Methylierungsprofile zwischen verschiedenen Geweben und Zelllinien verglichen wurden (Cohen et al., 2009, Doi et al., 2009, Irizarry et al., 2009, Ji et al., 2010, Kim et al., 2010, Rakyan et al., 2008). TDMRs werden basierend auf dem kollektiven Verhalten (Hypo- oder Hypermethylierung) einer Gruppe von räumlich gruppierten CpGs definiert. Die Korrelationen ihres Methylierungsniveaus mit dem regionalen Transkriptionszustand und den Histon-Methylierungsmustern sind gut dokumentiert. Dennoch ist die aktive regulatorische Rolle der Methylierung in TDMRs unklar. Es kann davon ausgegangen werden, dass, wenn TDMRs (oder ein erheblicher Teil davon) aktiv funktionieren, die evolutionäre Dynamik ihrer CpGs Hinweise auf eine selektive Signatur geben sollte. Beispiele für die evolutionäre Dynamik bei zwei charakterisierten DMRs sind in den 6D und 6E gezeigt. Die Analyse einer Gruppe von 16.379 zuvor charakterisierten TDMRs (Doi et al., 2009), die 1,16 MB nicht-repetitive, nicht-exotische DNA mit hohem CpG-Gehalt umfassen, zeigt, dass TDMRs hauptsächlich in hypodeaminierten Inseln (82,1% gegenüber 5,6% in BGC-Inseln) beobachtet werden. Wie bereits gezeigt (Doi et al., 2009), reichern sich TDMRs an den Rändern von CpG-Inseln an, und sowohl der G / C- als auch der CpG-Gehalt sind niedriger als der der unmittelbar angrenzenden Regionen (Abbildung S5). In Übereinstimmung damit ist die CpG-Deaminierungsrate in TDMRs höher als die der Masseninseln. Interessanterweise sind CpG-verlustfreie Substitutionsraten in TDMRs und benachbarten CpG-Inseln nicht unterscheidbar (Abbildung 6F) und stimmen mit den Substitutionsraten in Nicht-CpG-Kontexten überein. Eine ähnliche Dynamik wird für zusätzliche TDMR-Sätze beobachtet, die durch verschiedene experimentelle Techniken und Spezies erzeugt werden (6F). Diese Daten stützen die Hypothese, dass ein nichtselektives Regime den CpG-Gehalt auf hypodeaminierten Inseln im Allgemeinen und speziell in TDMRs aufrechterhält.

DMR-Polymorphismen zeigen keinen Hinweis auf eine CpG-spezifische Auswahl:
[Bearbeiten | Quelltext bearbeiten]

Wie wir aus der populationsgenetischen Theorie wissen, können Allelfrequenzen an polymorphen CpG-Standorten zwischen der Aufrechterhaltung von CpG-Inseln durch Selektion und Stabilisierung von CpG-Inseln durch bloße Hypodeamination unterscheiden. Wie durch evolutionäre Simulationen (Fig. 7A und Fig. 7B, Fig. S6A und S6B) gezeigt wurde, führen sowohl ein niedriger Desaminierungsgrad als auch eine Selektion auf einen minimalen CpG-Gehalt zu einem hohen stationären CpG-Gehalt. Es wird jedoch erwartet, dass polymorphe CpGs im selektiven Regime signifikant niedrigere Allelfrequenzen (durchschnittliche Heterozygosität) und somit eine höhere Häufigkeit von Allelen mit niedriger Heterozygosität aufweisen als bei G / C-Dinukleotiden. Die Analyse der Verteilung von Heterozygositäten auf humane Einzelnukleotidpolymorphismen (SNPs) in hypodeaminierten CpG-Inseln (Fig. 7C, vergleiche auch mit den BGC-Inseln in Fig. S6C) zeigt eine etwas höhere Häufigkeit von seltenen Allelen in G / C-Dinukleotiden, also einen gegenläufigen Trend zu dem, was unter einem CpG-selektivem Regime erwartet würde. Darüber hinaus zeigt die Analyse von SNPs in TDMRs keinen Hinweis auf eine spezifische selektive Einschränkung für polymorphe CpG-Stellen im Vergleich zu allgemeinen G / C-SNPs (7D und 7E). Diese Daten legen nahe, dass der selektive Druck auf CpGs in TDMRs im Durchschnitt nicht stärker ist als der selektive Druck auf andere G / C-Dinukleotide und auch nicht stärker als der selektive Druck auf Nicht-TDMR-CpGs. Diese Beobachtung gilt auch bei der Untersuchung von TMDRs der Maus, die auf konservierten CpG-Inseln des menschlichen Genoms abgebildet sind (Abbildungen S6D – S6F). Zusammengenommen legen sowohl die Substitutionsdynamik als auch die Populationsgenetik durchgängig nahe, dass TDMRs möglicherweise schneller desaminieren, jedoch ansonsten evolutionär ähnlich sind wie die CpG-Inseln, in denen sie enthalten sind. Die evolutionäre Konservierung von TDMRs lässt sich allein durch die Variation der methylierungsgekoppelten Desaminierungsrate ohne CpG-spezifische Selektion erklären. Es bleibt abzuwarten, ob dieser Mangel an Beweisen für die Selektion auf eine fehlende Funktion für die TDMR-Methylierung hindeutet, oder ob eine nichtselektive CpG-Inselerhaltung ausreicht, um die epigenetische Funktion zu erhalten.


Klassen von CpG-reichen genomischen Sequenzen:
[Bearbeiten | Quelltext bearbeiten]

Wir verwendeten ein neues parameterreiches Modell der Sequenzentwicklung in Kombination mit einer Meta-Analyse von DNA-Methylierungsdaten, um den Ursprung des CpG-Repertoires in Primatengenomen zu untersuchen. Unsere Daten zeigen mindestens drei Hauptentwicklungsmodi, die die Entstehung und Aufrechterhaltung von CpG-reichen Genomregionen bestimmen. Die meisten CpG-Inseln sind konstitutiv unmethyliert und unterliegen einer langsamen C-nach-T-Desaminierung. Wir haben gezeigt, dass die Stabilität des CpG-Gehalts in diesen Elementen nur durch die neutrale Wirkung der langsamen Desaminierung erklärt werden kann, die mit fehlender Methylierung einhergeht, ohne dass das ein Beweis für die Bereinigung der CpG-Dichte durch Selektion vorliegt. Im Gegensatz zu den hypodeaminierten CpG-Inseln sind geneigte Genkonvertierungs-CpG-Inseln konstitutiv methylierte Elemente, die hauptsächlich in subtelomerischen Regionen gebündelt sind, wobei der G / C-Gehalt aufgrund der asymmetrischen Genkonversion als hoch angenommen wurde (Duret und Galtier, 2009, Eyre-Walker) 1993, Galtier et al., 2001). Diese Elemente desaminieren schnell, gewinnen aber auch CpGs, was schnell zu einem hohen stationären CpG-Gehalt führt. Daher können die evolutionären Ursprünge dieser CpG-Inseln auch zugeordnet werden, ohne dass eine Selektion bemüht wird. BGC-CpG-Inseln sind mit dem ursprünglichen Begriff der CpG-Inseln (unmethylierte Regionen, die typischerweise in der Nähe von Genpromotoren beobachtet werden) nicht kompatibel, und ihre derzeitige Gruppierung mit den klassischen unmethylierten Inseln (BGC-Inseln überschneiden sich mit insgesamt 2.457 UCSC-CpG-Inseln) ist irreführend. Ein drittes Regime der Evolutionsdynamik auf CpG-Inseln beinhaltet Elemente, bei denen der CpG-Bestand zerfällt. Diese Elemente werden typischerweise konstitutiv methyliert und können Sequenzen darstellen, die zuvor vor der Methylierung geschützt waren oder einer Genkonversion unterzogen wurden, aber anschließend (durch Duplikation oder Änderungen in cis) den Mechanismus (die Mechanismen) verloren haben, die den CpG-Gehalt stabilisieren. Diese Art von Prozess verläuft analog zur Bildung von Pseudo-Genen nach dem Verlust einer selektiven Einschränkung. Diese drei Evolutionsregimes, kombiniert mit exonischen CpG-Inseln und repetitiven Elementen, bieten einen umfassenden und vorurteilsfreien Rahmen für das Verständnis der Muster der DNA-Methylierung im menschlichen Genom.

Fehlende CpG-spezifische Selektion in unterschiedlich methylierten Regionen:
[Bearbeiten | Quelltext bearbeiten]

Klassische CpG-Inseln sind aufgrund niedriger Desaminierungsraten und niedriger Methylierungsniveaus einheitlich mit der Konservierung verbunden. Die Evolutionsdynamik in diesen Inseln ist normalerweise nicht neutral, da diese Sequenzen wahrscheinlich regulatorische Informationen einschließlich Transkriptionsfaktor-Bindungsstellen und kurze und lange nicht codierende RNAs in der Nähe von TSSs kodieren. Wir haben anhand von Beobachtungen sowohl zu den Substitutionsraten als auch zur SNP-Heterozygotie gezeigt, dass es für CpGs (im Vergleich zu anderen Dinukleotiden) in diesen Inseln keine besonderen selektiven Einschränkungen gibt. Darüber hinaus konnten wir solche Einschränkungen in Regionen, die als gewebespezifische DMRs identifiziert wurden, nicht identifizieren, da diese a priori häufiger funktionell wichtige Cluster von CpGs repräsentierten, die unter Selection stehen. Die evolutionäre Perspektive der langjährigen Debatte (Baylin und Bestor, 2002) zur Funktionalität der DNA-Methylierung in CpG-Inseln kann daher zwei Interpretationen haben. Die einfachste Erklärung ist, dass die DNA-Methylierung außerhalb von anormalen (z. B. karzinogenen) Kontexten nicht funktionell ist und daher keine Selektion hinsichtlich ihrer genomischen Codierung (CpGs) beobachtet wird. Alternativ gibt es funktionale CpG-Inseln, die jedoch einen diskriminativ hohen CpG-Gehalt ohne die Notwendigkeit einer klassischen natürlichen Selektion behalten, was durch die epigenetische Kontrolle mit geringer Methylierung in der Keimbahn bedingt ist, die zu einer langsamen Mutabilität führt. In diesem Szenario können epigenetische Mechanismen den Evolutionsprozess grundlegend beeinflussen, indem sie den ansonsten blinden Mutationsprozess (indirekt, aber beständig) an genomischen Schlüsselstellen verlangsamen.

Suche nach Auswahl für DNA-Methylierungsschalter:
[Bearbeiten | Quelltext bearbeiten]

Es sei darauf hingewiesen, dass die Selektion auf die CpG-Dichte nach wie vor eine wahrscheinliche treibende Kraft in einem kleinen Bruchteil des Genoms ist, wie dies für die H19- und GTL2 / DLK1-ICRs gezeigt wurde. Dutzende oder Hunderte von Elementen, jedes aus mehreren hundert Basenpaaren, können durch Selektion dichte CpG-Cluster erhalten, aber die Auflösung der aktuellen Evolutionsdaten reicht nicht aus, um diese mit hoher Spezifität zu identifizieren. Darüber hinaus ist die Selektion auf einzelne CpG-Stellen oder sehr kleine Gruppen von CpGs nach der derzeitigen Evolutionsanalyse noch nicht nachweisbar und kann voreingenommen sein, wenn sie nur einen kleinen Teil der CpGs auf jeder CpG-Insel betrifft. Daten von DNA-Methylierungsprofilen mit der Auflösung einzelner Basenpaare (Lister et al., 2009) und verfeinerte Evolutionsanalysen unter Verwendung zusätzlicher Primatengenome könnten in bestimmten regulatorischen Kontexten eindeutigere Antworten auf die Selektion auf funktionelle DNA-Methylierung liefern.

Experimentelle Verfahren:

[Bearbeiten | Quelltext bearbeiten]
Überblick über das Evolutionsmodell:
[Bearbeiten | Quelltext bearbeiten]

Wir wollten die Evolutionsgeschichte von CpG-reichen Regionen im menschlichen Genom durch vergleichende Analyse genomischer Sequenzen von Human, Chimp, Orangutan und Rhesus (unter Verwendung von Marmosetten [Callitrichini] als außen stehende Gruppe) herleiten. Diese herausfordernde Aufgabe erforderte die genaue Modellierung der bemerkenswerten Heterogenität der C-nach-T-Deaminierungsraten an CpG-Loci. CpG-Desaminierungen treten bis zu 20-mal schneller auf als andere Mutationen mit einem einzelnen Nukleotidpunkt und hängen stark vom Genom- und Sequenzkontext ab (Arndt, 2007, Baele et al., 2010). Dies kann bei der Verwendung von kontextunabhängigen Standardmodellen der molekularen Evolution zu sehr voreingenommenen Schätzungen der Substitutionsraten und des CpG-Gehalts der Vorfahren führen. Wenn zum Beispiel angenommen wird, dass die Desaminierungsrate zu niedrig ist, wird der abgeleitete CpG-Gehalt von Ahnensequenzen zu niedrig sein, und die Rate, mit der CpG Substitutionen hinzu gewonnen wurden, kann überschätzt werden. Die Annahme einer zu hohen Desaminierungsrate würde zu einer entgegengesetzten Tendenz führen. Wie nachstehend beschrieben, haben wir ein neues Berechnungsmodell für die Folgerung von Vorfahrensequenzen und die Abschätzung von Substitutionsparametern entwickelt, wobei die kontextabhängigen Substitutionsraten im Allgemeinen und die schnelle CpG-Desaminierung im Besonderen berücksichtigt wurden. Unsere Modell- und Inferenzalgorithmen wurden entwickelt und implementiert, um eine genomweite Analyse zu ermöglichen (insgesamt 1,74 gbp genomische Loci bei fünf Arten), und der genomweite Ansatz garantierte ausreichende Statistiken für die robuste Abschätzung eines parameterreichen Modells (Abbildung S1).

Grundlegendes Substitutionsmodell:
[Bearbeiten | Quelltext bearbeiten]

Das Evolutionsmodell basiert auf einem Faktordiagramm (Kschischang et al., 2001), das eine gemeinsame Verteilung von drei Arten von Variablen definiert:

•Sequenzvariablen - für jeden Ort j und für jede Art i, bezeichnet mit Math Eq

•Kontextvariablen - repräsentiert für jeden Ort j und für jede Linie i die Verteilung der Nukleotide über die Linie zwischen jeder Spezies und ihrem Vorfahren und wird mit Math Eq

•Regionale Variablen - einschließlich der G / C-Variablen, die den Mittelwert des G / C-Gehalts in jeder Region k widerspiegelt und mit Math-Gleichung bezeichnet wird.

Zufällige Variablen werden über verschiedene Arten von Faktoren verbunden, die jeder Kombination von Variablenwerten Potenziale zuweisen. Das Modell verwendet vier Arten von Faktoren. Erstens stellt der Mutationsfaktor Math Eq die bedingte Wahrscheinlichkeit dar, ein Nucleotid Math Eq an Loci j in Spezies zu beobachten, denen das Nucleotid am selben Locus der Vorfahrenart pa (i), der flankierenden Kontextvariablen und der regionalen G / C gegeben ist Inhalt im Bereich k = b (j). Zweitens stellt der Hintergrundfaktor Math Eq die bedingte Wahrscheinlichkeit dar, ein Nucleotid Math Eq am Ort j der Wurzelart r zu beobachten, wenn man die beiden vorhergehenden Nucleotide betrachtet. Drittens repräsentiert der Kontextfaktor Math Eq die bedingte Wahrscheinlichkeit der Kontextvariablen am Ort j der Linie i, wenn die Sequenzvariablen an den Endpunkten der Linie liegen. Zuletzt repräsentiert der GC-Faktor Math Eq den G / C-Gehalt der Region k. Wir stellen fest, dass andere Faktorisierungen verwendet werden können, um den kontextabhängigen Evolutionsprozess darzustellen, außer für unsere genomweite und parameterreiche Anwendung, die Abstammungssegmentierung (Hwang und Green, 2004) oder das explizite Modell kontextabhängiger Ratenmatrizen (Cohn et al., 2010) ) waren nicht ausreichend effizient.

Modellierung der regionalen Variation in der CpG-Deaminationsintensität:
[Bearbeiten | Quelltext bearbeiten]

Um die variable Desaminierungsrate von CpGs zu adressieren, wird eine zusätzliche regionale Deaminationsintensitätsvariable Math Eq (ähnlich der GC-Variablen) im Mutationsfaktor berücksichtigt. Diese diskrete Variable nimmt Werte im Bereich [0..9] an. Der Mutationsfaktor wird dann so parametrisiert, dass die neue Variable nur die Rate der C-to-T-Substitutionen im CpG-Kontext beeinflusst (CG → TG oder CG → CA):

Math-Gl

Dabei ist Math Eq die Desaminierungswahrscheinlichkeit für bestimmte Werte der G / C-Inhaltsvariablen und der Deaminationsratenvariablen. Wir stellen fest, dass die M-Variablen pro Region definiert sind und allen Linien gemeinsam sind. Dies erlaubt eine robustere Folgerung der Methylierungsintensität in jeder Region und wird durch die Skalierung regionaler Desaminierungsraten zwischen den Abstammungslinien unterstützt (2B).

Zusammenfassend wird die gemeinsame Modellverteilung durch die Kombination aller Faktorpotenziale definiert:

Math-Gl

Substitutionsstatistiken ableiten:
[Bearbeiten | Quelltext bearbeiten]

Die gemeinsame Randverteilung aller Variablen, die mit einem Mutationsfaktor Math Eq verbunden sind, wird durch einen erweiterten, schleifenhaften Algorithmus für die Propagierung des Glaubens (siehe zusätzliche Methoden) unter Verwendung der Faktor-Glaubensformel approximiert:

Math-Gl

Wir haben diese Annäherung verwendet, um Statistiken über die Anzahl der Substitutionen in 50-Bit-Genom-Fenstern zu sammeln. Auf jeder Linie i summieren wir alle Mutationsfaktoren j im Fenster und sammeln hintere Wahrscheinlichkeiten, um die Anzahl der beobachteten Substitutionen X → Y in jedem Kontext LXR (d. H. LXR → LYR) zu melden:

Math-Gl

Die beobachtete Anzahl von Ersetzungen in einem Fenster kann mit der vom Modell erwarteten Anzahl verglichen werden. Um letzteres zu berechnen, multiplizieren wir die erwartete Anzahl von Auftritten jedes Kontext-LXR mit der Substitutionswahrscheinlichkeit des Modells in diesem Kontext:

Math-Gl

In ähnlicher Weise können wir die Anzahl der Fälle angeben, in denen eine spezifische Ahnensequenz beobachtet wird, d. H. Die Ahnensequenz LXR auf Linie i wird beobachtet:

Math-Gl

Mit diesen Formeln können wir Evolutionsstatistiken für verschiedene Substitutionsklassen berechnen, einschließlich CpG-Deaminierungen und Nicht-Desaminierungen (vollständige Informationen siehe ergänzende Methoden).

Das Modell in der Praxis lernen: Schritt für Schritt:
[Bearbeiten | Quelltext bearbeiten]
Mehrfache Ausrichtung von Primaten:
[Bearbeiten | Quelltext bearbeiten]

Mehrere Ausrichtungsdaten für die fünf Primatenarten in der Phylogenese: Marmoset, Rhesus, Orangutan, Schimpanse und Mensch wurden von UCSC heruntergeladen. Menschliche exonische Regionen wurden aus den multiplen Alignments mit der Annotation der bekannten UCSC-Gene entfernt.

Anfangsmodell der Evolution:
[Bearbeiten | Quelltext bearbeiten]

Ein anfängliches Evolutionsmodell wurde aus Alignments von vorhandenen Sequenzen, wie oben beschrieben, unter Verwendung von generalisiertem EM in einem kontextabhängigen Evolutionsmodell gelernt, jedoch zunächst ohne Berücksichtigung der regionalen Variabilität der CpG-Desaminierungsraten.

Evolutionäre Statistiken:
[Bearbeiten | Quelltext bearbeiten]

Basierend auf dem Ausgangsmodell wurden nicht-exonische Ancestralsequenzen in der Phylogenie abgeleitet und Evolutionsstatistiken extrahiert. Die abgeleitete Desaminierungsrate in jedem genomischen Fenster (400 bp) und in jeder der Linien wurde aufgezeichnet.

Quantifizierung der CpG-Deaminationsraten in allen Linien:
[Bearbeiten | Quelltext bearbeiten]

Die bei der Rhesus-Linie beobachteten Desaminierungsraten waren quantitativ mit den anderen Linien korreliert. Die Rhesus-Desaminierungsrate wurde in 10 Behälter unterteilt, die von langsamer bis schneller Desaminierung reichen. Für jeden Rhesus-Desaminierungsbehälter wurden die durchschnittlichen Desaminierungsraten für jede der anderen Linien berechnet - dies diente dazu, das Modell im nächsten Schritt zu initialisieren.

Erweiterung des Evolutionsmodells mit der Regionalvariablen Deaminationsrate:
[Bearbeiten | Quelltext bearbeiten]

Als nächstes wurden regionale Deaminationsvariablen in das Modell eingeführt. Alle Nicht-CpG-Kontextparameter wurden mit den für das einfachere Modell erlernten Werten initialisiert. Die CpG-Deaminierungsraten wurden für die zehn Werte der Deaminationsintensitätsvariablen unter Verwendung der Rhesusbehälter wie im vorherigen Schritt beschrieben initialisiert. Modellparameter wurden durch das generalisierte EM-Verfahren erneut optimiert.

Inferenz und Extraktion evolutionärer Statistiken aus dem erweiterten Modell:
[Bearbeiten | Quelltext bearbeiten]

Nach dem Lernen des Methylierungs-abhängigen Evolutionsmodells wurden Ahnensequenzen abgeleitet und die Evolutionsstatistiken neu geschätzt, die nun für die Variabilität der regionalen Desaminierungsraten korrigiert wurden.

BGC-Regionen definieren:
[Bearbeiten | Quelltext bearbeiten]

Wir haben die relative Konservierung von G / C-Nukleotiden in großen gleitenden genomischen Fenstern von 50 kbp quantifiziert, indem wir zunächst die Anzahl der G / C-Substitutionen skaliert haben, um die unterschiedlichen regionalen Erhaltungsraten widerzuspiegeln:

Math-Gl

Die Skalierung stellte sicher, dass wir keine Regionen definieren, die im Allgemeinen als BGC-Hotspots gespeichert sind. Dann quantifizierten wir die G / C-Substitutionsasymmetrie als:

Math-Gl

Das menschliche Genom wurde dann in Regionen mit signifikanter G / C-Erhaltung (Z <-4) und Regionen mit Hintergrundverhalten segmentiert. Die empirische G / C-Konservierung wurde validiert, um nahe an anderen Kennzahlen zu arbeiten, die zuvor zur Identifizierung von Kandidaten-BGC-Regionen verwendet wurden.

Schätzen von Modellparametern in BGC- und Nicht-BGC-Sequenzen:
[Bearbeiten | Quelltext bearbeiten]

Zwei getrennte Parametersätze wurden unabhängig voneinander erlernt, wie oben für die BGC- und Nicht-BGC-Fraktionen des Genoms beschrieben. Beide Modelle wurden mit dem gleichen erlernten methylierungsabhängigen Evolutionsmodell initialisiert.

Extraktion der Substitutionsstatistik aus dem endgültigen Modell

Basierend auf dem kombinierten BGC- und Nicht-BGC-Modell in 50-bps-Fenstern wurden verfeinerte evolutionäre Statistiken abgeleitet. Diese abschließenden Statistiken lieferten eine angemessene Kontrolle der Variabilität der Substitutionsmuster aufgrund der Heterogenität der Methylierung und der BGC-Intensitäten.

Erweiterte experimentelle Verfahren:
[Bearbeiten | Quelltext bearbeiten]

Wir verwendeten den LOP-Algorithmus, um die Sequenzvariablen bei vorhandenen Spezies und ein Evolutionsmodell näher zu betrachten (Yedidia, 2005). Um die Genauigkeit zu verbessern, haben wir den Algorithmus verbessert, indem wir jede Position in CpG-Loci als erweiterte Variablen modellieren, die die beiden Sequenzvariablen kombinieren, die die CpG-Loci darstellen.

Der LBP-Algorithmus fährt mit dem Austausch von Nachrichten zwischen Faktoren und benachbarten Variablen fort. Bei der Konvergenz wird die hintere Wahrscheinlichkeit jeder Variablen durch das Produkt der Nachrichten, die an sie gesendet werden, durch alle benachbarten Faktoren angenähert.

Lernmodellparameter:
[Bearbeiten | Quelltext bearbeiten]

Wir haben einen EM-Algorithmus (Generalized Expected Maximization) verwendet, um unter Berücksichtigung der Daten Modellparameter für die maximale Wahrscheinlichkeit zu lernen. Wir führten drei EM-Iterationen durch (in jedem Schritt wurde LBP auf das gesamte Genom angewendet und Statistiken gesammelt, um das Modell neu zu schätzen). Die Implementierung verwendete verteilte Berechnungen, um die genomweite Skalierung der komplexen Inferenz- und Lernalgorithmen zu ermöglichen.

Evolutionsstatistik extrahieren:
[Bearbeiten | Quelltext bearbeiten]

Basierend auf der abgeleiteten beobachteten und erwarteten Ancestral-Sequenz und -Substitutionen berichten wir für jede Linie in jeder 50-bp-Region Folgendes:

•Beobachtete Anzahl der Ahnen-CpGs: XCG oder CGX für X in {A, C, G, T}. Dies kann für jede der Arten in der Phylogenie berechnet werden.

•Beobachtete und erwartete CpG-Verlustmutationen, sowohl Deaminierungsmutationen (XCG → XTG und CGX → CAX) als auch Nicht-Aminierungsmutationen: XCG → XYG und CGX → CYX für alle Möglichkeiten von X und Y.

•Beobachtete und erwartete CpG-Verstärkungsmutationen: XYG → XCG und CYX → CGX für alle Möglichkeiten von X und Y.

•Beobachtete und erwartete GC-Verstärkungsmutationen: A / T → C / G in allen Nicht-CpG-Kontexten.

Beobachtete und erwartete GC-Verlustmutationen: C / G → A / T in allen Nicht-CpG-Kontexten.

•Beobachtete Anzahl der Ahnen-Nukleotide A, C, G, T.

•Beobachtete und erwartete Nicht-CpG-Kontextmutationen für A, C, G, T.

Um die abgeleiteten beobachteten und erwarteten Substitutionsraten in einer bestimmten Region aus dem Evolutionsmodell zu berechnen, summieren wir die beobachtete und erwartete Anzahl von Substitutionen über alle Abstammungslinien in der Phylogenie (Math Eq und Math Eq) und dividieren durch die Gesamtzahl der Nukleotide (förderfähig) für diese Ersetzung). Beispielsweise ist die beobachtete Desaminierungsrate:

Math-Gl

d.h. die Anzahl der Desaminierungen (CG → TG oder CG → CA) geteilt durch die Anzahl der abgeleiteten CpGs der Ahnen in einer gegebenen Region über alle Abstammungslinien.

Daten zur Methylierung von Mensch und Rhesus:
[Bearbeiten | Quelltext bearbeiten]

Wir haben die MeDIP-Daten von (Rakyan et al., 2008) und die von den Autoren von (Irizarry et al., 2009) angegebenen negativen durchschnittlichen CHARM-Werte renormalisiert und die durchschnittliche Z-Score-Methylierung über das gesamte Genom in 50 berechnet bp windows. Darüber hinaus haben wir den Prozentsatz methylierter CpGs in 50-bp-Fenstern aus den von (Lister et al., 2009) bereitgestellten Daten berechnet. Rhesus-Methylierungsdaten wurden entnommen (Cohen et al., 2009). Beim Vergleich von Methylierungsregionen für Affensamen haben wir das UCSC-Liftover-Programm verwendet, um Genomregionen zu identifizieren, die ortholog zu den hoch- und niedrigmethylierten Affenregionen waren und nicht berücksichtigte Regionen, die nicht durch menschliche Daten abgedeckt wurden.

Wir extrahierten Fenster mit hohem CpG-Gehalt für die Analyse, indem wir alle 50-Bit-Fenster identifizierten, für die der 500-Bit-Umfassungsbereich einen CpG-Gehalt von mindestens 3%, mindestens 400-Bit / s einer nicht-exonischen Sequenz und höchstens 50 Basispunkte als repetitiv bezeichnet hatte. Die Clusterbildung wurde unter Verwendung eines K-Medians-Algorithmus mit euklidischen Entfernungen und K = 8 erzeugt. Die Sensitivitätsanalyse (Änderung von K und der Entfernungsmetrik) änderte die beobachteten Trends nicht signifikant. Durch Clustering mit rein evolutionären Parametern (ohne DNA-Methylierungsdaten) wurden vergleichbare Ergebnisse erzielt (Abbildung S3B), wir zogen es jedoch vor, die zusätzlichen Methylierungsdaten zu verwenden, um die Klassifizierung genauer zu definieren.

Analyse der Histon-Methylierungsdaten:
[Bearbeiten | Quelltext bearbeiten]

H3K4me3- und H3K27me3-Daten für die H1-Stammzelllinie wurden von GSM466734 und GSM469971 erhalten. Für jedes 50-Bit-Fenster mit hohem CpG-Gehalt wurde die durchschnittliche Abdeckung von H3K4me3 und H3K27me3 berechnet. Die Verteilung der Abdeckung von H3K27me3 und H3K4me3 in Bins, die als hypodeaminierte oder Hintergrund-CpG-Inseln klassifiziert wurden, als Funktion der Entfernung von der nächsten TSS wurde geschätzt.

Definieren von Pseudo-CpG-Inseln:
[Bearbeiten | Quelltext bearbeiten]

Für jedes Fenster mit hohem CpG-Gehalt haben wir die Anzahl der abgeleiteten CpGs und C / G-Nukleotide in Human, Rhesus und den gemeinsamen Vorfahren von Human und Rhesus berechnet. Wir haben die CpG-Fraktion als Verhältnis zwischen der Anzahl der CpGs und der Anzahl der G / C-Nukleotide definiert. Die CpG-Verlustquoten von Mensch und Rhesus wurden dann durch Division der CpG-Fraktionen von Mensch (bzw. Rhesus) und Vorfahren berechnet. Pseudo-CpG-Inseln wurden definiert, wenn sowohl das CpG-Verlustverhältnis von Mensch als auch von Rhesus unter 0,85 lag.

Rückschluss auf simulierte Ausrichtungen:
[Bearbeiten | Quelltext bearbeiten]

Für die Phylogenie von fünf Primaten wurden mehrere Ausrichtungsdaten unter Verwendung von langsamer / schneller Desaminierung (M = 2 oder M = 6) mit niedrigem / hohem G / C-Gehalt (G = 3 oder G = 7) simuliert. Ahnensequenzen wurden aus dem Wurzel-Markov-Modell entnommen. Substitutionen wurden dann entlang der phylogenetischen Abstammungslinien simuliert, um Sequenzen an der vorhandenen Spezies zu erzeugen. Auf diese Weise wurde ein 10 MB großes Alignment erstellt, das aus 2,5 MB besteht, die sich in jedem der vier Bereiche weiterentwickeln. Wir haben unseren Lernalgorithmus auf dieses Alignment angewendet, indem wir ein anfängliches Modell mit einheitlicher Rate verwendet haben, das sich nur in der Deaminationsrate unterscheidet. Modellparameter für vier Regime wurden anhand von 10 EM-Iterationen geschätzt. Wir haben dann die Statistiken für die evolutionäre Substitution wie für die realen Daten oben hergeleitet, wobei 50-Bit-Bins verwendet wurden, die mit 2-KB-Fenstern geglättet wurden. Die abgeleiteten Statistiken wurden separat mit der genauen Anzahl simulierter Substitutionen für jedes Evolutionsregime verglichen (Abbildung S2C).

Evolutionäre Simulationen:
[Bearbeiten | Quelltext bearbeiten]

Wir haben ein direktes Wright-Fischer-Modell verwendet, um die Entwicklung einer Population von 10.000 Sequenzen mit jeweils 100 bp zu simulieren, wobei variablen Fluss von Mutationen und Fitnesslandschaften gegeben wurden, die folgendermaßen definiert wurden:

Math-Gl

Math-Gl

Math-Gl

Die Einbrennzeit (burn in period) des Modells wurde reduziert, indem eine Markov-Ketten-Monte-Carlo-Simulation mit einem einzelnen Genom durchgeführt wurde, um anfängliche Keime unter Verwendung von Standardformeln für Fixierungswahrscheinlichkeiten zu erzeugen (z. B. wie in Kenigsberg et al., 2010). Die Wright-Fisher-Simulation wurde dann aus einer Probe gestartet, die unter Verwendung der Näherung eines einzelnen Genoms hergeleitet wurde, und wurde für die Koaleszenzperiode fortgesetzt, bevor die angesammelten Statistiken gemessen wurden. Stationäre Dinukleotidverteilungen und Verteilung der Allelfrequenzen wurden aus 200–500 Simulationen von Generationen 2e7-10e7 erfasst (wobei die Anzahl der Generationen von der Geschwindigkeit des Evolutionsprozesses und der Zeit bis zu ausreichenden und robusten Statistiken abhängt). Zur Veranschaulichung der vorgeschlagenen Evolutionsregime haben wir Mutations- und Selektionsparameter ausgewählt, die ähnliche Trends erzeugen wie die im menschlichen Genom beobachteten. Wir weisen darauf hin, dass diese ausgewählten Parameter in Anbetracht der Daten nicht die beste Übereinstimmung darstellen und nur als synthetische (wenn auch illustrative) Beispiele behandelt werden sollten.

Wir möchten uns bei den Mitgliedern der Tanay-Gruppe für die Diskussionen und das kritische Lesen des Manuskripts bedanken. A.T. möchte sich bei Tim Bestor, Peter Jones und Einav Nili Gal-Yam für die Diskussionen bedanken. Die Forschung im Labor von A.T. wurde von der Israeli Science Foundation (Dok. 1372/08) und dem EU-Programm EPIGENESYS NoE unterstützt.

Ergänzende Informationen

Laden Sie .xls (3.75 MB) Hilfe mit XLS-Dateien herunter

Tabelle S1. Klassifizierung der CpG-Inseln, bezogen auf Abbildung 3

Laden Sie .xls (1.67 MB) Hilfe mit XLS-Dateien herunter

Tabelle S2. Pseudo-CpG-Inseln, bezogen auf Abbildung 5

Laden Sie die ZIP-Datei (4.22 MB) herunter

Tabelle S3. Genomische Substitutionsmodellparameter, bezogen auf Abbildung 2

Registrieren Sie sich jetzt für kommende Cell Symposia

Einzelzellen: Technologie zur Biologie

24. bis 26. Februar 2019, Singapur

Referenzen usw.:

[Bearbeiten | Quelltext bearbeiten]

| References | Supplemental References | Article Info | Figures | Related Articles | Comments |

....

Einzelnachweise

[Bearbeiten | Quelltext bearbeiten]
  1. Bei WYATT (1951) [PMC 1275378 (freier Volltext); PMID 14838905] wurde ein Zitat als mögliche Ersterwähnung für 5-Methylcytosin gefunden: Johnson, T. B. & Coghill, R. D. (1925). J. Amer. chem. Soc. 47, 2838.
  2. R. D. HOTCHKISS: The quantitative separation of purines, pyrimidines, and nucleosides by paper chromatography. In: Journal of Biological Chemistry. Band 175, Nummer 1, August 1948, S. 315–332, PMID 18873306.
  3. E. VISCHER, S. ZAMENHOF, E. CHARGAFF: Microbial nucleic acids; the desoxypentose nucleic acids of avian tubercle bacilli and yeast. In: Journal of Biological Chemistry. Band 177, Nummer 1, Januar 1949, S. 429–438, PMID 18107446.
  4. G. R. WYATT: Occurrence of 5-methylcytosine in nucleic acids. In: Nature. Band 166, Nummer 4214, August 1950, S. 237–238, PMID 15439258.
  5. G. R. WYATT: Recognition and estimation of 5-methylcytosine in nucleic acids. In: The Biochemical journal. Band 48, Nummer 5, Mai 1951, S. 581–584, PMID 14838905, PMC 1275378 (freier Volltext).
  6. J. D. WATSON, F. H. CRICK: Molecular structure of nucleic acids; a structure for deoxyribose nucleic acid. In: Nature. Band 171, Nummer 4356, April 1953, S. 737–738, PMID 13054692.
  7. J. D. WATSON, F. H. CRICK: Genetical implications of the structure of deoxyribonucleic acid. In: Nature. Band 171, Nummer 4361, Mai 1953, S. 964–967, PMID 13063483.
  8. a b c R. L. SINSHEIMER: The action of pancreatic deoxyribonuclease. II. Isomeric dinucleotides. In: Journal of Biological Chemistry. Band 215, Nummer 2, August 1955, S. 579–583, PMID 13242554.
  9. H. S. SHAPIRO, E. CHARGAFF: Studies on the nucleotide arrangement in deoxyribonucleic acids. II. Differential analysis of pyrimidine nucleotide distribution as a method of characterization. In: Biochimica et Biophysica Acta. Band 26, Nummer 3, Dezember 1957, S. 608–623, PMID 13499419.
  10. a b c d J. Josse, A. D. Kaiser, A. Kornberg: Enzymatic synthesis of deoxyribonucleic acid. VIII. Frequencies of nearest neighbor base sequences in deoxyribonucleic acid. In: Journal of Biological Chemistry. Band 236, März 1961, S. 864–875, PMID 13790780.
  11. a b c d M. N. Swartz, T. A. Trautner, A. Kornberg: Enzymatic synthesis of deoxyribonucleic acid. XI. Further studies on nearest neighbor base sequences in deoxyribonucleic acids. In: Journal of Biological Chemistry. Band 237, Juni 1962, S. 1961–1967, PMID 13918810.
  12. a b c d e E. Scarano, M. Iaccarino, P. Grippo, E. Parisi: The heterogeneity of thymine methyl group origin in DNA pyrimidine isostichs of developing sea urchin embryos. In: Proceedings of the National Academy of Sciences. Band 57, Nummer 5, Mai 1967, S. 1394–1400, PMID 5231746, PMC 224485 (freier Volltext).
  13. a b W. Salser.: Globin mRNA sequences: analysis of base pairing and evolutionary implications. Hrsg.: Cold Spring Harbor Symp. Quant. Biol. Band 42. Cold Spring Harbor 1977, S. 985–1002.
  14. a b c C. Coulondre, J. H. Miller, P. J. Farabaugh, W. Gilbert: Molecular basis of base substitution hotspots in Escherichia coli. In: Nature. Band 274, Nummer 5673, August 1978, S. 775–780, PMID 355893.
  15. A. P. Bird, E. M. Southern: Use of restriction enzymes to study eukaryotic DNA methylation: I. The methylation pattern in ribosomal DNA from Xenopus laevis. In: Journal of molecular biology. Band 118, Nummer 1, Januar 1978, S. 27–47, PMID 625056.
  16. M. B. Mann, H. O. Smith: Specificity of Hpa II and Hae III DNA methylases. In: Nucleic acids research. Band 4, Nummer 12, Dezember 1977, S. 4211–4221, PMID 600794, PMC 343235 (freier Volltext).
  17. a b C. Waalwijk, R. A. Flavell: MspI, an isoschizomer of hpaII which cleaves both unmethylated and methylated hpaII sites. In: Nucleic acids research. Band 5, Nummer 9, September 1978, S. 3231–3236, PMID 704354, PMC 342244 (freier Volltext).
  18. a b c d e A. P. Bird: DNA methylation and the frequency of CpG in animal DNA. In: Nucleic acids research. Band 8, Nummer 7, April 1980, S. 1499–1504, PMID 6253938, PMC 324012 (freier Volltext).
  19. a b c d A. Bird, M. Taggart, M. Frommer, O. J. Miller, D. Macleod: A fraction of the mouse genome that is derived from islands of nonmethylated, CpG-rich DNA. In: Cell. Band 40, Nummer 1, Januar 1985, S. 91–99, PMID 2981636.
  20. a b c D. N. Cooper, S. Gerber-Huber: DNA methylation and CpG suppression. In: Cell differentiation. Band 17, Nummer 3, September 1985, S. 199–205, PMID 3902251 (Review).
  21. a b c A. P. Bird: CpG-rich islands and the function of DNA methylation. In: Nature. Band 321, Nummer 6067, 1986 May 15-21, S. 209–213, doi:10.1038/321209a0, PMID 2423876 (Review).
  22. a b c M. Gardiner-Garden, M. Frommer: CpG islands in vertebrate genomes. In: Journal of molecular biology. Band 196, Nummer 2, Juli 1987, S. 261–282, PMID 3656447.
  23. a b c T. C. Brown, J. Jiricny: A specific mismatch repair event protects mammalian cells from loss of 5-methylcytosine. In: Cell. Band 50, Nr. 6, 1987, ISSN 0092-8674, S. 945–950, PMID 3040266.
  24. a b c A. Eyre-Walker: Recombination and mammalian genome evolution. In: Proceedings. Biological Sciences. Band 252, Nr. 1335, 1993, ISSN 0962-8452, S. 237–243, doi:10.1098/rspb.1993.0071, PMID 8394585.
  25. M. Gardiner-Garden, M. Frommer: CpG islands in vertebrate genomes. In: Journal of Molecular Biology. Band 196, Nr. 2, 1987, ISSN 0022-2836, S. 261–282, PMID 3656447.
  26. a b c d e Timothy R. Dreszer, Gregory D. Wall, David Haussler, Katherine S. Pollard: Biased clustered substitutions in the human genome: the footprints of male-driven biased gene conversion. In: Genome Research. Band 17, Nr. 10, 2007, ISSN 1088-9051, S. 1420–1430, doi:10.1101/gr.6395807, PMID 17785536, PMC 1987345 (freier Volltext).
  27. a b c d e f g h i j Netta Mendelson Cohen, Ephraim Kenigsberg, Amos Tanay: Primate CpG Islands Are Maintained by Heterogeneous Evolutionary Regimes Involving Minimal Selection. In: Cell. 145, 2011, S. 773, doi:10.1016/j.cell.2011.04.024.
  28. D. F. Schorderet, S. M. Gartler: Analysis of CpG suppression in methylated and nonmethylated species. In: Proceedings of the National Academy of Sciences. Band 89, Nummer 3, Februar 1992, S. 957–961, PMID 1736311, PMC 48364
  29. a b Albert Jeltsch, Julian Broche, Pavel Bashtrykov: Molecular Processes Connecting DNA Methylation Patterns with DNA Methyltransferases and Histone Modifications in Mammalian Genomes. In: Genes. 9, 2018, S. 566, doi:10.3390/genes9110566.
  30. S. Sarda, S. Hannenhalli: Orphan CpG islands as alternative promoters. In: Transcription. Band 9, Nummer 3, 2018, S. 171–176, doi:10.1080/21541264.2017.1373209, PMID 29099304, PMC 5927659 (freier Volltext).
  31. a b Laurent Duret, Nicolas Galtier: Biased gene conversion and the evolution of mammalian genomic landscapes. In: Annual Review of Genomics and Human Genetics. Band 10, 2009, ISSN 1545-293X, S. 285–311, doi:10.1146/annurev-genom-082908-150001, PMID 19630562.
  32. a b N. Galtier, G. Piganeau, D. Mouchiroud, L. Duret: GC-content evolution in mammalian genomes: the biased gene conversion hypothesis. In: Genetics. Band 159, Nummer 2, Oktober 2001, S. 907–911, PMID 11693127, PMC 1461818 (freier Volltext).
  33. B. C. Lamb: Gene conversion disparity: factors influencing its direction and extent, with tests of assumptions and predictions in its evolutionary effects. In: Genetics. Band 114, Nummer 2, Oktober 1986, S. 611–632, PMID 3770472, PMC 1202960 (freier Volltext).
  34. G. J. Russell, P. M. Walker, R. A. Elton, J. H. Subak-Sharpe: Doublet frequency analysis of fractionated vertebrate nuclear DNA. In: Journal of molecular biology. Band 108, Nummer 1, November 1976, S. 1–23, PMID 1003479.
  35. Salser, W. (1977). Cold Spring Harbour Symp. Quant. Biol. XLII, 98-1103. Das Zitat wird bei Bird (1980; PMID 6253938) als Referenz (3) angegeben.
  36. H. Subak-Sharpe, R. R. Bürk, L. V. Crawford, J. M. Morrison, J. Hay, H. M. Keir: An approach to evolutionary relationships of mammalian DNA viruses through analysis of the pattern of nearest neighbor base sequences. In: Cold Spring Harbor symposia on quantitative biology. Band 31, 1966, S. 737–748, PMID 5237213.
  37. R. A. Elton: Doublet frequencies in sequenced nucleic acids. In: Journal of molecular evolution. Band 4, Nummer 4, März 1975, S. 323–346, PMID 1107565.
  38. M. GOLD, J. HURWITZ: THE ENZYMATIC METHYLATION OF RIBONUCLEIC ACID AND DEOXYRIBONUCLEIC ACID. V. PURIFICATION AND PROPERTIES OF THE DEOXYRIBONUCLEIC ACID-METHYLATING ACTIVITY OF ESCHERICHIA COLI. In: Journal of Biological Chemistry. Band 239, November 1964, S. 3858–3865, PMID 14257620 (freier Volltext).
  39. M. GOLD, J. HURWITZ: THE ENZYMATIC METHYLATION OF RIBONUCLEIC ACID AND DEOXYRIBONUCLEIC ACID. VI. FURTHER STUDIES ON THE PROPERTIES OF THE DEOXYRIBONUCLEIC ACID METHYLATION REACTION. In: Journal of Biological Chemistry. Band 239, November 1964, S. 3866–3874, PMID 14257621 (freier Volltext).
  40. D. Fujimoto, P. R. Srinivasan, E. Borek: On the nature of the deoxyribonucleic acid methylases. Biological evidence for the multiple nature of the enzymes. In: Biochemistry. Band 4, Nummer 12, Dezember 1965, S. 2849–2855, PMID 4956424.
  41. Y. Iwasaki, T. Abe, N. Okada, K. Wada, Y. Wada, T. Ikemura: Evolutionary changes in vertebrate genome signatures with special focus on coelacanth. In: DNA research : an international journal for rapid publication of reports on genes and genomes. Band 21, Nummer 5, Oktober 2014, S. 459–467, doi:10.1093/dnares/dsu012, PMID 24800745, PMC 4195492 (freier Volltext).
  42. X. He, D. Tillo, J. Vierstra, K. S. Syed, C. Deng, G. J. Ray, J. Stamatoyannopoulos, P. C. FitzGerald, C. Vinson: Methylated Cytosines Mutate to Transcription Factor Binding Sites that Drive Tetrapod Evolution. In: Genome biology and evolution. Band 7, Nummer 11, Oktober 2015, S. 3155–3169, doi:10.1093/gbe/evv205, PMID 26507798, PMC 4994754 (freier Volltext).
  43. J. Chen, B. F. Miller, A. V. Furano: Repair of naturally occurring mismatches can induce mutations in flanking DNA. In: eLife. Band 3, April 2014, S. e02001, PMID 24843013, PMC 3999860 (freier Volltext).
  44. J. T. Huff, D. Zilberman: Dnmt1-independent CG methylation contributes to nucleosome positioning in diverse eukaryotes. In: Cell. Band 156, Nummer 6, März 2014, S. 1286–1297, doi:10.1016/j.cell.2014.01.029, PMID 24630728, PMC 3969382 (freier Volltext).
  45. C. P. Walsh, G. L. Xu: Cytosine methylation and DNA repair. In: Current topics in microbiology and immunology. Band 301, 2006, S. 283–315, PMID 16570853 (Review).
  46. A. B. Sjolund, A. G. Senejani, J. B. Sweasy: MBD4 and TDG: multifaceted DNA glycosylases with ever expanding biological roles. In: Mutation Research. Band 743-744, 2013 Mar-Apr, S. 12–25, doi:10.1016/j.mrfmmm.2012.11.001, PMID 23195996, PMC 3661743 (freier Volltext) (Review).
  47. A. Bird, P. Tate, X. Nan, J. Campoy, R. Meehan, S. Cross, S. Tweedie, J. Charlton, D. Macleod: Studies of DNA methylation in animals. In: Journal of cell science. Supplement. Band 19, 1995, S. 37–39, PMID 8655645 (Review).
  48. A. J. Gentles, S. Karlin: Genome-scale compositional comparisons in eukaryotes. In: Genome research. Band 11, Nummer 4, April 2001, S. 540–546, doi:10.1101/gr.163101, PMID 11282969, PMC 311039 (freier Volltext).
  49. M. W. Simmen: Genome-scale relationships between cytosine methylation and dinucleotide abundances in animals. In: Genomics. Band 92, Nummer 1, Juli 2008, S. 33–40, doi:10.1016/j.ygeno.2008.03.009, PMID 18485662.
  50. a b R. S. Illingworth, A. P. Bird: CpG islands–'a rough guide'. In: FEBS letters. Band 583, Nummer 11, Juni 2009, S. 1713–1720, doi:10.1016/j.febslet.2009.04.012, PMID 19376112 (Review).