Shotgun Sequencing

aus Wikipedia, der freien Enzyklopädie
Wechseln zu: Navigation, Suche

Shotgun Sequencing (engl.) bzw. Schrotschusssequenzierung ist in der Molekularbiologie eine Methode zur Sequenzierung langer DNA-Stränge. Sie wurde von 1979 bis 1981 entwickelt.[1][2] Hierbei wird die DNA mehrfach kopiert und die Kopien werden zufällig in zahlreiche kleine Fragmente von 300–1000 Basenpaare fragmentiert, die anschließend sequenziert werden. Die Fragmente werden mit Methoden aus der Bioinformatik auf Überlappungen untersucht und automatisiert zu einer Konsensus-Sequenz mit möglichst wenigen Lücken zusammengesetzt.

Eigenschaften[Bearbeiten]

Mit aktuellen Sequenzierverfahren kann man DNA-Stränge von ca. 1100 Basen an einem Stück sequenzieren. Danach bricht das Verfahren ab, oder die gewonnene Sequenzinformation enthält zu viele Fehler. Das menschliche Genom ist ca. 3 Milliarden Basen, das Genom einer Fruchtfliege ist ca. 200 Millionen Basen und das Genom des Bakteriums Escherichia coli ist ca. 4,6 Millionen Basen lang. Demnach können Genome nicht einfach am Stück sequenziert werden.

Prinzip[Bearbeiten]

Die Sequenzierung mit dem Shotgun-Verfahren wird in mehrere Phasen eingeteilt:

  • Fragmentierung der DNA und Sequenzierung der Fragmente (Fragmentierungs-Phase)
  • Feststellung von Überlappungen zwischen den Fragment-Sequenzen (Overlap-Phase)
  • Berechnung eines multiplen Alignments der Fragmente (Layout-Phase)
  • Ermittlung der Konsensus-Sequenz (Konsensus-Phase)

Fragmentierung[Bearbeiten]

Die Fragmente werden zufällig erzeugt, entweder mit Endonukleasen (z. B. DNase I, EcoRI, Endo IV oder ApeI) oder indem mechanische Scherkräfte auf die DNA einwirken (beispielsweise Ultraschall). Daher auch der Name Shotgun-Sequenzierung, da die Verteilung des „Schrots“ (die Fragmentierung) im Ziel auch zufällig ist. Ein sequenziertes Fragment wird auch als read bezeichnet. Diese reads sind je nach Methode zur Fragmentierung und DNA-Sequenzierung zwischen 100 und 2000 Nukleotide lang.[3]

Overlap[Bearbeiten]

Um die Überlappungen zwischen n sequenzierten Fragmenten festzustellen, müssen \tbinom{n}{2}\in O(n^2) Vergleiche durchgeführt werden. Bei Verwendung von einem modifizierten Standard-DP-Sequenzalignment-Algorithmus, liegt ein Vergleich in O(m^2), wobei m die maximale Fragmentlänge ist. Deshalb werden in der Praxis auch effizientere heuristische Techniken verwendet (z. B. durch Verwendung von BLAST).

Layout[Bearbeiten]

Die Information der Overlap-Phase wird verwendet um die Fragmente überlappend anzuordnen. Dieser Prozess wird mit Hilfe von Algorithmen der Bioinformatik automatisiert durchgeführt. In Abhängigkeit von der Abdeckung (coverage) der Eingabesequenz mit den zufällig erzeugten Fragmenten, sind nach der Anordnung der Fragmente Lücken in diesem Alignment der Fragmente (Layout) vorhanden. Diese durch Lücken voneinander getrennten Inseln von Fragment-Alignments werden auch als Contigs bezeichnet. Celera Assembler ist ein solches Programmpaket.

Wiederholungen in der Eingabe DNA-Sequenz (repeats) sind problematisch, da in der Layout-Phase die Fragmente die Stücke eines repeats enthalten, falsch angeordnet werden können. Es kann zu einer Komprimierung der konstruierten Konsensussequenz kommen. Durch statistische Verfahren (z. B. Poisson-Verteilung (Lander-Waterman-Statistik)) können solche Stellen erkannt und gesondert behandelt werden.

Wenn auch bei einer hohen Abdeckung Lücken vorhanden sind, dann können Lücken durch andere Verfahren, beispielsweise durch Primer Walking, geschlossen werden.

Varianten[Bearbeiten]

Es wird zwischen whole-genome-shotgun-sequencing und clone-by-clone-sequencing unterschieden. Whole-genome-shotgun-sequencing wird auch als double-barrel-shotgun-sequencing bezeichnet, da hierbei die zufällig erzeugten Fragmente (> 2 × 800 Basen) von beiden Enden sequenziert werden. Die beiden Enden eines Fragments werden auch als mate pairs bezeichnet. Die Länge, und die beiden Endsequenzen jedes Fragmentes werden in der späteren Assemblierungsphase der Fragmente verwendet. Aus diesen Informationen wird ein Gerüst (scaffold) erstellt, an den Inseln von überlappenden Fragmenten (contigs), ausgerichtet werden, wenn jeweils ein Fragment eines mate-pairs auf unterschiedlichen überlappenden Fragmenten liegt.

Bei der Clone-by-Clone-Sequenzierung wird das Genom zuerst mit Restriktionsenzymen in mehrere überlappende Bereiche geschnitten. Die einzelnen Bereiche werden geklont und es wird eine physikalische Karte der Klone in dem Genom erstellt, d. h., die Reihenfolge und die Orientierung der Sequenzen der Clone wird durch Untersuchung auf genetische Marker ermittelt (physical mapping). Danach wird jede Clone-Sequenz einzeln Shotgun-sequenziert und mit Hilfe der physikalischen Karte kann eine komplette Konsensussequenz abgeleitet werden.

Weblinks[Bearbeiten]

Literatur[Bearbeiten]

  •  R. Merkl, S. Waack: Bioinformatik Interaktiv. WILEY-VCH, 2003, ISBN 3-527-30662-5, S. 313–324.
  •  Dan Gusfield: Algorithms on strings, trees, and sequences. Cambridge University Press, 1999, ISBN 0-521-58519-8, S. 420ff (Shotgun Sequencing).
  •  Rolf Knippers: Molekulare Genetik. 8. Auflage. Georg Thieme Verlag, 2001, ISBN 3-13-477008-3, S. 465–470.
  •  S.B. Primrose, R.M. Twyman: Principles of Gene Manipulation and Genomics. 7. Auflage. Blackwell Publishing, 2006, ISBN 1-4051-3544-1, S. 362–371.

Einzelnachweise[Bearbeiten]

  1. R. Staden: A strategy of DNA sequencing employing computer programs. In: Nucleic Acids Research (1979), Band 6, Heft 7, S. 2601–2610, doi:10.1093/nar/6.7.2601, PMID 461197, PMC 327874 (freier Volltext).
  2. S. Anderson: Shotgun DNA sequencing using cloned DNase I-generated fragments. In: Nucleic Acids Research (1981), Band 9, Heft 13, S. 3015–3027, doi:10.1093/nar/9.13.3015, PMID 6269069, PMC 327328 (freier Volltext).
  3. H. Stranneheim, J. Lundeberg: Stepping stones in DNA sequencing. In: Biotechnology journal. Band 7, Nummer 9, September 2012, ISSN 1860-7314, S. 1063–1073, doi:10.1002/biot.201200153, PMID 22887891, PMC 3472021 (freier Volltext).