Garbage Collection

aus Wikipedia, der freien Enzyklopädie
Wechseln zu: Navigation, Suche

Die Garbage Collection (kurz GC, vom englischen garbage collection, wörtlich: „Müllabfuhr“, auch Automatische Speicherbereinigung oder Freispeichersammlung genannt) bezeichnet in der Software- und Informationstechnik eine automatische Speicherverwaltung, die den Speicherbedarf eines Computerprogramms minimiert. Dabei wird zur Laufzeit versucht, nicht länger benötigte Speicherbereiche automatisch zu identifizieren, um diese dann freizugeben. Manche automatische Speicherbereinigungen führen darüber hinaus die noch verwendeten Speicherbereiche zusammen (Defragmentierung). Ein großer Vorteil von GC ist die Vermeidung von Fehlern, die bei einer manuellen Speicherverwaltung leicht auftreten können (z. B. Speicherlecks, doppelte Freigaben, hängende Zeiger). Nachteilig sind ein gewisser zusätzlicher Verwaltungsoverhead und häufig ein nicht-deterministisches Verhalten der Ausführungsumgebung und damit unter Umständen auch des Programms selbst.[1]

Motivation[Bearbeiten]

In vielen Softwaresystemen wird benötigter (Arbeits-)Speicher dynamisch, d. h. bei Bedarf reserviert. Wird er nach Abarbeitung eines Programmteils nicht weiter verwendet, so sollte der Speicher wieder freigegeben werden, um eine Wiederverwendung dieser Ressource zu ermöglichen. Bei einer expliziten, manuellen Speicherverwaltung geschieht dies durch Festlegen der Speicherreservierung und -freigabe im Programm durch den Programmierer, ein schnell komplex und damit potenziell fehlerträchtig werdendes Vorgehen. Hinzu kommt, dass vergessene Speicherfreigaben nicht sofort zu Auffälligkeiten im Programmablauf führen - zumindest nicht während der typischerweise nur kurzen Programmläufe während der Entwicklung, sondern erst, wenn das fertige Programm vom Endanwender oft über Stunden und Tage ununterbrochen betrieben wird.

Beschreibung[Bearbeiten]

Bei der automatischen Speicherbereinigung ist die Idee, diese Aufgabe durch eine Garbage Collector genannte Routine automatisch erledigen zu lassen, ohne Zutun des Programmierers. D. h. das Speichermanagement wird von einer expliziten Festlegung zur Programmerstellungszeit (Compile-Zeit) zu einer dynamischen Analyse des Speicherbedarfs zur Laufzeit des Programms verschoben.

Üblicherweise läuft eine solche automatische Speicherbereinigung im Hintergrund (bzw. nebenläufig) in mehr oder minder regelmäßigen Zeitabständen (z. B. während Pausen im Programmablauf) und wird nicht explizit durch das Programm ausgelöst. GC kann jedoch häufig auch zusätzlich direkt ausgelöst werden, um dem Programm etwas Kontrolle über die Bereinigung zu geben, z. B. in einer Situation von Speichermangel (Out-Of-Memory).

Ansätze[Bearbeiten]

Es gibt verschiedene Ansätze, um eine automatische Speicherbereinigung zu implementieren. Gewünschte Anforderungen können ein möglichst geringer Speicherverschnitt, eine maximale Allokierungsgeschwindigkeit, eine Reduktion der Speicherfragmentierung und viele weitere mehr sein, die sich durchaus auch widersprechen und zu Zielkonflikten führen können. D. h. je nach Anwendungsfall kann eine automatische Speicherbereinigung sehr unterschiedlich aussehen und sicher viele Anforderungen erfüllen, manche aber auch nicht.

Typischerweise werden jedoch alle diese Varianten zwei Grundtypen von Speicherbereinigungen zugeordnet: Konservative und nicht-konservative Speicherbereinigung.

Konservative automatische Speicherbereinigung[Bearbeiten]

Unter einer konservativen automatischen Speicherbereinigung versteht man eine, die nicht zuverlässig alle nicht-referenzierten Objekte erkennen kann. Diese hat meistens keine Informationen darüber, wo sich im Speicher Referenzen auf andere Objekte befinden. Zur Speicherbereinigung muss sie den Speicher auf mögliche Referenzen durchsuchen. Jede Bitfolge, die eine gültige Referenz in den Speicher sein könnte, wird als Referenz angenommen. Es kann dabei nicht festgestellt werden, ob es sich dabei nicht doch um ein Zufallsmuster handelt. Daher erkennen konservative Kollektoren gelegentlich Objekte als referenziert, obwohl sie es eigentlich nicht sind. Da eine automatische Speicherbereinigung niemals Objekte entfernen darf, die noch gebraucht werden könnten, muss sie konservativ annehmen, dass es sich bei der erkannten Bitfolge um eine Referenz handelt.

Insbesondere wenn eine automatische Speicherbereinigung auch dringlichere Ressourcen als Speicher freigeben muss (siehe Finalisierung), kann ein konservativer Kollektor ein Risiko darstellen. Im Allgemeinen findet man konservative GCs dort, wo interne Pointer (also Pointer auf unterschiedliche Teile eines Objektes) erlaubt sind, was eine Implementierung der automatischen Speicherverwaltung erschwert. Beispiele dafür sind die Sprachen C und C++. (Anmerkung: Dies gilt nicht für die „verwalteten Typen“ in C++/CLI, da dort eigene Referenztypen für die automatische Speicherbereinigung eingeführt wurden, die es nicht erlauben, direkt die Adresse eines Objekts auszulesen.)

Nicht-konservative automatische Speicherbereinigung[Bearbeiten]

Unter einer nicht-konservativen automatischen Speicherbereinigung (manchmal auch als „exakter Speicherbereinigung“ bezeichnet) versteht man eine, der Metadaten vorliegen, anhand derer sie alle Referenzen innerhalb von Objekten und Stackframes auffinden kann. Bei nicht-konservativer Speicherbereinigung wird zwischen Verfolgung (tracing garbage collectors) und Referenzzählung unterschieden.

Verfolgende Algorithmen[Bearbeiten]

Mark-and-Sweep-Algorithmus[Bearbeiten]

Bei diesem Verfahren der Speicherbereinigung wird von bekanntermaßen noch benutzten Objekten ausgehend allen Verweisen auf andere Objekte gefolgt. Jedes so erreichte Objekt wird markiert. Anschließend werden alle nicht markierten Objekte zur Wiederverwendung freigegeben.

Die Freigabe kann zur Speicherfragmentierung führen. Das Problem ist hierbei jedoch etwas geringer als bei manueller Speicherverwaltung. Während bei manueller Speicherverwaltung die Deallozierung immer sofort erfolgt, werden bei Mark-and-Sweep fast immer mehrere Objekte auf einmal beseitigt, wodurch größere zusammenhängende Speicherbereiche frei werden können.

Mark-and-Compact-Algorithmus[Bearbeiten]

Der Mark-and-Compact-Algorithmus benutzt ebenso wie Mark-and-Sweep das Prinzip der Erreichbarkeit in Graphen, um noch referenzierte Objekte zu erkennen. Diese kopiert er an eine andere Stelle im Speicher. Der ganze Bereich, aus dem die noch referenzierten (man spricht hier auch von „lebenden“) Objekte herauskopiert wurden, wird nun als freier Speicherbereich betrachtet.

Nachteil dieser Methode ist das Verschieben der „lebenden“ Objekte selber, denn Zeiger auf diese werden ungültig und müssen angepasst werden. Hierzu gibt es grundsätzlich wenigstens zwei Verfahren:

  1. Jedes Objekt wird über zwei Indirektionen (Umleitungen) angesprochen (über einen Zeiger auf einen Zeiger auf das Objekt), so dass beim Verschieben nur noch der Zeiger, der direkt auf das Objekt zeigt, angepasst werden muss.
  2. Alle Referenzen verweisen direkt auf das Objekt, um aufwändige Dereferenzierungen zu vermeiden, und werden nach einer Verschiebung geeignet angepasst.

Das Verschieben der Objekte hat allerdings den Vorteil, dass jene, die die Bereinigung „überlebt“ haben, nun alle kompaktiert zusammenliegen und der Speicher damit praktisch defragmentiert ist. Auch ist es möglich, sehr schnell zu allozieren, weil freier Speicherplatz nicht aufwändig gesucht wird. Anschaulich: Werden die referenzierten Objekte an den „Anfang“ des Speichers verschoben, kann neuer Speicher einfach am „Ende“, hinter dem letzten lebenden Objekt, alloziert werden. Das Allozieren funktioniert damit vergleichsweise einfach, ähnlich wie beim Stack.

Generationell[Bearbeiten]

Generationelle GCs verkürzen die Laufzeit der Speicherfreigabe. Dazu wird die Situation ausgenutzt, dass in der Praxis die Lebensdauer von Objekten meist sehr unterschiedlich ist: Auf der einen Seite existieren Objekte, die die gesamte Laufzeit der Applikation überleben. Auf der anderen Seite gibt es eine große Menge von Objekten, die nur temporär für die Durchführung einer einzelnen Aufgabe benötigt werden. Der Speicher wird bei generationellen GCs in mehrere Teilbereiche (Generationen) aufgeteilt. Die Langlebigkeit wird durch einen Zähler quantifiziert, welcher bei jeder Garbage-Collection inkrementiert wird. Mit jeder Anwendung des Freigabe-Algorithmus (zum Beispiel Mark-and-Compact oder Stop-And-Copy) werden langlebige Objekte in eine höhere Generation verschoben. Der Vorteil liegt darin, dass die Speicherbereinigung für niedrige Generationen häufiger und schneller durchgeführt werden kann, da nur ein Teil der Objekte verschoben und deren Zeiger verändert werden müssen. Höhere Generationen enthalten mit hoher Wahrscheinlichkeit nur lebende (bzw. sehr wenige tote) Objekte und müssen deshalb seltener bereinigt werden.

Die Anzahl der Generationen wird heuristisch festgelegt (zum Beispiel 3 in .NET, 2 in der Java-VM von Sun). Zudem können für jede Generation unterschiedliche Algorithmen verwendet werden. In Java beispielsweise wird für die niedrigste Generation (auch Young-Generation genannt) ein modifizierter Stop-And-Copy-Algorithmus angewandt, für die höhere (Tenured-Generation) Mark-And-Compact.

Referenzzählung[Bearbeiten]

Hauptartikel: Referenzzählung

Bei diesem Verfahren führt jedes Objekt einen Zähler mit der Anzahl aller Referenzen, die auf dieses Objekt zeigen. Fällt der Referenzzähler eines Objektes auf null, so kann es freigegeben werden.

Ein besonderes Problem der Freispeichersammlung mit Referenzzählung liegt in so genannten zyklischen Referenzen, bei denen Objekte Referenzen aufeinander halten, aber sonst von keinem Konsumenten im System mehr verwendet werden. Nehmen wir beispielsweise an, Objekt A halte eine Referenz auf Objekt B und umgekehrt, während der Rest des Systems ihre Dienste nicht mehr benötigt. Somit verweisen beide Objekte gegenseitig (zyklisch) aufeinander, weshalb die automatische Speicherbereinigung nicht ohne weiteres erkennen kann, dass sie nicht mehr benutzt werden. Die Folge hiervon ist, dass der Speicher somit für die Dauer der Programmausführung belegt bleibt. Es gibt unterschiedliche Algorithmen, die solche Situationen erkennen und auflösen können, zumeist nach dem Prinzip der Erreichbarkeit in Graphen.

Eigenschaften[Bearbeiten]

Mit einer Garbage Collection können einige häufig auftretende Programmierfehler, die den Umgang mit dynamischer Speicherverwaltung auftreten, ganz oder zumindest teilweise vermieden werden. Besonders zu erwähnen sind hierbei die doppelte Freigabe von Ressourcen und die Dereferenzierung von versehentlich zu früh freigegebenen Ressourcen (Hängende Zeiger).

Als Folge des Satzes von Rice kann nicht festgestellt werden, ob noch referenzierte Objekte jemals wieder benutzt werden. Darum gibt eine automatische Speicherbereinigung nur vom Programm nicht mehr referenzierte Objekte frei und kann somit Speicherlecks nicht verhindern.

Leistungsfähigkeit[Bearbeiten]

Ob eine automatische Speicherbereinigung Programme insgesamt beschleunigt oder ausbremst, ist umstritten. In einigen Kontexten, wie z. B. wenn Speicher erst dann freigegeben wird, wenn die Systemanforderungen gerade niedrig sind oder wenn die Speicherverwaltung des Systems durch Defragmentierung entlastet wird, kann sie zu Leistungssteigerungen führen. Es existieren Microbenchmarks, welche belegen, dass bei Programmiersprachen mit automatischer Speicherbereinigung die Anlage/Freigabe von Objekten in Summe schneller vonstattengeht als ohne,[2][3] jedoch auch Microbenchmarks, die insgesamt einen überwiegend negativen Einfluss auf die Leistungsfähigkeit sehen.[4]

Beim Speicherverbrauch führt eine automatische Speicherverwaltung und -bereinigung zu einem zusätzlichen Overhead gegenüber einem expliziten, händischen Speichermanagement aufgrund der zeitverzögerten Bereinigung, bei konservativer Speicherbereinigung typischerweise 30–150 %.[5] Andererseits ist eine korrekte Implementierung manueller Speicherfreigabe in nicht trivialen Programmen komplex umzusetzen, was Fehlerquellen für Speicherlecks bei manueller Speicherfreigabe schafft. Beispielsweise kann die oft angewandte Methode der Referenzzählung keine zyklischen Referenzen erkennen und führt ohne Ergänzung durch komplexe Algorithmen zu Speicherlecks.

Determinismus[Bearbeiten]

Indem der Programmierer die Entscheidung über den Freigabezeitpunkt nicht explizit festlegt, gibt er auch einen Teil der Kontrolle über den Programmfluss auf. Da die automatische Speicherbereinigung i. d. R. nebenläufig stattfindet, hat das Programm selbst keine Information darüber, wann Speicherbereiche wirklich freigegeben bzw. Objekte finalisiert werden. Dadurch ist der Programmfluss potentiell nicht mehr deterministisch.

Konkret können folgende Formen nicht-deterministischen Verhaltens auftreten:

  • Der Zeitpunkt der Finalisierung ist unbestimmt: Selbst wenn ein Objekt als nicht mehr benötigt erkannt und zur Bereinigung ausgewählt wurde, ist der Zeitpunkt der Finalisierung unbestimmt, dadurch ist auch der Programmfluss nicht mehr deterministisch. Das ist insbesondere dann ein Problem, wenn das Objekt gemeinsam genutzte Ressourcen verwendet oder abschließende Berechnungen durchführt.
  • Die Laufzeit – sowohl des gesamten Programms als auch nur von einzelnen Abschnitten – kann durch die Unterbrechungen durch den Garbage Collector nicht-deterministisch werden. Das stellt speziell für Echtzeitsysteme ein Problem dar.

So ist es auch in Echtzeitsystemen nicht hinnehmbar, dass die Programmausführung zu unvoraussehbaren Zeitpunkten durch die Ausführung der Speicherbereinigung unterbrochen wird. Für Echtzeitsysteme muss, wie beispielsweise bei Real-Time Java, eine automatische Speicherbereinigung präemptiv (zum Beispiel im Leerlaufprozess) und inkrementell implementiert werden. Einfache inkrementelle Verfahren arbeiten zum Beispiel mit der sogenannten Dreifarb-Markierung.[6]

Verletzung des RAII-Idioms[Bearbeiten]

Garbage Collection ist grundsätzlich inkompatibel zum RAII-Idiom, bei welchem der Programmierer eindeutig den Lebenszyklus von Objekten und die Belegung von Ressourcen steuern kann. Wird ein RAII-Verhalten von Objekten bei gleichzeitiger Verwendung einer Garbage Collectors gefordert, so müssen Funktionen zur expliziten Ressourcenbelegung sowie -freigabe zusätzlich implementiert werden.

Fragmentierung[Bearbeiten]

Traditionelle Speicherverwaltungen neigen im Laufe der Zeit zur Fragmentierung. Verursacht wird dieses Problem durch die unterschiedliche Lebenszeit von Objekten. Die Speicherverwaltung führt Buch darüber, welche Stellen „freien Speicher“ repräsentieren, also alloziert werden können und welche bereits von Objekten belegt sind. Durch das explizite Freigeben von Speicherstellen entstehen Lücken, die nicht immer sofort wieder aufgefüllt werden können. Wenn neue Objekte größer sind als die freigewordenen Lücken, muss an anderer Stelle ein nicht allozierter Bereich gesucht werden.

Probleme, die bei Fragmentierung auftreten können:

  • Es bleibt ein gewisser Teil des zur Verfügung stehenden Speichers ungenutzt.
  • Das Allozieren von Speicher dauert länger, wenn die Datenstrukturen, über die der Heap verwaltet wird, komplexer werden. Das Suchen nach einer freien Speicherstelle von passender Größe gestaltet sich aufwändiger.
  • Es kommt immer wieder vor, dass nacheinander allozierte Objekte nicht nebeneinander im Speicher stehen (man spricht hierbei von schlechter Speicherlokalität). Untersuchungen haben gezeigt, dass nacheinander erzeugte Objekte oft gleichzeitig für eine bestimmte Operation gebraucht werden. Wenn sie nicht nahe genug beieinander liegen, werden Zugriffe anstatt auf den schnellen Cache-Speicher auf den dahinterliegenden, langsameren Speicher umgeleitet, was den Zugriff stark bremsen kann.

Durch kompaktierende Algorithmen kann eine Fragmentierung jedoch komplett vermieden werden. Siehe dazu Mark and Compact. Dies führt zwar zu einer längeren Verzögerung beim Freigeben von Speicher, reduziert allerdings die Allozierungsdauer. Um die Speicherfreigabe möglichst kurz zu halten, wird darauf geachtet, möglichst selten große Speicherbereiche aufzuräumen. Deshalb werden diese Algorithmen bevorzugt in Kombination mit generationellen Verfahren eingesetzt.

Verbreitung[Bearbeiten]

Einige ältere (APL, LISP, BASIC) und viele moderne Programmiersprachen verfügen über eine integrierte automatische Speicherbereinigung.

Für Programmiersprachen wie C, bei denen die Programmierer die Speicherverwaltung „von Hand“ erledigen müssen, gibt es teilweise Bibliotheken, die eine automatische Speicherbereinigung zur Verfügung stellen, was bei der Programmierung aber leicht umgangen werden kann, beziehungsweise bei systemnaher Programmierung sogar umgangen werden muss. Aus diesem Grund werden in modernen Entwicklungsumgebungen systemnah programmierte Module von der automatischen Speicherbereinigung ausgenommen, indem sie explizit gekennzeichnet werden (zum Beispiel in C# mit der Option /unsafe oder in Component Pascal mit der obligatorischen Anweisung IMPORT SYSTEM).

Weitere Beispiele für Programmiersprachen mit einer automatischen Speicherverwaltung sind Smalltalk, Haskell, Oberon, Python, Ruby, OCaml, Perl, Visual Objects, ABAP, Objective-C (ab Version 2.0), D und sowie alle Sprachen, die auf der Java Virtual Machine (JVM) ablaufen (Java, Groovy, Clojure, Scala, …) sowie die für die Common Language Runtime von .NET entwickelt wurden (zum Beispiel C# oder VB.NET).

Finalisierung[Bearbeiten]

Als Finalisierung (englisch finalization) bezeichnet man in objekt-orientierten Programmiersprachen eine spezielle Methode, die aufgerufen wird, wenn ein Objekt durch den Garbage Collector freigegeben wird.

Anders als bei Destruktoren sind Finalisierungsmethoden nicht deterministisch: Ein Destruktor wird aufgerufen, wenn ein Objekt explizit durch das Programm freigegeben wird. Die Finalisierungsmethode wird jedoch erst aufgerufen, wenn der Garbage Collector entscheidet, das Objekt freizugeben. Abhängig vom Garbage Collector kann dies zu einem beliebigen Zeitpunkt geschehen, wenn festgestellt wird, dass das Programm das Objekt nicht mehr verwendet – möglicherweise auch nie bzw. am Ende der Laufzeit (siehe auch Abschnitt #Determinismus).

Die Finalisierung kann in der Praxis zu Problemen führen, wenn sie für die Freigabe von Ressourcen verantwortlich ist:

  • Objekte, die Ressourcen verwalten, sollten diese nicht erst im Zuge der Finalisierung freigeben. Ansonsten könnte das zu blockierenden Zuständen innerhalb des Programmablaufs führen, da der Zeitpunkt der Finalisierung nicht vorhersagbar ist.
  • Finalisierung erzeugt zusätzliche Rechenlast für die automatische Speicherbereinigung welche möglichst rasch und ohne den Rest des Programmablaufes zu stören durchgeführt werden sollte.
  • Es gibt keine definierte Finalisierungsreihenfolge. Daher kann es geschehen, dass während der Finalisierung auf andere Objekte zugegriffen wird, die ebenfalls der Finalisierung unterworfen sind, zu diesem Zeitpunkt aber überhaupt nicht mehr existieren.
  • Es gibt je nach Implementierung (beispielsweise in der Programmiersprache Java) keine Garantie dafür, dass die Finalisierungsroutine von der automatischen Speicherbereinigung überhaupt aufgerufen wird.

In der Programmiersprache Java verfügen Objekte über eine spezielle Methode namens finalize(), die für diesen Zweck überschrieben werden kann. Aus den oben genannten Gründen wird für Java empfohlen, komplett auf Finalisierung zu verzichten und statt dessen eine explizite Terminierungsmethode zu verwenden.[7] Der automatischen Speicherbereinigung fällt dann also ausschließlich die Aufgabe der Speicherverwaltung zu.

Siehe auch[Bearbeiten]

Literatur[Bearbeiten]

  • Richard Jones, Rafael Lins: Garbage Collection. Algorithms for automatic dynamic memory management. John Wiley, Chichester 1996, ISBN 0-471-94148-4
  • Richard Jones, Anthony Hosking, Eliot Moss: The Garbage Collection Handbook. The Art of Automatic Memory Menagement (Chapman & Hall Applied algorithms and data structures series). CRC Press, Boca Raton, Fla. 2011, ISBN 978-1-420-08279-1.

Weblinks[Bearbeiten]

Einzelnachweise[Bearbeiten]

  1. Constant-Time Root Scanning for Deterministic Garbage Collection (PDF; 375 kB): Garbage Collection [...] typically brings a high degree of indeterminism to the execution environment.
  2. Microbenchmarking C++, C#, and Java: Object creation/ destruction and method call. Dr. Dobb's Journal. 1. Juli 2005. Abgerufen am 11. April 2014.
  3. Arne Schäpers, Rudolf Huttary: Daniel Düsentrieb - C#, Java, C++ und Delphi im Effizienztest, Teil 2. c’t. S. 222-227. Dezember 2003. Abgerufen am 26. Oktober 2009: „"Die Ergebnisse zeigen erstens, dass ein Garbage Collector (bei der Destruktion) vom Laufzeitverhalten her keine spürbaren Nachteile zu bringen scheint" und "Der teilweise schon fast doppelte Zeitbedarf von C++ bei der Konstruktion gegenüber den anderen Kandidaten..."“
  4. Robert Hundt: Loop Recognition in C++/Java/Go/Scala (englisch, PDF; 318 kB) Scala Days 2011. 27. April 2011. Abgerufen am 17. November 2012: „Java shows a large GC component, but a good code performance. [...] We find that in regards to performance, C++ wins out by a large margin. [...] The Java version was probably the simplest to implement, but the hardest to analyze for performance. Specifically the effects around garbage collection were complicated and very hard to tune
  5. Benjamin Zorn: The Measured Cost of Conservative Garbage Collection (englisch) Department of Computer Science, University of Colorado Boulder. 22. Januar 1993. Abgerufen am 18. November 2012: „Conservative garbage collection does not come without a cost. In the programs measured, the garbage collection algorithm used 30–150 per cent more address space than the most space efficient explicit management algorithm. In addition, the conservative garbage collection algorithm significantly reduced the reference locality of the programs, greatly increasing the page fault rate and cache miss rate of the applications for a large range of cache and memory sizes. This result suggests that not only does the conservative garbage collection algorithm increase the size of the address space, but also frequently references the entire space it requires.
  6. Garbage Collection für Parallele und Verteilte Systeme, Frank Joachim Frey, 7. Mai 2002
  7. Josuah Bloch: Effective Java, S. 31: Avoid Finalizers